論文の概要: LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference
- arxiv url: http://arxiv.org/abs/2307.12217v2
- Date: Wed, 9 Aug 2023 10:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:59:26.186175
- Title: LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference
- Title(参考訳): LoLep: 局所学習平面と自己認識オクルージョン推論を用いた単一ビュービュー合成
- Authors: Cong Wang, Yu-Ping Wang, Dinesh Manocha
- Abstract要約: 本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
- 参考スコア(独自算出の注目度): 66.45326873274908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel method, LoLep, which regresses Locally-Learned planes from
a single RGB image to represent scenes accurately, thus generating better novel
views. Without the depth information, regressing appropriate plane locations is
a challenging problem. To solve this issue, we pre-partition the disparity
space into bins and design a disparity sampler to regress local offsets for
multiple planes in each bin. However, only using such a sampler makes the
network not convergent; we further propose two optimizing strategies that
combine with different disparity distributions of datasets and propose an
occlusion-aware reprojection loss as a simple yet effective geometric
supervision technique. We also introduce a self-attention mechanism to improve
occlusion inference and present a Block-Sampling Self-Attention (BS-SA) module
to address the problem of applying self-attention to large feature maps. We
demonstrate the effectiveness of our approach and generate state-of-the-art
results on different datasets. Compared to MINE, our approach has an LPIPS
reduction of 4.8%-9.0% and an RV reduction of 73.9%-83.5%. We also evaluate the
performance on real-world images and demonstrate the benefits.
- Abstract(参考訳): 本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
深度情報がなければ、適切な平面位置の後退は難しい問題である。
この問題を解決するために、各ビンの複数の平面に対する局所オフセットを回帰する分散サンプリング器を設計し、各ビンに分散空間を分割する。
しかし,そのようなサンプルを用いただけでネットワークは収束しない。さらに,データセットの異なる分散分布と組み合わせた2つの最適化戦略を提案し,簡易かつ効果的な幾何的監督手法として,オクルージョン認識の再投影損失を提案する。
また、オクルージョン推論を改善する自己注意機構を導入し、大きな特徴マップに自己意識を適用する問題に対処するブロックサンプリング自己意識(BS-SA)モジュールを提案する。
提案手法の有効性を実証し,異なるデータセットで最新の結果を生成する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
また,実世界の画像における性能評価を行い,その効果を示す。
関連論文リスト
- Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Domain Reduction Strategy for Non Line of Sight Imaging [20.473142941237015]
非視線イメージング(NLOS)では、対象物体の可視光面は顕著に希薄である。
隠れ空間から連続的にサンプリングされた点集合からの部分的伝播を通して過渡現象を描画する手法を設計する。
本手法は,表面標準値を用いたビュー依存リフレクタンスを高精度かつ効率的にモデル化することができる。
論文 参考訳(メタデータ) (2023-08-20T14:00:33Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction [11.215334675788952]
本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。
メインストリームのアプローチはRGB-Dセンサーを使用するが、そのようなシステムを備えた単眼カメラを使うことは、ロバストデータアソシエーションや正確な幾何モデルフィッティングといった課題に直面している。
論文 参考訳(メタデータ) (2021-08-09T18:16:08Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine
Reconstruction with Self-Projection Optimization [52.20602782690776]
実際のスキャンされたスパースデータからトレーニング用の大規模なペアリングスパーススキャンポイントセットを得るのは高価で面倒です。
本研究では,SPU-Net と呼ばれる自己監視型点群アップサンプリングネットワークを提案する。
本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-08T14:14:09Z) - Insights on Evaluation of Camera Re-localization Using Relative Pose
Regression [0.9236074230806579]
視覚的再局在化における相対的ポーズ回帰の問題を考察する。
上記の問題を治療するための3つの新しい指標を提案する。
我々のネットワークは、特に、一つのシーンでのトレーニングは、他のシーンのパフォーマンスをほとんど損なわないことを示す。
論文 参考訳(メタデータ) (2020-09-23T19:16:26Z) - Robust Locality-Aware Regression for Labeled Data Classification [5.432221650286726]
本稿では,ロバスト局所性認識回帰(RLAR)という特徴抽出フレームワークを提案する。
本モデルでは,クラス間の平均差を使わずに,適応的に境界表現学習を行うために再ターゲット回帰を導入する。
外れ値の乱れを緩和し、過度な適合を防止するため、L2,1ノルムによる正規化項とともに回帰項と局所性を考慮した項を計測する。
論文 参考訳(メタデータ) (2020-06-15T11:36:59Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。