Fugu-MT 論文翻訳(概要): LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference

論文の概要: LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference

arxiv url: http://arxiv.org/abs/2307.12217v2
Date: Wed, 9 Aug 2023 10:34:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 16:59:26.186175
Title: LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference
Title（参考訳）: LoLep: 局所学習平面と自己認識オクルージョン推論を用いた単一ビュービュー合成
Authors: Cong Wang, Yu-Ping Wang, Dinesh Manocha
Abstract要約: 本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。 MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
参考スコア（独自算出の注目度）: 66.45326873274908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel method, LoLep, which regresses Locally-Learned planes from a single RGB image to represent scenes accurately, thus generating better novel views. Without the depth information, regressing appropriate plane locations is a challenging problem. To solve this issue, we pre-partition the disparity space into bins and design a disparity sampler to regress local offsets for multiple planes in each bin. However, only using such a sampler makes the network not convergent; we further propose two optimizing strategies that combine with different disparity distributions of datasets and propose an occlusion-aware reprojection loss as a simple yet effective geometric supervision technique. We also introduce a self-attention mechanism to improve occlusion inference and present a Block-Sampling Self-Attention (BS-SA) module to address the problem of applying self-attention to large feature maps. We demonstrate the effectiveness of our approach and generate state-of-the-art results on different datasets. Compared to MINE, our approach has an LPIPS reduction of 4.8%-9.0% and an RV reduction of 73.9%-83.5%. We also evaluate the performance on real-world images and demonstrate the benefits.
Abstract（参考訳）: 本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。深度情報がなければ、適切な平面位置の後退は難しい問題である。この問題を解決するために、各ビンの複数の平面に対する局所オフセットを回帰する分散サンプリング器を設計し、各ビンに分散空間を分割する。しかし,そのようなサンプルを用いただけでネットワークは収束しない。さらに,データセットの異なる分散分布と組み合わせた2つの最適化戦略を提案し,簡易かつ効果的な幾何的監督手法として,オクルージョン認識の再投影損失を提案する。また、オクルージョン推論を改善する自己注意機構を導入し、大きな特徴マップに自己意識を適用する問題に対処するブロックサンプリング自己意識(BS-SA)モジュールを提案する。提案手法の有効性を実証し,異なるデータセットで最新の結果を生成する。 MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。また,実世界の画像における性能評価を行い,その効果を示す。

関連論文リスト

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。 TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。 TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文参考訳（メタデータ） (2026-03-02T10:38:54Z)
Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-10-24T16:11:10Z)
From Controlled Scenarios to Real-World: Cross-Domain Degradation Pattern Matching for All-in-One Image Restoration [2.997052569698842]
All-in-One Image Restoration (AiOIR) は、統一されたパラメータを持つ単一モデルを用いて、複数の劣化パターンによる画像復元を実現することを目的としている。 UDAIRフレームワークは、ソースドメインからターゲットドメインへの学習知識を活用することにより、AiOIRを効果的に実現するために提案されている。 10のオープンソースデータセットの実験結果は、UDAIRがAiOIRタスクのための新しい最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-05-28T12:22:00Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文参考訳（メタデータ） (2024-09-22T11:24:10Z)
Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation [9.569646683579899]
連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
論文参考訳（メタデータ） (2024-07-04T16:29:05Z)
Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両領域間のギャップを狭める効果的なアプローチを提案する。主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文参考訳（メタデータ） (2024-06-17T13:49:12Z)
Domain Reduction Strategy for Non Line of Sight Imaging [20.473142941237015]
非視線イメージング(NLOS)では、対象物体の可視光面は顕著に希薄である。隠れ空間から連続的にサンプリングされた点集合からの部分的伝播を通して過渡現象を描画する手法を設計する。本手法は,表面標準値を用いたビュー依存リフレクタンスを高精度かつ効率的にモデル化することができる。
論文参考訳（メタデータ） (2023-08-20T14:00:33Z)
Boosting Few-shot Fine-grained Recognition with Background Suppression and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2022-10-04T07:54:40Z)
Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction [11.215334675788952]
本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。メインストリームのアプローチはRGB-Dセンサーを使用するが、そのようなシステムを備えた単眼カメラを使うことは、ロバストデータアソシエーションや正確な幾何モデルフィッティングといった課題に直面している。
論文参考訳（メタデータ） (2021-08-09T18:16:08Z)
Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文参考訳（メタデータ） (2020-12-23T06:28:00Z)
SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine Reconstruction with Self-Projection Optimization [52.20602782690776]
実際のスキャンされたスパースデータからトレーニング用の大規模なペアリングスパーススキャンポイントセットを得るのは高価で面倒です。本研究では,SPU-Net と呼ばれる自己監視型点群アップサンプリングネットワークを提案する。本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-08T14:14:09Z)
Insights on Evaluation of Camera Re-localization Using Relative Pose Regression [0.9236074230806579]
視覚的再局在化における相対的ポーズ回帰の問題を考察する。上記の問題を治療するための3つの新しい指標を提案する。我々のネットワークは、特に、一つのシーンでのトレーニングは、他のシーンのパフォーマンスをほとんど損なわないことを示す。
論文参考訳（メタデータ） (2020-09-23T19:16:26Z)
Bayesian Multi-Scale Neural Network for Crowd Counting [0.0]
クラウドカウントは、コンピュータビジョンにおいて難しいが重要なタスクである。密度マップを推定する畳み込みニューラルネットワーク(CNN)を用いた最近の進歩は大きな成功を収めている。これらの課題を効果的に解決する新しいディープラーニングアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-07-11T21:43:20Z)
Robust Locality-Aware Regression for Labeled Data Classification [5.432221650286726]
本稿では,ロバスト局所性認識回帰(RLAR)という特徴抽出フレームワークを提案する。本モデルでは,クラス間の平均差を使わずに,適応的に境界表現学習を行うために再ターゲット回帰を導入する。外れ値の乱れを緩和し、過度な適合を防止するため、L2,1ノルムによる正規化項とともに回帰項と局所性を考慮した項を計測する。
論文参考訳（メタデータ） (2020-06-15T11:36:59Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。