論文の概要: ICG-MVSNet: Learning Intra-view and Cross-view Relationships for Guidance in Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2503.21525v1
- Date: Thu, 27 Mar 2025 14:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:27.032438
- Title: ICG-MVSNet: Learning Intra-view and Cross-view Relationships for Guidance in Multi-View Stereo
- Title(参考訳): ICG-MVSNet:多視点ステレオにおける誘導のためのビュー内およびクロスビュー関係の学習
- Authors: Yuxi Hu, Jun Zhang, Zhe Zhang, Rafael Weilharter, Yuchen Rao, Kuangyi Chen, Runze Yuan, Friedrich Fraundorfer,
- Abstract要約: マルチビューステレオ(MVS)は、一連の重なり合う画像から深度を推定し、3Dポイントの雲を再構成することを目的としている。
最近の学習ベースのMVSフレームワークは、特徴や相関に埋め込まれた幾何学的情報を見落とし、コストマッチングが弱くなる。
深度推定のためのビュー内関係とクロスビュー関係を明確に統合した ICG-MVSNet を提案する。
- 参考スコア(独自算出の注目度): 14.506324605370436
- License:
- Abstract: Multi-view Stereo (MVS) aims to estimate depth and reconstruct 3D point clouds from a series of overlapping images. Recent learning-based MVS frameworks overlook the geometric information embedded in features and correlations, leading to weak cost matching. In this paper, we propose ICG-MVSNet, which explicitly integrates intra-view and cross-view relationships for depth estimation. Specifically, we develop an intra-view feature fusion module that leverages the feature coordinate correlations within a single image to enhance robust cost matching. Additionally, we introduce a lightweight cross-view aggregation module that efficiently utilizes the contextual information from volume correlations to guide regularization. Our method is evaluated on the DTU dataset and Tanks and Temples benchmark, consistently achieving competitive performance against state-of-the-art works, while requiring lower computational resources.
- Abstract(参考訳): マルチビューステレオ(MVS)は、一連の重なり合う画像から深度を推定し、3Dポイントの雲を再構成することを目的としている。
最近の学習ベースのMVSフレームワークは、特徴や相関に埋め込まれた幾何学的情報を見落とし、コストマッチングが弱くなる。
本稿では,深度推定のためのビュー内関係とクロスビュー関係を明確に統合した ICG-MVSNet を提案する。
具体的には、単一の画像内の特徴座標の相関を利用して、ロバストなコストマッチングを向上する、ビュー内機能融合モジュールを開発する。
さらに、ボリューム相関からコンテキスト情報を効率的に利用し、正規化をガイドする軽量なクロスビューアグリゲーションモジュールを導入する。
提案手法はDTUデータセットとタンク・アンド・テンプルのベンチマークで評価され,より低い計算資源を必要としながら,最先端の作業に対する競争性能を一貫して達成している。
関連論文リスト
- Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization [2.733505168507872]
UAV-View Geo-Localizationは、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。
既存の手法は、トレーニングのためにアノテーション付きペアデータを必要とする教師付き学習パラダイムに依存している。
本稿では,UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークであるDynamic Memory-Driven and Neighborhood Information Learning Networkを提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - Agglomerative Neural Networks for Multi-view Clustering [109.55325971050154]
本稿では,最適コンセンサスを近似する凝集分析法を提案する。
本稿では,制約付きラプラシアンランクに基づくANN(Agglomerative Neural Network)を用いて,マルチビューデータをクラスタリングする。
4つの一般的なデータセットに対する最先端のマルチビュークラスタリング手法に対する我々の評価は、ANNの有望なビュー・コンセンサス分析能力を示している。
論文 参考訳(メタデータ) (2020-05-12T05:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。