論文の概要: DOMR: Establishing Cross-View Segmentation via Dense Object Matching
- arxiv url: http://arxiv.org/abs/2508.04050v1
- Date: Wed, 06 Aug 2025 03:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.52781
- Title: DOMR: Establishing Cross-View Segmentation via Dense Object Matching
- Title(参考訳): DOMR:Dense Object Matchingによるクロスビューセグメンテーションを確立する
- Authors: Jitong Liao, Yulu Gao, Shaofei Huang, Jialin Gao, Jie Lei, Ronghua Liang, Si Liu,
- Abstract要約: クロスビューオブジェクト対応には、エゴセントリック(第一人)とエゴセントリック(第三人)のビュー間のオブジェクトのマッチングが含まれる。
ビュー間の密接なオブジェクト対応を確立するために,Dense Object Matching and Refinement (DOMR) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.965608205456338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view object correspondence involves matching objects between egocentric (first-person) and exocentric (third-person) views. It is a critical yet challenging task for visual understanding. In this work, we propose the Dense Object Matching and Refinement (DOMR) framework to establish dense object correspondences across views. The framework centers around the Dense Object Matcher (DOM) module, which jointly models multiple objects. Unlike methods that directly match individual object masks to image features, DOM leverages both positional and semantic relationships among objects to find correspondences. DOM integrates a proposal generation module with a dense matching module that jointly encodes visual, spatial, and semantic cues, explicitly constructing inter-object relationships to achieve dense matching among objects. Furthermore, we combine DOM with a mask refinement head designed to improve the completeness and accuracy of the predicted masks, forming the complete DOMR framework. Extensive evaluations on the Ego-Exo4D benchmark demonstrate that our approach achieves state-of-the-art performance with a mean IoU of 49.7% on Ego$\to$Exo and 55.2% on Exo$\to$Ego. These results outperform those of previous methods by 5.8% and 4.3%, respectively, validating the effectiveness of our integrated approach for cross-view understanding.
- Abstract(参考訳): クロスビューオブジェクト対応には、エゴセントリック(第一人)とエゴセントリック(第三人)のビュー間のオブジェクトのマッチングが含まれる。
これは視覚的理解にとって重要なタスクですが、難しい作業です。
本研究では、ビュー間の密接なオブジェクト対応を確立するために、Dense Object Matching and Refinement(DOMR)フレームワークを提案する。
フレームワークは、複数のオブジェクトを共同でモデル化するDense Object Matcher(DOM)モジュールを中心にしている。
個々のオブジェクトマスクと画像の特徴を直接マッチングする手法とは異なり、DOMはオブジェクト間の位置関係と意味関係を利用して対応を見つける。
DOMは提案生成モジュールと密マッチングモジュールを統合し、視覚的、空間的、意味的なキューを共同でエンコードし、オブジェクト間の関係を明示的に構築し、オブジェクト間の密マッチングを実現する。
さらに、予測されたマスクの完全性と精度を向上させるために、DOMとマスクリファインメントヘッドを組み合わせることで、完全なDOMRフレームワークを形成する。
Ego-Exo4Dベンチマークの大規模な評価は、Ego$\to$Exoの平均IoUが49.7%、Exo$\to$Egoが55.2%であることを示す。
その結果,従来の手法よりも5.8%,4.3%向上し,クロスビュー理解のための統合的手法の有効性が検証された。
関連論文リスト
- O-MaMa @ EgoExo4D Correspondence Challenge: Learning Object Mask Matching between Egocentric and Exocentric Views [41.98584849589569]
本報告では、マスクマッチングタスクとして扱うことにより、クロスイメージセグメンテーションを再定義する。
提案手法は,(1)高密度DINOv2セマンティックな特徴をプールし,FastSAMマスク候補から識別対象レベルの表現を得るマスクコンテキスト,(2)多視点観測を融合するEgo$leftarrow$Exoクロスアテンション,(3)共有潜在空間におけるクロスビュー特徴を整列するマスクマッチングコントラスト損失からなる。
論文 参考訳(メタデータ) (2025-06-06T12:19:08Z) - Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025 [93.36604217487526]
ある視点からオブジェクトクエリーが与えられた場合、ゴールは別の視点で対応するオブジェクトマスクを予測することである。
この課題に対処するために,オブジェクトのローカライゼーションを強化するマルチモーダル条件融合モジュールを提案する。
提案手法は,大規模Ego-Exo4Dオブジェクト対応ベンチマークにおいて,第2位にランクインした。
論文 参考訳(メタデータ) (2025-06-06T08:23:39Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。