論文の概要: ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives
- arxiv url: http://arxiv.org/abs/2411.19083v2
- Date: Fri, 25 Jul 2025 17:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:26.632698
- Title: ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives
- Title(参考訳): ObjectRelator:Ego-CentricとExo-Centricの両面から理解するクロスビューオブジェクト関係の実現
- Authors: Yuqian Fu, Runze Wang, Bin Ren, Guolei Sun, Biao Gong, Yanwei Fu, Danda Pani Paudel, Xuanjing Huang, Luc Van Gool,
- Abstract要約: Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
- 参考スコア(独自算出の注目度): 109.11714588441511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the gap between ego-centric and exo-centric views has been a long-standing question in computer vision. In this paper, we focus on the emerging Ego-Exo object correspondence task, which aims to understand object relations across ego-exo perspectives through segmentation. While numerous segmentation models have been proposed, most operate on a single image (view), making them impractical for cross-view scenarios. PSALM, a recently proposed segmentation method, stands out as a notable exception with its demonstrated zero-shot ability on this task. However, due to the drastic viewpoint change between ego and exo, PSALM fails to accurately locate and segment objects, especially in complex backgrounds or when object appearances change significantly. To address these issues, we propose ObjectRelator, a novel approach featuring two key modules: Multimodal Condition Fusion (MCFuse) and SSL-based Cross-View Object Alignment (XObjAlign). MCFuse introduces language as an additional cue, integrating both visual masks and textual descriptions to improve object localization and prevent incorrect associations. XObjAlign enforces cross-view consistency through self-supervised alignment, enhancing robustness to object appearance variations. Extensive experiments demonstrate ObjectRelator's effectiveness on the large-scale Ego-Exo4D benchmark and HANDAL-X (an adapted dataset for cross-view segmentation) with state-of-the-art performance. Code is made available at: http://yuqianfu.com/ObjectRelator.
- Abstract(参考訳): エゴ中心のビューとエクソ中心のビューのギャップを埋めることは、コンピュータビジョンにおける長年の疑問である。
本稿では,エゴ・エゴ・オブジェクト対応タスクに着目し,セグメンテーションを通して,エゴ・エゴのオブジェクト関係を理解することを目的とする。
多くのセグメンテーションモデルが提案されているが、ほとんどの場合単一のイメージ(ビュー)で運用されており、クロスビューのシナリオでは実用的ではない。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
しかし、エゴとエクソの間の劇的な視点の変化により、PSALMは、特に複雑な背景や物体の外観が著しく変化した場合に、オブジェクトの正確な位置とセグメンテーションに失敗する。
これらの問題に対処するため、我々は、Multimodal Condition Fusion(MCFuse)とSSLベースのCross-View Object Alignment(XObjAlign)という、2つの主要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
MCFuseは、視覚マスクとテキスト記述の両方を統合して、オブジェクトのローカライゼーションを改善し、不正な関連を防止し、言語を付加的なキューとして導入する。
XObjAlignは、自己教師付きアライメントを通じて、クロスビューの一貫性を強制し、オブジェクトの外観変化に対する堅牢性を強化する。
大規模なEgo-Exo4DベンチマークとHANDAL-X(クロスビューセグメンテーションに適応したデータセット)におけるObjectRelatorの有効性が、最先端のパフォーマンスで実証されている。
コードは、http://yuqianfu.com/ObjectRelator.comで入手できる。
関連論文リスト
- DOMR: Establishing Cross-View Segmentation via Dense Object Matching [18.965608205456338]
クロスビューオブジェクト対応には、エゴセントリック(第一人)とエゴセントリック(第三人)のビュー間のオブジェクトのマッチングが含まれる。
ビュー間の密接なオブジェクト対応を確立するために,Dense Object Matching and Refinement (DOMR) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T03:23:37Z) - Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025 [93.36604217487526]
ある視点からオブジェクトクエリーが与えられた場合、ゴールは別の視点で対応するオブジェクトマスクを予測することである。
この課題に対処するために,オブジェクトのローカライゼーションを強化するマルチモーダル条件融合モジュールを提案する。
提案手法は,大規模Ego-Exo4Dオブジェクト対応ベンチマークにおいて,第2位にランクインした。
論文 参考訳(メタデータ) (2025-06-06T08:23:39Z) - v-CLR: View-Consistent Learning for Open-World Instance Segmentation [24.32192108470939]
バニラ視覚ネットワークは、オブジェクトを認識するために外観情報、例えばテクスチャを学ぶことに偏っている。
この暗黙のバイアスは、オープンワールド設定で見えないテクスチャを持つ新しいオブジェクトの検出において、モデルが失敗する原因となる。
本稿では、堅牢なインスタンスセグメンテーションのための外観不変表現を学習するためにモデルを強制することを目的としたビュー一貫性LeaRning(v-CLR)を提案する。
論文 参考訳(メタデータ) (2025-04-02T05:52:30Z) - ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation [14.765419467710812]
エゴセントリック・ハンドオブジェクト・セグメンテーション(EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、有望な新しいタスクである。
本稿では,エンドツーエンドかつ効果的なEgoHOSを実現するために,ORMNet(Object-centric Relationship Modeling Network)を提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。