論文の概要: Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025
- arxiv url: http://arxiv.org/abs/2506.05856v1
- Date: Fri, 06 Jun 2025 08:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.376765
- Title: Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025
- Title(参考訳): クロスビューマルチモーダルセグメンテーション@Ego-Exo4Dが2025年に挑戦
- Authors: Yuqian Fu, Runze Wang, Yanwei Fu, Danda Pani Paudel, Luc Van Gool,
- Abstract要約: ある視点からオブジェクトクエリーが与えられた場合、ゴールは別の視点で対応するオブジェクトマスクを予測することである。
この課題に対処するために,オブジェクトのローカライゼーションを強化するマルチモーダル条件融合モジュールを提案する。
提案手法は,大規模Ego-Exo4Dオブジェクト対応ベンチマークにおいて,第2位にランクインした。
- 参考スコア(独自算出の注目度): 93.36604217487526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present a cross-view multi-modal object segmentation approach for the object correspondence task in the Ego-Exo4D Correspondence Challenges 2025. Given object queries from one perspective (e.g., ego view), the goal is to predict the corresponding object masks in another perspective (e.g., exo view). To tackle this task, we propose a multimodal condition fusion module that enhances object localization by leveraging both visual masks and textual descriptions as segmentation conditions. Furthermore, to address the visual domain gap between ego and exo views, we introduce a cross-view object alignment module that enforces object-level consistency across perspectives, thereby improving the model's robustness to viewpoint changes. Our proposed method ranked second on the leaderboard of the large-scale Ego-Exo4D object correspondence benchmark. Code will be made available at https://github.com/lovelyqian/ObjectRelator.
- Abstract(参考訳): 本稿では,Ego-Exo4D対応課題2025において,オブジェクト対応タスクに対する多モードオブジェクトセグメンテーション手法を提案する。
ある視点(例えば、egoビュー)からのオブジェクトクエリが与えられたら、ゴールは、別の視点(例えば、exoビュー)で対応するオブジェクトマスクを予測することです。
この課題に対処するために,視覚マスクとテキスト記述の両方をセグメント化条件として活用することにより,オブジェクトのローカライゼーションを高めるマルチモーダル条件融合モジュールを提案する。
さらに、エゴビューとエクソビューの間の視覚的ドメインギャップに対処するため、視点をまたいだオブジェクトレベルの一貫性を強制するクロスビューオブジェクトアライメントモジュールを導入し、視点変化に対するモデルの堅牢性を改善する。
提案手法は,大規模Ego-Exo4Dオブジェクト対応ベンチマークにおいて,第2位にランクインした。
コードはhttps://github.com/lovelyqian/ObjectRelator.comで公開される。
関連論文リスト
- RefCut: Interactive Segmentation with Reference Guidance [44.872055134890864]
RefCutは参照ベースのインタラクティブセグメンテーションフレームワークで、部分のあいまいさとオブジェクトのあいまいさに対処する。
私たちのコードは公開され、デモビデオはhttps://www.lin-zheng.com/refcut.comで公開されます。
論文 参考訳(メタデータ) (2025-03-22T17:14:20Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding in Ego-Centric and Exo-Centric Videos [105.40690994956667]
Ego-Exoオブジェクト対応タスクは、オブジェクトをエゴ中心およびエゴ中心のビューにマップすることを目的としている。
我々は,この課題に対処するための新しい手法であるObjectRelatorを紹介する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。