論文の概要: Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention
- arxiv url: http://arxiv.org/abs/2512.24323v1
- Date: Tue, 30 Dec 2025 16:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.425147
- Title: Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention
- Title(参考訳): Dual-Modal Causal Interventionによるロバストな自己中心型ビデオオブジェクトセグメンテーション
- Authors: Haijing Liu, Zhiyuan Song, Hefeng Wu, Tao Pu, Keze Wang, Liang Lin,
- Abstract要約: Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
- 参考スコア(独自算出の注目度): 58.05340906967343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric Referring Video Object Segmentation (Ego-RVOS) aims to segment the specific object actively involved in a human action, as described by a language query, within first-person videos. This task is critical for understanding egocentric human behavior. However, achieving such segmentation robustly is challenging due to ambiguities inherent in egocentric videos and biases present in training data. Consequently, existing methods often struggle, learning spurious correlations from skewed object-action pairings in datasets and fundamental visual confounding factors of the egocentric perspective, such as rapid motion and frequent occlusions. To address these limitations, we introduce Causal Ego-REferring Segmentation (CERES), a plug-in causal framework that adapts strong, pre-trained RVOS backbones to the egocentric domain. CERES implements dual-modal causal intervention: applying backdoor adjustment principles to counteract language representation biases learned from dataset statistics, and leveraging front-door adjustment concepts to address visual confounding by intelligently integrating semantic visual features with geometric depth information guided by causal principles, creating representations more robust to egocentric distortions. Extensive experiments demonstrate that CERES achieves state-of-the-art performance on Ego-RVOS benchmarks, highlighting the potential of applying causal reasoning to build more reliable models for broader egocentric video understanding.
- Abstract(参考訳): Egocentric Referring Video Object Segmentation (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
この仕事は自我中心の人間の行動を理解するために重要である。
しかし、このセグメンテーションをしっかりと達成することは、エゴセントリックなビデオに固有の曖昧さと、トレーニングデータに存在するバイアスによって困難である。
その結果、既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングと、急激な動きや頻繁な閉塞といったエゴセントリックな視点の基本的な視覚的コンファウンディング要素から急激な相関を学習する。
これらの制限に対処するため、我々は、強力なトレーニング済みRVOSバックボーンをエゴセントリックドメインに適応するプラグイン因果フレームワークであるCausal Ego-Referring Segmentation (CERES)を紹介した。
CERESはデュアルモーダルな因果的介入を実装している: データセット統計から学んだ言語表現バイアスにバックドア調整の原則を適用し、フロントドア調整のコンセプトを活用して、セマンティックな視覚的特徴と因果原理によって導かれる幾何学的深度情報とをインテリジェントに統合し、エゴセントリックな歪みに対してより堅牢な表現を作成する。
大規模な実験により、CERESはEgo-RVOSベンチマークで最先端のパフォーマンスを達成し、より広範なエゴセントリックなビデオ理解のためにより信頼性の高いモデルを構築するために因果推論を適用する可能性を強調している。
関連論文リスト
- EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - EgoLoc: A Generalizable Solution for Temporal Interaction Localization in Egocentric Videos [13.10069586920198]
自我中心の視覚における手動物体の相互作用の分析は、VR/ARアプリケーションと人間ロボットのポリシー伝達を促進する。
EgoLocと呼ばれる新しいゼロショットアプローチを提案し、エゴセントリックなビデオで手動接触と切り離しタイムスタンプをローカライズする。
EgoLocは、視覚言語モデルを利用して、コンタクト/セパレーション属性を特定し、特定のタイムスタンプをローカライズし、さらなる改善のためにクローズドループフィードバックを提供する。
論文 参考訳(メタデータ) (2025-08-17T12:38:56Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - Visual Intention Grounding for Egocentric Assistants [40.85508108321981]
AIアシスタントのようなアプリケーションでは、視点シフト -- 入力は自我中心であり、オブジェクトはニーズや意図を通じて暗黙的に参照される。
EgoIntentionは、egocentric visual intention groundingの最初のデータセットである。
論文 参考訳(メタデータ) (2025-04-18T10:54:52Z) - Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation [17.35953923039954]
Egocentic Semantic (TESS)タスクは、画像レベルのラベルからテキストによって弱められたエゴセントリックなイメージにピクセルレベルのカテゴリを割り当てることを目的としている。
本稿では、まず、画像とテキストを関連づけて、自我中心の着用者オブジェクトの関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:58:34Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。