論文の概要: Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention
- arxiv url: http://arxiv.org/abs/2512.24323v1
- Date: Tue, 30 Dec 2025 16:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.425147
- Title: Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention
- Title(参考訳): Dual-Modal Causal Interventionによるロバストな自己中心型ビデオオブジェクトセグメンテーション
- Authors: Haijing Liu, Zhiyuan Song, Hefeng Wu, Tao Pu, Keze Wang, Liang Lin,
- Abstract要約: Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
- 参考スコア(独自算出の注目度): 58.05340906967343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric Referring Video Object Segmentation (Ego-RVOS) aims to segment the specific object actively involved in a human action, as described by a language query, within first-person videos. This task is critical for understanding egocentric human behavior. However, achieving such segmentation robustly is challenging due to ambiguities inherent in egocentric videos and biases present in training data. Consequently, existing methods often struggle, learning spurious correlations from skewed object-action pairings in datasets and fundamental visual confounding factors of the egocentric perspective, such as rapid motion and frequent occlusions. To address these limitations, we introduce Causal Ego-REferring Segmentation (CERES), a plug-in causal framework that adapts strong, pre-trained RVOS backbones to the egocentric domain. CERES implements dual-modal causal intervention: applying backdoor adjustment principles to counteract language representation biases learned from dataset statistics, and leveraging front-door adjustment concepts to address visual confounding by intelligently integrating semantic visual features with geometric depth information guided by causal principles, creating representations more robust to egocentric distortions. Extensive experiments demonstrate that CERES achieves state-of-the-art performance on Ego-RVOS benchmarks, highlighting the potential of applying causal reasoning to build more reliable models for broader egocentric video understanding.
- Abstract(参考訳): Egocentric Referring Video Object Segmentation (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
この仕事は自我中心の人間の行動を理解するために重要である。
しかし、このセグメンテーションをしっかりと達成することは、エゴセントリックなビデオに固有の曖昧さと、トレーニングデータに存在するバイアスによって困難である。
その結果、既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングと、急激な動きや頻繁な閉塞といったエゴセントリックな視点の基本的な視覚的コンファウンディング要素から急激な相関を学習する。
これらの制限に対処するため、我々は、強力なトレーニング済みRVOSバックボーンをエゴセントリックドメインに適応するプラグイン因果フレームワークであるCausal Ego-Referring Segmentation (CERES)を紹介した。
CERESはデュアルモーダルな因果的介入を実装している: データセット統計から学んだ言語表現バイアスにバックドア調整の原則を適用し、フロントドア調整のコンセプトを活用して、セマンティックな視覚的特徴と因果原理によって導かれる幾何学的深度情報とをインテリジェントに統合し、エゴセントリックな歪みに対してより堅牢な表現を作成する。
大規模な実験により、CERESはEgo-RVOSベンチマークで最先端のパフォーマンスを達成し、より広範なエゴセントリックなビデオ理解のためにより信頼性の高いモデルを構築するために因果推論を適用する可能性を強調している。
関連論文リスト
- EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation [17.35953923039954]
Egocentic Semantic (TESS)タスクは、画像レベルのラベルからテキストによって弱められたエゴセントリックなイメージにピクセルレベルのカテゴリを割り当てることを目的としている。
本稿では、まず、画像とテキストを関連づけて、自我中心の着用者オブジェクトの関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:58:34Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。