論文の概要: Robust Egocentric Visual Attention Prediction Through Language-guided Scene Context-aware Learning
- arxiv url: http://arxiv.org/abs/2601.01818v1
- Date: Mon, 05 Jan 2026 06:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.779955
- Title: Robust Egocentric Visual Attention Prediction Through Language-guided Scene Context-aware Learning
- Title(参考訳): 言語誘導型文脈認識学習によるロバストな自己中心型視覚注意予測
- Authors: Sungjune Park, Hongda Mao, Qingshuang Chen, Yong Man Ro, Yelin Kim,
- Abstract要約: 本稿では,言語誘導型シーン認識学習フレームワークを提案する。
まず,言語に基づくシーン記述に基づいて,エゴセントリックな映像を要約するための文脈知覚器を設計する。
次に,1)関心領域のターゲットに焦点を合わせること,2) 一人の注意を惹きつける可能性が低い無関係領域からの注意を抑えること,の2つのトレーニング目標を紹介した。
- 参考スコア(独自算出の注目度): 47.311695204523346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the demand for analyzing egocentric videos grows, egocentric visual attention prediction, anticipating where a camera wearer will attend, has garnered increasing attention. However, it remains challenging due to the inherent complexity and ambiguity of dynamic egocentric scenes. Motivated by evidence that scene contextual information plays a crucial role in modulating human attention, in this paper, we present a language-guided scene context-aware learning framework for robust egocentric visual attention prediction. We first design a context perceiver which is guided to summarize the egocentric video based on a language-based scene description, generating context-aware video representations. We then introduce two training objectives that: 1) encourage the framework to focus on the target point-of-interest regions and 2) suppress distractions from irrelevant regions which are less likely to attract first-person attention. Extensive experiments on Ego4D and Aria Everyday Activities (AEA) datasets demonstrate the effectiveness of our approach, achieving state-of-the-art performance and enhanced robustness across diverse, dynamic egocentric scenarios.
- Abstract(参考訳): エゴセントリックなビデオ分析の需要が高まるにつれて、カメラ装着者がどこに出席するかを予想するエゴセントリックな視覚的注意予測が注目を集めている。
しかし、ダイナミックなエゴセントリックなシーンの本質的な複雑さとあいまいさのため、依然として挑戦的である。
本稿では,人間の注意を調節する上で,シーンコンテキスト情報が重要な役割を担っているという証拠に触発され,頑健なエゴセントリックな視覚的注意予測のための言語指導型シーンコンテキスト認識学習フレームワークを提案する。
まず、言語に基づくシーン記述に基づくエゴセントリックな映像を要約し、文脈対応の映像表現を生成するコンテキスト知覚器を設計する。
次に2つのトレーニング目標を紹介します。
1) フレームワークが対象の関心領域に集中するよう促す。
2) 一人当たりの注意を惹きつける可能性が低い無関係地域からの気晴らしを抑制する。
Ego4DとAria Everyday Activity(AEA)データセットの大規模な実験は、私たちのアプローチの有効性を示し、最先端のパフォーマンスを実現し、多様な動的エゴセントリックなシナリオにまたがる堅牢性を向上します。
関連論文リスト
- Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。