論文の概要: Action-Guided Attention for Video Action Anticipation
- arxiv url: http://arxiv.org/abs/2603.01743v1
- Date: Mon, 02 Mar 2026 11:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.832565
- Title: Action-Guided Attention for Video Action Anticipation
- Title(参考訳): アクションガイドによる映像行動予測
- Authors: Tsung-Ming Tai, Sofia Casarin, Andrea Pilzer, Werner Nutt, Oswald Lanz,
- Abstract要約: Action-Guided Attention(AGA)は、予測されたアクションシーケンスをクエリやキーとして明示的に活用してシーケンスモデリングをガイドするアテンションメカニズムである。
AGAは検証から見えないテストセットまでよく一般化する。
- 参考スコア(独自算出の注目度): 14.34017272203601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anticipating future actions in videos is challenging, as the observed frames provide only evidence of past activities, requiring the inference of latent intentions to predict upcoming actions. Existing transformer-based approaches, which rely on dot-product attention over pixel representations, often lack the high-level semantics necessary to model video sequences for effective action anticipation. As a result, these methods tend to overfit to explicit visual cues present in the past frames, limiting their ability to capture underlying intentions and degrading generalization to unseen samples. To address this, we propose Action-Guided Attention (AGA), an attention mechanism that explicitly leverages predicted action sequences as queries and keys to guide sequence modeling. Our approach fosters the attention module to emphasize relevant moments from the past based on the upcoming activity and combine this information with the current frame embedding via a dedicated gating function. The design of AGA enables post-training analysis of the knowledge discovered from the training set. Experiments on the widely adopted EPIC-Kitchens-100 benchmark demonstrate that AGA generalizes well from validation to unseen test sets. Post-training analysis can further examine the action dependencies captured by the model and the counterfactual evidence it has internalized, offering transparent and interpretable insights into its anticipative predictions.
- Abstract(参考訳): ビデオにおける将来の行動を予測することは、観察されたフレームが過去の行動の証拠のみを提供するため、今後の行動を予測するために潜在意図を推測する必要があるため、難しい。
既存のトランスフォーマーベースのアプローチは、ピクセル表現よりもドット積の注意を頼りにしており、効果的なアクション予測のためにビデオシーケンスをモデル化するために必要な高レベルな意味論を欠いていることが多い。
結果として、これらの手法は過去のフレームに存在する明示的な視覚的手がかりに過度に適合する傾向にあり、基礎となる意図を捉える能力や、見つからないサンプルへの一般化の低下が制限される。
そこで本研究では,AGA(Action-Guided Attention)を提案する。これは,予測されたアクションシーケンスをクエリやキーとして明示的に活用し,シーケンスモデリングをガイドするアテンションメカニズムである。
提案手法は,今後の活動に基づいて過去の関連モーメントを強調し,その情報と,専用のゲーティング機能による現在のフレーム埋め込みを組み合わせ,注目モジュールを育成する。
AGAの設計は、トレーニングセットから発見された知識の訓練後分析を可能にする。
広く採用されているEPIC-Kitchens-100ベンチマークの実験は、AGAが検証から目に見えないテストセットまでよく一般化していることを示している。
トレーニング後の分析は、モデルによってキャプチャされたアクション依存性と、それが内部化した反事実的証拠をさらに調べ、予測される予測に対する透明で解釈可能な洞察を提供する。
関連論文リスト
- Understanding Multimodal Complementarity for Single-Frame Action Anticipation [1.1961510466705991]
アクション予測はビデオ理解の問題として一般的に扱われ、将来のアクションを推論するためには、密集した時間情報が必要であることを暗黙的に仮定する。
未来に関する情報は、すでに1つのフレームにエンコードされていますが、どうすれば効果的に活用できるのでしょうか?
我々は,補完的な情報ソースに富んだ単一フレームの行動予測を体系的に調査する。
我々は、最も効果的な設計選択を、洗練された単フレーム予測フレームワークであるAAG+に統合する。
論文 参考訳(メタデータ) (2026-01-29T17:44:23Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。