論文の概要: Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video?
- arxiv url: http://arxiv.org/abs/2512.02846v1
- Date: Tue, 02 Dec 2025 14:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.938513
- Title: Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video?
- Title(参考訳): マルチモーダル・クイズ(Multimodal Cues)は、ビデオに取って代われるのか?
- Authors: Manuel Benavent-Lledo, Konstantinos Bacharidis, Victoria Manousaki, Konstantinos Papoutsakis, Antonis Argyros, Jose Garcia-Rodriguez,
- Abstract要約: 本稿では,Glimpseにおける行動予測手法であるAAGを紹介する。
AAGは、RGB機能と単一のフレームからの深さキューを組み合わせることで、空間的推論を強化している。
以上の結果から,AAGを用いたマルチモーダル単一フレーム動作予測が競争力を発揮することが示された。
- 参考スコア(独自算出の注目度): 1.1288535170985818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Anticipating actions before they occur is a core challenge in action understanding research. While conventional methods rely on extracting and aggregating temporal information from videos, as humans we can often predict upcoming actions by observing a single moment from a scene, when given sufficient context. Can a model achieve this competence? The short answer is yes, although its effectiveness depends on the complexity of the task. In this work, we investigate to what extent video aggregation can be replaced with alternative modalities. To this end, based on recent advances in visual feature extraction and language-based reasoning, we introduce AAG, a method for Action Anticipation at a Glimpse. AAG combines RGB features with depth cues from a single frame for enhanced spatial reasoning, and incorporates prior action information to provide long-term context. This context is obtained either through textual summaries from Vision-Language Models, or from predictions generated by a single-frame action recognizer. Our results demonstrate that multimodal single-frame action anticipation using AAG can perform competitively compared to both temporally aggregated video baselines and state-of-the-art methods across three instructional activity datasets: IKEA-ASM, Meccano, and Assembly101.
- Abstract(参考訳): それらが起こる前に行動を予測することは、行動理解研究における中核的な課題である。
従来の方法はビデオから時間情報を抽出・集約することに依存しているが、人間の場合、十分なコンテキストが与えられた場合、シーンから1つの瞬間を観察することで、今後の行動を予測することができる。
モデルはこの能力を達成することができるのか?
短い答えはイエスだが、その効果はタスクの複雑さに依存する。
本研究では,ビデオアグリゲーションが代替モダリティにどのように置き換えられるかを検討する。
この目的のために,視覚的特徴抽出と言語に基づく推論の最近の進歩に基づき,Glimpseにおける行動予測手法であるAAGを導入する。
AAGは、RGB機能と1つのフレームからの奥行きキューを組み合わせることで、空間的推論を強化し、事前アクション情報を組み込んで長期的コンテキストを提供する。
このコンテキストは、Vision-Language Modelsのテキスト要約や、単一フレームアクション認識器によって生成された予測によって得られる。
その結果,AAGを用いたマルチモーダル単一フレーム動作予測は,3つの学習活動データセット(IKEA-ASM, Meccano, Assembly101)にまたがって,時間的に集約されたビデオベースラインと最先端の手法の両方と比較して競合的に実行可能であることが示された。
関連論文リスト
- SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation [66.8640112000444]
時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための一般的なビジョンタスクである。
本稿では,アクトフュージョンと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
我々は,映像フレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク戦略を導入する。
論文 参考訳(メタデータ) (2024-12-05T17:12:35Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。