論文の概要: Multi-level and Multi-modal Action Anticipation
- arxiv url: http://arxiv.org/abs/2506.02382v1
- Date: Tue, 03 Jun 2025 02:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.3864
- Title: Multi-level and Multi-modal Action Anticipation
- Title(参考訳): マルチレベルおよびマルチモーダルアクション予測
- Authors: Seulgi Kim, Ghazal Kaviani, Mohit Prabhushankar, Ghassan AlRegib,
- Abstract要約: アクション予測(Action Precipation)は、部分的に観察されたビデオから将来のアクションを予測するタスクであり、インテリジェントなシステムの進化に不可欠である。
我々は,新しいマルチモーダルアクション予測手法であるtextitMulti レベルと Multi-modal Action Precipation (m&m-Ant) を導入する。
Breakfast、50 Salads、DARaiなど、広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 12.921307214813357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action anticipation, the task of predicting future actions from partially observed videos, is crucial for advancing intelligent systems. Unlike action recognition, which operates on fully observed videos, action anticipation must handle incomplete information. Hence, it requires temporal reasoning, and inherent uncertainty handling. While recent advances have been made, traditional methods often focus solely on visual modalities, neglecting the potential of integrating multiple sources of information. Drawing inspiration from human behavior, we introduce \textit{Multi-level and Multi-modal Action Anticipation (m\&m-Ant)}, a novel multi-modal action anticipation approach that combines both visual and textual cues, while explicitly modeling hierarchical semantic information for more accurate predictions. To address the challenge of inaccurate coarse action labels, we propose a fine-grained label generator paired with a specialized temporal consistency loss function to optimize performance. Extensive experiments on widely used datasets, including Breakfast, 50 Salads, and DARai, demonstrate the effectiveness of our approach, achieving state-of-the-art results with an average anticipation accuracy improvement of 3.08\% over existing methods. This work underscores the potential of multi-modal and hierarchical modeling in advancing action anticipation and establishes a new benchmark for future research in the field. Our code is available at: https://github.com/olivesgatech/mM-ant.
- Abstract(参考訳): アクション予測(Action Precipation)は、部分的に観察されたビデオから将来のアクションを予測するタスクであり、インテリジェントなシステムの進化に不可欠である。
完全に観察されたビデオで動作するアクション認識とは異なり、アクション予測は不完全な情報を扱う必要がある。
したがって、時間的推論と固有の不確実性処理が必要である。
近年の進歩はあったが、従来の手法は、複数の情報ソースを統合する可能性を無視して、視覚的モダリティにのみ焦点をあてることが多い。
人間の行動からインスピレーションを得て,より正確な予測のために階層的意味情報を明示的にモデル化しながら,視覚とテキストの両方を組み合わせた,新しいマルチモーダルアクション予測手法である「textit{Multi-level and Multi-modal Action Precipation (m\&m-Ant)}を導入する。
粗い動作ラベルを不正確なものにするために,特殊時間整合損失関数と組み合わせたきめ細かなラベル生成器を提案し,性能を最適化する。
Breakfastや50 Salads、DARaiなど、広く使われているデータセットに対する大規模な実験は、我々のアプローチの有効性を実証し、既存の手法よりも平均3.08\%の精度で最先端の結果を達成する。
この研究は、行動予測の進展におけるマルチモーダルおよび階層モデリングの可能性を強調し、この分野における将来の研究のための新しいベンチマークを確立する。
私たちのコードは、https://github.com/olivesgatech/mM-ant.comで利用可能です。
関連論文リスト
- Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [25.657978409890973]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Knowledge Distillation for Action Anticipation via Label Smoothing [21.457069042129138]
視覚的観察や非言語的手がかりから未来を予測できる人間の能力は、インテリジェントなシステムを開発する上で不可欠である。
我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。
実験により,ラベルの平滑化は動作予測のための最先端モデルの性能を体系的に向上することが示された。
論文 参考訳(メタデータ) (2020-04-16T15:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。