論文の概要: On the Efficacy of Text-Based Input Modalities for Action Anticipation
- arxiv url: http://arxiv.org/abs/2401.12972v2
- Date: Tue, 6 Aug 2024 22:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 18:02:16.639583
- Title: On the Efficacy of Text-Based Input Modalities for Action Anticipation
- Title(参考訳): 行動予測のためのテキスト入力モーダリティの有効性について
- Authors: Apoorva Beedu, Karan Samel, Irfan Essa,
- Abstract要約: 本稿では,アクションやオブジェクトのマルチモーダルな特徴やテキスト記述から学習するビデオトランスフォーマーアーキテクチャを提案する。
EpicKitchensデータセットの従来の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 16.84305914451672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anticipating future actions is a highly challenging task due to the diversity and scale of potential future actions; yet, information from different modalities help narrow down plausible action choices. Each modality can provide diverse and often complementary context for the model to learn from. While previous multi-modal methods leverage information from modalities such as video and audio, we primarily explore how text descriptions of actions and objects can also lead to more accurate action anticipation by providing additional contextual cues, e.g., about the environment and its contents. We propose a Multi-modal Contrastive Anticipative Transformer (M-CAT), a video transformer architecture that jointly learns from multi-modal features and text descriptions of actions and objects. We train our model in two stages, where the model first learns to align video clips with descriptions of future actions, and is subsequently fine-tuned to predict future actions. Compared to existing methods, M-CAT has the advantage of learning additional context from two types of text inputs: rich descriptions of future actions during pre-training, and, text descriptions for detected objects and actions during modality feature fusion. Through extensive experimental evaluation, we demonstrate that our model outperforms previous methods on the EpicKitchens datasets, and show that using simple text descriptions of actions and objects aid in more effective action anticipation. In addition, we examine the impact of object and action information obtained via text, and perform extensive ablations.
- Abstract(参考訳): 将来の行動を予測することは、潜在的な将来の行動の多様性と規模のために非常に難しい課題である。
各モダリティは、モデルから学ぶための多様かつしばしば相補的なコンテキストを提供することができる。
従来のマルチモーダル手法では,映像や音声などのモダリティからの情報を活用するが,アクションやオブジェクトのテキスト記述が,環境とその内容に関する追加の文脈的手がかりを提供することによって,より正確なアクション予測に結びつくかを検討する。
本稿ではマルチモーダル・コントラスト・予測変換器(M-CAT)を提案する。
まず、モデルがビデオクリップを将来のアクションの説明に合わせることを学習し、その後、将来のアクションを予測するために微調整する。
既存の手法と比較して、M-CATは2種類のテキスト入力から追加のコンテキストを学習する利点がある。
実験により,EpicKitchensデータセットの従来の手法よりも優れていることを示すとともに,アクションやオブジェクトの簡単なテキスト記述を用いることで,より効果的なアクション予測が可能になることを示す。
さらに,テキストから得られた対象情報と行動情報の影響について検討し,広範囲にわたる改善を行う。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs [15.402143137362112]
未来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する。
我々は、様々なタイプのマルチモーダル感覚入力に対応して行うことができるデジタル追従動作の全体的設計空間を作成した。
OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで,マルチモーダルな知覚入力を処理し,対象情報に対する追従動作を予測する。
論文 参考訳(メタデータ) (2024-05-06T23:11:00Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Distilling Knowledge from Language Models for Video-based Action
Anticipation [31.59130630384036]
ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
論文 参考訳(メタデータ) (2022-10-12T08:02:11Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。