論文の概要: On the Efficacy of Text-Based Input Modalities for Action Anticipation
- arxiv url: http://arxiv.org/abs/2401.12972v1
- Date: Tue, 23 Jan 2024 18:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:46:48.076810
- Title: On the Efficacy of Text-Based Input Modalities for Action Anticipation
- Title(参考訳): 行動予測のためのテキスト入力モーダリティの有効性について
- Authors: Apoorva Beedu, Karan Samel, Irfan Essa
- Abstract要約: マルチモーダル特徴とテキストキャプションから共同で学習するマルチモーダル予測変換器(MAT)を提案する。
モデルが最初にキャプションに合わせることによってビデオクリップのアクションを予測することを学習し、第2段階では、将来のアクションを予測するためにモデルを微調整する。
- 参考スコア(独自算出の注目度): 18.92991055344741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the task of anticipating future actions is highly uncertain,
information from additional modalities help to narrow down plausible action
choices. Each modality provides different environmental context for the model
to learn from. While previous multi-modal methods leverage information from
modalities such as video and audio, we primarily explore how text inputs for
actions and objects can also enable more accurate action anticipation.
Therefore, we propose a Multi-modal Anticipative Transformer (MAT), an
attention-based video transformer architecture that jointly learns from
multi-modal features and text captions. We train our model in two-stages, where
the model first learns to predict actions in the video clip by aligning with
captions, and during the second stage, we fine-tune the model to predict future
actions. Compared to existing methods, MAT has the advantage of learning
additional environmental context from two kinds of text inputs: action
descriptions during the pre-training stage, and the text inputs for detected
objects and actions during modality feature fusion. Through extensive
experiments, we evaluate the effectiveness of the pre-training stage, and show
that our model outperforms previous methods on all datasets. In addition, we
examine the impact of object and action information obtained via text and
perform extensive ablations. We evaluate the performance on on three datasets:
EpicKitchens-100, EpicKitchens-55 and EGTEA GAZE+; and show that text
descriptions do indeed aid in more effective action anticipation.
- Abstract(参考訳): 将来の行動を予測するタスクは非常に不確実であるが、追加のモダリティからの情報は、考えられる行動選択を狭めるのに役立つ。
それぞれのモダリティは、モデルが学ぶべき異なる環境コンテキストを提供する。
従来のマルチモーダル手法ではビデオや音声などのモダリティ情報を活用するが、アクションやオブジェクトに対するテキスト入力がより正確なアクション予測を可能にする方法が主に検討されている。
そこで本研究では,マルチモーダルな特徴とテキストキャプションから学習する注意に基づくビデオトランスフォーマティブアーキテクチャであるマルチモーダル予測トランスフォーマ(mat)を提案する。
モデルがまずビデオクリップ内のアクションをキャプションにアライメントして予測する2段階のトレーニングを行い、第2段階では、モデルが将来のアクションを予測するように微調整します。
既存の手法と比較して、MATは事前学習段階における行動記述と、モーダル特徴融合時の検出対象と行動に対するテキスト入力という、2種類のテキスト入力から追加の環境コンテキストを学習する利点がある。
実験により, 事前学習段階の有効性を評価し, 全データセットにおいて, 従来の手法よりも優れていることを示す。
また,テキストによる物体情報と行動情報の影響を調べ,広範なアブレーションを行う。
epickitchens-100, epickitchens-55, egtea gaze+の3つのデータセットのパフォーマンスを評価し, テキスト記述がより効果的な行動予測に役立つことを示した。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs [15.402143137362112]
未来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する。
我々は、様々なタイプのマルチモーダル感覚入力に対応して行うことができるデジタル追従動作の全体的設計空間を作成した。
OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで,マルチモーダルな知覚入力を処理し,対象情報に対する追従動作を予測する。
論文 参考訳(メタデータ) (2024-05-06T23:11:00Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Distilling Knowledge from Language Models for Video-based Action
Anticipation [31.59130630384036]
ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
論文 参考訳(メタデータ) (2022-10-12T08:02:11Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。