論文の概要: On the Efficacy of Text-Based Input Modalities for Action Anticipation
- arxiv url: http://arxiv.org/abs/2401.12972v1
- Date: Tue, 23 Jan 2024 18:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:46:48.076810
- Title: On the Efficacy of Text-Based Input Modalities for Action Anticipation
- Title(参考訳): 行動予測のためのテキスト入力モーダリティの有効性について
- Authors: Apoorva Beedu, Karan Samel, Irfan Essa
- Abstract要約: マルチモーダル特徴とテキストキャプションから共同で学習するマルチモーダル予測変換器(MAT)を提案する。
モデルが最初にキャプションに合わせることによってビデオクリップのアクションを予測することを学習し、第2段階では、将来のアクションを予測するためにモデルを微調整する。
- 参考スコア(独自算出の注目度): 18.92991055344741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the task of anticipating future actions is highly uncertain,
information from additional modalities help to narrow down plausible action
choices. Each modality provides different environmental context for the model
to learn from. While previous multi-modal methods leverage information from
modalities such as video and audio, we primarily explore how text inputs for
actions and objects can also enable more accurate action anticipation.
Therefore, we propose a Multi-modal Anticipative Transformer (MAT), an
attention-based video transformer architecture that jointly learns from
multi-modal features and text captions. We train our model in two-stages, where
the model first learns to predict actions in the video clip by aligning with
captions, and during the second stage, we fine-tune the model to predict future
actions. Compared to existing methods, MAT has the advantage of learning
additional environmental context from two kinds of text inputs: action
descriptions during the pre-training stage, and the text inputs for detected
objects and actions during modality feature fusion. Through extensive
experiments, we evaluate the effectiveness of the pre-training stage, and show
that our model outperforms previous methods on all datasets. In addition, we
examine the impact of object and action information obtained via text and
perform extensive ablations. We evaluate the performance on on three datasets:
EpicKitchens-100, EpicKitchens-55 and EGTEA GAZE+; and show that text
descriptions do indeed aid in more effective action anticipation.
- Abstract(参考訳): 将来の行動を予測するタスクは非常に不確実であるが、追加のモダリティからの情報は、考えられる行動選択を狭めるのに役立つ。
それぞれのモダリティは、モデルが学ぶべき異なる環境コンテキストを提供する。
従来のマルチモーダル手法ではビデオや音声などのモダリティ情報を活用するが、アクションやオブジェクトに対するテキスト入力がより正確なアクション予測を可能にする方法が主に検討されている。
そこで本研究では,マルチモーダルな特徴とテキストキャプションから学習する注意に基づくビデオトランスフォーマティブアーキテクチャであるマルチモーダル予測トランスフォーマ(mat)を提案する。
モデルがまずビデオクリップ内のアクションをキャプションにアライメントして予測する2段階のトレーニングを行い、第2段階では、モデルが将来のアクションを予測するように微調整します。
既存の手法と比較して、MATは事前学習段階における行動記述と、モーダル特徴融合時の検出対象と行動に対するテキスト入力という、2種類のテキスト入力から追加の環境コンテキストを学習する利点がある。
実験により, 事前学習段階の有効性を評価し, 全データセットにおいて, 従来の手法よりも優れていることを示す。
また,テキストによる物体情報と行動情報の影響を調べ,広範なアブレーションを行う。
epickitchens-100, epickitchens-55, egtea gaze+の3つのデータセットのパフォーマンスを評価し, テキスト記述がより効果的な行動予測に役立つことを示した。
関連論文リスト
- PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Distilling Knowledge from Language Models for Video-based Action
Anticipation [31.59130630384036]
ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
論文 参考訳(メタデータ) (2022-10-12T08:02:11Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。