論文の概要: Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation
- arxiv url: http://arxiv.org/abs/2301.09209v4
- Date: Sun, 10 Mar 2024 17:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:46:36.027862
- Title: Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation
- Title(参考訳): 未来を予測するために過去を要約する: 自然言語記述によるマルチモーダルオブジェクト相互作用予測
- Authors: Razvan-George Pasca, Alexey Gavryushin, Muhammad Hamza, Yen-Ling Kuo,
Kaichun Mo, Luc Van Gool, Otmar Hilliges, Xi Wang
- Abstract要約: マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
- 参考スコア(独自算出の注目度): 72.74191015833397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study object interaction anticipation in egocentric videos. This task
requires an understanding of the spatio-temporal context formed by past actions
on objects, coined action context. We propose TransFusion, a multimodal
transformer-based architecture. It exploits the representational power of
language by summarizing the action context. TransFusion leverages pre-trained
image captioning and vision-language models to extract the action context from
past video frames. This action context together with the next video frame is
processed by the multimodal fusion module to forecast the next object
interaction. Our model enables more efficient end-to-end learning. The large
pre-trained language models add common sense and a generalisation capability.
Experiments on Ego4D and EPIC-KITCHENS-100 show the effectiveness of our
multimodal fusion model. They also highlight the benefits of using
language-based context summaries in a task where vision seems to suffice. Our
method outperforms state-of-the-art approaches by 40.4% in relative terms in
overall mAP on the Ego4D test set. We validate the effectiveness of TransFusion
via experiments on EPIC-KITCHENS-100. Video and code are available at
https://eth-ait.github.io/transfusion-proj/.
- Abstract(参考訳): エゴセントリックビデオにおけるオブジェクトインタラクションの予測について検討する。
このタスクは、過去のアクションがオブジェクトに生成した時空間的コンテキストの理解を必要とする。
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで言語の表現力を利用する。
TransFusionは、トレーニング済みの画像キャプションとビジョン言語モデルを利用して、過去のビデオフレームからアクションコンテキストを抽出する。
このアクションコンテキストと次のビデオフレームは、マルチモーダル融合モジュールによって処理され、次のオブジェクトの相互作用を予測する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
大きな事前訓練された言語モデルには、常識と一般化機能が追加されている。
Ego4D と EPIC-KITCHENS-100 の実験により, マルチモーダル核融合モデルの有効性が示された。
また、視覚が十分であると思われるタスクで言語ベースのコンテキスト要約を使用することの利点も強調している。
提案手法は,Ego4Dテストセット全体のmAPにおいて,相対的に40.4%向上する。
EPIC-KITCHENS-100実験によるTransFusionの有効性を検証した。
ビデオとコードはhttps://eth-ait.github.io/transfusion-proj/で入手できる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文 参考訳(メタデータ) (2023-02-04T09:14:18Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。