論文の概要: Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction
- arxiv url: http://arxiv.org/abs/2301.09209v1
- Date: Sun, 22 Jan 2023 21:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:27:28.748116
- Title: Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction
- Title(参考訳): 未来を予測するために過去を要約する: 自然言語によるマルチモーダルオブジェクトインタラクションの強化
- Authors: Razvan-George Pasca, Alexey Gavryushin, Yen-Ling Kuo, Otmar Hilliges,
Xi Wang
- Abstract要約: 将来のアクションとオブジェクトをうまく予測するには、過去のアクションとオブジェクトによって形成される時間的コンテキストを理解する必要がある。
本稿では,言語表現力を効果的に活用するマルチモーダルトランスフォーマーアーキテクチャであるTransFusionを提案する。
本モデルは,高密度な映像特徴を言語表現に置き換えることで,より効率的なエンドツーエンド学習を可能にする。
- 参考スコア(独自算出の注目度): 31.720450334117086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of object interaction anticipation in egocentric videos.
Successful prediction of future actions and objects requires an understanding
of the spatio-temporal context formed by past actions and object relationships.
We propose TransFusion, a multimodal transformer-based architecture, that
effectively makes use of the representational power of language by summarizing
past actions concisely. TransFusion leverages pre-trained image captioning
models and summarizes the caption, focusing on past actions and objects. This
action context together with a single input frame is processed by a multimodal
fusion module to forecast the next object interactions. Our model enables more
efficient end-to-end learning by replacing dense video features with language
representations, allowing us to benefit from knowledge encoded in large
pre-trained models. Experiments on Ego4D and EPIC-KITCHENS-100 show the
effectiveness of our multimodal fusion model and the benefits of using
language-based context summaries. Our method outperforms state-of-the-art
approaches by 40.4% in overall mAP on the Ego4D test set. We show the
generality of TransFusion via experiments on EPIC-KITCHENS-100. Video and code
are available at: https://eth-ait.github.io/transfusion-proj/.
- Abstract(参考訳): エゴセントリックビデオにおける物体相互作用予測の課題について検討する。
将来のアクションとオブジェクトの予測に成功するには、過去のアクションとオブジェクトの関係によって形成される時空間的コンテキストを理解する必要がある。
本稿では,過去の行動を簡潔に要約し,言語の表現力を有効に活用するマルチモーダルトランスフォーマティブアーキテクチャであるtransfusionを提案する。
TransFusionはトレーニング済みの画像キャプションモデルを活用し、過去のアクションやオブジェクトに焦点を当ててキャプションを要約する。
このアクションコンテキストと単一の入力フレームはマルチモーダル融合モジュールによって処理され、次のオブジェクトインタラクションを予測する。
我々のモデルは,高密度な映像特徴を言語表現に置き換えることで,より効率的なエンドツーエンド学習を可能にする。
Ego4D と EPIC-KITCHENS-100 の実験は、我々の多モード融合モデルの有効性と言語に基づく文脈要約の利点を示している。
提案手法は,Ego4Dテストセット全体のmAPを40.4%向上させる。
EPIC-KITCHENS-100の実験によるTransFusionの一般性を示す。
ビデオとコードは、https://eth-ait.github.io/transfusion-proj/.com/で入手できる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文 参考訳(メタデータ) (2023-02-04T09:14:18Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。