論文の概要: Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction
- arxiv url: http://arxiv.org/abs/2301.09209v1
- Date: Sun, 22 Jan 2023 21:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:27:28.748116
- Title: Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction
- Title(参考訳): 未来を予測するために過去を要約する: 自然言語によるマルチモーダルオブジェクトインタラクションの強化
- Authors: Razvan-George Pasca, Alexey Gavryushin, Yen-Ling Kuo, Otmar Hilliges,
Xi Wang
- Abstract要約: 将来のアクションとオブジェクトをうまく予測するには、過去のアクションとオブジェクトによって形成される時間的コンテキストを理解する必要がある。
本稿では,言語表現力を効果的に活用するマルチモーダルトランスフォーマーアーキテクチャであるTransFusionを提案する。
本モデルは,高密度な映像特徴を言語表現に置き換えることで,より効率的なエンドツーエンド学習を可能にする。
- 参考スコア(独自算出の注目度): 31.720450334117086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of object interaction anticipation in egocentric videos.
Successful prediction of future actions and objects requires an understanding
of the spatio-temporal context formed by past actions and object relationships.
We propose TransFusion, a multimodal transformer-based architecture, that
effectively makes use of the representational power of language by summarizing
past actions concisely. TransFusion leverages pre-trained image captioning
models and summarizes the caption, focusing on past actions and objects. This
action context together with a single input frame is processed by a multimodal
fusion module to forecast the next object interactions. Our model enables more
efficient end-to-end learning by replacing dense video features with language
representations, allowing us to benefit from knowledge encoded in large
pre-trained models. Experiments on Ego4D and EPIC-KITCHENS-100 show the
effectiveness of our multimodal fusion model and the benefits of using
language-based context summaries. Our method outperforms state-of-the-art
approaches by 40.4% in overall mAP on the Ego4D test set. We show the
generality of TransFusion via experiments on EPIC-KITCHENS-100. Video and code
are available at: https://eth-ait.github.io/transfusion-proj/.
- Abstract(参考訳): エゴセントリックビデオにおける物体相互作用予測の課題について検討する。
将来のアクションとオブジェクトの予測に成功するには、過去のアクションとオブジェクトの関係によって形成される時空間的コンテキストを理解する必要がある。
本稿では,過去の行動を簡潔に要約し,言語の表現力を有効に活用するマルチモーダルトランスフォーマティブアーキテクチャであるtransfusionを提案する。
TransFusionはトレーニング済みの画像キャプションモデルを活用し、過去のアクションやオブジェクトに焦点を当ててキャプションを要約する。
このアクションコンテキストと単一の入力フレームはマルチモーダル融合モジュールによって処理され、次のオブジェクトインタラクションを予測する。
我々のモデルは,高密度な映像特徴を言語表現に置き換えることで,より効率的なエンドツーエンド学習を可能にする。
Ego4D と EPIC-KITCHENS-100 の実験は、我々の多モード融合モデルの有効性と言語に基づく文脈要約の利点を示している。
提案手法は,Ego4Dテストセット全体のmAPを40.4%向上させる。
EPIC-KITCHENS-100の実験によるTransFusionの一般性を示す。
ビデオとコードは、https://eth-ait.github.io/transfusion-proj/.com/で入手できる。
関連論文リスト
- Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Instruction-Following Agents with Jointly Pre-Trained Vision-Language
Models [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くためのモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチモーダルコントラストモデルは、画像やビデオ、テキストのエンティティの整合に非常に効果的であることが示されている。
これらの2行のモデルを多チャンネルビデオ言語検索スタイルのタスクに迅速に適応する方法は明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。