論文の概要: Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain
- arxiv url: http://arxiv.org/abs/2311.07766v1
- Date: Mon, 13 Nov 2023 21:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:23:09.075190
- Title: Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain
- Title(参考訳): マルチモーダルビデオトランスフォーマー(一部)における視覚言語統合は脳と協調する
- Authors: Dota Tianai Dong and Mariya Toneva
- Abstract要約: 本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
- 参考スコア(独自算出の注目度): 5.496000639803771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating information from multiple modalities is arguably one of the
essential prerequisites for grounding artificial intelligence systems with an
understanding of the real world. Recent advances in video transformers that
jointly learn from vision, text, and sound over time have made some progress
toward this goal, but the degree to which these models integrate information
from modalities still remains unclear. In this work, we present a promising
approach for probing a pre-trained multimodal video transformer model by
leveraging neuroscientific evidence of multimodal information processing in the
brain. Using brain recordings of participants watching a popular TV show, we
analyze the effects of multi-modal connections and interactions in a
pre-trained multi-modal video transformer on the alignment with uni- and
multi-modal brain regions. We find evidence that vision enhances masked
prediction performance during language processing, providing support that
cross-modal representations in models can benefit individual modalities.
However, we don't find evidence of brain-relevant information captured by the
joint multi-modal transformer representations beyond that captured by all of
the individual modalities. We finally show that the brain alignment of the
pre-trained joint representation can be improved by fine-tuning using a task
that requires vision-language inferences. Overall, our results paint an
optimistic picture of the ability of multi-modal transformers to integrate
vision and language in partially brain-relevant ways but also show that
improving the brain alignment of these models may require new approaches.
- Abstract(参考訳): 複数のモダリティからの情報を統合することは、現実世界の理解と人工知能システムを接地するために必要な前提条件の1つだろう。
視覚、テキスト、音声から共同で学習するビデオトランスフォーマーの最近の進歩は、この目標に向けて幾らか進展してきたが、これらのモデルがモダリティからの情報を統合する程度はまだ不明である。
本研究では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前学習型マルチモーダルビデオトランスフォーマーモデルを提案する。
人気テレビ番組を観ている参加者の脳記録を用いて、トレーニング済みマルチモーダルビデオトランスフォーマーにおけるマルチモーダル接続と相互作用がユニモーダル脳領域とマルチモーダル脳領域とのアライメントに及ぼす影響を解析した。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
しかし、共同マルチモーダルトランスフォーマー表現によって得られた脳関連情報の証拠は、個々のモダリティの全てによって捉えられたもの以上のものではない。
最後に、視覚言語推論を必要とするタスクを用いて、トレーニング済みの関節表現の脳のアライメントを改善することができることを示す。
全体として,マルチモーダルトランスフォーマーが視覚と言語を部分的に脳に関係のある方法で統合する能力について楽観的な見解を示すとともに,これらのモデルの脳アライメントの改善には新たなアプローチが必要かもしれないことを示す。
関連論文リスト
- Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。
以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-02-14T09:21:00Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Visio-Linguistic Brain Encoding [3.944020612420711]
脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。
マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。
視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2022-04-18T11:28:18Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。