Fugu-MT 論文翻訳(概要): Vision-Language Integration in Multimodal Video Transformers (Partially) Aligns with the Brain

論文の概要: Vision-Language Integration in Multimodal Video Transformers (Partially) Aligns with the Brain

arxiv url: http://arxiv.org/abs/2311.07766v1
Date: Mon, 13 Nov 2023 21:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 16:23:09.075190
Title: Vision-Language Integration in Multimodal Video Transformers (Partially) Aligns with the Brain
Title（参考訳）: マルチモーダルビデオトランスフォーマー(一部)における視覚言語統合は脳と協調する
Authors: Dota Tianai Dong and Mariya Toneva
Abstract要約: 本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
参考スコア（独自算出の注目度）: 5.496000639803771
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating information from multiple modalities is arguably one of the essential prerequisites for grounding artificial intelligence systems with an understanding of the real world. Recent advances in video transformers that jointly learn from vision, text, and sound over time have made some progress toward this goal, but the degree to which these models integrate information from modalities still remains unclear. In this work, we present a promising approach for probing a pre-trained multimodal video transformer model by leveraging neuroscientific evidence of multimodal information processing in the brain. Using brain recordings of participants watching a popular TV show, we analyze the effects of multi-modal connections and interactions in a pre-trained multi-modal video transformer on the alignment with uni- and multi-modal brain regions. We find evidence that vision enhances masked prediction performance during language processing, providing support that cross-modal representations in models can benefit individual modalities. However, we don't find evidence of brain-relevant information captured by the joint multi-modal transformer representations beyond that captured by all of the individual modalities. We finally show that the brain alignment of the pre-trained joint representation can be improved by fine-tuning using a task that requires vision-language inferences. Overall, our results paint an optimistic picture of the ability of multi-modal transformers to integrate vision and language in partially brain-relevant ways but also show that improving the brain alignment of these models may require new approaches.
Abstract（参考訳）: 複数のモダリティからの情報を統合することは、現実世界の理解と人工知能システムを接地するために必要な前提条件の1つだろう。視覚、テキスト、音声から共同で学習するビデオトランスフォーマーの最近の進歩は、この目標に向けて幾らか進展してきたが、これらのモデルがモダリティからの情報を統合する程度はまだ不明である。本研究では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前学習型マルチモーダルビデオトランスフォーマーモデルを提案する。人気テレビ番組を観ている参加者の脳記録を用いて、トレーニング済みマルチモーダルビデオトランスフォーマーにおけるマルチモーダル接続と相互作用がユニモーダル脳領域とマルチモーダル脳領域とのアライメントに及ぼす影響を解析した。視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。しかし、共同マルチモーダルトランスフォーマー表現によって得られた脳関連情報の証拠は、個々のモダリティの全てによって捉えられたもの以上のものではない。最後に、視覚言語推論を必要とするタスクを用いて、トレーニング済みの関節表現の脳のアライメントを改善することができることを示す。全体として,マルチモーダルトランスフォーマーが視覚と言語を部分的に脳に関係のある方法で統合する能力について楽観的な見解を示すとともに,これらのモデルの脳アライメントの改善には新たなアプローチが必要かもしれないことを示す。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Multi-modal brain encoding models for multi-modal stimuli [16.324962030831273]
マルチモーダルトランスフォーマーモデルは、違和感のない表現であっても、視覚的な脳活動を予測することができる。この研究は、脳のどの領域が単一モーダルとマルチモーダルの情報を処理するかを特定するのに役立ちます。
論文参考訳（メタデータ） (2025-05-26T14:17:08Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文参考訳（メタデータ） (2024-10-08T01:41:56Z)
Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-07-25T10:08:37Z)
Revealing Vision-Language Integration in the Brain with Multimodal Networks [21.88969136189006]
我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
論文参考訳（メタデータ） (2024-06-20T16:43:22Z)
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文参考訳（メタデータ） (2024-05-26T23:56:45Z)
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文参考訳（メタデータ） (2024-04-30T10:41:23Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文参考訳（メタデータ） (2023-08-03T05:27:12Z)
Brain encoding models based on multimodal transformers can transfer across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。 1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文参考訳（メタデータ） (2023-05-20T17:38:44Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)
i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文参考訳（メタデータ） (2022-05-03T23:38:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。