論文の概要: Instruction-Tuned Video-Audio Models Elucidate Functional Specialization in the Brain
- arxiv url: http://arxiv.org/abs/2506.08277v1
- Date: Mon, 09 Jun 2025 22:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.865878
- Title: Instruction-Tuned Video-Audio Models Elucidate Functional Specialization in the Brain
- Title(参考訳): 脳の機能的特殊化をめざす教示型ビデオ・オーディオモデル
- Authors: Subba Reddy Oota, Khushbu Pahwa, Prachi Jindal, Satya Sai Srinath Namburi, Maneesh Singh, Tanmoy Chakraborty, Bapi S. Raju, Manish Gupta,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、単言語モデルと比較して脳のアライメントの程度が高い。
命令調整型ビデオMLLMは,非命令調整型マルチモーダルモデルや非モーダルモデルよりも有意に優れていることを示す。
言語誘導命令を用いたビデオと音声のタスクに対するMLLMの評価は,MLLMのタスク固有表現に明確に絡み合っていることを示す。
- 参考スコア(独自算出の注目度): 25.98830728450583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent voxel-wise multimodal brain encoding studies have shown that multimodal large language models (MLLMs) exhibit a higher degree of brain alignment compared to unimodal models in both unimodal and multimodal stimulus settings. More recently, instruction-tuned multimodal models have shown to generate task-specific representations that align strongly with brain activity. However, prior work evaluating the brain alignment of MLLMs has primarily focused on unimodal settings or relied on non-instruction-tuned multimodal models for multimodal stimuli. To address this gap, we investigated brain alignment, that is, measuring the degree of predictivity of neural activity recorded while participants were watching naturalistic movies (video along with audio) with representations derived from MLLMs. We utilized instruction-specific embeddings from six video and two audio instruction-tuned MLLMs. Experiments with 13 video task-specific instructions show that instruction-tuned video MLLMs significantly outperform non-instruction-tuned multimodal (by 15%) and unimodal models (by 20%). Our evaluation of MLLMs for both video and audio tasks using language-guided instructions shows clear disentanglement in task-specific representations from MLLMs, leading to precise differentiation of multimodal functional processing in the brain. We also find that MLLM layers align hierarchically with the brain, with early sensory areas showing strong alignment with early layers, while higher-level visual and language regions align more with middle to late layers. These findings provide clear evidence for the role of task-specific instructions in improving the alignment between brain activity and MLLMs, and open new avenues for mapping joint information processing in both the systems. We make the code publicly available [https://github.com/subbareddy248/mllm_videos].
- Abstract(参考訳): 最近のvoxel-wise multimodal brain encoding studyでは、多モーダル大言語モデル(MLLM)は、単モーダルモデルと多モーダル刺激設定の両方において、単モーダルモデルよりも高いレベルの脳アライメントを示すことが示されている。
最近では、命令調整型マルチモーダルモデルにより、脳の活動に強く一致するタスク固有の表現が生成されることが示されている。
しかし、MLLMの脳のアライメントを評価する以前の研究は、主に単調な設定、あるいはマルチモーダル刺激のための非命令調整マルチモーダルモデルに依存していた。
このギャップに対処するために、我々は脳のアライメント、すなわち、参加者がMLLMから派生した表現で自然主義映画(ビデオと音声)を見ている間に記録された神経活動の予測の度合いを測定した。
6つのビデオと2つの音声命令調整MLLMからの命令固有埋め込みを利用した。
13のビデオタスク固有の指示を用いた実験では、命令調整されたビデオMLLMは、命令調整されていないマルチモーダル(15%)と非モーダルモデル(20%)を著しく上回っている。
言語誘導命令を用いたビデオと音声の両方のタスクに対するMLLMの評価は、タスク固有の表現がMLLMと明確に混在していることを示し、脳内のマルチモーダル関数処理を正確に区別する結果となった。
また、MLLM層は脳と階層的に整列し、初期の知覚領域は初期の層と強い整列を示し、高レベル視覚領域と言語領域は中層と後期層に整列する。
これらの結果から,脳活動とMLLMの整合性向上におけるタスク固有の指示の役割が明らかとなり,両システムに共同情報処理をマッピングするための新たな道が開かれた。
コードを公開しています [https://github.com/subbareddy248/mllm_videos]。
関連論文リスト
- Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) [22.244699182222824]
トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。
近年,オープンエンド型マルチモーダルビジョンタスクにおけるゼロショット機能を示す,命令調整型マルチモーダルLLMの新たなクラスが出現している。
MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捉えることができるかを検討する。
論文 参考訳(メタデータ) (2025-05-26T14:18:15Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。