論文の概要: Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)
- arxiv url: http://arxiv.org/abs/2505.20029v1
- Date: Mon, 26 May 2025 14:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.501245
- Title: Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)
- Title(参考訳): 視覚言語処理(脳における)と命令チューニング(マルチモーダルモデルにおける)の関係
- Authors: Subba Reddy Oota, Akshett Jindal, Ishani Mondal, Khushbu Pahwa, Satya Sai Srinath Namburi, Manish Shrivastava, Maneesh Singh, Bapi S. Raju, Manish Gupta,
- Abstract要約: トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。
近年,オープンエンド型マルチモーダルビジョンタスクにおけるゼロショット機能を示す,命令調整型マルチモーダルLLMの新たなクラスが出現している。
MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捉えることができるかを検討する。
- 参考スコア(独自算出の注目度): 22.244699182222824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models, though not explicitly trained to mimic brain recordings, have demonstrated surprising alignment with brain activity. Progress in these models-through increased size, instruction-tuning, and multimodality-has led to better representational alignment with neural data. Recently, a new class of instruction-tuned multimodal LLMs (MLLMs) have emerged, showing remarkable zero-shot capabilities in open-ended multimodal vision tasks. However, it is unknown whether MLLMs, when prompted with natural instructions, lead to better brain alignment and effectively capture instruction-specific representations. To address this, we first investigate brain alignment, i.e., measuring the degree of predictivity of neural visual activity using text output response embeddings from MLLMs as participants engage in watching natural scenes. Experiments with 10 different instructions show that MLLMs exhibit significantly better brain alignment than vision-only models and perform comparably to non-instruction-tuned multimodal models like CLIP. We also find that while these MLLMs are effective at generating high-quality responses suitable to the task-specific instructions, not all instructions are relevant for brain alignment. Further, by varying instructions, we make the MLLMs encode instruction-specific visual concepts related to the input image. This analysis shows that MLLMs effectively capture count-related and recognition-related concepts, demonstrating strong alignment with brain activity. Notably, the majority of the explained variance of the brain encoding models is shared between MLLM embeddings of image captioning and other instructions. These results suggest that enhancing MLLMs' ability to capture task-specific information could lead to better differentiation between various types of instructions, and thereby improving their precision in predicting brain responses.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。
これらのモデルの進歩は、サイズ、命令チューニング、マルチモーダリティが増加し、ニューラルデータとの表現的アライメントが向上した。
近年,命令調整型マルチモーダルLLM (MLLM) が新たに登場し,オープンエンド型マルチモーダルビジョンタスクにおいて顕著なゼロショット機能を示した。
しかし、MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捕捉するかどうかは不明である。
そこで我々は,まず脳のアライメント,すなわち,MLLMからのテキスト出力応答の埋め込みを自然のシーンを観察する参加者として用いて,神経視覚活動の予測の度合いを測定した。
10の異なる命令による実験では、MLLMは視覚のみのモデルよりもはるかに優れた脳のアライメントを示し、CLIPのような非命令で調整されたマルチモーダルモデルと互換性がある。
また、これらのMLLMはタスク固有の命令に適した高品質な応答を生成するのに有効であるが、全ての命令が脳のアライメントに関連するわけではない。
さらに、様々な命令によって、MLLMは入力画像に関連する命令固有の視覚概念を符号化する。
この分析は、MLLMがカウント関連および認識関連の概念を効果的に捉え、脳の活動と強く一致していることを示している。
特に、説明されている脳エンコーディングモデルのばらつきの大部分は、画像キャプションのMLLM埋め込みと他の命令の間で共有されている。
これらの結果は、MLLMがタスク固有の情報を捕捉する能力を高めることで、様々な種類の命令の区別がより良くなり、脳の反応を予測する精度が向上することが示唆された。
関連論文リスト
- LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - Visual representations in the human brain are aligned with large language models [7.779248296336383]
大規模言語モデル(LLM)は,脳が自然界から抽出した複雑な視覚情報をモデル化するのに有用であることを示す。
次に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。
論文 参考訳(メタデータ) (2022-09-23T17:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。