論文の概要: VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading
- arxiv url: http://arxiv.org/abs/2605.28818v1
- Date: Wed, 27 May 2026 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.272058
- Title: VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading
- Title(参考訳): VLMは自然読解中に人間のアライメントを世界規模で強化しないかもしれない
- Authors: Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang, Zitong Lu,
- Abstract要約: 我々は,大言語モデル (LLM) と視覚言語モデル (VLM) のペアを,厳密なテキストのみの設定で比較する。
マルチモーダル事前学習は,自然読解時のヒトのアライメントにおいて,一様でグローバルな優位性を与えるものではない。
本研究は,多モーダル事前学習が,自然読解時の人間的な言語表現よりも,多モーダル事前学習が選択的に寄与することを示唆している。
- 参考スコア(独自算出の注目度): 4.643551569750331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have become increasingly useful computational models of human language processing, but it remains unclear whether vision-language learning makes text representations more human-like during natural reading. Here, we address this question by comparing tightly matched LLM and vision-language model (VLM) pairs under a strictly text-only setting, allowing us to isolate the effect of multimodal training history from online visual input or cross-modal fusion. We evaluate model alignment with a human natural-reading dataset that includes whole-cortex fMRI responses and synchronized eye-tracking saccades. Our findings demonstrate that multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading, indicating that language-internal representations remain the key factor for modeling human text processing. However, the VLM advantage could emerge more selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments. Together, our findings provide a controlled in silico framework for testing how visual learning history shapes model-human alignment of language processing, suggesting that multimodal pretraining contributes selectively rather than globally to human-like language representations during natural reading.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の言語処理においてますます有用な計算モデルになりつつあるが、視覚言語学習が自然読解中にテキスト表現をより人間らしくするかどうかは不明である。
本稿では,厳密にマッチングされたLLMと視覚言語モデル(VLM)のペアを厳密なテキストのみの設定で比較することにより,オンライン視覚入力や相互融合からマルチモーダルトレーニング履歴の効果を分離する。
我々は,全座標fMRI応答と同期眼球追跡サケードを含むヒトの自然読影データセットとのモデルアライメントを評価する。
以上の結果から,多モーダル事前学習は自然読解時の人間のアライメントにおいて一様でグローバルな優位性を与えない可能性が示唆され,言語内部表現が人間のテキスト処理をモデル化する上で重要な要素であることが示唆された。
しかし、VLMの優位性は、文がより強い視覚的意味的内容を含む場合により選択的に現れ、fMRIと眼球運動アライメントの両方からの証拠が集約される可能性がある。
そこで本研究では,視覚学習履歴が言語処理のモデルと人間のアライメントをどのように形成するかを検証するためのシリコ・フレームワークについて検討した。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。