論文の概要: Experiential Semantic Information and Brain Alignment: Are Multimodal Models Better than Language Models?
- arxiv url: http://arxiv.org/abs/2504.00942v1
- Date: Tue, 01 Apr 2025 16:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:47.428223
- Title: Experiential Semantic Information and Brain Alignment: Are Multimodal Models Better than Language Models?
- Title(参考訳): 経験的セマンティック情報とブレインアライメント:マルチモーダルモデルは言語モデルより優れているか?
- Authors: Anna Bavaresco, Raquel Fernández,
- Abstract要約: 計算言語学における一般的な仮定は、マルチモーダルモデルによって学習されたテキスト表現が言語のみのモデルよりも豊かで人間的なものであるということである。
コントラッシブなマルチモーダルモデルからの単語表現と、それらが情報を取得する範囲における言語のみの表現を比較した。
その結果,言語のみのモデルは両面でマルチモーダルモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 5.412335160966597
- License:
- Abstract: A common assumption in Computational Linguistics is that text representations learnt by multimodal models are richer and more human-like than those by language-only models, as they are grounded in images or audio -- similar to how human language is grounded in real-world experiences. However, empirical studies checking whether this is true are largely lacking. We address this gap by comparing word representations from contrastive multimodal models vs. language-only ones in the extent to which they capture experiential information -- as defined by an existing norm-based 'experiential model' -- and align with human fMRI responses. Our results indicate that, surprisingly, language-only models are superior to multimodal ones in both respects. Additionally, they learn more unique brain-relevant semantic information beyond that shared with the experiential model. Overall, our study highlights the need to develop computational models that better integrate the complementary semantic information provided by multimodal data sources.
- Abstract(参考訳): 計算言語学における一般的な仮定は、マルチモーダルモデルによって学習されるテキスト表現は、画像や音声に基礎を置いているため、言語のみのモデルよりも豊かで人間に近いものである、ということである。
しかし、これが事実かどうかを確かめる実証的研究はほとんど欠落している。
従来のノルムベースの「経験モデル」で定義されている経験的情報(経験的情報)を捉える程度において、コントラッシブなマルチモーダルモデルと言語のみの単語表現を比較し、人間のfMRI応答と一致させることにより、このギャップに対処する。
その結果,言語のみのモデルは両面でマルチモーダルモデルよりも優れていることがわかった。
さらに、経験モデルと共有される以上の、よりユニークな脳関連セマンティック情報も学習する。
本研究は,マルチモーダルデータソースによって提供される相補的意味情報をよりよく統合する計算モデルの開発の必要性を強調した。
関連論文リスト
- DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - What do Models Learn From Training on More Than Text? Measuring Visual
Commonsense Knowledge [0.13706331473063876]
言語モデルにおける視覚的コモンセンス知識を測定するための2つの評価タスクを提案する。
視覚的コモンセンスの知識は、視覚的テキストデータに基づいて訓練されたマルチモーダルモデルと非モーダルベースラインモデルとでは大きな違いはない。
論文 参考訳(メタデータ) (2022-05-14T13:37:50Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文 参考訳(メタデータ) (2019-12-30T22:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。