論文の概要: Representations in vision and language converge in a shared, multidimensional space of perceived similarities
- arxiv url: http://arxiv.org/abs/2507.21871v1
- Date: Tue, 29 Jul 2025 14:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.470465
- Title: Representations in vision and language converge in a shared, multidimensional space of perceived similarities
- Title(参考訳): 視覚と言語における表現は、認識される類似性の共有多次元空間に収束する
- Authors: Katerina Marie Simkova, Adrien Doerig, Clayton Hickey, Ian Charest,
- Abstract要約: 視覚的および言語的類似性判定は行動レベルに収束することを示す。
また、自然のシーン画像から誘発されるfMRI脳反応のネットワークについても予測する。
これらの結果は、人間の視覚的および言語的類似性判断は、共有的、モダリティに依存しない表現構造に基礎を置いていることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can effortlessly describe what they see, yet establishing a shared representational format between vision and language remains a significant challenge. Emerging evidence suggests that human brain representations in both vision and language are well predicted by semantic feature spaces obtained from large language models (LLMs). This raises the possibility that sensory systems converge in their inherent ability to transform their inputs onto shared, embedding-like representational space. However, it remains unclear how such a space manifests in human behaviour. To investigate this, sixty-three participants performed behavioural similarity judgements separately on 100 natural scene images and 100 corresponding sentence captions from the Natural Scenes Dataset. We found that visual and linguistic similarity judgements not only converge at the behavioural level but also predict a remarkably similar network of fMRI brain responses evoked by viewing the natural scene images. Furthermore, computational models trained to map images onto LLM-embeddings outperformed both category-trained and AlexNet controls in explaining the behavioural similarity structure. These findings demonstrate that human visual and linguistic similarity judgements are grounded in a shared, modality-agnostic representational structure that mirrors how the visual system encodes experience. The convergence between sensory and artificial systems suggests a common capacity of how conceptual representations are formed-not as arbitrary products of first order, modality-specific input, but as structured representations that reflect the stable, relational properties of the external world.
- Abstract(参考訳): 人間は、自分の見るものを熱心に説明できますが、視覚と言語の間で共有された表現形式を確立することは、依然として重要な課題です。
新たな証拠は、視覚と言語の両方における人間の脳表現が、大きな言語モデル(LLM)から得られた意味的特徴空間によってよく予測されていることを示唆している。
これにより、感覚システムは、入力を共有の埋め込みのような表現空間に変換する固有の能力に収束する可能性がある。
しかし、そのような空間が人間の行動にどのように現れるかは定かではない。
これを調べるために,63名の被験者が,自然シーン100面と,自然シーンデータセットの文文100面を別々に比較して行動類似性判定を行った。
視覚的および言語的類似性判定は行動レベルに収束するだけでなく、自然のシーン画像を見ることによって引き起こされるfMRI脳反応のネットワークも非常に類似していることがわかった。
さらに、LLM埋め込みにイメージをマッピングするように訓練された計算モデルは、行動類似性構造を説明する際に、カテゴリ訓練された制御とAlexNet制御の両方に優れていた。
これらの結果は、人間の視覚的および言語的類似性判断は、視覚システムが体験を符号化する方法を反映した共有的、モダリティに依存しない表現構造に基礎を置いていることを示している。
感覚システムと人工システムとの収束は、概念的表現がどのように形成されるかの共通能力を示しており、一階のモダリティ固有の入力の任意の積ではなく、外界の安定な関係性を反映した構造的表現としてである。
関連論文リスト
- Convergent transformations of visual representation in brains and models [0.0]
認知神経科学における根本的な疑問は、視覚的知覚(外界の構造や脳の内部構造)をどう形成するかである。
人間の視覚と人工視覚の両方において、外界の構造によって駆動される視覚的エンコーディングのための収束した計算解を示す。
論文 参考訳(メタデータ) (2025-07-18T14:13:54Z) - Human-like conceptual representations emerge from language prediction [72.5875173689788]
大規模言語モデル(LLMs)は、言語データに対する次世代の予測を通じてのみ訓練され、顕著な人間的な振る舞いを示す。
これらのモデルは、人間に似た概念を発達させ、もしそうなら、そのような概念はどのように表現され、組織化されるのか?
以上の結果から,LLMは言語記述から他の概念に関する文脈的手がかりに関して柔軟に概念を導出できることが示唆された。
これらの結果は、構造化された人間のような概念表現が、現実世界の接地なしに言語予測から自然に現れることを証明している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z) - Words are all you need? Capturing human sensory similarity with textual
descriptors [12.191617984664683]
人間の類似性判断と言語との関係について検討する。
本稿では,効率的かつ汎用的なタグマイニングのための新しい適応パイプラインを提案する。
テキスト記述子に基づく予測パイプラインは優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-06-08T18:09:19Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。