論文の概要: Quantification and object perception in Multimodal Large Language Models deviate from human linguistic cognition
- arxiv url: http://arxiv.org/abs/2511.08126v1
- Date: Wed, 12 Nov 2025 01:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.65435
- Title: Quantification and object perception in Multimodal Large Language Models deviate from human linguistic cognition
- Title(参考訳): 人間の言語認知から逸脱した多モーダル大言語モデルの定量化と物体知覚
- Authors: Raquel Montero, Natalia Moskvina, Paolo Morosi, Tamara Serrano, Elena Pagliarini, Evelina Leivada,
- Abstract要約: 数量化は(Multimodal) Large Language Models (MLLM) にとって特に難しい言語現象であることが証明されている。
本稿では,(M)LLM文献においてこれまで未発見であった言語間共用人間の量子化の3つの重要な特徴について考察する。
- 参考スコア(独自算出の注目度): 0.12314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantification has been proven to be a particularly difficult linguistic phenomenon for (Multimodal) Large Language Models (MLLMs). However, given that quantification interfaces with the logic, pragmatic, and numerical domains, the exact reasons for the poor performance are still unclear. This papers looks at three key features of human quantification shared cross-linguistically that have remained so far unexplored in the (M)LLM literature: the ordering of quantifiers into scales, the ranges of use and prototypicality, and the biases inherent in the human approximate number system. The aim is to determine how these features are encoded in the models' architecture, how they may differ from humans, and whether the results are affected by the type of model and language under investigation. We find that there are clear differences between humans and MLLMs with respect to these features across various tasks that tap into the representation of quantification in vivo vs. in silico. This work, thus, paves the way for addressing the nature of MLLMs as semantic and pragmatic agents, while the cross-linguistic lens can elucidate whether their abilities are robust and stable across different languages.
- Abstract(参考訳): 量子化は(Multimodal) Large Language Models (MLLM) にとって特に難しい言語現象であることが証明されている。
しかし、論理、実用的、数値的な領域との量子化インタフェースを考えると、性能の低下の正確な理由はまだ不明である。
本論文は, 従来の(M)LLM文献において, 量子化器のスケール化, 使用範囲, プロトタイプ性, 人間の近似数系に固有のバイアスの3つの重要な特徴について考察した。
目的は、これらの特徴がどのようにモデルのアーキテクチャにエンコードされているか、どのように人間と異なるか、そして調査中のモデルと言語の種類に影響を受けているかを決定することである。
ヒトとMLLMの間には, 生体内における定量化とシリコにおける定量化の表現を取り入れた, 様々なタスクにまたがる特徴について, 明らかな相違があることが判明した。
この研究は、MLLMの性質を意味的および実用的エージェントとして扱うための道を開く一方、言語間レンズは、それらの能力が様々な言語で堅牢で安定であるかどうかを解明することができる。
関連論文リスト
- Quantifier Scope Interpretation in Language Learners and LLMs [3.1478333653257367]
本研究では,大言語モデルが英語と中国語の量化対象範囲の解釈をどのように扱うかを検討する。
その結果、ほとんどのLLMは表面スコープの解釈を好んでおり、人間の傾向と一致していることが明らかとなった。
HSスコアは、LLMによる人間の行動の近似の多様性を強調しているが、人間と協調する全体的なポテンシャルは注目に値する。
論文 参考訳(メタデータ) (2025-09-13T15:32:25Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility [7.183662547358301]
大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。
いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
論文 参考訳(メタデータ) (2025-03-21T23:25:42Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages [15.203789021094982]
大規模言語モデル(LLM)では、複数の言語がどのように学習され、エンコードされているか?
Llama-3-8BとAya-23-8Bでスパースオートエンコーダを訓練し、抽象文法の概念が多くの言語で共有される特徴方向に符号化されることを実証する。
論文 参考訳(メタデータ) (2025-01-10T21:18:21Z) - Evaluating Morphological Compositional Generalization in Large Language Models [17.507983593566223]
大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文 参考訳(メタデータ) (2024-10-16T15:17:20Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
我々は,LLMにおける記号的人間の値分布の高次元神経表現であるUniVaRを提案する。
これは連続的かつスケーラブルな表現であり、8LLMの値関連出力から自己教師される。
LLMが25の言語や文化で異なる価値を優先し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。