論文の概要: Knowing the Facts but Choosing the Shortcut: Understanding How Large Language Models Compare Entities
- arxiv url: http://arxiv.org/abs/2510.16815v1
- Date: Sun, 19 Oct 2025 12:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.162927
- Title: Knowing the Facts but Choosing the Shortcut: Understanding How Large Language Models Compare Entities
- Title(参考訳): 事実を知りながらショートカットを選ぶ - 大規模言語モデルがエンティティをいかに比較するかを理解する
- Authors: Hans Hergen Lehmann, Jae Hee Lee, Steven Schockaert, Stefan Wermter,
- Abstract要約: 大きな言語モデル(LLM)は、知識に基づく推論タスクにますます使われていますが、真の知識と表面的な知識に頼っている場合の理解は依然として難しいままです。
本稿では, モデルに数値属性によるエンティティの比較を依頼することで, エンティティ比較タスクを通してこの問題を考察する。
モデル予測に強く影響を与える3つのバイアスを識別する。
より信頼性の高い場合、より大きなモデルは数値的な知識に選択的に依存しているのに対し、より小さなモデルはそのような差別を示さない。
- 参考スコア(独自算出の注目度): 22.27798386360767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for knowledge-based reasoning tasks, yet understanding when they rely on genuine knowledge versus superficial heuristics remains challenging. We investigate this question through entity comparison tasks by asking models to compare entities along numerical attributes (e.g., ``Which river is longer, the Danube or the Nile?''), which offer clear ground truth for systematic analysis. Despite having sufficient numerical knowledge to answer correctly, LLMs frequently make predictions that contradict this knowledge. We identify three heuristic biases that strongly influence model predictions: entity popularity, mention order, and semantic co-occurrence. For smaller models, a simple logistic regression using only these surface cues predicts model choices more accurately than the model's own numerical predictions, suggesting heuristics largely override principled reasoning. Crucially, we find that larger models (32B parameters) selectively rely on numerical knowledge when it is more reliable, while smaller models (7--8B parameters) show no such discrimination, which explains why larger models outperform smaller ones even when the smaller models possess more accurate knowledge. Chain-of-thought prompting steers all models towards using the numerical features across all model sizes.
- Abstract(参考訳): 大きな言語モデル(LLM)は、知識に基づく推論タスクにますます使われていますが、真の知識と表面的ヒューリスティックスに依存している場合の理解は依然として難しいままです。
本研究では, モデルに数値的属性(例えば, ``hich river is longer, the Danube or the Nile?')を比較させ, 系統解析の根拠となる真理を提供する。
正しく答えるには十分な数値知識があるにもかかわらず、LLMはよくこの知識と矛盾する予測を行う。
モデル予測に強く影響を与える3つのヒューリスティックバイアス(エンティティの人気、参照順序、意味的共起)を同定する。
より小さなモデルの場合、これらの曲面キューのみを用いた単純なロジスティック回帰は、モデル自身の数値予測よりも正確なモデル選択を予測する。
重要なことに、より大きなモデル(32Bパラメータ)はより信頼性の高いときに数値知識に選択的に依存しているのに対し、より小さなモデル(7--8Bパラメータ)はそのような差別を示さない。
チェーン・オブ・シントはすべてのモデルに対して,すべてのモデルサイズで数値的特徴を使用するように促します。
関連論文リスト
- Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection [2.8330244018167945]
大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。
推論の効果は,予想よりも小さく,多様であることがわかった。
より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
論文 参考訳(メタデータ) (2025-08-18T21:17:09Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Exploring the Knowledge Mismatch Hypothesis: Hallucination Propensity in Small Models Fine-tuned on Data from Larger Models [0.1227734309612871]
より大型のモデルからのデータを持つ微調整言語モデルは類似しているように見えるが、より大型のモデルよりも幻覚を呈することが多い。
1つの仮説は、より大きなモデルによって生成されたデータ上でモデルを微調整すると、幻覚に寄与する知識のミスマッチにつながるというものである。
未確認テストセットでは、より大きなモデルから生成されたデータに基づいて微調整された小さなモデルの方が、小さなモデルによって生成されたデータに基づいて微調整されたモデルと比較して、より間違った回答を得られることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:01:46Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文 参考訳(メタデータ) (2019-06-17T05:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。