論文の概要: Position: On the Methodological Pitfalls of Evaluating Base LLMs for Reasoning
- arxiv url: http://arxiv.org/abs/2511.10381v1
- Date: Fri, 14 Nov 2025 01:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.833421
- Title: Position: On the Methodological Pitfalls of Evaluating Base LLMs for Reasoning
- Title(参考訳): 位置:推論のためのベースLLMの評価方法の落とし穴について
- Authors: Jason Chan, Zhixue Zhao, Robert Gaizauskas,
- Abstract要約: 既存の研究は、大きな言語モデル(LLM)の制約、人間のようなバイアス、基礎となるプロセスを明らかにするための推論能力について調査している。
基礎となるLCMの推論能力の評価は,既存の研究で見過ごされている方法論的懸念を提起する。
- 参考スコア(独自算出の注目度): 6.916679603940271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work investigates the reasoning capabilities of large language models (LLMs) to uncover their limitations, human-like biases and underlying processes. Such studies include evaluations of base LLMs (pre-trained on unlabeled corpora only) for this purpose. Our position paper argues that evaluating base LLMs' reasoning capabilities raises inherent methodological concerns that are overlooked in such existing studies. We highlight the fundamental mismatch between base LLMs' pretraining objective and normative qualities, such as correctness, by which reasoning is assessed. In particular, we show how base LLMs generate logically valid or invalid conclusions as coincidental byproducts of conforming to purely linguistic patterns of statistical plausibility. This fundamental mismatch challenges the assumptions that (a) base LLMs' outputs can be assessed as their bona fide attempts at correct answers or conclusions; and (b) conclusions about base LLMs' reasoning can generalize to post-trained LLMs optimized for successful instruction-following. We call for a critical re-examination of existing work that relies implicitly on these assumptions, and for future work to account for these methodological pitfalls.
- Abstract(参考訳): 既存の研究は、大きな言語モデル(LLM)の制約、人間のようなバイアス、基礎となるプロセスを明らかにするための推論能力について調査している。
このような研究は、この目的のために基礎LLM(ラベルなしコーパスのみに事前訓練)の評価を含む。
本稿は,LLMの推論能力の評価は,既存の研究で見過ごされている方法論的懸念を提起するものである,と論じる。
本稿では,LLMの事前学習目標と正当性などの規範的品質の基本的なミスマッチを,推論が評価されることによって強調する。
特に, 統計的妥当性の純粋言語パターンに適合する偶然の副産物として, 基本LSMが論理的に妥当あるいは無効な結論を生成する方法を示す。
この根本的なミスマッチは、その仮定に挑戦する
a) LLMのアウトプットは、そのボナ・フェイドが答えや結論を正そうとするものとして評価することができる。
b) 基本LLMの推論に関する結論は,命令追従を成功させるために最適化された後学習LLMに一般化することができる。
我々は、これらの仮定に暗黙的に依存する既存の作業の批判的な再検討と、これらの方法論的な落とし穴を考慮するための今後の作業を求めている。
関連論文リスト
- LLM Cannot Discover Causality, and Should Be Restricted to Non-Decisional Support in Causal Discovery [30.24849564413826]
LLMの自己回帰的相関モデルが本質的に因果推論の理論的根拠を欠いていることを実証する。
我々は、故意にプロンプトエンジニアリングが彼らの業績を誇張し、現在の文献の多くで報告された一貫した好ましい結果を説明するのに役立つことを示している。
我々は,LLMを鼻で適用することから,因果発見の根本原理を尊重する専門的なモデルや訓練方法の開発に焦点を移すことをコミュニティに求めて結論付けた。
論文 参考訳(メタデータ) (2025-06-01T05:38:56Z) - InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。
帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。
本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文 参考訳(メタデータ) (2025-02-20T03:48:00Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。
これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文 参考訳(メタデータ) (2024-04-02T11:46:31Z) - Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models [24.445829787297658]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な機能を示している。
本研究の目的は,複数選択質問(MCQ)におけるLCMを用いた確率に基づく評価手法の有効性を検討することである。
実験により,有意な確率ベース評価法が生成に基づく予測と不適切に一致していることが判明した。
論文 参考訳(メタデータ) (2024-02-21T15:58:37Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。