論文の概要: Measuring Reasoning in LLMs: a New Dialectical Angle
- arxiv url: http://arxiv.org/abs/2510.18134v1
- Date: Mon, 20 Oct 2025 22:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.647389
- Title: Measuring Reasoning in LLMs: a New Dialectical Angle
- Title(参考訳): LLMにおける共振測定--新しいダイアレクティックアングル
- Authors: Soheil Abbasloo,
- Abstract要約: 本稿では,言語モデルの推論を弁証学で評価する構造化フレームワークSIEVを提案する。
従来の評価とは異なり、SIEVはモデルが到達した結論だけでなく、どのように到達するかを評価する。
例えば、最近のモデルであるGPT-5-chatは、GSM上のSIEVで評価すると40ポイント以上(100点中)を失う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What does it truly mean for a language model to "reason"? Most current evaluations and benchmarks reward models' correct standalone answers--but correctness alone reveals little about the process that produced them. In this work, we explore a different perspective: reasoning is not a static chain of steps, but a dynamic trajectory where ideas interact, clash, and evolve into deeper insights. To capture this dynamic, we draw on a well-established philosophical tradition: \textit{dialectics}, where reasoning unfolds through thesis, antithesis, and synthesis. Building on this, we present SIEV, a structured framework that evaluates reasoning of LLMs through dialectics. Unlike conventional evaluations, SIEV assesses not only the conclusion a model reaches, but how it gets there: its ability to resolve tension, integrate distinct ideas, and synthesize higher-order reasoning. This lens uncovers significant reasoning gaps in state-of-the-art models even under saturated benchmarks like GSM and MMLU. For instance, GPT-5-chat, a recent model, loses over 40 points (out of 100) when evaluated with SIEV on GSM. Our findings highlight that adopting a process-oriented, philosophically grounded approach enables a deeper, more rigorous, and more discriminative assessment of LLM reasoning.
- Abstract(参考訳): これは本当に、言語モデルが"理性"を意味するものなのでしょうか?
現在の評価やベンチマークは、モデルの正しいスタンドアロンの回答に報いるが、正確性だけは、それらを生み出したプロセスについてはほとんど明らかにしていない。
推論はステップの静的な連鎖ではなく、アイデアが相互作用し、衝突し、深い洞察へと進化する動的な軌道である。
このダイナミクスを捉えるために、我々は確立された哲学的伝統である『textit{dialectics}』を描き、推論は理論、アンチテーゼ、合成を通じて展開する。
そこで我々は,LLMの推論を弁証学で評価する構造化フレームワークSIEVを提案する。
従来の評価とは異なり、SIEVはモデルが到達した結論だけでなく、緊張を解消し、異なる考えを統合し、高次の推論を合成する能力についても評価する。
このレンズは、GSMやMMLUのような飽和ベンチマークの下でさえ、最先端モデルの重大な推論ギャップを明らかにする。
例えば、最近のモデルであるGPT-5-chatは、GSM上のSIEVで評価すると40ポイント以上(100点中)を失う。
我々の研究は、プロセス指向の哲学的なアプローチを採用することで、LLM推論のより深く、より厳密で、より差別的な評価が可能になることを強調した。
関連論文リスト
- MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.556628696390767]
大きな言語モデル(LLM)は印象的な推論機能を示している。
彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。
本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:15:45Z) - Assessing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation [0.3359875577705537]
本研究では,大きな言語モデル (LLM) が芸術に関連する2つの領域でどのように機能するかを考察する。
批判生成部分には,ノエル・キャロルの評価枠組みと幅広い美術批評理論を組み合わせるシステムを構築した。
これらの批判は、チューリングテストスタイルの評価において、人間の専門家によって書かれたものと比較された。
第2部では、解釈、感情、道徳的緊張を含む状況に基づいた、新しいシンプルなToMタスクを導入した。
論文 参考訳(メタデータ) (2025-04-17T10:10:25Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。