論文の概要: Language Models Do Not Follow Occam's Razor: A Benchmark for Inductive and Abductive Reasoning
- arxiv url: http://arxiv.org/abs/2509.03345v1
- Date: Wed, 03 Sep 2025 14:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.546778
- Title: Language Models Do Not Follow Occam's Razor: A Benchmark for Inductive and Abductive Reasoning
- Title(参考訳): 言語モデルはOccamのRazorをフォローしない:帰納的推論と帰納的推論のためのベンチマーク
- Authors: Yunxin Sun, Abulhair Saparov,
- Abstract要約: この研究は、大規模言語モデルの帰納的推論能力と帰納的推論能力を評価することに重点を置いている。
プログラム可能で合成可能なデータセットであるInAbHyDを導入し、各推論例は不完全な世界モデルと観測セットから構成される。
我々はOccamのRazorに基づく仮説の質を評価するための新しい指標を提案する。
- 参考スコア(独自算出の注目度): 6.06071622429429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is a core capability in artificial intelligence systems, for which large language models (LLMs) have recently shown remarkable progress. However, most work focuses exclusively on deductive reasoning, which is problematic since other types of reasoning are also essential in solving real-world problems, and they are less explored. This work focuses on evaluating LLMs' inductive and abductive reasoning capabilities. We introduce a programmable and synthetic dataset, InAbHyD (pronounced in-a-bid), where each reasoning example consists of an incomplete world model and a set of observations. The task for the intelligent agent is to produce hypotheses to explain observations under the incomplete world model to solve each reasoning example. We propose a new metric to evaluate the quality of hypotheses based on Occam's Razor. We evaluate and analyze some state-of-the-art LLMs. Our analysis shows that LLMs can perform inductive and abductive reasoning in simple scenarios, but struggle with complex world models and producing high-quality hypotheses, even with popular reasoning-enhancing techniques such as in-context learning and RLVR.
- Abstract(参考訳): 推論(Reasoning)は、人工知能システムにおける中核的な能力であり、近年大きな言語モデル(LLM)が顕著に進歩している。
しかし、ほとんどの研究は誘惑的推論にのみ焦点をあてており、これは他のタイプの推論が現実世界の問題を解決する上でも不可欠であるため問題であり、それらは調査されていない。
本研究は, LLMの帰納的推論能力と帰納的推論能力を評価することに焦点を当てる。
プログラム可能で合成可能なデータセットであるInAbHyD(in-a-bid)を導入し、各推論例は不完全世界モデルと観測セットから構成される。
知的エージェントの課題は、不完全な世界モデルの下での観察を説明する仮説を作成し、それぞれの推論の例を解くことである。
我々はOccamのRazorに基づく仮説の質を評価するための新しい指標を提案する。
我々は、最先端のLCMを評価し、分析する。
分析の結果,LLMは単純なシナリオでは帰納的推論や帰納的推論を行うことができるが,複雑な世界モデルと闘い,高品質な仮説を導出する。
関連論文リスト
- JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。