論文の概要: On LLM-Based Scientific Inductive Reasoning Beyond Equations
- arxiv url: http://arxiv.org/abs/2509.16226v1
- Date: Fri, 12 Sep 2025 10:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.339775
- Title: On LLM-Based Scientific Inductive Reasoning Beyond Equations
- Title(参考訳): LLMに基づく科学的帰納的推論について
- Authors: Brian S. Lin, Jiaxin Yuan, Zihan Zhou, Shouli Wang, Shuo Wang, Cunliang Kong, Qi Shi, Yuxuan Li, Liner Yang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: LLMに基づく科学的帰納的推論の課題について提案する。
我々は, LLMの帰納的推論能力を評価するために, SIRBench-V1 という新しいベンチマークを導入した。
- 参考スコア(独自算出の注目度): 51.61971971921903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) increasingly exhibit human-like capabilities, a fundamental question emerges: How can we enable LLMs to learn the underlying patterns from limited examples in entirely novel environments and apply them effectively? This question is central to the ability of LLMs in inductive reasoning. Existing research on LLM-based inductive reasoning can be broadly categorized based on whether the underlying rules are expressible via explicit mathematical equations. However, many recent studies in the beyond-equations category have emphasized rule design without grounding them in specific scenarios. Inspired by the parallels between inductive reasoning and human scientific discovery, we propose the task of LLM-Based Scientific Inductive Reasoning Beyond Equations and introduce a new benchmark, SIRBench-V1, to evaluate the inductive reasoning abilities of LLMs in scientific settings. Our experimental results show that current LLMs still struggle with this task, underscoring its difficulty and the need for further advancement in this area.
- Abstract(参考訳): 大規模な言語モデル(LLM)が人間のような能力を持つようになるにつれて、根本的な疑問が浮かび上がってくる。 LLMは、完全に新しい環境で限られた例から基礎となるパターンを学習し、効果的に適用することができるのか?
この問題は帰納的推論におけるLLMの能力の中心である。
LLMに基づく帰納的推論に関する既存の研究は、基礎となる規則が明示的な数学的方程式によって表現可能であるかどうかに基づいて広く分類することができる。
しかし、超方程式圏における最近の多くの研究は、特定のシナリオに基礎を置かずに規則設計を強調している。
帰納的推論と人間の科学的発見の並列性に着想を得て, LLMに基づく科学的帰納的推論(SIRBench-V1)の課題を提案し, 科学的環境におけるLLMの帰納的推論能力を評価するための新しいベンチマークSIRBench-V1を提案する。
実験の結果,現在のLLMは依然としてこの課題に取り組んでおり,その難しさとさらなる進歩の必要性を浮き彫りにしている。
関連論文リスト
- InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。
帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。
本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文 参考訳(メタデータ) (2025-02-20T03:48:00Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。