論文の概要: FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
- arxiv url: http://arxiv.org/abs/2606.04751v1
- Date: Wed, 03 Jun 2026 11:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.491151
- Title: FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
- Title(参考訳): FALSIFYBENCH:ルール発見ゲームを用いたLLMにおける帰納的推論の評価
- Authors: Leonardo Bertolazzi, Katya Tentori, Raffaella Bernardi,
- Abstract要約: 従来のWason 2-4-6タスクに触発された仮説駆動推論のための評価フレームワークであるFALSIFYBENCHを紹介する。
このタスクは、仮説の生成、証拠収集、そして証拠の確認と不確認の両方に対応する信念の修正という、科学的推論の重要な要素を捉えている。
モデルファミリとスケールをまたいだ12 LLM の評価は、推論モデルが命令調整モデルよりも一般的に強力な科学的推論モデルであることを示しているが、最適性能に近づくモデルはない。
- 参考スコア(独自算出の注目度): 2.959715295394151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的なタスクにおいて自律的なエージェントとしてますます多くデプロイされている。
しかし、これらのシステムが科学的発見に関連する帰納的推論の形で効果的に関与できるかどうかは、未解決の問題である。
本研究では,従来のWason 2-4-6タスクにインスパイアされた仮説駆動推論の評価フレームワークであるFALSIFYBENCHを紹介する。
このタスクは、仮説の生成、証拠収集、そして証拠の確認と不確認の両方に対応する信念の修正という、科学的推論の重要な要素を捉えている。
モデルファミリとスケールをまたいだ12 LLM の評価は、推論モデルが命令調整モデルよりも一般的に強力な科学的推論モデルであることを示しているが、最適性能に近づくモデルはない。
成功の第一の要因は、ネガティブなテストの能力である: 積極的に仮説を偽装しようとするモデルは、主に確認を求めるモデルよりも一貫して優れている。
さらに、以前の研究で無視された詳細なターンレベル解析により、失敗はモデルが仮説空間をナビゲートする方法における識別可能なパターンと結びついていることが明らかになった。
関連論文リスト
- AI scientists produce results without reasoning scientifically [3.100302590436282]
大規模言語モデル(LLM)ベースのシステムは、科学的研究を自律的に行うためにますます多くデプロイされている。
そこで本研究では,8つの領域にまたがるLSMに基づく科学的エージェントの評価を行い,その実行と仮説に基づく調査を行った。
論文 参考訳(メタデータ) (2026-04-20T20:23:42Z) - Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。
生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。
このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (2025-12-17T16:20:03Z) - GEAR: A General Evaluation Framework for Abductive Reasoning [21.08814504507274]
GEAR(General Evaluation for Abductive Reasoning)は、汎用的で、完全に自動化され、透明で、ラベルのない評価パラダイムである。
GEARは、仮説セットを3つの指標でスコア付けする: 一貫性(それぞれの仮説が観察を説明する)、一般化可能性(一貫性のある仮説は目に見えない入力について有意義な予測をする)、多様性(セットは異なる予測とパターンをカバーしている)。
論文 参考訳(メタデータ) (2025-09-28T22:22:28Z) - On the Role of Model Prior in Real-World Inductive Reasoning [7.962140902232628]
実世界のアプリケーションでは、Large Language Modelsの仮説生成はタスク固有のモデル先行によって形成される。
デモの除去は 仮説の質と 下流の使い方の損失を 最小限に抑える
これらの知見は、LLMにおける仮説生成のダイナミクスの理解を促進する。
論文 参考訳(メタデータ) (2024-12-18T09:22:08Z) - Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。
Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T01:43:07Z) - Evaluating the Effectiveness of Retrieval-Augmented Large Language
Models in Scientific Document Reasoning [0.0]
LLM(Large Language Model)は、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。
Retrieval-augmented LLMは、外部データソースから関連する情報を取得することによって、これらの問題を解決するための非パラメトリックなアプローチを提供する。
我々はこれらのモデルを科学的文書推論タスクで行う能力において批判的に評価する。
論文 参考訳(メタデータ) (2023-11-07T21:09:57Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。