論文の概要: GEAR: A General Evaluation Framework for Abductive Reasoning
- arxiv url: http://arxiv.org/abs/2509.24096v1
- Date: Sun, 28 Sep 2025 22:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.629624
- Title: GEAR: A General Evaluation Framework for Abductive Reasoning
- Title(参考訳): GEAR: 帰納的推論のための一般的な評価フレームワーク
- Authors: Kaiyu He, Peilin Wu, Mian Zhang, Kun Wan, Wentian Zhao, Xinya Du, Zhiyu Chen,
- Abstract要約: GEAR(General Evaluation for Abductive Reasoning)は、汎用的で、完全に自動化され、透明で、ラベルのない評価パラダイムである。
GEARは、仮説セットを3つの指標でスコア付けする: 一貫性(それぞれの仮説が観察を説明する)、一般化可能性(一貫性のある仮説は目に見えない入力について有意義な予測をする)、多様性(セットは異なる予測とパターンをカバーしている)。
- 参考スコア(独自算出の注目度): 21.08814504507274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the advent of large language models (LLMs), research has focused on instruction following and deductive reasoning. A central question remains: can these models discover new knowledge, and how can we evaluate this ability? We address this by studying abductive reasoning-the generation of plausible hypotheses to explain observations-and introduce GEAR (General Evaluation for Abductive Reasoning), a general-purpose, fully automated, transparent, and label-free evaluation paradigm. GEAR scores hypothesis sets by three metrics: consistency (each hypothesis explains the observations), generalizability (consistent hypotheses make meaningful predictions on unseen inputs), and diversity (the set covers distinct predictions and patterns). Built this way, GEAR is scalable (no human gold answers), reliable (deterministic scoring aligned with classical abduction), and open-ended (scores improve only when models produce new plausible hypotheses, unlike static benchmarks that saturate once accuracy is high). Using GEAR, we conduct a fine-grained study of nine LLMs on four abduction benchmarks with 1,500 problems, generating over 50,000 candidate hypotheses and revealing model differences obscured by gold-answer or purely human evaluations. We further propose a momentum-based curriculum that adjusts GEAR-derived training data by learning velocity: it starts with what the model learns quickly and shifts toward harder objectives such as generating diverse hypotheses once the model is confident on foundational objectives. Without gold-label supervision, this strategy improves all GEAR objectives and these gains transfer to established abductive reasoning benchmarks. Taken together, GEAR provides a principled framework that evaluates abduction and supplies label-free, scalable training signals that help LLMs produce more diverse and reliable hypotheses.
- Abstract(参考訳): 大規模言語モデル (LLMs) の出現以来、研究は指示の追従と帰納的推論に重点を置いてきた。
これらのモデルは新たな知識を発見できるのか、この能力をどのように評価できるのか?
本稿では, 帰納的推論(可算仮説の生成)を考察し, GEAR (General Evaluation for Abductive Reasoning) を導入し, 汎用的, 完全自動化, 透過的, ラベルフリーな評価パラダイムを提案する。
GEARは、仮説セットを3つの指標でスコア付けする: 一貫性(それぞれの仮説が観察を説明する)、一般化可能性(一貫性のある仮説は目に見えない入力について有意義な予測をする)、多様性(セットは異なる予測とパターンをカバーしている)。
この方法で構築されたGEARは、スケーラブルで(人間の金の答えがない)、信頼性があり(古典的な減算と一致した決定論的スコア)、オープンエンドである(モデルが新しいプラウシブルな仮説を生成する場合にのみスコアが改善される)。
GEAR を用いて,1500 問題のある4 件の誘拐ベンチマークにおいて,9 件の LLM をきめ細かな研究を行い,5 万件以上の仮説を導出し,ゴールド・アンサーや純粋人間による評価で明らかなモデル差を明らかにする。
さらに,GEARから得られた学習データを学習速度によって調整するモーメントベースのカリキュラムを提案する。
金ラベルの監督がなければ、この戦略はすべてのGEAR目標を改善し、これらは確立された帰納的推論ベンチマークに移行する。
GEARは、誘拐を評価し、ラベルのないスケーラブルなトレーニング信号を提供し、LSMがより多様で信頼性の高い仮説を生成するのに役立つ、原則化されたフレームワークを提供する。
関連論文リスト
- What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities [0.773472615056109]
ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
論文 参考訳(メタデータ) (2025-09-23T21:29:04Z) - The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - On the Role of Model Prior in Real-World Inductive Reasoning [7.962140902232628]
実世界のアプリケーションでは、Large Language Modelsの仮説生成はタスク固有のモデル先行によって形成される。
デモの除去は 仮説の質と 下流の使い方の損失を 最小限に抑える
これらの知見は、LLMにおける仮説生成のダイナミクスの理解を促進する。
論文 参考訳(メタデータ) (2024-12-18T09:22:08Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。