Fugu-MT 論文翻訳(概要): Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

論文の概要: Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

arxiv url: http://arxiv.org/abs/2502.19414v1
Date: Wed, 26 Feb 2025 18:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 17:39:51.218433
Title: Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation
Title（参考訳）: 言語モデルは偽造可能か?-反例生成によるアルゴリズム推論の評価
Authors: Shiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu,
Abstract要約: 偽装仮説は、主張が時間とともに反復的に洗練されることを許すため、科学的進歩の鍵となる。言語モデルに関する現在のベンチマークは、主に、それらに挑戦するのではなく、ソリューションを生成する能力を評価している。我々は、この逆の能力を評価するベンチマークの開発を提唱する。
参考スコア（独自算出の注目度）: 36.52945429410624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is growing excitement about the potential of Language Models (LMs) to accelerate scientific discovery. Falsifying hypotheses is key to scientific progress, as it allows claims to be iteratively refined over time. This process requires significant researcher effort, reasoning, and ingenuity. Yet current benchmarks for LMs predominantly assess their ability to generate solutions rather than challenge them. We advocate for developing benchmarks that evaluate this inverse capability - creating counterexamples for subtly incorrect solutions. To demonstrate this approach, we start with the domain of algorithmic problem solving, where counterexamples can be evaluated automatically using code execution. Specifically, we introduce REFUTE, a dynamically updating benchmark that includes recent problems and incorrect submissions from programming competitions, where human experts successfully identified counterexamples. Our analysis finds that the best reasoning agents, even OpenAI o3-mini (high) with code execution feedback, can create counterexamples for only <9% of incorrect solutions in REFUTE, even though ratings indicate its ability to solve up to 48% of these problems from scratch. We hope our work spurs progress in evaluating and enhancing LMs' ability to falsify incorrect solutions - a capability that is crucial for both accelerating research and making models self-improve through reliable reflective reasoning.
Abstract（参考訳）: 科学的な発見を加速する言語モデル(LM)の可能性に興奮が高まっている。偽装仮説は、主張が時間とともに反復的に洗練されることを許すため、科学的進歩の鍵となる。このプロセスには、重要な研究者の努力、推論、創発が必要である。しかし、LMの現在のベンチマークは、主にそれらに挑戦するのではなく、ソリューションを生成する能力を評価している。我々は、この逆の能力を評価するベンチマークの開発を提唱する。このアプローチを実証するために、コード実行を用いて反例を自動的に評価できるアルゴリズム問題解決の領域から始める。具体的には、最近の問題や、プログラムコンペからの不正な提出を含む動的に更新されたベンチマークであるREFUTEを紹介し、人間の専門家が反例の特定に成功した。我々の分析によると、コード実行フィードバックを持つOpenAI o3-mini(high)のような最高の推論エージェントは、REFUTEの不正なソリューションのわずか9%で反例を作ることができる。調査を加速させ、信頼性のある反射的推論を通じてモデルを自己改善させるのに不可欠な能力です。

関連論文リスト

FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:49:35Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文参考訳（メタデータ） (2023-05-10T16:58:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。