論文の概要: RefineBench: Evaluating Refinement Capability of Language Models via Checklists
- arxiv url: http://arxiv.org/abs/2511.22173v1
- Date: Thu, 27 Nov 2025 07:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.439969
- Title: RefineBench: Evaluating Refinement Capability of Language Models via Checklists
- Title(参考訳): RefineBench: チェックリストによる言語モデルのリファインメント能力の評価
- Authors: Young-Jun Lee, Seungone Kim, Byung-Kwan Lee, Minkyeong Moon, Yechan Hwang, Jong Myoung Kim, Graham Neubig, Sean Welleck, Ho-Jin Choi,
- Abstract要約: 本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
- 参考スコア(独自算出の注目度): 71.02281792867531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.
- Abstract(参考訳): 言語モデル(LM)は、自身の応答を自己定義できるのか?
この質問は、広範囲の現実世界のユーザーインタラクションが洗練された要求を伴っているため、ますます関連性が高まっている。
しかし、従来の研究では、競争数学や単純な足場による記号的推論のような検証可能なタスクに対して、LMの洗練能力が検証されているのに対して、ユーザはオープンなクエリをポーズし、彼らが望むものに対する様々なフィードバックを提供することが多い。
鎖の自己回帰パターンを示す最近の推論モデルの出現は、この問題をさらに動機付けている。
これを分析するために、チェックリストベースの評価フレームワークと組み合わせた11ドメインにわたる1000の課題のベンチマークであるRefineBenchを紹介した。
提案手法は,(1)手書き改良法,(2)手書き改良法,(2)手書き改良法,(2)手書き改良法,の2種類である。
セルフリファインメント設定では、Gemini 2.5 ProやGPT-5のようなフロンティアのLMでさえ、それぞれ31.3%と29.1%の適度なベースラインスコアを達成しており、ほとんどのモデルではイテレーションを通して一貫して改善することができない(例えば、Gemini-2.5-Proはわずか+1.8%、DeepSeek-R1は-0.1%減少)。
対照的に、ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトなLM(>70B)の両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは不適切な応答を自己修正するためにブレークスルーを必要とし、RefineBenchは進捗を追跡する上で貴重なテストベッドを提供することを示している。
関連論文リスト
- OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data [42.23843583401247]
実世界の設定では、不完全な情報や不確実性の下での理由を言語モデルで補う必要がある。
OpenEstimateは、数値推定のLMを評価するためのベンチマークである。
LM-elicited priors は不正確で過度に信頼されることが多い。
論文 参考訳(メタデータ) (2025-10-16T19:35:22Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - LR^2Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems [7.379503137362718]
LR$2$Benchは,Long-chain Reflective Reasoning機能を評価するために設計された新しいベンチマークである。
評価の結果,DeepSeek-R1 や OpenAI o1-preview のような先進的な LRM でさえ,LR$2$Bench のタスクと競合することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T04:51:17Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。