Fugu-MT 論文翻訳(概要): RefineBench: Evaluating Refinement Capability of Language Models via Checklists

論文の概要: RefineBench: Evaluating Refinement Capability of Language Models via Checklists

arxiv url: http://arxiv.org/abs/2511.22173v1
Date: Thu, 27 Nov 2025 07:20:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.439969
Title: RefineBench: Evaluating Refinement Capability of Language Models via Checklists
Title（参考訳）: RefineBench: チェックリストによる言語モデルのリファインメント能力の評価
Authors: Young-Jun Lee, Seungone Kim, Byung-Kwan Lee, Minkyeong Moon, Yechan Hwang, Jong Myoung Kim, Graham Neubig, Sean Welleck, Ho-Jin Choi,
Abstract要約: 本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
参考スコア（独自算出の注目度）: 71.02281792867531
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.
Abstract（参考訳）: 言語モデル(LM)は、自身の応答を自己定義できるのか? この質問は、広範囲の現実世界のユーザーインタラクションが洗練された要求を伴っているため、ますます関連性が高まっている。しかし、従来の研究では、競争数学や単純な足場による記号的推論のような検証可能なタスクに対して、LMの洗練能力が検証されているのに対して、ユーザはオープンなクエリをポーズし、彼らが望むものに対する様々なフィードバックを提供することが多い。鎖の自己回帰パターンを示す最近の推論モデルの出現は、この問題をさらに動機付けている。これを分析するために、チェックリストベースの評価フレームワークと組み合わせた11ドメインにわたる1000の課題のベンチマークであるRefineBenchを紹介した。提案手法は,(1)手書き改良法,(2)手書き改良法,(2)手書き改良法,(2)手書き改良法,の2種類である。セルフリファインメント設定では、Gemini 2.5 ProやGPT-5のようなフロンティアのLMでさえ、それぞれ31.3%と29.1%の適度なベースラインスコアを達成しており、ほとんどのモデルではイテレーションを通して一貫して改善することができない(例えば、Gemini-2.5-Proはわずか+1.8%、DeepSeek-R1は-0.1%減少)。対照的に、ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトなLM(>70B)の両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは不適切な応答を自己修正するためにブレークスルーを必要とし、RefineBenchは進捗を追跡する上で貴重なテストベッドを提供することを示している。

論文の概要: RefineBench: Evaluating Refinement Capability of Language Models via Checklists

関連論文リスト