論文の概要: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
- arxiv url: http://arxiv.org/abs/2510.14773v1
- Date: Thu, 16 Oct 2025 15:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.916813
- Title: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
- Title(参考訳): 思考問題における回答の発見:推論を伴う大規模言語モデルの評価を再考する
- Authors: Hwiyeol Jo, Joosung Lee, Jaehone Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo,
- Abstract要約: 本稿では,アンサー・リジェネレーション (Answer Regeneration) という基本フレームワークを提案する。
このメソッドは追加のモデル推論を使用し、プロンプト "Answer:" によってプレフィックスされた事前の入力と出力を提供する。
この抽出ルールに依存しないアプローチは、性能の向上と堅牢性の向上を示す。
- 参考スコア(独自算出の注目度): 23.867629719024325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
- Abstract(参考訳): 大規模言語モデル(LLMs)のような生成モデルを評価するには、答えの選択の確率に基づいて最終回答が選択される質問応答タスクが一般的である。
一方、推論を必要とするモデルでは、解答抽出法が重要な役割を果たす。
本研究は, 推論モデルの性能と最終回答分布が, 採用した解抽出アルゴリズムに非常に敏感であることを明らかにする。
これを軽減するため,我々はアンサー・リジェネレーション (Answer Regeneration) という基本的なフレームワークを提案する。
このメソッドは、追加のモデル推論を使用し、プロンプト"Answer:"によってプリフィックスされた事前の入力と出力を提供する。
そして、最終回答が、再生された出力から選択または抽出される。
この抽出ルールに依存しないアプローチは、性能の向上と堅牢性の向上を示す。
さらに,この枠組みを一般数学問題やオープンエンド質問応答タスクに適用した。
私たちの分析とこのフレームワークは、より信頼性の高いモデル評価結果を提供することができます。
関連論文リスト
- Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering [33.2921120857455]
推論時における計算予算の増加は、モデルがより正確な質問に答えるのに役立つことを示す。
次に,非ゼロレベルの応答リスクの設定を考慮し,評価中のゼロリスク応答の現在のパラダイムを拡張した。
論文 参考訳(メタデータ) (2025-02-19T18:58:31Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Cooperative Learning of Zero-Shot Machine Reading Comprehension [9.868221447090855]
質問生成と回答のための協調的自己学習モデルを提案する。
注釈なしで任意のテキストコーポラで質問生成と回答モデルをトレーニングできます。
私たちのモデルは、標準質問応答ベンチマークで最先端の事前学習された言語モデルよりも優れています。
論文 参考訳(メタデータ) (2021-03-12T18:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。