論文の概要: Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2501.18099v1
- Date: Thu, 30 Jan 2025 02:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:33.137945
- Title: Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
- Title(参考訳): 思考・LLM・アズ・ア・ジャッジによる評価のための計画・推論の学習
- Authors: Swarnadeep Saha, Xian Li, Marjan Ghazvininejad, Jason Weston, Tianlu Wang,
- Abstract要約: そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 78.28188747489769
- License:
- Abstract: LLM-as-a-Judge models generate chain-of-thought (CoT) sequences intended to capture the step-bystep reasoning process that underlies the final evaluation of a response. However, due to the lack of human annotated CoTs for evaluation, the required components and structure of effective reasoning traces remain understudied. Consequently, previous approaches often (1) constrain reasoning traces to hand-designed components, such as a list of criteria, reference answers, or verification questions and (2) structure them such that planning is intertwined with the reasoning for evaluation. In this work, we propose EvalPlanner, a preference optimization algorithm for Thinking-LLM-as-a-Judge that first generates an unconstrained evaluation plan, followed by its execution, and then the final judgment. In a self-training loop, EvalPlanner iteratively optimizes over synthetically constructed evaluation plans and executions, leading to better final verdicts. Our method achieves a new state-of-the-art performance for generative reward models on RewardBench (with a score of 93.9), despite being trained on fewer amount of, and synthetically generated, preference pairs. Additional experiments on other benchmarks like RM-Bench, JudgeBench, and FollowBenchEval further highlight the utility of both planning and reasoning for building robust LLM-as-a-Judge reasoning models.
- Abstract(参考訳): LLM-as-a-Judgeモデルは、応答の最終評価の基礎となるステップバイステップの推論プロセスを取得することを目的としたチェーン・オブ・シント(CoT)シーケンスを生成する。
しかし,ヒトの注釈付きCoTが欠如しているため,有効な推理トレースの必要成分と構造はいまだ検討されていない。
その結果,(1)基準項目,基準回答,検証質問などの手作り部品に対する推論トレースを制約し,(2)計画が評価の推論と連動するように構成することが多かった。
本研究では,まず制約のない評価計画を生成し,次にその実行,そして最終的な判断を行う,シンキング・LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行を反復的に最適化する。
提案手法は,RewardBenchで生成した報酬モデル(93.9点)に対して,より少ない量で合成された選好ペアを訓練しながら,新たな最先端性能を実現する。
RM-Bench、Jice Bench、FollowBenchEvalといった他のベンチマークでのさらなる実験は、堅牢なLCM-as-a-Judge推論モデルを構築するための計画と推論の両方の有用性を強調している。
関連論文リスト
- PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。
このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。
実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文 参考訳(メタデータ) (2024-10-09T10:09:11Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning [1.26990070983988]
モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-05-12T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。