論文の概要: Conversation for Non-verifiable Learning: Self-Evolving LLMs through Meta-Evaluation
- arxiv url: http://arxiv.org/abs/2601.21464v1
- Date: Thu, 29 Jan 2026 09:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.708051
- Title: Conversation for Non-verifiable Learning: Self-Evolving LLMs through Meta-Evaluation
- Title(参考訳): 非検証型学習のための会話:メタ評価による自己進化型LLM
- Authors: Yuan Sui, Bryan Hooi,
- Abstract要約: CoNLは、マルチエージェントのセルフプレイを通じて生成、評価、メタ評価を統合するフレームワークである。
CoNLは、安定したトレーニングを維持しながら、自己回帰ベースラインよりも一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 56.84819098277464
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training large language models (LLMs) for non-verifiable tasks, such as creative writing, dialogue, and ethical reasoning, remains challenging due to the absence of ground-truth labels. While LLM-as-Judge approaches offer a scalable alternative to human feedback, they face a fundamental limitation: performance is constrained by the evaluator's own quality. If the judge cannot recognize good solutions, it cannot provide useful training signals, and evaluation biases (e.g., favoring verbosity over quality) remain unaddressed. This motivates meta-evaluation: the ability to evaluate and improve the evaluator itself. We introduce CoNL, a framework that unifies generation, evaluation, and meta-evaluation through multi-agent self-play. Our key insight: critique quality can be measured by whether it helps others improve their solutions. In CoNL, multiple agents sharing the same policy engage in structured conversations to propose, critique, and revise solutions. Critiques that enable solution improvements earn a diagnostic reward, creating explicit supervision for meta-evaluation and enabling joint optimization of generation and judging capabilities through self-play, without external judges or ground truth. Experiments on five benchmarks show that CoNL achieves consistent improvements over self-rewarding baselines while maintaining stable training.
- Abstract(参考訳): クリエイティブ・ライティング、対話、倫理的推論など、検証不可能なタスクのための大規模言語モデル(LLM)のトレーニングは、地味なラベルがないため、依然として困難である。
LLM-as-Judgeアプローチは人間のフィードバックに代わるスケーラブルな代替手段を提供するが、それらは根本的な制限に直面している。
裁判官が良い解決策を認識できなければ、有用な訓練信号を提供できなくなり、評価バイアス(例えば、品質よりも冗長性を好む)は未適応のままである。
これはメタ評価の動機であり、評価者自身を評価し改善する能力である。
マルチエージェント・セルフプレイによる生成,評価,メタ評価を統一するフレームワークであるCoNLを紹介する。
私たちの重要な洞察: 批判的品質は、他の人がソリューションを改善するのに役立つかどうかによって測定できます。
CoNLでは、同じ方針を共有する複数のエージェントが構造化された会話を行い、ソリューションを提案し、批判し、修正する。
ソリューションの改善を可能にする批評は、診断報酬を獲得し、メタ評価の明確な監督を作成し、外部の判断や根拠の真実なしに、自己プレイによる生成と判断能力の共同最適化を可能にする。
5つのベンチマークの実験では、CoNLは安定したトレーニングを維持しながら、自己回帰ベースラインよりも一貫した改善を達成している。
関連論文リスト
- Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning [52.99434388759101]
ツール統合推論による継続的改善を実現する自己進化型視覚言語エージェントを提案する。
Agent0-VLは、ツールの使用法を推論だけでなく、自己評価や自己修復にも取り入れている。
実験の結果,Agent0-VLはベースモデルよりも12.5%向上していることがわかった。
論文 参考訳(メタデータ) (2025-11-25T04:15:14Z) - When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。