論文の概要: Learned-Rule-Augmented Large Language Model Evaluators
- arxiv url: http://arxiv.org/abs/2512.01958v1
- Date: Mon, 01 Dec 2025 18:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.011363
- Title: Learned-Rule-Augmented Large Language Model Evaluators
- Title(参考訳): 学習ルール強化大言語モデル評価器
- Authors: Jie Meng, Jin Mao,
- Abstract要約: 大規模言語モデル(LLM)は、主に自然言語生成(NLG)タスクの評価器として使用される。
本研究は,多種多様なタスクにまたがる汎用評価器としてのLLMの可能性を探るものである。
- 参考スコア(独自算出の注目度): 5.4343364964031124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are predominantly used as evaluators for natural language generation (NLG) tasks, but their application to broader evaluation scenarios remains limited. In this work, we explore the potential of LLMs as general evaluators across diverse tasks. Although LLM-based evaluators have made progress in different areas, existing methods struggle to generalize due to their reliance on costly, human-designed evaluation principles, which are often misaligned with both annotated data and LLMs' understanding.To address these challenges, we propose a rule-augmented evaluation paradigm. First, we introduce a rule distillation method that automatically extracts scoring rules from data using an LLM-assisted Monte Carlo Tree Search (MCTS), alleviating scalability issues and improving alignment with data. Second, to enable LLMs to effectively apply the learned rules, we propose two strategies: (1) Chain-of-Rule (CoR), which guides LLM to follow distilled rules, and (2) training a rule-augmented LLM evaluator (RuAE) via reinforcement learning, further bridging the gap between rules and LLMs' reasoning. Extensive experiments on diverse tasks demonstrate the effectiveness and generalizability of our approach across various evaluation scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成(NLG)タスクの評価器として主に使用されているが、より広範な評価シナリオへの応用は限定的である。
本研究では,多種多様なタスクにまたがる汎用評価器としてのLCMの可能性について検討する。
LLMをベースとした評価手法は,様々な分野で進展してきたが,従来の手法では,注釈付きデータとLCMの理解とが混同されることの多い,費用がかかる人為的な評価原則に頼っているため,一般化に苦慮している。
まず, LLM支援モンテカルロ木探索(MCTS)を用いてデータからスコアリングルールを自動的に抽出し, スケーラビリティの問題を緩和し, データの整合性を改善するルール蒸留手法を提案する。
第2に, LLMの学習ルールを効果的に適用するために, 1) LLMに蒸留ルールに従うよう誘導するチェーン・オブ・ルール (CoR) と,(2) 強化学習を通じてルール強化型LLM評価器 (RuAE) を訓練し, ルールとLLMの推論のギャップを埋める2つの戦略を提案する。
多様なタスクに関する大規模な実験は、様々な評価シナリオにおけるアプローチの有効性と一般化性を実証している。
関連論文リスト
- LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。
我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文 参考訳(メタデータ) (2025-07-30T03:50:46Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。