論文の概要: References Improve LLM Alignment in Non-Verifiable Domains
- arxiv url: http://arxiv.org/abs/2602.16802v1
- Date: Wed, 18 Feb 2026 19:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.301173
- Title: References Improve LLM Alignment in Non-Verifiable Domains
- Title(参考訳): 検証不能領域におけるLCMアライメントの改善に関する基準
- Authors: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan,
- Abstract要約: 基準誘導型LCM評価器がソフトな「検証器」として機能することでギャップを埋められるか検討する。
基準誘導手法は,フロンティアモデルからの参照を用いて,低能力のLCMジャッジの精度を大幅に向上することを示す。
基準誘導自己改善は、基準出力に対する直接SFTと基準自由判断による自己改善の両方に対して明らかな利得が得られることを示す。
- 参考スコア(独自算出の注目度): 118.26447686644808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、推論タスクにおいて強い効果を示したが、LLMアライメントのような地道検証を欠いた非検証領域に直接適用することはできない。
本研究では,LLM評価器がソフトな「検証器」として機能することで,このギャップを橋渡しできるかどうかを検討する。
まず、基準出力を用いたLCMアライメントのためのLCMに基づく評価手法を設計する。
包括的実験により,フロンティアモデルからの参照を用いて,低能力のLCM-judgeの精度が大幅に向上し,高品質な(人手による)参照によって強力なLSM-judgeが向上することを示した。
これらの改良された判断に基づいて、アライメントチューニングにおける高品質な参照の有用性を示す。
基準誘導型自己改善は、基準出力に対する直接SFTよりも明らかな利得と、基準自由判断による自己改善を両立させ、強力な微調整報酬モデルであるArmoRMによるトレーニングに匹敵する性能を達成することを示す。
具体的には,AlpacaEvalとArena-Hardで73.1%,Llama-3-8B-Instructで74.1%,Qwen2.5-7Bで70.0%,Qwen2.5-7Bで74.1%,SFT蒸留で+20.2/+17.1,AlpacaEval/Arena-Hardで+5.3/+3.6の絶対値を得た。
これらの結果は、参照誘導LDM評価器を用いて、検証不能領域における効果的なLCMポストトレーニングを可能にする可能性を強調している。
関連論文リスト
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse [27.26121507279163]
本稿では,RAGフレームワークにおけるLCMの信頼性を評価する総合指標であるTrust-Scoreを紹介する。
信頼スコア性能向上のためのLCMの整合化手法であるTrust-Alignを提案する。
Trust-AlignはASQA, QAMPARI, ELI5の競争ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-09-17T14:47:33Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。