論文の概要: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
- arxiv url: http://arxiv.org/abs/2508.03550v1
- Date: Tue, 05 Aug 2025 15:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.042435
- Title: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
- Title(参考訳): 表面を超えて:内部表現によるLLM-as-a-Judgeアライメントの強化
- Authors: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen,
- Abstract要約: LLMas-a-judgeはLLMas-a-judgeとして知られるパラダイムである
内部表現による「LLMas-a-judge」アライメント向上のためのフレームワークであるLAGERを提案する。
本研究では,Frask,HelpSteer,BIGGenの標準アライメントベンチマークをSpearman相関を用いて評価し,LAGERがこれらのベンチマークで最高のベースラインに対して最大7.5%の改善を実現していることを確認した。
- 参考スコア(独自算出の注目度): 16.91899150675144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using large language models, a paradigm known as "LLMas-a-judge." However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and taskrelevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a lightweight and efficient framework for enhancing LLM-as-a-Judge alignment with human scoring, via internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer scoretoken logits and computing the expected score from a softmax-based distribution, with the LLM backbone kept frozen. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the effectiveness of our method.
- Abstract(参考訳): 評価タスクの規模が大きくなるにつれて、"LLMas-a-judge"として知られるパラダイムである大規模言語モデルを使用した自動評価が広く採用されるようになった。
しかし、複雑なプロンプトや微調整なしに、人間の好みとの整合性を改善することは依然として困難である。
本研究では,LLM-as-a-Judgeアライメント向上のための軽量かつ効率的なフレームワークであるLAGERを提案する。
LAGERは、層間のスコアトケンロジットを集約し、ソフトマックスベースの分布から期待されるスコアを計算し、LLMバックボーンを凍結し続けることで、きめ細かな判定スコアを生成する。
LAGERは様々なレイヤにまたがる補完的な情報を十分に活用し、最終レイヤのみに依存するという制限を克服します。
本研究では,Frask,HelpSteer,BIGGenの標準アライメントベンチマークをSpearman相関を用いて評価し,LAGERがこれらのベンチマークで最高のベースラインに対して最大7.5%の改善を実現していることを確認した。
推論ステップがなければ、LAGERは推論ベースのメソッドにマッチしたり、性能を上回ります。
データ選択や感情的理解といった下流の応用実験により,本手法の有効性が明らかにされた。
関連論文リスト
- SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon [11.753349115726952]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見えるが、これらの高いスコアはデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
セマンティックコンテンツやラベルを保存しながら入力をリフレッシュすることで、C-BODはモデルのパフォーマンスが記憶パターンによって駆動されるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。
GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。
きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文 参考訳(メタデータ) (2024-12-18T18:41:12Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本稿では,パラメータ効率の優れた微調整法に基づく効率的な選択的層干渉法を提案する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback [5.3113139864044046]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RLAIFは、既製のLLMが生成した好みに基づいて報酬モデル(RM)を訓練する有望な代替手段を提供する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。