論文の概要: Automated Concept Discovery for LLM-as-a-Judge Preference Analysis
- arxiv url: http://arxiv.org/abs/2603.03319v1
- Date: Mon, 09 Feb 2026 20:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.147548
- Title: Automated Concept Discovery for LLM-as-a-Judge Preference Analysis
- Title(参考訳): LLM-as-a-Judge選好分析のための自動概念発見
- Authors: James Wedgwood, Chhavi Yadav, Virginia Smith,
- Abstract要約: 大規模言語モデル(LLM)は、モデル出力のスケーラブルな評価手段として、ますます使われています。
彼らの選好判断は体系的な偏見を示し、人間の評価から分岐することができる。
LLM判定の動作を解析するための埋め込みレベルの概念抽出法について検討した。
- 参考スコア(独自算出の注目度): 21.171990974350773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as scalable evaluators of model outputs, but their preference judgments exhibit systematic biases and can diverge from human evaluations. Prior work on LLM-as-a-judge has largely focused on a small, predefined set of hypothesized biases, leaving open the problem of automatically discovering unknown drivers of LLM preferences. We address this gap by studying several embedding-level concept extraction methods for analyzing LLM judge behavior. We compare these methods in terms of interpretability and predictiveness, finding that sparse autoencoder-based approaches recover substantially more interpretable preference features than alternatives while remaining competitive in predicting LLM decisions. Using over 27k paired responses from multiple human preference datasets and judgments from three LLMs, we analyze LLM judgments and compare them to those of human annotators. Our method both validates existing results, such as the tendency for LLMs to prefer refusal of sensitive requests at higher rates than humans, and uncovers new trends across both general and domain-specific datasets, including biases toward responses that emphasize concreteness and empathy in approaching new situations, toward detail and formality in academic advice, and against legal guidance that promotes active steps like calling police and filing lawsuits. Our results show that automated concept discovery enables systematic analysis of LLM judge preferences without predefined bias taxonomies.
- Abstract(参考訳): 大規模言語モデル (LLM) は、モデル出力のスケーラブルな評価手段としてますます用いられるが、その選好判断は体系的なバイアスを示し、人間の評価から逸脱することができる。
LLM-as-a-judgeの以前の研究は、仮説化されたバイアスの小さなセットに主に焦点を合わせており、LLMの選好の未知のドライバを自動的に発見するという問題を解き放ったままである。
本研究は,LLM判定の動作を解析するための埋め込みレベルの概念抽出手法について検討することによって,このギャップに対処する。
我々はこれらの手法を解釈可能性と予測性の観点から比較し、スパースオートエンコーダに基づくアプローチが、LLM決定の予測において競争力を維持しながら、選択肢よりもはるかに解釈可能な選好特性を回復することを発見した。
複数人の嗜好データセットと3つのLDMの判断から27k以上のペアの応答を用いて、LCMの判断を分析し、それを人間のアノテーションと比較する。
提案手法は,人間よりも高いレートでの機密要求の拒否傾向や,新たな状況へのアプローチにおける具体性や共感を重視した応答に対するバイアス,学術的助言の細部や形式,警察の呼び出しや訴訟訴訟などの積極的な手順を促進する法的ガイダンスなど,一般およびドメイン固有のデータセットにまたがる新たな傾向を明らかにすることを目的としている。
以上の結果から, 自動概念発見は, 偏見を考慮せずに, LLM判定の選好を体系的に分析することを可能にすることがわかった。
関連論文リスト
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。