論文の概要: Interpreting LLM-as-a-Judge Policies via Verifiable Global Explanations
- arxiv url: http://arxiv.org/abs/2510.08120v1
- Date: Thu, 09 Oct 2025 12:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.055046
- Title: Interpreting LLM-as-a-Judge Policies via Verifiable Global Explanations
- Title(参考訳): LLM-as-a-Judge Policiesのグローバル説明による解釈
- Authors: Jasmina Gajcin, Erik Miehling, Rahul Nair, Elizabeth Daly, Radu Marinescu, Seshu Tirupathi,
- Abstract要約: LLM-as-a-Judgeから高レベルな概念に基づくグローバルポリシーを抽出する手法を提案する。
抽出した国際政策は, LLM-as-a-Judgeの決定に極めて忠実であることがわかった。
我々はまた、テキストの摂動と敵攻撃に対するグローバルポリシーの堅牢性を評価する。
- 参考スコア(独自算出の注目度): 13.030900044459464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using LLMs to evaluate text, that is, LLM-as-a-judge, is increasingly being used at scale to augment or even replace human annotations. As such, it is imperative that we understand the potential biases and risks of doing so. In this work, we propose an approach for extracting high-level concept-based global policies from LLM-as-a-Judge. Our approach consists of two algorithms: 1) CLoVE (Contrastive Local Verifiable Explanations), which generates verifiable, concept-based, contrastive local explanations and 2) GloVE (Global Verifiable Explanations), which uses iterative clustering, summarization and verification to condense local rules into a global policy. We evaluate GloVE on seven standard benchmarking datasets for content harm detection. We find that the extracted global policies are highly faithful to decisions of the LLM-as-a-Judge. Additionally, we evaluated the robustness of global policies to text perturbations and adversarial attacks. Finally, we conducted a user study to evaluate user understanding and satisfaction with global policies.
- Abstract(参考訳): LLMを使ってテキストを評価する、すなわちLLM-as-a-judgeは、人間のアノテーションを増強したり置き換えたりするために、大規模に使われている。
そのため、潜在的なバイアスやリスクを理解することが不可欠である。
本研究では,LLM-as-a-Judgeから高レベルな概念に基づくグローバルポリシーを抽出する手法を提案する。
我々のアプローチは2つのアルゴリズムから成り立っている。
1)CLOVE(Contrastive Local Verible Explanations)は、検証可能な、概念に基づく、対照的なローカル説明を生成する。
2)GloVE(Global Verifiable Explanations)は,反復的なクラスタリング,要約,検証を用いて,地域ルールをグローバルなポリシに集約する。
コンテンツ害検出のための7つの標準ベンチマークデータセット上でGloVEを評価する。
抽出した国際政策は, LLM-as-a-Judgeの決定に極めて忠実であることがわかった。
さらに,テキストの摂動と敵攻撃に対するグローバルポリシーの堅牢性を評価した。
最後に,グローバルポリシーによるユーザ理解と満足度を評価するために,ユーザスタディを実施した。
関連論文リスト
- Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - From Actions to Words: Towards Abstractive-Textual Policy Summarization in RL [15.086649256497653]
我々は,SySLLM (Synthesized Summary using Large Language Models)を導入し,抽象的・テクスチュアルな政策説明の新しいパラダイムを提案する。
SySLLMは、エージェントポリシーの構造的で理解しやすい説明を提供するテキスト要約を生成する。
評価の結果,SySLLMは,人的専門家が認識した目標選択や探索戦略などの重要な洞察を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-03-13T16:10:14Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。