論文の概要: Interpreting LLM-as-a-Judge Policies via Verifiable Global Explanations
- arxiv url: http://arxiv.org/abs/2510.08120v1
- Date: Thu, 09 Oct 2025 12:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.055046
- Title: Interpreting LLM-as-a-Judge Policies via Verifiable Global Explanations
- Title(参考訳): LLM-as-a-Judge Policiesのグローバル説明による解釈
- Authors: Jasmina Gajcin, Erik Miehling, Rahul Nair, Elizabeth Daly, Radu Marinescu, Seshu Tirupathi,
- Abstract要約: LLM-as-a-Judgeから高レベルな概念に基づくグローバルポリシーを抽出する手法を提案する。
抽出した国際政策は, LLM-as-a-Judgeの決定に極めて忠実であることがわかった。
我々はまた、テキストの摂動と敵攻撃に対するグローバルポリシーの堅牢性を評価する。
- 参考スコア(独自算出の注目度): 13.030900044459464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using LLMs to evaluate text, that is, LLM-as-a-judge, is increasingly being used at scale to augment or even replace human annotations. As such, it is imperative that we understand the potential biases and risks of doing so. In this work, we propose an approach for extracting high-level concept-based global policies from LLM-as-a-Judge. Our approach consists of two algorithms: 1) CLoVE (Contrastive Local Verifiable Explanations), which generates verifiable, concept-based, contrastive local explanations and 2) GloVE (Global Verifiable Explanations), which uses iterative clustering, summarization and verification to condense local rules into a global policy. We evaluate GloVE on seven standard benchmarking datasets for content harm detection. We find that the extracted global policies are highly faithful to decisions of the LLM-as-a-Judge. Additionally, we evaluated the robustness of global policies to text perturbations and adversarial attacks. Finally, we conducted a user study to evaluate user understanding and satisfaction with global policies.
- Abstract(参考訳): LLMを使ってテキストを評価する、すなわちLLM-as-a-judgeは、人間のアノテーションを増強したり置き換えたりするために、大規模に使われている。
そのため、潜在的なバイアスやリスクを理解することが不可欠である。
本研究では,LLM-as-a-Judgeから高レベルな概念に基づくグローバルポリシーを抽出する手法を提案する。
我々のアプローチは2つのアルゴリズムから成り立っている。
1)CLOVE(Contrastive Local Verible Explanations)は、検証可能な、概念に基づく、対照的なローカル説明を生成する。
2)GloVE(Global Verifiable Explanations)は,反復的なクラスタリング,要約,検証を用いて,地域ルールをグローバルなポリシに集約する。
コンテンツ害検出のための7つの標準ベンチマークデータセット上でGloVEを評価する。
抽出した国際政策は, LLM-as-a-Judgeの決定に極めて忠実であることがわかった。
さらに,テキストの摂動と敵攻撃に対するグローバルポリシーの堅牢性を評価した。
最後に,グローバルポリシーによるユーザ理解と満足度を評価するために,ユーザスタディを実施した。
関連論文リスト
- Learned-Rule-Augmented Large Language Model Evaluators [5.4343364964031124]
大規模言語モデル(LLM)は、主に自然言語生成(NLG)タスクの評価器として使用される。
本研究は,多種多様なタスクにまたがる汎用評価器としてのLLMの可能性を探るものである。
論文 参考訳(メタデータ) (2025-12-01T18:08:45Z) - Bayesian Evaluation of Large Language Model Behavior [11.847752638476257]
大規模言語モデルに基づくテキスト生成システムがどのように振る舞うかを評価することがますます重要である。
既存の評価手法は、しばしば統計的不確実性定量化を無視する。
本稿では,2値評価指標における不確かさの定量化にベイズ的手法を適用した2つのケーススタディを提案する。
論文 参考訳(メタデータ) (2025-11-04T19:51:46Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - From Actions to Words: Towards Abstractive-Textual Policy Summarization in RL [15.086649256497653]
我々は,SySLLM (Synthesized Summary using Large Language Models)を導入し,抽象的・テクスチュアルな政策説明の新しいパラダイムを提案する。
SySLLMは、エージェントポリシーの構造的で理解しやすい説明を提供するテキスト要約を生成する。
評価の結果,SySLLMは,人的専門家が認識した目標選択や探索戦略などの重要な洞察を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-03-13T16:10:14Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Context-DPO: Aligning Language Models for Context-Faithfulness [80.62221491884353]
本研究では,大規模言語モデルの文脈信頼度を高めるためのアライメント手法を提案する。
ConFiQAから提供されたコンテキストの質問に対する忠実で頑健な応答を活用することで、Context-DPOは直接の選好最適化を通じてLLMを調整します。
大規模な実験により、私たちのContext-DPOは、一般的なオープンソースモデルで35%から280%の改善を達成し、コンテキスト忠実性を大幅に改善します。
論文 参考訳(メタデータ) (2024-12-18T04:08:18Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。