論文の概要: No-Knowledge Alarms for Misaligned LLMs-as-Judges
- arxiv url: http://arxiv.org/abs/2509.08593v1
- Date: Wed, 10 Sep 2025 13:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.438235
- Title: No-Knowledge Alarms for Misaligned LLMs-as-Judges
- Title(参考訳): ミスアライメントLDMの非知識アラーム
- Authors: Andrés Corrada-Emmanuel,
- Abstract要約: 我々は,LLM審査員のミスアラームに対する非知識アラームを開発する。
警報器は、誤判定なしで、審査員の少なくとも1人以上のメンバーが、ユーザが指定した格付け能力要件に違反していることを検知することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If we use LLMs as judges to evaluate the complex decisions of other LLMs, who or what monitors the judges? Infinite monitoring chains are inevitable whenever we do not know the ground truth of the decisions by experts and we do not want to trust them. One way to ameliorate our evaluation uncertainty is to exploit the use of logical consistency between disagreeing experts. By observing how LLM judges agree and disagree while grading other LLMs, we can compute the only possible evaluations of their grading ability. For example, if two LLM judges disagree on which tasks a third one completed correctly, they cannot both be 100\% correct in their judgments. This logic can be formalized as a Linear Programming problem in the space of integer response counts for any finite test. We use it here to develop no-knowledge alarms for misaligned LLM judges. The alarms can detect, with no false positives, that at least one member or more of an ensemble of judges are violating a user specified grading ability requirement.
- Abstract(参考訳): 審査員としてLLMを使用して、他のLLMの複雑な判断を評価する場合、審査員は、誰または何を監視しますか?
専門家による決定の根底にある真実を知らなければ、無限の監視チェーンは避けられない。
評価の不確実性を改善する一つの方法は、不一致の専門家間の論理的一貫性を利用することです。
LLM の審査員が他の LLM を採点している間にどのように同意し、同意するかを観察することにより、その採点能力について唯一可能な評価を計算できる。
例えば、2人の LLM 判事がどのタスクを正しく完了したかに異議を唱えるならば、どちらも判断において 100 % の正当性を持つことはできない。
この論理は、任意の有限検定に対する整数応答数空間における線形計画問題として定式化することができる。
我々は、LLM審査員のミスアラームの無知アラームを開発するために、ここでこれを使用します。
警報器は、誤判定なしで、審査員の少なくとも1人以上のメンバーが、ユーザが指定した格付け能力要件に違反していることを検知することができる。
関連論文リスト
- Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。
判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文 参考訳(メタデータ) (2025-05-28T04:50:41Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。
LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか?
コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文 参考訳(メタデータ) (2025-05-22T04:49:33Z) - Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。
提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。
ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文 参考訳(メタデータ) (2025-04-23T20:32:12Z) - Validating LLM-as-a-Judge Systems under Rating Indeterminacy [65.137380612741]
評価の不確定性の下でLLM-as-a-judgeシステムを検証するための枠組みを提案する。
本研究では,人事合意基準の違いによるシステム性能の判断方法と,評価評価とアグリゲーション方式の差分検証手法について述べる。
論文 参考訳(メタデータ) (2025-03-07T22:09:47Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。