論文の概要: Logical Consistency Between Disagreeing Experts and Its Role in AI Safety
- arxiv url: http://arxiv.org/abs/2510.00821v1
- Date: Wed, 01 Oct 2025 12:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.554872
- Title: Logical Consistency Between Disagreeing Experts and Its Role in AI Safety
- Title(参考訳): 診断専門家の論理的一貫性とAI安全における役割
- Authors: Andrés Corrada-Emmanuel,
- Abstract要約: 2人の専門家は、テストについて意見が一致せず、両方が100%の正解ではないと結論付けるかもしれない。しかし、完全に同意すれば、評価は除外できない。
合意と不一致の効用におけるこの非対称性は、分類器の教師なし評価の論理を定式化することによって研究される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If two experts disagree on a test, we may conclude both cannot be 100 per cent correct. But if they completely agree, no possible evaluation can be excluded. This asymmetry in the utility of agreements versus disagreements is explored here by formalizing a logic of unsupervised evaluation for classifiers. Its core problem is computing the set of group evaluations that are logically consistent with how we observe them agreeing and disagreeing in their decisions. Statistical summaries of their aligned decisions are inputs into a Linear Programming problem in the integer space of possible correct or incorrect responses given true labels. Obvious logical constraints, such as, the number of correct responses cannot exceed the number of observed responses, are inequalities. But in addition, there are axioms, universally applicable linear equalities that apply to all finite tests. The practical and immediate utility of this approach to unsupervised evaluation using only logical consistency is demonstrated by building no-knowledge alarms that can detect when one or more LLMs-as-Judges are violating a minimum grading threshold specified by the user.
- Abstract(参考訳): 2人の専門家がテストに同意しなかった場合、両方が100%の正解ではないと結論付けることができる。
しかし、完全に同意すれば、評価は除外できない。
合意と不一致の効用におけるこの非対称性は、分類器の教師なし評価の論理を定式化することによって研究される。
その中核的な問題は、グループ評価の集合を計算し、彼らの決定に同意し、同意しないことを観察する方法と論理的に一致している。
整列決定の統計的要約は、真のラベルが与えられた正解あるいは誤応答の可能な整数空間における線形計画問題に入力される。
明らかな論理的制約、例えば正しい応答の数は観測された応答の数を超えることができないなど、不等式である。
さらに、すべての有限検定に適用できる公理、普遍的に適用可能な線形等式が存在する。
論理的整合性のみを用いた教師なし評価へのこのアプローチの実用的かつ即時的有用性は、ユーザが指定した最小グレーティング閾値を1つ以上のLCMが違反していることを検知できる無知識アラームを構築することによって実証される。
関連論文リスト
- No-Knowledge Alarms for Misaligned LLMs-as-Judges [0.0]
我々は,LLM審査員のミスアラームに対する非知識アラームを開発する。
警報器は、誤判定なしで、審査員の少なくとも1人以上のメンバーが、ユーザが指定した格付け能力要件に違反していることを検知することができる。
論文 参考訳(メタデータ) (2025-09-10T13:46:40Z) - Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。
判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文 参考訳(メタデータ) (2025-05-28T04:50:41Z) - A logical alarm for misaligned binary classifiers [0.0]
直感は二分分類タスクを実行したエージェントを評価するために形式化されています。
これは、二項応答子のすべての評価によって普遍的に従わなければならない公理の集合を確立することによってなされる。
このアプローチと形式的ソフトウェア検証の類似点と,近年の安全保証AIの課題に対する実用性について論じる。
論文 参考訳(メタデータ) (2024-09-17T10:19:22Z) - Evaluating AI Group Fairness: a Fuzzy Logic Perspective [9.876903282565976]
グループフェアネスを構成するものは、誰が尋ねられるか、社会的文脈に依存するが、定義はしばしば、彼らが課す統計的制約から小さな逸脱を受け入れるために緩和される。
ここでは、基本ファジィ論理の公理系において、群フェアネスの定義を文脈と緩和に関する不確実性から分離する。
一般に議論されている命題は、結果の数学的公式を標準化し、論理と真理値の選択を素人用語に書き起こすことが示される。
論文 参考訳(メタデータ) (2024-06-27T07:11:48Z) - The logic of NTQR evaluations of noisy AI agents: Complete postulates
and logically consistent error correlations [0.0]
教師なし設定におけるノイズの多いAIエージェントの監視におけるAI安全性の問題について考察する。
本論文では,ML文献ですでにいくつかの仮定が特定されているが,そのようには認識されていないことを示す。
評価の代数的仮定による論理一貫性の定式化が,AIアルゴリズムを用いた機械の安全性向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-12-08T22:06:44Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - Foundations of Reasoning with Uncertainty via Real-valued Logics [70.43924776071616]
我々は、本質的にすべての実数値論理をカバーするためにパラメータ化できる、音と強完全公理化を与える。
文のクラスは非常に豊かであり、各クラスは実数値論理の式の集合に対して可能な実値の集合を記述する。
論文 参考訳(メタデータ) (2020-08-06T02:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。