論文の概要: Evaluating Superhuman Models with Consistency Checks
- arxiv url: http://arxiv.org/abs/2306.09983v3
- Date: Thu, 19 Oct 2023 12:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 19:50:53.282702
- Title: Evaluating Superhuman Models with Consistency Checks
- Title(参考訳): 一貫性チェックによる超人モデルの評価
- Authors: Lukas Fluri, Daniel Paleka, Florian Tram\`er
- Abstract要約: 整合性チェックによる超人的モデル評価のためのフレームワークを提案する。
決定の正確性を評価するのが難しい3つのタスクについて、我々のフレームワークをインスタンス化する。
- 参考スコア(独自算出の注目度): 14.04919745612553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If machine learning models were to achieve superhuman abilities at various
reasoning or decision-making tasks, how would we go about evaluating such
models, given that humans would necessarily be poor proxies for ground truth?
In this paper, we propose a framework for evaluating superhuman models via
consistency checks. Our premise is that while the correctness of superhuman
decisions may be impossible to evaluate, we can still surface mistakes if the
model's decisions fail to satisfy certain logical, human-interpretable rules.
We instantiate our framework on three tasks where correctness of decisions is
hard to evaluate due to either superhuman model abilities, or to otherwise
missing ground truth: evaluating chess positions, forecasting future events,
and making legal judgments. We show that regardless of a model's (possibly
superhuman) performance on these tasks, we can discover logical inconsistencies
in decision making. For example: a chess engine assigning opposing valuations
to semantically identical boards; GPT-4 forecasting that sports records will
evolve non-monotonically over time; or an AI judge assigning bail to a
defendant only after we add a felony to their criminal record.
- Abstract(参考訳): もし機械学習モデルが様々な推論や意思決定タスクで超人的能力を達成するならば、人間は必ずしも基礎的真理の貧弱なプロキシであるので、そのようなモデルを評価するにはどうすればよいだろうか?
本稿では,一貫性チェックを用いた超人的モデル評価フレームワークを提案する。
我々の前提は、超人的決定の正しさは評価できないかもしれないが、モデルの決定がある種の論理的、人間解釈可能な規則を満たさなければ、間違いを生じさせる。
我々は,超人的モデル能力によって決定の正しさを評価するのが困難である3つの課題,すなわちチェスのポジションの評価,将来の出来事の予測,法的判断などにおいて,我々の枠組みをインスタンス化する。
これらのタスクにおけるモデルの(おそらく超人的な)性能に関わらず、意思決定の論理的不整合を発見できることを示す。
例えば、反対のバリュエーションを意味的に同一のボードに割り当てるチェスエンジン、スポーツ記録が時間とともに単調に進化すると予測するgpt-4、犯罪記録に重罪を加えるだけで被告に保釈を割り当てるaiジャッジなどである。
関連論文リスト
- On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Hacking a surrogate model approach to XAI [49.1574468325115]
識別されたサブグループがブラックボックスADMシステムから肯定的な決定を下さない場合でも、対応するグループメンバーシップの問題は、必要に応じて低いレベルまで押し下げることができることを示す。
我々のアプローチは、他の代理モデルに容易に一般化できる。
論文 参考訳(メタデータ) (2024-06-24T13:18:02Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Designing Closed-Loop Models for Task Allocation [36.04165658325371]
我々は、ブートストラップモデルトレーニングと人間とタスクの類似性に関する弱い事前情報を利用する。
このような弱い事前の使用は、人間の意思決定者が誤りを犯したりバイアスを受けたりしても、タスク割り当て精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:57:56Z) - Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文 参考訳(メタデータ) (2022-12-13T00:29:45Z) - On the Sensitivity of Reward Inference to Misspecified Human Models [27.94055657571769]
人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-09T08:16:20Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - Humanly Certifying Superhuman Classifiers [8.736864280782592]
機械学習システムの性能を推定することは、人工知能研究における長年の課題である。
我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。
この環境での超人的性能の検出と証明のための簡単なレシピを提供する。
論文 参考訳(メタデータ) (2021-09-16T11:00:05Z) - Modeling the Mistakes of Boundedly Rational Agents Within a Bayesian
Theory of Mind [32.66203057545608]
我々は、ベイズ的マインド理論フレームワークを拡張し、目標、計画、行動の誤りを犯したかもしれない有理論的エージェントをモデル化する。
本研究では,扉の裏に宝石を閉じ込めたグリッドワールドパズル (i) とブロックスタッキングドメイン (ii) の2つの領域において,人間の目標推論を導出する実験を行う。
論文 参考訳(メタデータ) (2021-06-24T18:00:03Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。