論文の概要: A Benchmark for Scalable Oversight Protocols
- arxiv url: http://arxiv.org/abs/2504.03731v1
- Date: Mon, 31 Mar 2025 23:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 05:54:39.144783
- Title: A Benchmark for Scalable Oversight Protocols
- Title(参考訳): スケーラブルな監視プロトコルのベンチマーク
- Authors: Abhimanyu Pallavi Sudhir, Jackson Kaunismaa, Arjun Panickssery,
- Abstract要約: エージェントスコア差(ASD)測定値に基づいて,人間のフィードバックメカニズムを評価するための原則的枠組みを提案する。
スケーラブルな監視プロトコルの迅速かつ競合的な評価を容易にするために,Pythonパッケージを提供する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: As AI agents surpass human capabilities, scalable oversight -- the problem of effectively supplying human feedback to potentially superhuman AI models -- becomes increasingly critical to ensure alignment. While numerous scalable oversight protocols have been proposed, they lack a systematic empirical framework to evaluate and compare them. While recent works have tried to empirically study scalable oversight protocols -- particularly Debate -- we argue that the experiments they conduct are not generalizable to other protocols. We introduce the scalable oversight benchmark, a principled framework for evaluating human feedback mechanisms based on our agent score difference (ASD) metric, a measure of how effectively a mechanism advantages truth-telling over deception. We supply a Python package to facilitate rapid and competitive evaluation of scalable oversight protocols on our benchmark, and conduct a demonstrative experiment benchmarking Debate.
- Abstract(参考訳): AIエージェントが人間の能力を超えるにつれて、潜在的に超人的なAIモデルに人間のフィードバックを効果的に供給する、スケーラブルな監視がますます重要になってきています。
多くのスケーラブルな監視プロトコルが提案されているが、評価と比較を行うための体系的な経験的枠組みが欠如している。
最近の研究は、スケーラブルな監視プロトコル(特にDebate)を実証的に研究しようと試みているが、我々は彼らが行う実験は他のプロトコルには一般化できないと主張している。
我々は,エージェントスコア差(ASD)測定値に基づいて,人間のフィードバックメカニズムを評価するための原則的フレームワークである,スケーラブルな監視ベンチマークを紹介した。
当社のベンチマークでは,スケーラブルな監視プロトコルの迅速かつ競争力のある評価を容易にするために,Pythonパッケージを提供しています。
関連論文リスト
- Objective Metrics for Human-Subjects Evaluation in Explainable Reinforcement Learning [0.47355466227925036]
説明は基本的に人間のプロセスである。説明の目的と聴衆を理解することは不可欠である。
説明可能な強化学習(XRL)に関する既存の研究は、その評価において人間に日常的に相談しない。
本稿では,観察可能な行動と行動可能な行動に基づく説明評価に客観的な人的指標を使用するよう研究者に呼びかける。
論文 参考訳(メタデータ) (2025-01-31T16:12:23Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols [52.40622903199512]
本稿では,多目的かつ部分的に観察可能なゲームとして,AI-Control Gamesを紹介した。
我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化、評価、合成するために、フォーマリズムを適用した。
論文 参考訳(メタデータ) (2024-09-12T12:30:07Z) - Rethinking Affect Analysis: A Protocol for Ensuring Fairness and Consistency [24.737468736951374]
本稿では,データベース分割のための統一プロトコルを提案する。
我々は、(人種、性別、年齢の観点から)詳細な統計アノテーション、評価指標、および表現認識のための共通のフレームワークを提供する。
また、新しいプロトコルでメソッドを再実行し、より公平な比較で影響認識の今後の研究を促進するための新しいリーダーボードを導入します。
論文 参考訳(メタデータ) (2024-08-04T23:21:46Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Counterfactually Evaluating Explanations in Recommender Systems [14.938252589829673]
人間の関与なしに計算できるオフライン評価手法を提案する。
従来の手法と比較して,本手法は実際の人間の判断とより相関した評価スコアを得られることを示す。
論文 参考訳(メタデータ) (2022-03-02T18:55:29Z) - On the Interaction of Belief Bias and Explanations [4.211128681972148]
我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について述べる。
本研究では,評価における信念バイアスを考慮に入れることの重要性を指摘しながら,このような制御を導入する際に,最高性能の手法に関する結論が変化することを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:42Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。