論文の概要: Scalable Oversight via Partitioned Human Supervision
- arxiv url: http://arxiv.org/abs/2510.22500v1
- Date: Sun, 26 Oct 2025 02:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.222651
- Title: Scalable Oversight via Partitioned Human Supervision
- Title(参考訳): 分割されたヒューマンスーパービジョンによるスケーラブルな監視
- Authors: Ren Yin, Takashi Ishida, Masashi Sugiyama,
- Abstract要約: 優れた人間の専門家でさえ、単一の狭い領域でしか知識がない。
人間は弱い信号、すなわち、誤ったオプションを示す補完的なラベルを提供することができる。
我々は,フロンティアAIシステムを評価するためのスケーラブルな監視フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.001801756596926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) systems approach and surpass expert human performance across a broad range of tasks, obtaining high-quality human supervision for evaluation and training becomes increasingly challenging. Our focus is on tasks that require deep knowledge and skills of multiple domains. Unfortunately, even the best human experts are knowledgeable only in a single narrow area, and will not be able to evaluate the correctness of advanced AI systems on such superhuman tasks. However, based on their narrow expertise, humans may provide a weak signal, i.e., a complementary label indicating an option that is incorrect. For example, a cardiologist could state that "this is not related to cardiology,'' even if they cannot identify the true disease. Based on this weak signal, we propose a scalable oversight framework that enables us to evaluate frontier AI systems without the need to prepare the ground truth. We derive an unbiased estimator of top-1 accuracy from complementary labels and quantify how many complementary labels are needed to match the variance of ordinary labels. We further introduce two estimators to combine scarce ordinary labels with abundant complementary labels. We provide finite-sample deviation guarantees for both complementary-only and the mixed estimators. Empirically, we show that we can evaluate the output of large language models without the ground truth, if we have complementary labels. We further show that we can train an AI system with such weak signals: we show how we can design an agentic AI system automatically that can perform better with this partitioned human supervision. Our code is available at https://github.com/R-Yin-217/Scalable-Oversight-via-Human-Partitioned-Supervision.
- Abstract(参考訳): 人工知能(AI)システムが幅広いタスクにわたって専門的な人間のパフォーマンスにアプローチし、超越するにつれ、評価とトレーニングのための高品質な人間の監督を得ることはますます困難になっている。
私たちは、複数のドメインの深い知識とスキルを必要とするタスクに重点を置いています。
残念ながら、優れた人間の専門家でさえ、単一の狭い領域でしか知識がなく、そのような超人的なタスクにおいて高度なAIシステムの正確性を評価することはできない。
しかし、その専門知識が狭いことから、人間は弱い信号、すなわち、誤った選択肢を示す補完的なラベルを提供するかもしれない。
例えば、心臓科医は、真の病気を特定できない場合でも、「これは心臓学とは無関係だ」と述べている。
この弱い信号に基づいて、我々は、基礎的な真実を準備することなく、フロンティアAIシステムを評価するスケーラブルな監視フレームワークを提案する。
我々は、相補ラベルからトップ1精度の偏りのない推定器を導出し、通常のラベルのばらつきに合わせて、相補ラベルがいくつ必要かを定量化する。
さらに,少ない通常のラベルと豊富な相補的なラベルを組み合わせるための2つの推定器を導入する。
補関数のみと混合推定器の両方に対して有限サンプル偏差保証を提供する。
実験により,補完ラベルが存在する場合,基礎的な事実を伴わずに大規模言語モデルの出力を評価することができることを示す。
私たちはさらに、このような弱い信号でAIシステムをトレーニングできることを示し、この分割された人間の監督によってより良く機能するエージェントAIシステムを、どのように自動的に設計できるかを示します。
私たちのコードはhttps://github.com/R-Yin-217/Scalable-Oversight-via-Human-Partitioned-Supervisionで公開されています。
関連論文リスト
- Explainable AI for Collaborative Assessment of 2D/3D Registration Quality [50.65650507103078]
本稿では,2D/3D登録品質検証に特化して訓練された最初の人工知能フレームワークを提案する。
我々の説明可能なAI(XAI)アプローチは、人間のオペレーターに対する情報意思決定を強化することを目的としている。
論文 参考訳(メタデータ) (2025-07-23T15:28:57Z) - Beyond Black-Box AI: Interpretable Hybrid Systems for Dementia Care [2.4339626079536925]
近年の大規模言語モデル(LLM)のブームは、人工知能(AI)システムが医療診断に役立つという期待を再燃させた。
ベンチマークスコアはめちゃくちゃですが、LCMアシスタントはまだベッドサイドで測定可能な改善を提供していません。
このスクーピングレビューは、臨床現場で実践的な貢献をするためにAIが制限されている領域を強調することを目的としている。
論文 参考訳(メタデータ) (2025-07-02T01:43:06Z) - Image Quality Assessment for Embodied AI [103.66095742463195]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - On the Interplay of Human-AI Alignment,Fairness, and Performance Trade-offs in Medical Imaging [3.054669417364281]
この領域における人間とAIの整合性と公正性に関する最初の体系的な調査を提供する。
以上の結果から,人間の洞察を取り入れることで,公平さのギャップを減らし,領域外一般化を促進することが示唆された。
これらの結果は、公正で堅牢で汎用的な医療AIシステムを開発するための、有望なアプローチとして、人間とAIのアライメントを強調している。
論文 参考訳(メタデータ) (2025-05-15T12:43:23Z) - Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-05T11:33:18Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - A Human-Centric Assessment Framework for AI [11.065260433086024]
説明可能なAIシステムをどのように評価すべきかに関して合意された基準はない。
チューリングテストに触発されて,人間中心のアセスメントフレームワークを導入する。
このセットアップは、広範囲の人間中心のAIシステムアセスメントのためのフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-05-25T12:59:13Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。