論文の概要: Scaling Laws For Scalable Oversight
- arxiv url: http://arxiv.org/abs/2504.18530v1
- Date: Fri, 25 Apr 2025 17:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.866555
- Title: Scaling Laws For Scalable Oversight
- Title(参考訳): スケーラブルな監視のためのスケーリング法則
- Authors: Joshua Engels, David D. Baek, Subhash Kantamneni, Max Tegmark,
- Abstract要約: 本稿では,監視者の能力と監視対象システムの機能として,監視を成功させる確率を定量化する枠組みを提案する。
具体的には、我々のフレームワークモデルは、キャパシティミスマッチしたプレイヤー間のゲームとして見過ごされる。
各ゲームにおいて、ドメインパフォーマンスが汎用AIシステム能力にどのように依存するかを近似するスケーリング法則が見つかる。
- 参考スコア(独自算出の注目度): 6.346193560355804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalable oversight, the process by which weaker AI systems supervise stronger ones, has been proposed as a key strategy to control future superintelligent systems. However, it is still unclear how scalable oversight itself scales. To address this gap, we propose a framework that quantifies the probability of successful oversight as a function of the capabilities of the overseer and the system being overseen. Specifically, our framework models oversight as a game between capability-mismatched players; the players have oversight-specific and deception-specific Elo scores that are a piecewise-linear function of their general intelligence, with two plateaus corresponding to task incompetence and task saturation. We validate our framework with a modified version of the game Nim and then apply it to four oversight games: "Mafia", "Debate", "Backdoor Code" and "Wargames". For each game, we find scaling laws that approximate how domain performance depends on general AI system capability (using Chatbot Arena Elo as a proxy for general capability). We then build on our findings in a theoretical study of Nested Scalable Oversight (NSO), a process in which trusted models oversee untrusted stronger models, which then become the trusted models in the next step. We identify conditions under which NSO succeeds and derive numerically (and in some cases analytically) the optimal number of oversight levels to maximize the probability of oversight success. In our numerical examples, the NSO success rate is below 52% when overseeing systems that are 400 Elo points stronger than the baseline overseer, and it declines further for overseeing even stronger systems.
- Abstract(参考訳): より弱いAIシステムがより強力なAIシステムを監督するプロセスであるスケーラブル監視は、未来の超知能システムを制御するための重要な戦略として提案されている。
しかし、いかにスケーラブルな監視自体がスケールするかはまだ不明だ。
このギャップに対処するため,監視者の能力と監視対象システムの機能として,監視を成功させる確率を定量化する枠組みを提案する。
具体的には、我々のフレームワークモデルは、能力のミスマッチしたプレイヤー同士のゲームとして見過ごされ、プレイヤーは、タスクの非能力とタスク飽和に対応する2つのプラトーを持つ汎用知能の断片的な線形関数である、見過ごされ、騙され特異的なエロスコアを持つ。
ゲームNimの修正版で我々のフレームワークを検証し、それを"Mafia"、"Debate"、"Backdoor Code"、"Wargames"の4つの監視ゲームに適用する。
各ゲームにおいて、ドメインパフォーマンスが一般的なAIシステム能力にどのように依存するかを近似するスケーリング法則が見つかる(一般的な能力のプロキシとしてChatbot Arena Eloを使用)。
NSO(Nested Scalable Oversight)は、信頼できるモデルが信頼できない強力なモデルを監督し、次のステップで信頼できるモデルになるプロセスである。
我々は、NSOが成功し、数値的に導出される条件を、監視成功の確率を最大化するために、最適な監視レベルの数(場合によっては分析的に)を特定する。
数値的な例では、NSO成功率は、ベースライン監督者よりも400エロ点の強いシステムを監督する場合の52%以下であり、さらに強いシステムを監督する場合は、さらに減少する。
関連論文リスト
- Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。
我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。
試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文 参考訳(メタデータ) (2025-04-10T15:07:10Z) - V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。
V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Great Models Think Alike and this Undermines AI Oversight [47.7725284401918]
モデル類似性がAI監視の両面に与える影響について検討する。
モデル誤りの重複に基づくLM類似性の確率論的尺度を提案する。
我々の研究は、モデル類似性の報告と修正の重要性を強調します。
論文 参考訳(メタデータ) (2025-02-06T18:56:01Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Scaling Laws for Imitation Learning in Single-Agent Games [28.257046559127875]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Evaluating Superhuman Models with Consistency Checks [14.04919745612553]
整合性チェックによる超人的モデル評価のためのフレームワークを提案する。
決定の正確性を評価するのが難しい3つのタスクについて、我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2023-06-16T17:26:38Z) - OPERA: Omni-Supervised Representation Learning with Hierarchical
Supervisions [94.31804364707575]
我々は,Omni-suPErvised Representation leArning withhierarchical supervisions (OPERA) を解法として提案する。
画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。
畳み込みニューラルネットワークと視覚変換器の両方の実験は、画像分類、セグメンテーション、オブジェクト検出におけるOPERAの優位性を実証している。
論文 参考訳(メタデータ) (2022-10-11T15:51:31Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。