論文の概要: Control Tax: The Price of Keeping AI in Check
- arxiv url: http://arxiv.org/abs/2506.05296v2
- Date: Sat, 14 Jun 2025 18:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:31.596784
- Title: Control Tax: The Price of Keeping AI in Check
- Title(参考訳): 規制税:AIのチェックを継続する価格
- Authors: Mikhail Terekhov, Zhen Ning David Liu, Caglar Gulcehre, Samuel Albanie,
- Abstract要約: 我々は、AIパイプラインに制御手段を統合するための運用的および財政的コストである制御税の概念を導入する。
我々は,現在最先端の言語モデルに関する総合的な評価を,敵対的設定で実施する。
制御プロトコルに対する実証的な金銭的コスト見積を行い、最適化されたモニタリング戦略を開発する。
- 参考スコア(独自算出の注目度): 22.94651464417764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid integration of agentic AI into high-stakes real-world applications requires robust oversight mechanisms. The emerging field of AI Control (AIC) aims to provide such an oversight mechanism, but practical adoption depends heavily on implementation overhead. To study this problem better, we introduce the notion of Control tax -- the operational and financial cost of integrating control measures into AI pipelines. Our work makes three key contributions to the field of AIC: (1) we introduce a theoretical framework that quantifies the Control Tax and maps classifier performance to safety assurances; (2) we conduct comprehensive evaluations of state-of-the-art language models in adversarial settings, where attacker models insert subtle backdoors into code while monitoring models attempt to detect these vulnerabilities; and (3) we provide empirical financial cost estimates for control protocols and develop optimized monitoring strategies that balance safety and cost-effectiveness while accounting for practical constraints like auditing budgets. Our framework enables practitioners to make informed decisions by systematically connecting safety guarantees with their costs, advancing AIC through principled economic feasibility assessment across different deployment contexts.
- Abstract(参考訳): エージェントAIの高度な実世界のアプリケーションへの迅速な統合には、堅牢な監視メカニズムが必要である。
AIコントロール(AIC)の新たな分野は、このような監視メカニズムの提供を目標としているが、実践的な採用は実装のオーバーヘッドに大きく依存している。
この問題をよりよく研究するために、AIパイプラインに制御手段を統合するための運用的および財政的コストである制御税の概念を紹介します。
本研究はAICの分野に3つの重要な貢献をしている:(1)制御税と分類器の性能を安全保証に定量化する理論的枠組み、(2)攻撃的モデルがこれらの脆弱性を検知しようとする間、コードに微妙なバックドアを挿入する対人的設定における最先端言語モデルの包括的評価、(3)制御プロトコルに対する実証的な金銭的コスト見積の提供、そして、監査予算のような現実的な制約を考慮しつつ、安全性とコスト効率のバランスをとるための最適化された監視戦略を開発する。
本フレームワークは,安全保証とコストを体系的に結合し,異なる展開状況における経済性評価を通じてAICを推し進めることによって,実践者がインフォームド・ディベロップメントを行うことを可能にする。
関連論文リスト
- In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI [93.33036653316591]
我々はシステムの安全性を高めるために3つの介入を要求します。
まず、標準化されたAI欠陥レポートと研究者へのエンゲージメントのルールを用いることを提案する。
第2に,GPAIシステムプロバイダが広視野欠陥開示プログラムを採用することを提案する。
第3に,欠陥報告の分布を調整するための改良されたインフラの開発を提唱する。
論文 参考訳(メタデータ) (2025-03-21T05:09:46Z) - Policy Frameworks for Transparent Chain-of-Thought Reasoning in Large Language Models [1.0088912103548195]
CoT(Chain-of-Thought)推論は、複雑な問題をステップバイステップのソリューションに分解することで、大きな言語モデル(LLM)を強化する。
現在のCoT開示ポリシは、可視性、APIアクセス、価格戦略など、さまざまなモデルで大きく異なり、統一されたポリシフレームワークが欠如している。
学術,ビジネス,一般ユーザ向けにCoTの可用性を調整し,透明性,説明責任,セキュリティのバランスをとるタイレッドアクセスポリシフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T19:54:18Z) - A Framework for Assurance Audits of Algorithmic Systems [2.2342503377379725]
本稿では,運用可能なコンプライアンスおよび保証外部監査フレームワークとして,基準監査を提案する。
AI監査も同様に、AI組織が人間の価値を害し、維持する方法でアルゴリズムを管理する能力について、ステークホルダーに保証を提供するべきだ、と私たちは主張する。
我々は、より成熟した金融監査産業の実践をAI監査に適用する上でのメリット、固有の制限、実装上の課題について、批判的な議論をすることで締めくくります。
論文 参考訳(メタデータ) (2024-01-26T14:38:54Z) - AI auditing: The Broken Bus on the Road to AI Accountability [1.9758196889515185]
「AI監査」エコシステムは泥だらけで不正確で、様々な概念を掘り下げて、実践に関わるステークホルダーをマップアウトするのは困難です。
まず、規制当局、法律事務所、市民社会、ジャーナリズム、アカデミック、コンサルティング機関による現在のAI監査の実践を分類する。
私たちは、AI監査研究のごく一部だけが、望ましい説明責任の結果に変換されていることに気付きました。
論文 参考訳(メタデータ) (2024-01-25T19:00:29Z) - Value Functions are Control Barrier Functions: Verification of Safe
Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。
我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。
我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-06-06T21:41:31Z) - Auditing large language models: a three-layered approach [0.0]
大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。
LLMはまた、重大な倫理的・社会的課題と結びついている。
これまでの研究は、監査を有望なガバナンスメカニズムとして取り上げてきた。
論文 参考訳(メタデータ) (2023-02-16T18:55:21Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。