論文の概要: Out of Control -- Why Alignment Needs Formal Control Theory (and an Alignment Control Stack)
- arxiv url: http://arxiv.org/abs/2506.17846v1
- Date: Sat, 21 Jun 2025 22:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.613399
- Title: Out of Control -- Why Alignment Needs Formal Control Theory (and an Alignment Control Stack)
- Title(参考訳): 制御の外部 -アライメントが形式制御理論(およびアライメント制御スタック)を必要とする理由
- Authors: Elija Perrier,
- Abstract要約: このポジションペーパーでは、形式的最適制御理論はAIアライメント研究の中心となるべきであると論じている。
それは、一般的なAIの安全性とセキュリティのアプローチとは異なる視点を提供する。
- 参考スコア(独自算出の注目度): 0.6526824510982799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that formal optimal control theory should be central to AI alignment research, offering a distinct perspective from prevailing AI safety and security approaches. While recent work in AI safety and mechanistic interpretability has advanced formal methods for alignment, they often fall short of the generalisation required of control frameworks for other technologies. There is also a lack of research into how to render different alignment/control protocols interoperable. We argue that by recasting alignment through principles of formal optimal control and framing alignment in terms of hierarchical stack from physical to socio-technical layers according to which controls may be applied we can develop a better understanding of the potential and limitations for controlling frontier models and agentic AI systems. To this end, we introduce an Alignment Control Stack which sets out a hierarchical layered alignment stack, identifying measurement and control characteristics at each layer and how different layers are formally interoperable. We argue that such analysis is also key to the assurances that will be needed by governments and regulators in order to see AI technologies sustainably benefit the community. Our position is that doing so will bridge the well-established and empirically validated methods of optimal control with practical deployment considerations to create a more comprehensive alignment framework, enhancing how we approach safety and reliability for advanced AI systems.
- Abstract(参考訳): このポジションペーパーでは、フォーマルな最適制御理論はAIアライメント研究の中心であり、AIの安全性とセキュリティのアプローチとは異なる視点を提供するべきだと論じている。
AIの安全性と機械的解釈可能性に関する最近の研究は、アライメントのためのフォーマルな手法が進歩しているが、他の技術のフレームワークを制御するのに必要な一般化に欠けることが多い。
また、異なるアライメント/コントロールプロトコルを相互運用可能にする方法についての研究も不足している。
物理層から社会技術的層への階層的スタックの観点による形式的最適制御とフレーミング的アライメントの原則を通じてアライメントをリキャストすることで、フロンティアモデルとエージェントAIシステムを制御する可能性と限界をよりよく理解することができる、と我々は論じる。
この目的のために、階層的な階層配置スタックを設定し、各層における測定および制御特性を特定し、異なる層が正式に相互運用可能であるかを特定するアライメント制御スタックを導入する。
このような分析は、AI技術がコミュニティに持続的に利益をもたらすためには、政府や規制当局が必要とする保証の鍵でもある、と我々は主張する。
私たちの立場では、適切に確立され実証された最適な制御方法と実践的なデプロイメントの考慮を橋渡しして、より包括的なアライメントフレームワークを作成し、高度なAIシステムの安全性と信頼性にどのようにアプローチするかを向上します。
関連論文リスト
- Explainable AI Systems Must Be Contestable: Here's How to Make It Happen [2.5875936082584623]
本稿では、説明可能なAIにおける競合性の最初の厳密な形式的定義について述べる。
我々は、ヒューマン中心のインターフェース、技術プロセス、組織アーキテクチャにまたがる、設計やポストホックメカニズムのモジュール化されたフレームワークを紹介します。
私たちの作業は実践者に、真のリコースと説明責任をAIシステムに組み込むためのツールを提供しています。
論文 参考訳(メタデータ) (2025-06-02T13:32:05Z) - Human-AI Governance (HAIG): A Trust-Utility Approach [0.0]
本稿では,人間とAIの関係が進化する中で,信頼のダイナミクスを分析するためのHAIGフレームワークを紹介する。
我々の分析は、自己監督、推論権限、分散意思決定の技術的進歩が、不均一な信頼の進化をいかに引き起こすかを明らかにする。
論文 参考訳(メタデータ) (2025-05-03T01:57:08Z) - Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills [10.43221469116584]
本稿では,特定のタスクに合わせて,カスタマイズされた状態表現と制御戦略を作成するメタコントロルを提案する。
私たちの中核的な洞察は、人間の専門家が制御システムの設計に使用する思考プロセスを自動化するために、メタ制御システムを構築することができるということです。
論文 参考訳(メタデータ) (2024-05-18T19:58:44Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - A General Framework for Verification and Control of Dynamical Models via Certificate Synthesis [54.959571890098786]
システム仕様を符号化し、対応する証明書を定義するためのフレームワークを提供する。
コントローラと証明書を形式的に合成する自動化手法を提案する。
我々のアプローチは、ニューラルネットワークの柔軟性を利用して、制御のための安全な学習の幅広い分野に寄与する。
論文 参考訳(メタデータ) (2023-09-12T09:37:26Z) - Probabilistic Control and Majorization of Optimal Control [3.2634122554914002]
確率論的制御設計は、有理エージェントが任意の所望の閉ループ系軌道密度をモデル化しようとする原理に基づいている。
本研究では、所望の閉ループ挙動の代替パラメトリゼーションを導入し、密度間の代替近接測度を探索する。
論文 参考訳(メタデータ) (2022-05-06T15:04:12Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。