論文の概要: Mitigating loss of control in advanced AI systems through instrumental goal trajectories
- arxiv url: http://arxiv.org/abs/2602.01699v1
- Date: Mon, 02 Feb 2026 06:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.947131
- Title: Mitigating loss of control in advanced AI systems through instrumental goal trajectories
- Title(参考訳): 先進的AIシステムにおける機器目標軌跡による制御損失の軽減
- Authors: Willem Fourie,
- Abstract要約: 我々は、モデルを超えて選択肢を拡大するための計測目標軌道を開発する。
我々はこれらの経路を、調達、ガバナンス、金融機器目標軌跡(IGT)にラベル付けする。
IGTは、機能レベルを定義し、調整性と割り込み性の実装方法を広げるための具体的な道を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers at artificial intelligence labs and universities are concerned that highly capable artificial intelligence (AI) systems may erode human control by pursuing instrumental goals. Existing mitigations remain largely technical and system-centric: tracking capability in advanced systems, shaping behaviour through methods such as reinforcement learning from human feedback, and designing systems to be corrigible and interruptible. Here we develop instrumental goal trajectories to expand these options beyond the model. Gaining capability typically depends on access to additional technical resources, such as compute, storage, data and adjacent services, which in turn requires access to monetary resources. In organisations, these resources can be obtained through three organisational pathways. We label these pathways the procurement, governance and finance instrumental goal trajectories (IGTs). Each IGT produces a trail of organisational artefacts that can be monitored and used as intervention points when a systems capabilities or behaviour exceed acceptable thresholds. In this way, IGTs offer concrete avenues for defining capability levels and for broadening how corrigibility and interruptibility are implemented, shifting attention from model properties alone to the organisational systems that enable them.
- Abstract(参考訳): 人工知能研究所や大学の研究者は、高度な人工知能(AI)システムが機器の目標を追求することによって人間の制御を損なう可能性があると懸念している。
既存の緩和は主に技術的およびシステム中心であり、高度なシステムにおけるトラッキング能力、人間のフィードバックからの強化学習のような手法による行動の形成、矯正可能で中断可能なシステムの設計である。
ここでは、これらの選択肢をモデルを超えて拡張するために、計測目標軌跡を開発する。
ゲイン機能は通常、計算、ストレージ、データ、および隣接するサービスなどの追加の技術リソースへのアクセスに依存します。
組織では、これらのリソースは3つの組織パスを通じて取得できる。
我々は、これらの経路を、調達、ガバナンス、金融機器目標軌跡(IGT)にラベル付けする。
各IGTは、システム機能や振る舞いが許容範囲を超えた場合、監視および介入ポイントとして使用可能な、組織の成果物の痕跡を生成する。
このようにしてIGTは、機能レベルを定義し、コリリライザと割り込み可能性をどのように実装するかを拡大し、モデルプロパティのみから、それらを可能にする組織システムに注意を移すための具体的な方法を提供します。
関連論文リスト
- Institutional AI: A Governance Framework for Distributional AGI Safety [1.3763052684269788]
AIモデルのコア特性から生じる3つの構造的問題を同定する。
ソリューションはInstitutional AIであり、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである。
論文 参考訳(メタデータ) (2026-01-15T17:08:26Z) - Deep Reinforcement Learning Based Systems for Safety Critical Applications in Aerospace [0.0]
航空宇宙における人工知能(AI)応用の最近の進歩は、かなりの成長を見せている。
高性能コンピューティングプラットフォームは進化を続けており、現在の飛行制御コンピュータやエンジン制御コンピュータを置き換えることが期待されている。
このシフトにより、画像処理や欠陥検出といったリアルタイムAIアプリケーションが、監視システムにシームレスに統合できるようになる。
論文 参考訳(メタデータ) (2024-12-21T05:17:55Z) - A Blueprint for Auditing Generative AI [0.9999629695552196]
生成AIシステムは創発的な能力を示し、幅広い下流タスクに適応できる。
既存の監査手順は、生成的AIシステムによって引き起こされるガバナンスの課題に対処できない。
本稿では、生成AIシステムの設計と普及を行う技術提供者のガバナンス監査、事前学習後の生成AIシステムのモデル監査、生成AIシステムに基づくアプリケーションのアプリケーション監査という3層的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-07T11:56:54Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [96.5899286619008]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Artificial Intelligence in Governance, Risk and Compliance: Results of a study on potentials for the application of artificial intelligence (AI) in governance, risk and compliance (GRC) [0.0]
GRC(Governance, Risk and Compliance)とは、ガバナンスの統合的なアプローチである。
ガバナンス機能は相互にリンクされ、互いに分離されない。
人工知能は、非構造化データセットの処理と分析にGRCで使用されている。
論文 参考訳(メタデータ) (2022-12-07T12:36:10Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Decentralized Control with Graph Neural Networks [147.84766857793247]
分散コントローラを学習するグラフニューラルネットワーク(GNN)を用いた新しいフレームワークを提案する。
GNNは、自然分散アーキテクチャであり、優れたスケーラビリティと転送性を示すため、タスクに適している。
分散コントローラの学習におけるGNNの可能性を説明するために、群れとマルチエージェントパス計画の問題を検討する。
論文 参考訳(メタデータ) (2020-12-29T18:59:14Z) - Learning to Track Dynamic Targets in Partially Known Environments [48.49957897251128]
我々は、アクティブな目標追跡を解決するために、深層強化学習アプローチを用いる。
特に,アクティブ・トラッカー・ターゲティング・ネットワーク(ATTN)を導入し,アクティブ・ターゲティング・ターゲティングの主要なタスクを解決するための統一的なRLポリシーを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:45:24Z) - Distributed and Democratized Learning: Philosophy and Research
Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。
ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。
本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文 参考訳(メタデータ) (2020-03-18T08:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。