論文の概要: Instrumental goals in advanced AI systems: Features to be managed and not failures to be eliminated?
- arxiv url: http://arxiv.org/abs/2510.25471v1
- Date: Wed, 29 Oct 2025 12:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.57618
- Title: Instrumental goals in advanced AI systems: Features to be managed and not failures to be eliminated?
- Title(参考訳): 高度なAIシステムにおける計測目標: 管理すべき機能と、削除すべき障害?
- Authors: Willem Fourie,
- Abstract要約: 人工知能(AI)アライメント研究において、インストゥルメンタル・ゴール(インストゥルメンタル・サブゴール、インストゥルメンタル・コンストゥルメンタル・コンセント・ゴール)は、先進的なAIシステムと広く関連付けられている。
これらの目標には、パワー・シーキングや自己保存といった傾向が含まれており、人間の目的と矛盾する場合に問題となる。
インストゥルメンタルなゴールは、障害を限定するのではなく、受け入れ、管理すべき機能として理解されるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In artificial intelligence (AI) alignment research, instrumental goals, also called instrumental subgoals or instrumental convergent goals, are widely associated with advanced AI systems. These goals, which include tendencies such as power-seeking and self-preservation, become problematic when they conflict with human aims. Conventional alignment theory treats instrumental goals as sources of risk that become problematic through failure modes such as reward hacking or goal misgeneralization, and attempts to limit the symptoms of instrumental goals, notably resource acquisition and self-preservation. This article proposes an alternative framing: that a philosophical argument can be constructed according to which instrumental goals may be understood as features to be accepted and managed rather than failures to be limited. Drawing on Aristotle's ontology and its modern interpretations, an ontology of concrete, goal-directed entities, it argues that advanced AI systems can be seen as artifacts whose formal and material constitution gives rise to effects distinct from their designers' intentions. In this view, the instrumental tendencies of such systems correspond to per se outcomes of their constitution rather than accidental malfunctions. The implication is that efforts should focus less on eliminating instrumental goals and more on understanding, managing, and directing them toward human-aligned ends.
- Abstract(参考訳): 人工知能(AI)アライメント研究において、インストゥルメンタル・ゴール(インストゥルメンタル・サブゴール、インストゥルメンタル・コンストゥルメンタル・コンセント・ゴール)は、先進的なAIシステムと広く関連付けられている。
これらの目標には、パワー・シーキングや自己保存といった傾向が含まれており、人間の目的と矛盾する場合に問題となる。
従来のアライメント理論は、楽器の目標を、報酬のハッキングや目標の一般化といった障害モードによって問題となるリスクの源として扱い、特に資源獲得や自己保存といった機器の目標の症状を制限する試みである。
本論では,障害を限定するよりも,機器の目的が受け入れられ,管理される機能として理解されるような,哲学的な議論を構築できる,という代替の枠組みを提案する。
アリストテレスのオントロジーと、具体的でゴール指向の実体のオントロジーである現代の解釈に基づいて、先進的なAIシステムは形式的で物質的な構成がデザイナーの意図とは異なる効果をもたらす人工物と見なすことができると論じている。
この観点では、そのようなシステムの装置的傾向は、偶発的誤動作よりも、構成のセマンティックな結果に一致する。
意味するところは、努力は道具的目標の排除よりも、人間に沿った目的への理解、管理、指示に重点を置くべきだということです。
関連論文リスト
- Mitigating loss of control in advanced AI systems through instrumental goal trajectories [0.0]
我々は、モデルを超えて選択肢を拡大するための計測目標軌道を開発する。
我々はこれらの経路を、調達、ガバナンス、金融機器目標軌跡(IGT)にラベル付けする。
IGTは、機能レベルを定義し、調整性と割り込み性の実装方法を広げるための具体的な道を提供する。
論文 参考訳(メタデータ) (2026-02-02T06:13:21Z) - Institutional AI: A Governance Framework for Distributional AGI Safety [1.3763052684269788]
AIモデルのコア特性から生じる3つの構造的問題を同定する。
ソリューションはInstitutional AIであり、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである。
論文 参考訳(メタデータ) (2026-01-15T17:08:26Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Language Models Identify Ambiguities and Exploit Loopholes [67.74087963315213]
ループホールに対する大規模言語モデル(LLM)の応答について検討する。
ループホールを利用するモデルは、曖昧さと矛盾する目標の両方を明確に識別し、推論する。
論文 参考訳(メタデータ) (2025-08-27T03:40:17Z) - Stochastic, Dynamic, Fluid Autonomy in Agentic AI: Implications for Authorship, Inventorship, and Liability [0.2209921757303168]
エージェントAIシステムは、暗黙の学習を通じて戦略を適応し、自律的に目標を追求する。
人間と機械の貢献は、相互に絡み合った創造的なプロセスに不可避的に絡まってしまう。
法律と政策の枠組みは、人間と機械の貢献を機能的に同等に扱う必要があるかもしれないと我々は主張する。
論文 参考訳(メタデータ) (2025-04-05T04:44:59Z) - AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。
このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文 参考訳(メタデータ) (2025-03-04T03:55:38Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Position: Towards Bidirectional Human-AI Alignment [109.57781720848669]
我々は、人間とAIの双方向的・動的関係を説明するために、研究コミュニティは「調整」を明確に定義し、批判的に反映すべきであると主張する。
このフレームワークは、AIと人間の価値を整合させる従来の取り組みを取り入れているだけでなく、人間とAIを整合させるという、重要で未解明の次元も導入しています。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - The Reasons that Agents Act: Intention and Instrumental Goals [24.607124467778036]
AIエージェントに適用可能な、普遍的に受け入れられる意図の理論は存在しない。
我々は,エージェントが決定を下す理由に関して,エージェントが行動する意図を運用する。
我々の定義は、意図という直感的な概念を捉え、過去の作業によって設定されたデシダラタを満足させる。
論文 参考訳(メタデータ) (2024-02-11T14:39:40Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。