論文の概要: Instrumental goals in advanced AI systems: Features to be managed and not failures to be eliminated?
- arxiv url: http://arxiv.org/abs/2510.25471v1
- Date: Wed, 29 Oct 2025 12:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.57618
- Title: Instrumental goals in advanced AI systems: Features to be managed and not failures to be eliminated?
- Title(参考訳): 高度なAIシステムにおける計測目標: 管理すべき機能と、削除すべき障害?
- Authors: Willem Fourie,
- Abstract要約: 人工知能(AI)アライメント研究において、インストゥルメンタル・ゴール(インストゥルメンタル・サブゴール、インストゥルメンタル・コンストゥルメンタル・コンセント・ゴール)は、先進的なAIシステムと広く関連付けられている。
これらの目標には、パワー・シーキングや自己保存といった傾向が含まれており、人間の目的と矛盾する場合に問題となる。
インストゥルメンタルなゴールは、障害を限定するのではなく、受け入れ、管理すべき機能として理解されるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In artificial intelligence (AI) alignment research, instrumental goals, also called instrumental subgoals or instrumental convergent goals, are widely associated with advanced AI systems. These goals, which include tendencies such as power-seeking and self-preservation, become problematic when they conflict with human aims. Conventional alignment theory treats instrumental goals as sources of risk that become problematic through failure modes such as reward hacking or goal misgeneralization, and attempts to limit the symptoms of instrumental goals, notably resource acquisition and self-preservation. This article proposes an alternative framing: that a philosophical argument can be constructed according to which instrumental goals may be understood as features to be accepted and managed rather than failures to be limited. Drawing on Aristotle's ontology and its modern interpretations, an ontology of concrete, goal-directed entities, it argues that advanced AI systems can be seen as artifacts whose formal and material constitution gives rise to effects distinct from their designers' intentions. In this view, the instrumental tendencies of such systems correspond to per se outcomes of their constitution rather than accidental malfunctions. The implication is that efforts should focus less on eliminating instrumental goals and more on understanding, managing, and directing them toward human-aligned ends.
- Abstract(参考訳): 人工知能(AI)アライメント研究において、インストゥルメンタル・ゴール(インストゥルメンタル・サブゴール、インストゥルメンタル・コンストゥルメンタル・コンセント・ゴール)は、先進的なAIシステムと広く関連付けられている。
これらの目標には、パワー・シーキングや自己保存といった傾向が含まれており、人間の目的と矛盾する場合に問題となる。
従来のアライメント理論は、楽器の目標を、報酬のハッキングや目標の一般化といった障害モードによって問題となるリスクの源として扱い、特に資源獲得や自己保存といった機器の目標の症状を制限する試みである。
本論では,障害を限定するよりも,機器の目的が受け入れられ,管理される機能として理解されるような,哲学的な議論を構築できる,という代替の枠組みを提案する。
アリストテレスのオントロジーと、具体的でゴール指向の実体のオントロジーである現代の解釈に基づいて、先進的なAIシステムは形式的で物質的な構成がデザイナーの意図とは異なる効果をもたらす人工物と見なすことができると論じている。
この観点では、そのようなシステムの装置的傾向は、偶発的誤動作よりも、構成のセマンティックな結果に一致する。
意味するところは、努力は道具的目標の排除よりも、人間に沿った目的への理解、管理、指示に重点を置くべきだということです。
関連論文リスト
- Stochastic, Dynamic, Fluid Autonomy in Agentic AI: Implications for Authorship, Inventorship, and Liability [0.2209921757303168]
エージェントAIシステムは、暗黙の学習を通じて戦略を適応し、自律的に目標を追求する。
人間と機械の貢献は、相互に絡み合った創造的なプロセスに不可避的に絡まってしまう。
法律と政策の枠組みは、人間と機械の貢献を機能的に同等に扱う必要があるかもしれないと我々は主張する。
論文 参考訳(メタデータ) (2025-04-05T04:44:59Z) - AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。
このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文 参考訳(メタデータ) (2025-03-04T03:55:38Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Position: Towards Bidirectional Human-AI Alignment [109.57781720848669]
我々は、人間とAIの双方向的・動的関係を説明するために、研究コミュニティは「調整」を明確に定義し、批判的に反映すべきであると主張する。
このフレームワークは、AIと人間の価値を整合させる従来の取り組みを取り入れているだけでなく、人間とAIを整合させるという、重要で未解明の次元も導入しています。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - The Reasons that Agents Act: Intention and Instrumental Goals [24.607124467778036]
AIエージェントに適用可能な、普遍的に受け入れられる意図の理論は存在しない。
我々は,エージェントが決定を下す理由に関して,エージェントが行動する意図を運用する。
我々の定義は、意図という直感的な概念を捉え、過去の作業によって設定されたデシダラタを満足させる。
論文 参考訳(メタデータ) (2024-02-11T14:39:40Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。