論文の概要: Model-Based Soft Maximization of Suitable Metrics of Long-Term Human Power
- arxiv url: http://arxiv.org/abs/2508.00159v2
- Date: Mon, 04 Aug 2025 21:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.092895
- Title: Model-Based Soft Maximization of Suitable Metrics of Long-Term Human Power
- Title(参考訳): 長期人力の適度な測定値のモデルベースソフト最大化
- Authors: Jobst Heitzig, Ram Potham,
- Abstract要約: 本稿では、AIエージェントに人間に力を与えるよう強制することで、安全と幸福の両方を促進するという考え方を探求する。
我々は、不等式とリスク・逆の人間の力の長期的集合を表す、パラメトリゾブルで分解可能な目的関数を設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Power is a key concept in AI safety: power-seeking as an instrumental goal, sudden or gradual disempowerment of humans, power balance in human-AI interaction and international AI governance. At the same time, power as the ability to pursue diverse goals is essential for wellbeing. This paper explores the idea of promoting both safety and wellbeing by forcing AI agents explicitly to empower humans and to manage the power balance between humans and AI agents in a desirable way. Using a principled, partially axiomatic approach, we design a parametrizable and decomposable objective function that represents an inequality- and risk-averse long-term aggregate of human power. It takes into account humans' bounded rationality and social norms, and, crucially, considers a wide variety of possible human goals. We derive algorithms for computing that metric by backward induction or approximating it via a form of multi-agent reinforcement learning from a given world model. We exemplify the consequences of (softly) maximizing this metric in a variety of paradigmatic situations and describe what instrumental sub-goals it will likely imply. Our cautious assessment is that softly maximizing suitable aggregate metrics of human power might constitute a beneficial objective for agentic AI systems that is safer than direct utility-based objectives.
- Abstract(参考訳): AIの安全性において、電力は重要な概念である。機器的目標としての電力探索、人間の突然または段階的な分散、人間とAIの相互作用における電力収支、国際AIガバナンスである。
同時に、多様な目標を追求する能力としての力は、幸福のために不可欠である。
本稿では、AIエージェントに対して、人間に力を与え、人間とAIエージェントのパワーバランスを望ましい方法で管理させることによって、安全と幸福の両立を促進するという考え方を探求する。
原理的,部分的に公理的アプローチを用いて,人間力の不平等とリスク・逆の長期的集約を表す,パラメトリゾブルで分解可能な目的関数を設計する。
人間の有界な合理性と社会的規範を考慮に入れ、決定的に、人類の様々な目標を考慮に入れている。
我々は、その計量を後方帰納法で計算したり、特定の世界モデルから多エージェント強化学習の形で近似することで計算するアルゴリズムを導出する。
我々は、この計量を様々なパラダイム的状況において(ソフトに)最大化した結果を例示し、それが示唆するインストゥルメンタル・サブゴールについて記述する。
我々の慎重な評価は、人間の力の適切な集約メトリクスをソフトに最大化することは、直接のユーティリティベースの目的よりも安全であるエージェントAIシステムにとって有益な目的であるかもしれないということです。
関連論文リスト
- Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Universal AI maximizes Variational Empowerment [0.0]
我々は、自己学習エージェントであるSelf-AIXIの既存のフレームワークの上に構築する。
ユニバーサルAIエージェントのパワーサーキング傾向は、将来の報酬を確保するための手段戦略として説明できる、と我々は主張する。
私たちの主な貢献は、これらのモチベーションがAIエージェントを体系的に高オプション状態を探し、維持する方法を示すことです。
論文 参考訳(メタデータ) (2025-02-20T02:58:44Z) - A Beautiful Mind: Principles and Strategies for AI-Augmented Human Reasoning [0.0]
本稿では,人間中心型拡張推論パラダイムについて概説する。
人間の推論とAIアルゴリズムのブリッジとして機能するインタラクションモードの例を提供する。
論文 参考訳(メタデータ) (2025-02-05T20:57:29Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。
AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Human-AI Safety: A Descendant of Generative AI and Control Systems Safety [6.100304850888953]
先進的なAI技術に対する有意義な安全性保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と我々は主張する。
我々は、次世代の人間中心AI安全性に向けた具体的な技術ロードマップを提案する。
論文 参考訳(メタデータ) (2024-05-16T03:52:00Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Reinforcement Learning Interventions on Boundedly Rational Human Agents
in Frictionful Tasks [25.507656595628376]
本稿では,AIエージェントがマルコフ決定プロセス(MDP)のパラメータに介入する枠組みを紹介する。
私たちは、人間のモデルによるAI計画が、より複雑で地道な人間の幅広い政策に結びつくことを示しています。
論文 参考訳(メタデータ) (2024-01-26T14:59:48Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - A Cognitive Framework for Delegation Between Error-Prone AI and Human
Agents [0.0]
本研究では,認知にインスパイアされた行動モデルを用いて,人間エージェントとAIエージェントの両方の行動を予測する。
予測された振る舞いは、仲介者の使用を通じて人間とAIエージェントの制御を委譲するために使用される。
論文 参考訳(メタデータ) (2022-04-06T15:15:21Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。