論文の概要: Emergent Risk Awareness in Rational Agents under Resource Constraints
- arxiv url: http://arxiv.org/abs/2505.23436v2
- Date: Sun, 01 Jun 2025 07:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.06112
- Title: Emergent Risk Awareness in Rational Agents under Resource Constraints
- Title(参考訳): 資源制約下における合理的エージェントの創発的リスク認識
- Authors: Daniel Jarne Ornia, Nicholas Bishop, Joel Dyer, Wei-Chen Lee, Ani Calinescu, Doyne Farmer, Michael Wooldridge,
- Abstract要約: この研究は、生存圧力下で活動するAIエージェントの創発的行動の理解と解釈可能性を高めることを目的としている。
我々は、生存駆動の嗜好シフトの影響を定量化する理論的および経験的な結果を提供する。
リスク探索やリスク回避行動の出現を緩和するメカニズムを提案する。
- 参考スコア(独自算出の注目度): 2.3013689524682976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced reasoning models with agentic capabilities (AI agents) are deployed to interact with humans and to solve sequential decision-making problems under (approximate) utility functions and internal models. When such problems have resource or failure constraints where action sequences may be forcibly terminated once resources are exhausted, agents face implicit trade-offs that reshape their utility-driven (rational) behaviour. Additionally, since these agents are typically commissioned by a human principal to act on their behalf, asymmetries in constraint exposure can give rise to previously unanticipated misalignment between human objectives and agent incentives. We formalise this setting through a survival bandit framework, provide theoretical and empirical results that quantify the impact of survival-driven preference shifts, identify conditions under which misalignment emerges and propose mechanisms to mitigate the emergence of risk-seeking or risk-averse behaviours. As a result, this work aims to increase understanding and interpretability of emergent behaviours of AI agents operating under such survival pressure, and offer guidelines for safely deploying such AI systems in critical resource-limited environments.
- Abstract(参考訳): エージェント能力を持つ高度な推論モデル(AIエージェント)は、人間と相互作用し、(近似)ユーティリティ機能と内部モデルの下でのシーケンシャルな意思決定問題を解決するためにデプロイされる。
このような問題にリソースや障害の制約があり、リソースが枯渇するとアクションシーケンスが強制的に終了する可能性がある場合、エージェントは暗黙のトレードオフに直面して、ユーティリティ駆動の(合理的な)振る舞いを再構築する。
さらに、これらのエージェントは、通常、人間のプリンシパルによってその代理として行動するよう依頼されるため、制約曝露の漸近は、人間の目的とエージェントインセンティブの間の予期せぬ不一致を引き起こす可能性がある。
我々は、この設定をサバイバル・バンディットの枠組みで定式化し、サバイバル主導の選好シフトの影響を定量化するための理論的および実証的な結果を提供し、不適応が出現する条件を特定し、リスク・シーキングやリスク・アバースの出現を緩和するためのメカニズムを提案する。
その結果、このような生存圧力下で動作しているAIエージェントの創発的行動の理解と解釈可能性を高め、重要なリソース制限された環境にそのようなAIシステムを安全にデプロイするためのガイドラインを提供する。
関連論文リスト
- Safety Devolution in AI Agents [56.482973617087254]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索補助エージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索が強化され、ますます自律的なAIシステムにおいて、公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Safe Explicable Policy Search [3.3869539907606603]
本稿では、安全リスクを最小化しつつ、説明可能な行動生成のための学習アプローチを提供することを目的とした、安全な説明可能なポリシー探索(SEPS)を提案する。
我々は,SEPSを制約付き最適化問題として定式化し,エージェントは安全性に制約のある説明可能性スコアを最大化することを目的とする。
安全ジャム環境におけるSEPSを評価し, エージェントの安全要件に適合し, 効率のよい説明可能な動作を学習できることを実証するために, 物理ロボット実験を用いて実験を行った。
論文 参考訳(メタデータ) (2025-03-10T20:52:41Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - AI Agents Should be Regulated Based on the Extent of Their Autonomous Operations [8.043534206868326]
AIエージェントは、自律的に動作する範囲で規制されるべきである、と我々は主張する。
既存の規制は、しばしば潜在的な害のプロキシとして計算スケールに焦点を当てる。
我々は,既存のリスクに関する科学者の規制や勧告について論じる。
論文 参考訳(メタデータ) (2025-02-07T09:40:48Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。