論文の概要: Visibility into AI Agents
- arxiv url: http://arxiv.org/abs/2401.13138v1
- Date: Tue, 23 Jan 2024 23:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:51:08.350958
- Title: Visibility into AI Agents
- Title(参考訳): AIエージェントへの可視性
- Authors: Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond,
Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt,
Lennart Heim, Markus Anderljung
- Abstract要約: AIエージェントに対する商業的、科学的、政府的、個人的活動の委譲の増加は、既存の社会的リスクを悪化させる可能性がある。
我々はAIエージェントの視認性を高めるための3つの尺度を評価する。
- 参考スコア(独自算出の注目度): 9.311198535244023
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Increased delegation of commercial, scientific, governmental, and personal
activities to AI agents -- systems capable of pursuing complex goals with
limited supervision -- may exacerbate existing societal risks and introduce new
risks. Understanding and mitigating these risks involves critically evaluating
existing governance structures, revising and adapting these structures where
needed, and ensuring accountability of key stakeholders. Information about
where, why, how, and by whom certain AI agents are used, which we refer to as
\textbf{visibility}, is critical to these objectives. In this paper, we assess
three categories of measures to increase visibility into AI agents:
\textbf{agent identifiers}, \textbf{real-time monitoring}, and \textbf{activity
logging}. For each, we outline potential implementations that vary in
intrusiveness and informativeness. We analyze how the measures apply across a
spectrum of centralized through decentralized deployment contexts, accounting
for various actors in the supply chain including hardware and software service
providers. Finally, we discuss the implications of our measures for privacy and
concentration of power. Further work into understanding the measures and
mitigating their negative impacts can help to build a foundation for the
governance of AI agents.
- Abstract(参考訳): aiエージェントへの商業的、科学的、政府的、個人的活動の派遣が増加すると、既存の社会的なリスクを悪化させ、新たなリスクをもたらす可能性がある。
これらのリスクの理解と緩和には、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を改訂し、適応させ、主要なステークホルダーの説明責任を確保することが含まれる。
我々が \textbf{visibility}と呼ぶ特定のaiエージェントを使用する場所、理由、方法、および方法に関する情報は、これらの目的にとって重要である。
本稿では,aiエージェントの可視性を高めるための3つの指標, \textbf{agent identifiers}, \textbf{real-time monitoring}, \textbf{activity logging}について評価する。
それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。
ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置をどのように適用するかを分析する。
最後に,当社のプライバシー対策と電力集中の意義について論じる。
措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways [10.16690494897609]
人工知能(AI)エージェント(英: Artificial Intelligence, AI)は、自律的にタスクを実行したり、事前に定義された目的やデータ入力に基づいて決定を行うソフトウェアエンティティである。
この調査は、AIエージェントが直面している新たなセキュリティ脅威を掘り下げ、これらを4つの重要な知識ギャップに分類する。
これらの脅威を体系的にレビューすることにより、この論文はAIエージェントの保護における進歩と既存の制限の両方を強調している。
論文 参考訳(メタデータ) (2024-06-04T01:22:31Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - IxDRL: A Novel Explainable Deep Reinforcement Learning Toolkit based on
Analyses of Interestingness [0.0]
面白さの分析に基づく新しい枠組みを提案する。
本ツールは,興味深い分析から得られたRLエージェント能力の様々な測定方法を提供する。
我々のフレームワークはエージェント設計者にRLエージェント能力に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2023-07-18T02:43:19Z) - Global and Local Analysis of Interestingness for Competency-Aware Deep
Reinforcement Learning [0.0]
我々は「興味」の分析に基づく説明可能な強化学習(RL)のための最近提案されたフレームワークを拡張した。
当社のツールは,RLエージェントの能力,能力と限界に関する洞察を提供し,ユーザがより情報的な意思決定を行えるようにします。
論文 参考訳(メタデータ) (2022-11-11T17:48:42Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable
Claims [59.64274607533249]
AI開発者は、責任を負うことのできる検証可能な主張をする必要がある。
このレポートは、さまざまな利害関係者がAIシステムに関するクレームの妥当性を改善するための様々なステップを示唆している。
我々は、この目的のための10のメカニズム、すなわち、組織、ソフトウェア、ハードウェアを分析し、それらのメカニズムの実装、探索、改善を目的とした推奨を行う。
論文 参考訳(メタデータ) (2020-04-15T17:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。