論文の概要: Designing Multi-layered Runtime Guardrails for Foundation Model Based Agents: Swiss Cheese Model for AI Safety by Design
- arxiv url: http://arxiv.org/abs/2408.02205v3
- Date: Tue, 19 Nov 2024 01:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:43.397926
- Title: Designing Multi-layered Runtime Guardrails for Foundation Model Based Agents: Swiss Cheese Model for AI Safety by Design
- Title(参考訳): 基礎モデルベースエージェントのための多層型ランタイムガードレールの設計:設計によるAI安全性のためのスイスチーズモデル
- Authors: Md Shamsujjoha, Qinghua Lu, Dehai Zhao, Liming Zhu,
- Abstract要約: Foundation Model(FM)ベースのエージェントは、さまざまなドメインにわたるアプリケーション開発に革命をもたらしている。
本稿では,FMをベースとしたエージェントを対象としたランタイムガードレールの包括的分類を行い,ガードレールと設計次元の重要な品質特性を同定する。
また,Swiss Cheese ModelにインスパイアされたFMエージェントのための多層型ランタイムガードレールの設計のための参照アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 12.593620173835415
- License:
- Abstract: Foundation Model (FM)-based agents are revolutionizing application development across various domains. However, their rapidly growing capabilities and autonomy have raised significant concerns about AI safety. Researchers are exploring better ways to design guardrails to ensure that the runtime behavior of FM-based agents remains within specific boundaries. Nevertheless, designing effective runtime guardrails is challenging due to the agents' autonomous and non-deterministic behavior. The involvement of multiple pipeline stages and agent artifacts, such as goals, plans, tools, at runtime further complicates these issues. Addressing these challenges at runtime requires multi-layered guardrails that operate effectively at various levels of the agent architecture. Thus, in this paper, we present a comprehensive taxonomy of runtime guardrails for FM-based agents to identify the key quality attributes for guardrails and design dimensions based on the results of a systematic literature review. Inspired by the Swiss Cheese Model, we also propose a reference architecture for designing multi-layered runtime guardrails for FM-based agents, which includes three dimensions: quality attributes, pipelines, and artifacts. The proposed taxonomy and reference architecture provide concrete and robust guidance for researchers and practitioners to build AI-safety-by-design from a software architecture perspective.
- Abstract(参考訳): Foundation Model(FM)ベースのエージェントは、さまざまなドメインにわたるアプリケーション開発に革命をもたらしている。
しかし、その急速に成長する能力と自律性は、AIの安全性に関する大きな懸念を引き起こしている。
研究者たちは、FMベースのエージェントのランタイム動作が特定のバウンダリ内にあることを保証するために、ガードレールを設計するためのより良い方法を模索している。
それでも、エージェントの自律的かつ非決定論的行動のため、効果的なランタイムガードレールの設計は困難である。
複数のパイプラインステージと,目標や計画,ツールといったエージェントアーティファクトの関与は,これらの問題をさらに複雑にします。
これらの課題に実行時に対処するには、エージェントアーキテクチャのさまざまなレベルで効果的に動作する多層ガードレールが必要である。
そこで本稿では,FMをベースとしたエージェントを対象としたランタイムガードレールの包括的分類について,系統的な文献レビューの結果に基づいて,ガードレールのキー品質特性と設計次元を同定する。
Swiss Cheese Modelに触発されて、FMベースのエージェントのための多層ランタイムガードレールを設計するためのリファレンスアーキテクチャも提案する。
提案された分類学と参照アーキテクチャは、ソフトウェアアーキテクチャの観点からAIの安全性を設計する研究者や実践者に対して、具体的で堅牢なガイダンスを提供する。
関連論文リスト
- LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - A Taxonomy of Architecture Options for Foundation Model-based Agents: Analysis and Decision Model [25.78239568393706]
本稿では,基礎モデルに基づくエージェントのアーキテクチャに着目した分類法を提案する。
分類学は,これらの分類を統一し,詳細化することにより,基礎モデルに基づくエージェントの設計を改善することを目的としている。
論文 参考訳(メタデータ) (2024-08-06T03:10:52Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Towards Responsible Generative AI: A Reference Architecture for Designing Foundation Model based Agents [28.406492378232695]
ファンデーションモデルに基づくエージェントは、ファンデーションモデルの能力から自律性を引き出す。
本稿では,基礎モデルに基づくエージェントの設計におけるガイダンスとして機能するパターン指向参照アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-22T04:21:47Z) - Conceptual Framework for Autonomous Cognitive Entities [0.9285295512807729]
本稿では,認知アーキテクチャの新しいフレームワークである自律認知エンティティモデルを紹介する。
このモデルは、大規模言語モデル(LLM)やマルチモーダル生成モデル(MMM)など、最新の生成AI技術の能力を活用するように設計されている。
ACEフレームワークには、障害の処理とアクションの適応のためのメカニズムも組み込まれているため、自律エージェントの堅牢性と柔軟性が向上する。
論文 参考訳(メタデータ) (2023-10-03T15:53:55Z) - Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications [22.407388715224283]
STL誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計され、STL仕様の値は、報酬を生成するために活用される。
論文 参考訳(メタデータ) (2023-06-11T23:53:29Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。