論文の概要: Enhancing LLM Agent Safety via Causal Influence Prompting
- arxiv url: http://arxiv.org/abs/2507.00979v1
- Date: Tue, 01 Jul 2025 17:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.753793
- Title: Enhancing LLM Agent Safety via Causal Influence Prompting
- Title(参考訳): 因果影響プロンプティングによるLLMエージェントの安全性向上
- Authors: Dongyoon Hahm, Woogyeol Jin, June Suk Choi, Sungsoo Ahn, Kimin Lee,
- Abstract要約: エージェント意思決定によるリスクを識別・緩和するために、因果影響図(CID)を導入する。
CIDは原因と効果の関係の構造化された表現を提供し、エージェントは有害な結果を予測し、より安全な決定をすることができる。
実験により,本手法は,コード実行およびモバイルデバイス制御タスクの安全性を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 26.989955922017945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous agents powered by large language models (LLMs) continue to demonstrate potential across various assistive tasks, ensuring their safe and reliable behavior is crucial for preventing unintended consequences. In this work, we introduce CIP, a novel technique that leverages causal influence diagrams (CIDs) to identify and mitigate risks arising from agent decision-making. CIDs provide a structured representation of cause-and-effect relationships, enabling agents to anticipate harmful outcomes and make safer decisions. Our approach consists of three key steps: (1) initializing a CID based on task specifications to outline the decision-making process, (2) guiding agent interactions with the environment using the CID, and (3) iteratively refining the CID based on observed behaviors and outcomes. Experimental results demonstrate that our method effectively enhances safety in both code execution and mobile device control tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)を動力とする自律エージェントは、さまざまな補助課題にまたがるポテンシャルを示し続けているため、意図しない結果を防止するためには、安全で信頼性の高い行動が不可欠である。
本研究では、因果影響図(CID)を利用してエージェント意思決定によるリスクを特定し軽減する新しい手法であるCIPを紹介する。
CIDは原因と効果の関係の構造化された表現を提供し、エージェントは有害な結果を予測し、より安全な決定をすることができる。
提案手法は,(1)タスク仕様に基づいてCIDを初期化して意思決定プロセスを概説する,(2)CIDを用いた環境とのエージェントインタラクションを指導する,(3)観察行動と結果に基づいてCIDを反復的に精錬する,という3つのステップから構成される。
実験により,本手法は,コード実行およびモバイルデバイス制御タスクの安全性を効果的に向上することを示した。
関連論文リスト
- Safe Explicable Policy Search [3.3869539907606603]
本稿では、安全リスクを最小化しつつ、説明可能な行動生成のための学習アプローチを提供することを目的とした、安全な説明可能なポリシー探索(SEPS)を提案する。
我々は,SEPSを制約付き最適化問題として定式化し,エージェントは安全性に制約のある説明可能性スコアを最大化することを目的とする。
安全ジャム環境におけるSEPSを評価し, エージェントの安全要件に適合し, 効率のよい説明可能な動作を学習できることを実証するために, 物理ロボット実験を用いて実験を行った。
論文 参考訳(メタデータ) (2025-03-10T20:52:41Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Agent-Specific Effects: A Causal Effect Propagation Analysis in Multi-Agent MDPs [13.524274041966539]
エージェント特異的効果(ASE)は、エージェントの作用が他のエージェントを介して伝播する結果に与える影響を測定する新しい因果量である。
我々は,敗血症管理環境を含むシミュレーションベースのテストベッドを用いて,cf-ASEの有用性を実験的に評価した。
論文 参考訳(メタデータ) (2023-10-17T15:12:56Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。