論文の概要: Enhancing LLM Agent Safety via Causal Influence Prompting
- arxiv url: http://arxiv.org/abs/2507.00979v1
- Date: Tue, 01 Jul 2025 17:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.753793
- Title: Enhancing LLM Agent Safety via Causal Influence Prompting
- Title(参考訳): 因果影響プロンプティングによるLLMエージェントの安全性向上
- Authors: Dongyoon Hahm, Woogyeol Jin, June Suk Choi, Sungsoo Ahn, Kimin Lee,
- Abstract要約: エージェント意思決定によるリスクを識別・緩和するために、因果影響図(CID)を導入する。
CIDは原因と効果の関係の構造化された表現を提供し、エージェントは有害な結果を予測し、より安全な決定をすることができる。
実験により,本手法は,コード実行およびモバイルデバイス制御タスクの安全性を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 26.989955922017945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous agents powered by large language models (LLMs) continue to demonstrate potential across various assistive tasks, ensuring their safe and reliable behavior is crucial for preventing unintended consequences. In this work, we introduce CIP, a novel technique that leverages causal influence diagrams (CIDs) to identify and mitigate risks arising from agent decision-making. CIDs provide a structured representation of cause-and-effect relationships, enabling agents to anticipate harmful outcomes and make safer decisions. Our approach consists of three key steps: (1) initializing a CID based on task specifications to outline the decision-making process, (2) guiding agent interactions with the environment using the CID, and (3) iteratively refining the CID based on observed behaviors and outcomes. Experimental results demonstrate that our method effectively enhances safety in both code execution and mobile device control tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)を動力とする自律エージェントは、さまざまな補助課題にまたがるポテンシャルを示し続けているため、意図しない結果を防止するためには、安全で信頼性の高い行動が不可欠である。
本研究では、因果影響図(CID)を利用してエージェント意思決定によるリスクを特定し軽減する新しい手法であるCIPを紹介する。
CIDは原因と効果の関係の構造化された表現を提供し、エージェントは有害な結果を予測し、より安全な決定をすることができる。
提案手法は,(1)タスク仕様に基づいてCIDを初期化して意思決定プロセスを概説する,(2)CIDを用いた環境とのエージェントインタラクションを指導する,(3)観察行動と結果に基づいてCIDを反復的に精錬する,という3つのステップから構成される。
実験により,本手法は,コード実行およびモバイルデバイス制御タスクの安全性を効果的に向上することを示した。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Safe Explicable Policy Search [3.3869539907606603]
本稿では、安全リスクを最小化しつつ、説明可能な行動生成のための学習アプローチを提供することを目的とした、安全な説明可能なポリシー探索(SEPS)を提案する。
我々は,SEPSを制約付き最適化問題として定式化し,エージェントは安全性に制約のある説明可能性スコアを最大化することを目的とする。
安全ジャム環境におけるSEPSを評価し, エージェントの安全要件に適合し, 効率のよい説明可能な動作を学習できることを実証するために, 物理ロボット実験を用いて実験を行った。
論文 参考訳(メタデータ) (2025-03-10T20:52:41Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Agent-Specific Effects: A Causal Effect Propagation Analysis in Multi-Agent MDPs [13.524274041966539]
エージェント特異的効果(ASE)は、エージェントの作用が他のエージェントを介して伝播する結果に与える影響を測定する新しい因果量である。
我々は,敗血症管理環境を含むシミュレーションベースのテストベッドを用いて,cf-ASEの有用性を実験的に評価した。
論文 参考訳(メタデータ) (2023-10-17T15:12:56Z) - SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。
SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。
実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2023-08-03T21:08:51Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。