論文の概要: Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
- arxiv url: http://arxiv.org/abs/2602.16346v1
- Date: Wed, 18 Feb 2026 10:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.579276
- Title: Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
- Title(参考訳): 故障への助力:多言語多言語LDMエージェントにおける異常支援の測定
- Authors: Nivya Talokar, Ayush K Tarun, Murari Mandal, Maksym Andriushchenko, Antoine Bosselut,
- Abstract要約: STING(Sequential Testing of Illicit N-step Goal execution)は、自動化された再チームのフレームワークである。
良質なペルソナに接地されたステップバイステップの不正計画を構築し、適応的なフォローアップでターゲットエージェントを反復的にプローブする。
本稿では,マルチターン・リピートをタイム・ツー・ファースト・ジェイルブレイク確率変数としてモデル化する分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.76774274440008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents execute real-world workflows via tools and memory. These affordances enable ill-intended adversaries to also use these agents to carry out complex misuse scenarios. Existing agent misuse benchmarks largely test single-prompt instructions, leaving a gap in measuring how agents end up helping with harmful or illegal tasks over multiple turns. We introduce STING (Sequential Testing of Illicit N-step Goal execution), an automated red-teaming framework that constructs a step-by-step illicit plan grounded in a benign persona and iteratively probes a target agent with adaptive follow-ups, using judge agents to track phase completion. We further introduce an analysis framework that models multi-turn red-teaming as a time-to-first-jailbreak random variable, enabling analysis tools like discovery curves, hazard-ratio attribution by attack language, and a new metric: Restricted Mean Jailbreak Discovery. Across AgentHarm scenarios, STING yields substantially higher illicit-task completion than single-turn prompting and chat-oriented multi-turn baselines adapted to tool-using agents. In multilingual evaluations across six non-English settings, we find that attack success and illicit-task completion do not consistently increase in lower-resource languages, diverging from common chatbot findings. Overall, STING provides a practical way to evaluate and stress-test agent misuse in realistic deployment settings, where interactions are inherently multi-turn and often multilingual.
- Abstract(参考訳): LLMベースのエージェントは、ツールとメモリを介して現実世界のワークフローを実行する。
これらの余裕により、意図しない敵はこれらのエージェントを使用して複雑な誤用シナリオを実行することができる。
既存のエージェント誤用ベンチマークは、主に単発の指示をテストし、エージェントが複数のターンで有害なタスクや違法なタスクをどう支援するかを測定するためのギャップを残している。
STING(Sequential Testing of Illicit N-step Goal execution)は、ベニグナのペルソナに固定されたステップ・バイ・ステップの不正計画を構築し、判定エージェントを用いて段階完了を追跡する自動リピートフレームワークである。
さらに,マルチターン赤解をタイム・ツー・ファースト・ジェイルブレイクのランダム変数としてモデル化する分析フレームワークを導入し,発見曲線,アタック言語によるハザード比属性などの分析ツールと,新たな指標であるRestricted Mean Jailbreak Discoveryを提案する。
AgentHarmのシナリオ全体では、STINGはツール使用エージェントに適応したシングルターンプロンプトやチャット指向のマルチターンベースラインよりも、かなり高いイリシットタスクの完了をもたらす。
6つの非英語設定の多言語評価において、攻撃の成功と不正タスク完了は、共通のチャットボットの発見から逸脱して、低リソース言語において一貫して増加しないことがわかった。
全体として、STINGは、対話が本質的にマルチターンであり、しばしば多言語である現実的なデプロイメント設定において、ストレス-テストエージェントの誤用を評価する実践的な方法を提供する。
関連論文リスト
- Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning [4.928838343487574]
既存の不確実性プロキシは、シングルショットテキスト生成に重点を置いている。
本稿では,マルチコントロールツール-エージェント-ユーザインタラクションのためのトラジェクトリレベルの不確実性指標であるTRACERを紹介する。
論文 参考訳(メタデータ) (2026-02-11T22:23:56Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks [22.908904483320953]
コーディングタスクにおけるLarge Language Models (LLM) は、しばしばその広範な事前学習コーパスの反映である。
動作プリミティブのセットをLCMに装備する一般のIRAフレームワークであるIRAエージェントを提案する。
我々は,Cangjie 用の ILA エージェントをインスタンス化し,コード生成,翻訳,プログラム修復タスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2026-01-16T09:06:47Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - MAPS: A Multilingual Benchmark for Global Agent Performance and Security [8.275240552134338]
多様な言語やタスクにまたがるエージェントAIシステムを評価するためのベンチマークスイートであるMAPSを提案する。
それぞれのデータセットを11の多様な言語に変換し、805のユニークなタスクと9,660の言語固有のインスタンスを生成します。
我々は、英語から他の言語に移行する際に、パフォーマンスとセキュリティの両方の劣化を観察する。
論文 参考訳(メタデータ) (2025-05-21T18:42:00Z) - Multi-lingual Multi-turn Automated Red Teaming for LLMs [4.707861373629172]
マルチリンガル・マルチターン・オートマチック・レッドチーム(textbfMM-ART)は、対話型・マルチリンガル・レッドチーム操作を完全に自動化する手法である。
本研究は,英語の5ターン会話において,初回会話よりも平均71%脆弱であることを示す。
英語以外の言語での会話では、標準のシングルターン英語アプローチよりも195%の安全性上の脆弱性がある。
論文 参考訳(メタデータ) (2025-04-04T05:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。