論文の概要: Language Model Agents Under Attack: A Cross Model-Benchmark of Profit-Seeking Behaviors in Customer Service
- arxiv url: http://arxiv.org/abs/2512.24415v1
- Date: Tue, 30 Dec 2025 18:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.467902
- Title: Language Model Agents Under Attack: A Cross Model-Benchmark of Profit-Seeking Behaviors in Customer Service
- Title(参考訳): 攻撃中の言語モデルエージェント:顧客サービスにおける利益探索行動のクロスモデルベンチマーク
- Authors: Jingyu Zhang,
- Abstract要約: 顧客とサービスの相互作用において、利益を追求する直接的なインジェクションのクロスドメインベンチマーク。
5つのテクニックファミリーにグループ化された 現実的な攻撃スクリプト100。
攻撃はドメインに依存している(航空サポートは最も悪用できる)し、技術に依存している(支払いは最も一貫して効果的である)。
- 参考スコア(独自算出の注目度): 15.896831937702174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customer-service LLM agents increasingly make policy-bound decisions (refunds, rebooking, billing disputes), but the same ``helpful'' interaction style can be exploited: a small fraction of users can induce unauthorized concessions, shifting costs to others and eroding trust in agentic workflows. We present a cross-domain benchmark of profit-seeking direct prompt injection in customer-service interactions, spanning 10 service domains and 100 realistic attack scripts grouped into five technique families. Across five widely used models under a unified rubric with uncertainty reporting, attacks are highly domain-dependent (airline support is most exploitable) and technique-dependent (payload splitting is most consistently effective). We release data and evaluation code to support reproducible auditing and to inform the design of oversight and recovery workflows for trustworthy, human centered agent interfaces.
- Abstract(参考訳): 顧客サービスLLMエージェントは、ポリシバウンドな決定(返金、再予約、請求問題)をますます行うが、同じ‘helpful’のインタラクションスタイルを活用できる。
10のサービスドメインと100のリアルな攻撃スクリプトを5つのテクニックファミリに分けて比較した。
統一ルーリックの下で広く使われている5つのモデルに不確実性のあるレポートがあり、攻撃はドメインに依存している(航空サポートが最も有効である)し、技術に依存している(ペイロード分割が最も効果的である)。
我々は、再現可能な監査を支援するデータと評価コードをリリースし、信頼性の高い人間中心エージェントインタフェースのための監視および回復ワークフローの設計を通知する。
関連論文リスト
- CREDIT: Certified Ownership Verification of Deep Neural Networks Against Model Extraction Attacks [54.04030169323115]
我々は、モデル抽出攻撃(MEA)に対する認証された所有権検証であるCREDITを紹介する。
DNNモデル間の類似性を定量化し、実用的な検証しきい値を提案し、このしきい値に基づいてオーナシップ検証を行うための厳密な理論的保証を提供する。
我々は、さまざまなドメインやタスクにまたがるいくつかの主流データセットに対するアプローチを広範囲に評価し、最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2026-02-23T23:36:25Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Beyond IVR: Benchmarking Customer Support LLM Agents for Business-Adherence [1.8357468337756873]
顧客サポートにおけるポリシー対応エージェントの評価を目的としたベンチマークであるJourneyBenchを紹介する。
静的プロンプトエージェント(SPA)と動的プロンプトエージェント(DPA)の2つのエージェント設計を用いて,複数の最先端エージェント設計を評価する。
DPAは,GPT-4o-miniのような小型モデルでも,GPT-4o-miniのようなより有能なモデルよりも優れることを示す。
論文 参考訳(メタデータ) (2026-01-02T07:21:23Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - ZORRO: Zero-Knowledge Robustness and Privacy for Split Learning (Full Version) [58.595691399741646]
Split Learning(SL)は、リソース制約のあるクライアントがディープニューラルネットワーク(DNN)を協調的にトレーニングすることを可能にする分散学習アプローチである。
このセットアップにより、SLはデータを共有せずにサーバの能力を活用することができ、機密データを扱うリソース制約のある環境で非常に効果的になる。
我々は、プライベートで検証可能な、堅牢なSL防御スキームであるZORROを提示する。
論文 参考訳(メタデータ) (2025-09-11T18:44:09Z) - Effective Red-Teaming of Policy-Adherent Agents [10.522087614181745]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。
本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。
CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文 参考訳(メタデータ) (2025-06-11T10:59:47Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。
本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。
本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-15T13:44:32Z) - Robust Federated Learning Mitigates Client-side Training Data Distribution Inference Attacks [48.70867241987739]
InferGuardは、クライアント側のトレーニングデータ分散推論攻撃に対する防御を目的とした、新しいビザンチン・ロバスト集約ルールである。
実験の結果,我々の防衛機構はクライアント側のトレーニングデータ分布推定攻撃に対する防御に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T17:41:35Z) - Towards Fair, Robust and Efficient Client Contribution Evaluation in
Federated Learning [16.543724155324938]
FRECA(Fair, Robust, Efficient Client Assessment)と呼ばれる新しい手法を導入する。
FRECAはFedTruthというフレームワークを使用して、グローバルモデルの真実の更新を見積もり、すべてのクライアントからのコントリビューションのバランスをとり、悪意のあるクライアントからの影響をフィルタリングする。
実験の結果,FRECAはクライアントのコントリビューションをロバストな方法で正確かつ効率的に定量化できることがわかった。
論文 参考訳(メタデータ) (2024-02-06T21:07:12Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。