Fugu-MT 論文翻訳(概要): Language Model Agents Under Attack: A Cross Model-Benchmark of Profit-Seeking Behaviors in Customer Service

論文の概要: Language Model Agents Under Attack: A Cross Model-Benchmark of Profit-Seeking Behaviors in Customer Service

arxiv url: http://arxiv.org/abs/2512.24415v1
Date: Tue, 30 Dec 2025 18:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.467902
Title: Language Model Agents Under Attack: A Cross Model-Benchmark of Profit-Seeking Behaviors in Customer Service
Title（参考訳）: 攻撃中の言語モデルエージェント:顧客サービスにおける利益探索行動のクロスモデルベンチマーク
Authors: Jingyu Zhang,
Abstract要約: 顧客とサービスの相互作用において、利益を追求する直接的なインジェクションのクロスドメインベンチマーク。 5つのテクニックファミリーにグループ化された現実的な攻撃スクリプト100。攻撃はドメインに依存している(航空サポートは最も悪用できる)し、技術に依存している(支払いは最も一貫して効果的である)。
参考スコア（独自算出の注目度）: 15.896831937702174
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Customer-service LLM agents increasingly make policy-bound decisions (refunds, rebooking, billing disputes), but the same ``helpful'' interaction style can be exploited: a small fraction of users can induce unauthorized concessions, shifting costs to others and eroding trust in agentic workflows. We present a cross-domain benchmark of profit-seeking direct prompt injection in customer-service interactions, spanning 10 service domains and 100 realistic attack scripts grouped into five technique families. Across five widely used models under a unified rubric with uncertainty reporting, attacks are highly domain-dependent (airline support is most exploitable) and technique-dependent (payload splitting is most consistently effective). We release data and evaluation code to support reproducible auditing and to inform the design of oversight and recovery workflows for trustworthy, human centered agent interfaces.
Abstract（参考訳）: 顧客サービスLLMエージェントは、ポリシバウンドな決定(返金、再予約、請求問題)をますます行うが、同じ‘helpful’のインタラクションスタイルを活用できる。 10のサービスドメインと100のリアルな攻撃スクリプトを5つのテクニックファミリに分けて比較した。統一ルーリックの下で広く使われている5つのモデルに不確実性のあるレポートがあり、攻撃はドメインに依存している(航空サポートが最も有効である)し、技術に依存している(ペイロード分割が最も効果的である)。我々は、再現可能な監査を支援するデータと評価コードをリリースし、信頼性の高い人間中心エージェントインタフェースのための監視および回復ワークフローの設計を通知する。

関連論文リスト

How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文参考訳（メタデータ） (2025-10-10T19:04:28Z)
Effective Red-Teaming of Policy-Adherent Agents [10.522087614181745]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。 CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文参考訳（メタデータ） (2025-06-11T10:59:47Z)
The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文参考訳（メタデータ） (2025-05-23T11:40:58Z)
Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文参考訳（メタデータ） (2025-05-15T13:44:32Z)
Robust Federated Learning Mitigates Client-side Training Data Distribution Inference Attacks [48.70867241987739]
InferGuardは、クライアント側のトレーニングデータ分散推論攻撃に対する防御を目的とした、新しいビザンチン・ロバスト集約ルールである。実験の結果,我々の防衛機構はクライアント側のトレーニングデータ分布推定攻撃に対する防御に極めて有効であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T17:41:35Z)
Towards Fair, Robust and Efficient Client Contribution Evaluation in Federated Learning [16.543724155324938]
FRECA(Fair, Robust, Efficient Client Assessment)と呼ばれる新しい手法を導入する。 FRECAはFedTruthというフレームワークを使用して、グローバルモデルの真実の更新を見積もり、すべてのクライアントからのコントリビューションのバランスをとり、悪意のあるクライアントからの影響をフィルタリングする。実験の結果,FRECAはクライアントのコントリビューションをロバストな方法で正確かつ効率的に定量化できることがわかった。
論文参考訳（メタデータ） (2024-02-06T21:07:12Z)
G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。 FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文参考訳（メタデータ） (2023-06-08T07:15:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。