論文の概要: IntenTest: Stress Testing for Intent Integrity in API-Calling LLM Agents
- arxiv url: http://arxiv.org/abs/2506.07524v1
- Date: Mon, 09 Jun 2025 08:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.857526
- Title: IntenTest: Stress Testing for Intent Integrity in API-Calling LLM Agents
- Title(参考訳): IntenTest: API-Calling LLMエージェントにおけるインテンテントインテリジェンスのためのストレステスト
- Authors: Shiwei Feng, Xiangzhe Xu, Xuan Chen, Kaiyuan Zhang, Syed Yusuf Ahmed, Zian Su, Mingwei Zheng, Xiangyu Zhang,
- Abstract要約: LLMエージェントの意図的整合性違反を明らかにするための,API中心のストレステストフレームワークであるIntenTestを紹介した。
IntenTestはツールキットのドキュメンテーションに基づいて現実的なタスクを生成し、ターゲットの突然変異を適用して微妙なエージェントエラーを露呈する。
IntenTestは、意図的整合性違反を効果的に発見し、エラー検出率とクエリ効率の両方において、ベースラインを著しく上回ります。
- 参考スコア(独自算出の注目度): 9.46115420774436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents are increasingly deployed to automate real-world tasks by invoking APIs through natural language instructions. While powerful, they often suffer from misinterpretation of user intent, leading to the agent's actions that diverge from the user's intended goal, especially as external toolkits evolve. Traditional software testing assumes structured inputs and thus falls short in handling the ambiguity of natural language. We introduce IntenTest, an API-centric stress testing framework that systematically uncovers intent integrity violations in LLM agents. Unlike prior work focused on fixed benchmarks or adversarial inputs, IntenTest generates realistic tasks based on toolkits' documentation and applies targeted mutations to expose subtle agent errors while preserving user intent. To guide testing, we propose semantic partitioning, which organizes natural language tasks into meaningful categories based on toolkit API parameters and their equivalence classes. Within each partition, seed tasks are mutated and ranked by a lightweight predictor that estimates the likelihood of triggering agent errors. To enhance efficiency, IntenTest maintains a datatype-aware strategy memory that retrieves and adapts effective mutation patterns from past cases. Experiments on 80 toolkit APIs demonstrate that IntenTest effectively uncovers intent integrity violations, significantly outperforming baselines in both error-exposing rate and query efficiency. Moreover, IntenTest generalizes well to stronger target models using smaller LLMs for test generation, and adapts to evolving APIs across domains.
- Abstract(参考訳): LLMエージェントは、自然言語命令を通じてAPIを呼び出すことによって、現実世界のタスクを自動化するために、ますます多くデプロイされている。
強力ではあるが、それらはしばしばユーザ意図の誤解釈に悩まされ、特に外部ツールキットが進化するにつれて、エージェントの行動はユーザの意図した目標から分岐する。
従来のソフトウェアテストでは、構造化された入力を前提としており、自然言語のあいまいさを扱うには不足している。
LLMエージェントの意図的整合性違反を体系的に発見するAPI中心のストレステストフレームワークであるIntenTestを紹介した。
固定ベンチマークや逆入力に焦点を当てた以前の作業とは異なり、IntenTestはツールキットのドキュメンテーションに基づいて現実的なタスクを生成し、ターゲットの突然変異を適用して、ユーザ意図を維持しながら微妙なエージェントエラーを露呈する。
そこで本研究では,自然言語タスクをツールキットAPIパラメータと等価クラスに基づいて意味のあるカテゴリに分類するセマンティックパーティショニングを提案する。
各パーティション内では、シードタスクは変更され、エージェントエラーを引き起こす可能性を見積もる軽量予測器によってランク付けされる。
効率を向上させるため、IntenTestは、過去のケースから効果的な突然変異パターンを検索し、適応するデータ型対応戦略メモリを維持している。
80のツールキットAPIの実験によると、IntenTestは意図的整合性違反を効果的に発見し、エラー検出率とクエリ効率の両方において、ベースラインを大幅に上回っている。
さらに、IntenTestは、テスト生成のために小さなLCMを使用して、より強力なターゲットモデルを一般化し、ドメイン間のAPIの発展に適応する。
関連論文リスト
- A Framework for Testing and Adapting REST APIs as LLM Tools [5.758488787763118]
エージェントのツールとして機能するREST APIの評価と拡張を目的とした,新しいテストフレームワークを提案する。
当社のフレームワークはapisをツールとして変換し、APIの包括的なテストケースを生成し、ケースを自然言語命令に変換し、エージェントがAPIを正しく呼び出し、そのインプットとレスポンスを処理する能力を評価する。
論文 参考訳(メタデータ) (2025-04-22T02:52:08Z) - LLM-assisted Mutation for Whitebox API Testing [40.91007243855959]
MioHintは、LLM(Large Language Model)のコード理解機能を活用して、APIテストを促進する、新しいホワイトボックスAPIテストアプローチである。
提案手法の有効性を評価するため,16の実世界のAPIサービスを対象に実験を行った。
論文 参考訳(メタデータ) (2025-04-08T07:14:51Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。
実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文 参考訳(メタデータ) (2024-07-14T14:48:18Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。