論文の概要: Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol
- arxiv url: http://arxiv.org/abs/2508.20737v1
- Date: Thu, 28 Aug 2025 13:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.397855
- Title: Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol
- Title(参考訳): LLMアプリケーションのテスト再考: 特性,課題,軽量インタラクションプロトコル
- Authors: Wei Ma, Yixiao Yang, Qiang Hu, Shi Ying, Zhi Jin, Bo Du, Zhenchang Xing, Tianlin Li, Junjie Shi, Yang Liu, Linxiao Jiang,
- Abstract要約: 大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
- 参考スコア(独自算出の注目度): 83.83217247686402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications of Large Language Models~(LLMs) have evolved from simple text generators into complex software systems that integrate retrieval augmentation, tool invocation, and multi-turn interactions. Their inherent non-determinism, dynamism, and context dependence pose fundamental challenges for quality assurance. This paper decomposes LLM applications into a three-layer architecture: \textbf{\textit{System Shell Layer}}, \textbf{\textit{Prompt Orchestration Layer}}, and \textbf{\textit{LLM Inference Core}}. We then assess the applicability of traditional software testing methods in each layer: directly applicable at the shell layer, requiring semantic reinterpretation at the orchestration layer, and necessitating paradigm shifts at the inference core. A comparative analysis of Testing AI methods from the software engineering community and safety analysis techniques from the AI community reveals structural disconnects in testing unit abstraction, evaluation metrics, and lifecycle management. We identify four fundamental differences that underlie 6 core challenges. To address these, we propose four types of collaborative strategies (\emph{Retain}, \emph{Translate}, \emph{Integrate}, and \emph{Runtime}) and explore a closed-loop, trustworthy quality assurance framework that combines pre-deployment validation with runtime monitoring. Based on these strategies, we offer practical guidance and a protocol proposal to support the standardization and tooling of LLM application testing. We propose a protocol \textbf{\textit{Agent Interaction Communication Language}} (AICL) that is used to communicate between AI agents. AICL has the test-oriented features and is easily integrated in the current agent framework.
- Abstract(参考訳): 大規模言語モデル~(LLM)の応用は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: \textbf{\textit{System Shell Layer}}, \textbf{\textit{Prompt Orchestration Layer}}, \textbf{\textit{LLM Inference Core}}。
次に、各レイヤにおける従来のソフトウェアテストメソッドの適用性を評価します。シェル層に直接適用し、オーケストレーション層での意味的再解釈を必要とし、推論コアでのパラダイムシフトを必要とします。
ソフトウェアエンジニアリングコミュニティによるテストAIメソッドの比較分析と、AIコミュニティによる安全分析技術は、ユニットテストの抽象化、評価メトリクス、ライフサイクル管理における構造的分離を明らかにしている。
6つの課題の根底にある4つの根本的な違いを特定します。
これらの問題に対処するために,我々は,事前デプロイ検証とランタイム監視を組み合わせた,クローズドループで信頼性の高い品質保証フレームワークを探索する,4種類の協調戦略(\emph{Retain}, \emph{Translate}, \emph{Integrate}, \emph{Runtime})を提案する。
これらの戦略に基づいて、LLMアプリケーションテストの標準化とツーリングをサポートするための実践的なガイダンスとプロトコルの提案を提供する。
本稿では,AIエージェント間の通信に使用されるプロトコルである 'textbf{\textit{Agent Interaction Communication Language}} (AICL) を提案する。
AICLはテスト指向の機能を持ち、現在のエージェントフレームワークに簡単に統合できる。
関連論文リスト
- Large Language Model Agent for User-friendly Chemical Process Simulations [0.0]
大規模言語モデル (LLM) エージェントは AVEVA Process Model Protocol (MCP) と統合され、自然言語のシミュレーションを可能にする。
2つのケーススタディは、異なるタスクの複雑さと相互作用モードにわたるフレームワークを評価する。
このフレームワークは、技術的な概念の翻訳と実証によって教育目的と、データ抽出の自動化、ルーチンタスクの高速化、サポートによって経験豊富な実践者の両方に役立ちます。
オーバーシンプル化、計算エラー、技術的ヒックアップといった現在の制限は専門家の監視を必要とするが、このフレームワークはLSMベースのエージェントが貴重な協力者になれることを示唆している。
論文 参考訳(メタデータ) (2026-01-15T12:18:45Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - The Meta-Prompting Protocol: Orchestrating LLMs via Adversarial Feedback Loops [0.6345523830122167]
Meta-Prompt Protocolは、プログラム可能な自己最適化システムとして、大規模言語モデルのオーケストレーションを形式化する。
自然言語命令を意味グラフ内の微分可能な変数として扱い、テキストの批判を勾配として利用することにより、幻覚を緩和し、モデル崩壊を防ぐ。
論文 参考訳(メタデータ) (2025-12-17T03:32:21Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - BarrierBench : Evaluating Large Language Models for Safety Verification in Dynamical Systems [4.530582224312311]
バリア証明書合成のための LLM ベースのエージェントフレームワークを提案する。
このフレームワークは自然言語推論を使用して、候補証明書を提案し、洗練し、検証する。
BarrierBenchは、線形、非線形、離散時間、連続時間設定にまたがる100の動的システムのベンチマークである。
論文 参考訳(メタデータ) (2025-11-12T14:23:49Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [14.408364047538578]
大規模言語モデル(LLM)は、ソフトウェア工学の様々な領域で広く採用されている。
この研究は、基本的な静的解析タスク上でのLCMを評価するために設計されたベンチマークであるCOREを提示する。
論文 参考訳(メタデータ) (2025-07-03T01:35:58Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems [10.67359331022116]
textitTalk 構造的には、Act Hierarchically (TalkHier) はコンテキスト豊富な交換のための構造化通信プロトコルを導入する新しいフレームワークである。
textitTalkHierは、推論スケーリングモデル(OpenAI-o1)、オープンソースのマルチエージェントモデル(AgentVerseなど)など、さまざまな種類のSoTAを追い越している。
論文 参考訳(メタデータ) (2025-02-16T12:26:58Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Advancing Code Coverage: Incorporating Program Analysis with Large Language Models [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。
27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-04-07T14:08:28Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。