論文の概要: MIRAGE: Online LLM Simulation for Microservice Dependency Testing
- arxiv url: http://arxiv.org/abs/2604.04806v1
- Date: Mon, 06 Apr 2026 16:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.27291
- Title: MIRAGE: Online LLM Simulation for Microservice Dependency Testing
- Title(参考訳): MIRAGE: マイクロサービス依存テストのためのオンラインLLMシミュレーション
- Authors: XinRan Zhang,
- Abstract要約: オンラインLCMシミュレーションは、LCMが到着した時点で各依存関係要求に直接答えるランタイムアプローチである。
モデルは依存関係のソースコード、呼び出し元コード、プロダクショントレースを読み出し、必要に応じて依存性の振る舞いをシミュレートする。
このアプローチをMIRAGEでインスタンス化し、3つのマイクロサービスシステムにまたがる14の呼び出し/依存性ペアにまたがる110のテストシナリオで評価します。
- 参考スコア(独自算出の注目度): 5.94231111588812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to microservice dependency simulation--record-replay, pattern-mining, and specification-driven stubs--generate static artifacts before test execution. We propose online LLM simulation, a runtime approach where the LLM directly answers each dependency request as it arrives, maintaining cross-request state throughout a test scenario. No mock specification is pre-generated; the model reads the dependency's source code, caller code, and production traces, then simulates dependency behavior on demand. We instantiate this approach in MIRAGE and evaluate it on 110 test scenarios spanning 14 caller-dependency pairs across three microservice systems (Google's Online Boutique, Weaveworks' Sock Shop, and a custom system). In white-box mode (dependency source available), MIRAGE achieves 99% status-code fidelity (109/110) and 99% response-shape fidelity, compared to 62% / 16% for record-replay. End-to-end, caller integration tests produce the same pass/fail outcomes with MIRAGE as with real dependencies (8/8 scenarios). A signal ablation shows dependency source code is often sufficient for high-fidelity runtime simulation (100% alone); without it, the model still infers correct error codes (94%) but loses response-structure accuracy (75%). Constraining LLM output through typed intermediate representations reduces fidelity on complex stateful services (55%) while performing adequately on simple APIs (86%), suggesting that the runtime approach's implicit state tracking matters for behavioral complexity. Results are stable across three LLM families (within 3%) at $0.16--$0.82 per dependency.
- Abstract(参考訳): 既存のマイクロサービス依存性シミュレーションアプローチ — レコード再生、パターンマイニング、仕様駆動スタブ — は、テスト実行前に静的アーティファクトを生成する。
オンラインLCMシミュレーションは、LCMが到着するたびに各依存関係要求に直接応答し、テストシナリオ全体を通して相互要求状態を維持する実行時アプローチである。
モデルは依存関係のソースコード、呼び出し元コード、プロダクショントレースを読み出し、必要に応じて依存性の振る舞いをシミュレートする。
このアプローチをMIRAGEでインスタンス化し、3つのマイクロサービスシステム(GoogleのOnline Boutique、WeaveworksのSock Shop、カスタムシステム)にわたる14の呼び出し依存性ペアにまたがる110のテストシナリオで評価します。
ホワイトボックスモードでは、MIRAGEは99%のステータスコード忠実度(109/110)と99%のレスポンスシェイプ忠実度を達成したが、レコード再生では62%/16%であった。
エンドツーエンドの呼び出し者統合テストは、MIRAGEと実際の依存関係(8/8シナリオ)で同じパス/フェイル結果を生成する。
信号アブレーションは、依存関係のソースコードが高忠実度ランタイムシミュレーション(100%のみ)に十分であることを示すが、それなしでは、モデルはまだ正しいエラーコード(94%)を推測するが、応答構造精度(75%)を失う。
型付き中間表現によるLLM出力の制約は、複雑なステートフルサービス(55%)の忠実度を低下させ、単純なAPI(86%)で適切に実行し、実行時のアプローチの暗黙的なステートトラッキングが振る舞いの複雑さに対して重要であることを示唆している。
結果は3つのLLMファミリー(3%)で安定で、1依存あたり0.16--0.82ドルである。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - dVoting: Fast Voting for dLLMs [71.572316901001]
拡散大言語モデル(dLLMs)は自己回帰モデリングを超えた新しいパラダイムである。
dLLMは任意の位置で任意のトークンを並列に生成できるため、並列テストタイムスケーリングには大きな可能性がある。
トレーニングなしで推論能力を高める高速投票手法であるdVotingを導入する。
論文 参考訳(メタデータ) (2026-02-12T16:35:05Z) - PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - Mimicking Production Behavior with Generated Mocks [11.367562045401554]
実運用環境でのアプリケーションを監視して,モックによる現実的な実行シナリオを模倣するテストを生成することを提案する。
このアプローチは自動化され、RICKと呼ばれるオープンソースのツールで実装されている。
生成されたテストケースはすべて実行可能であり、52.4%は本番環境で観測されたターゲットメソッドの完全な実行コンテキストをうまく模倣している。
論文 参考訳(メタデータ) (2022-08-02T09:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。