論文の概要: Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways
- arxiv url: http://arxiv.org/abs/2604.21083v1
- Date: Wed, 22 Apr 2026 20:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.176379
- Title: Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways
- Title(参考訳): 大規模言語モデルAPIゲートウェイの動作一貫性と透明性解析
- Authors: Guanjie Lin, Yinxin Wan, Shichao Pei, Ting Xu, Kuai Xu, Guoliang Xue,
- Abstract要約: GateScopeは、行動の一貫性と運用上の透明性を評価するための軽量なブラックボックス測定フレームワークである。
GateScopeは、モデルダウングレードやスイッチング、サイレントトランケーション、請求の不正確さ、レイテンシの不安定性など、重要な作業を検出するように設計されている。
実世界の10の商用LCM APIゲートウェイで計測した結果,期待と実際の動作のギャップが頻発していることが判明した。
- 参考スコア(独自算出の注目度): 17.644053774427267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Third-party Large Language Model (LLM) API gateways are rapidly emerging as unified access points to models offered by multiple vendors. However, the internal routing, caching, and billing policies of these gateways are largely undisclosed, leaving users with limited visibility into whether requests are served by the advertised models, whether responses remain faithful to upstream APIs, or whether invoices accurately reflect public pricing policies. To address this gap, we introduce GateScope, a lightweight black-box measurement framework for evaluating behavioral consistency and operational transparency in commercial LLM gateways. GateScope is designed to detect key misbehaviors, including model downgrading or switching, silent truncation, billing inaccuracies, and instability in latency by auditing gateways along four critical dimensions: response content analysis, multi-turn conversation performance, billing accuracy, and latency characteristics. Our measurements across 10 real-world commercial LLM API gateways reveal frequent gaps between expected and actual behaviors, including silent model substitutions, degraded memory retention, deviations from announced pricing, and substantial variation in latency stability across platforms.
- Abstract(参考訳): サードパーティのLarge Language Model (LLM) APIゲートウェイは、複数のベンダが提供するモデルへの統一されたアクセスポイントとして急速に普及している。
しかしながら、これらのゲートウェイの内部ルーティング、キャッシュ、課金ポリシは、ほとんど公開されていないため、ユーザは、要求が宣伝されたモデルによって提供されるか、アップストリームAPIに忠実に応答するか、請求書がパブリックな価格ポリシーを正確に反映しているかを限定的に確認することができる。
このギャップに対処するため,商用LLMゲートウェイの動作整合性と運用透過性を評価する軽量なブラックボックス計測フレームワークであるGateScopeを紹介した。
GateScopeは、モデルダウングレードやスイッチング、サイレントトランケーション、請求の不正確さ、レイテンシの不安定性など、4つの重要な側面 – 応答コンテンツ分析、マルチターン会話のパフォーマンス、請求精度、レイテンシ特性 – を検出するように設計されている。
実世界の10の商用LCM APIゲートウェイで測定した結果、サイレントモデル置換、メモリ保持の劣化、発表価格からの逸脱、プラットフォーム間の遅延安定性の大幅な変動など、期待と実際の動作の相違が頻繁に明らかになった。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation [49.796717294455796]
経済的なモチベーションのある逸脱を検出するための実践的な監査フレームワークIMMACULATEを提案する。
IMMACULATEは、検証可能な計算を用いて少数のリクエストを選択的に監査し、暗号オーバーヘッドを償却しながら強力な検出保証を達成する。
論文 参考訳(メタデータ) (2026-02-26T07:21:02Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test [24.393978712663618]
APIプロバイダは、コスト削減やモデル動作の不正な変更のために、量子化または微調整の亜種を慎重に提供することができる。
そこで我々は,ブラックボックスLLMの挙動等式を局所的に展開した認証モデルに検証できるランクベース均一性試験を提案する。
我々は、量子化、有害な微調整、脱獄プロンプト、完全なモデル置換など、さまざまな脅威シナリオに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-08T03:00:31Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - VERITAS: A Unified Approach to Reliability Evaluation [26.051109586419308]
大規模言語モデル(LLM)は、しばしばコンテキストから情報を合成して正確な応答を生成するのに失敗する。
VERITASは様々な文脈で柔軟に動作するように設計された幻覚検出モデルのファミリーである。
論文 参考訳(メタデータ) (2024-11-05T17:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。