論文の概要: Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
- arxiv url: http://arxiv.org/abs/2505.21627v1
- Date: Tue, 27 May 2025 18:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.215765
- Title: Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
- Title(参考訳): LLMはあなたを圧倒しているか? トークン化、透明性、インセンティブ
- Authors: Ander Artola Velasco, Stratis Tsirtsis, Nastaran Okati, Manuel Gomez-Rodriguez,
- Abstract要約: 最先端の大規模言語モデルは、特別なハードウェアと運用に必要なかなりのエネルギーを必要とする。
モデルによって提供されるアウトプットの料金は、モデルが生成するために使用するトークンの数に依存する。
疑念を生じさせることなく、利用者を著しく過給できる効率的なアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 17.596848356747977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based services that provide access to large language models have become very popular. In these services, the price users pay for an output provided by a model depends on the number of tokens the model uses to generate it -- they pay a fixed price per token. In this work, we show that this pricing mechanism creates a financial incentive for providers to strategize and misreport the (number of) tokens a model used to generate an output, and users cannot prove, or even know, whether a provider is overcharging them. However, we also show that, if an unfaithful provider is obliged to be transparent about the generative process used by the model, misreporting optimally without raising suspicion is hard. Nevertheless, as a proof-of-concept, we introduce an efficient heuristic algorithm that allows providers to significantly overcharge users without raising suspicion, highlighting the vulnerability of users under the current pay-per-token pricing mechanism. Further, to completely eliminate the financial incentive to strategize, we introduce a simple incentive-compatible token pricing mechanism. Under this mechanism, the price users pay for an output provided by a model depends on the number of characters of the output -- they pay a fixed price per character. Along the way, to illustrate and complement our theoretical results, we conduct experiments with several large language models from the $\texttt{Llama}$, $\texttt{Gemma}$ and $\texttt{Ministral}$ families, and input prompts from the LMSYS Chatbot Arena platform.
- Abstract(参考訳): 最先端の大規模言語モデルは、特別なハードウェアと運用に必要なかなりのエネルギーを必要とする。
その結果、大規模な言語モデルへのアクセスを提供するクラウドベースのサービスは、非常に人気がある。
これらのサービスでは、モデルによって提供されるアウトプットに対してユーザが支払う価格は、モデルが生成するために使用するトークンの数に依存します。
本研究では,この価格設定機構が,出力生成に使用するモデルのトークン(枚数)のストラテジケートと誤レポートを行うための金銭的インセンティブを生み出すことを示す。
しかし、もし不信なプロバイダがモデルが使用する生成過程を透明にしなければならない場合、疑念を提起することなく最適に報告することが困難であることを示す。
それでも,概念実証として,疑念を抱くことなくユーザを著しく過給できる効率的なヒューリスティックアルゴリズムを導入し,現在の有料料金体系の下でのユーザ脆弱性を強調した。
さらに、ストラテジズのための金銭的インセンティブを完全に排除するために、簡単なインセンティブ互換のトークン価格設定機構を導入する。
このメカニズムの下で、モデルによって提供されるアウトプットに対してユーザが支払う価格は、アウトプットの文字数に依存します。
その過程で、理論結果を説明・補完するために、$\texttt{Llama}$, $\texttt{Gemma}$および$\texttt{Ministral}$ familyから、LMSYS Chatbot Arenaプラットフォームから入力プロンプトを入力し、いくつかの大きな言語モデルで実験を行う。
関連論文リスト
- Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services [22.700907666937177]
このポジションペーパーは、Opaque LLM Services(COLS)における新たな説明責任の課題を浮き彫りにしている。
トークンとコールカウントを人工的に膨らませるtextitquantity inflationと、プロバイダが低価格のモデルやツールを静かに置き換えるtextitquality downgradeの2つの主要なリスクを形式化する。
本研究では,COLSとユーザを対象としたモジュール型3層監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-24T02:26:49Z) - CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs [13.31195673556853]
隠れトークンの量と意味的妥当性の両方を検査する検証フレームワークであるCoInを提案する。
実験では、信頼できる第三者監査官としてデプロイされたCoInが、成功率94.7%に達するトークン数インフレーションを効果的に検出できることが示されている。
論文 参考訳(メタデータ) (2025-05-19T23:39:23Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - SVIP: Towards Verifiable Inference of Open-source Large Language Models [33.910670775972335]
オープンソースのLarge Language Models (LLMs)は、最近、自然言語の理解と生成において顕著な能力を示し、様々な領域で広く採用されている。
モデルのサイズが大きくなることで、個々のユーザにとってローカルデプロイメントは現実的ではなく、ブラックボックスAPIを通じて推論を行うコンピューティングサービスプロバイダに頼らざるを得なくなる。
この依存は新たなリスクをもたらす: コンピューティングプロバイダは、要求されたLLMをユーザからの同意なく、より小さく、能力の低いモデルにステルス的に置き換えて、コスト削減の恩恵を受けながら、劣ったアウトプットを配信する。
論文 参考訳(メタデータ) (2024-10-29T17:52:45Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Generative AI for End-to-End Limit Order Book Modelling: A Token-Level
Autoregressive Generative Model of Message Flow Using a Deep State Space
Network [7.54290390842336]
本稿では,トークン化制限順序帳(LOB)メッセージを生成するエンドツーエンドの自動回帰生成モデルを提案する。
NASDAQ の株式 LOB を用いて、メッセージデータのためのカスタムトークン化器を開発し、逐次桁の群をトークンに変換する。
結果は,低モデルパープレキシティによって証明されたように,データの分布を近似する上で有望な性能を示す。
論文 参考訳(メタデータ) (2023-08-23T09:37:22Z) - Do All Languages Cost the Same? Tokenization in the Era of Commercial
Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。
しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。
我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文 参考訳(メタデータ) (2023-05-23T05:46:45Z) - On the Difficulty of Defending Self-Supervised Learning against Model
Extraction [23.497838165711983]
SSL(Self Supervised Learning)は、複雑な入力を明示的なラベルに頼ることなく表現に変換するモデルを訓練するMLパラダイムである。
本稿ではSSLに対するモデル盗難攻撃について検討する。
いくつかの新たな攻撃を構築し、被害者の盗難表現を直接訓練するアプローチがクエリ効率が高く、下流モデルに高い精度で適用可能であることを発見した。
論文 参考訳(メタデータ) (2022-05-16T17:20:44Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。