論文の概要: Design and Evaluation of Cost-Aware PoQ for Decentralized LLM Inference
- arxiv url: http://arxiv.org/abs/2512.16317v1
- Date: Thu, 18 Dec 2025 08:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.993316
- Title: Design and Evaluation of Cost-Aware PoQ for Decentralized LLM Inference
- Title(参考訳): 分散型LCM推論のためのコスト対応PoQの設計と評価
- Authors: Arther Tian, Alex Ding, Frank Chen, Alan Wu, Aaron Chan, Bruce Zhang,
- Abstract要約: 本稿では,分散型大規模言語モデル (LLM) 推論のためのコストアウェアな品質証明 (PoQ) フレームワークを提案する。
この設計は、基底真理トークンレベルF1、軽量学習評価器、GPTに基づく判定を統一評価パイプライン内で組み合わせる。
モンテカルロの5000回以上のPoQラウンドのシミュレーションでは、コスト認識報酬スキームは高品質の低コスト推論モデルに常に高い平均報酬を割り当てることを示した。
- 参考スコア(独自算出の注目度): 4.254924788681319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized large language model (LLM) inference promises transparent and censorship resistant access to advanced AI, yet existing verification approaches struggle to scale to modern models. Proof of Quality (PoQ) replaces cryptographic verification of computation with consensus over output quality, but the original formulation ignores heterogeneous computational costs across inference and evaluator nodes. This paper introduces a cost-aware PoQ framework that integrates explicit efficiency measurements into the reward mechanism for both types of nodes. The design combines ground truth token level F1, lightweight learned evaluators, and GPT based judgments within a unified evaluation pipeline, and adopts a linear reward function that balances normalized quality and cost. Experiments on extractive question answering and abstractive summarization use five instruction tuned LLMs ranging from TinyLlama-1.1B to Llama-3.2-3B and three evaluation models spanning cross encoder and bi encoder architectures. Results show that a semantic textual similarity bi encoder achieves much higher correlation with both ground truth and GPT scores than cross encoders, indicating that evaluator architecture is a critical design choice for PoQ. Quality-cost analysis further reveals that the largest models in the pool are also the most efficient in terms of quality per unit latency. Monte Carlo simulations over 5\,000 PoQ rounds demonstrate that the cost-aware reward scheme consistently assigns higher average rewards to high quality low cost inference models and to efficient evaluators, while penalizing slow low quality nodes. These findings suggest that cost-aware PoQ provides a practical foundation for economically sustainable decentralized LLM inference.
- Abstract(参考訳): 分散型大規模言語モデル(LLM)推論は、透明性と検閲による高度なAIへのアクセスを保証しますが、既存の検証アプローチでは、現代的なモデルへのスケールアップに苦労しています。
Proof of Quality (PoQ)は、計算の暗号的検証を出力品質に対するコンセンサスに置き換えるが、元の定式化は推論と評価ノード間の不均一な計算コストを無視している。
本稿では,両ノードの報酬機構に明示的な効率測定を組み込む,コスト対応のPoQフレームワークを提案する。
この設計は、基底真理トークンレベルF1、軽量学習評価器、GPTに基づく判断を統一評価パイプライン内に組み合わせ、正規化品質とコストのバランスをとる線形報酬関数を採用する。
TinyLlama-1.1BからLlama-3.2-3Bまでの5つの命令付きLPMと、クロスエンコーダとバイエンコーダアーキテクチャにまたがる3つの評価モデルを用いて、抽出的質問応答と抽象的要約の実験を行った。
その結果、意味的テキスト類似性ビエンコーダは、クロスエンコーダよりも基底真理とGPTスコアの相関がはるかに高いことを示し、評価器アーキテクチャがPoQの重要な設計選択であることを示す。
品質コスト分析により、プール内の最大のモデルも、ユニットのレイテンシーあたりの品質という点で最も効率的であることが分かる。
モンテカルロの5万回のPoQラウンドでのシミュレーションでは、低い品質のノードをペナルティ化しながら、高い平均報酬を高品質の低コスト推論モデルと効率的な評価者に一貫して割り当てている。
これらの結果から,コストを意識したPoQが経済的に持続可能な分散LLM推論の基礎となることが示唆された。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Meta-Router: Bridging Gold-standard and Preference-based Evaluations in Large Language Model Routing [15.724480880994259]
大規模言語モデル(LLM)ルータは、クエリ毎に候補のプールから最も適切なモデルを選択する。
クラウドソーシングやLSM-as-a-judgeシステムを通じて収集された嗜好ベースのデータは、より安価でスケーラブルだが、応答の真の品質を反映することにはバイアスが伴うことが多い。
我々は、好みデータバイアスを補正し、2つのデータソース間の不均衡に対処し、ルーティングの堅牢性と効率を改善する統合因果ルータトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-09-29T21:44:00Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Quality-Aware Decoding: Unifying Quality Estimation and Decoding [12.843274390224853]
本稿では,部分翻訳を確実に評価できる新しいトークンレベルQEモデルを提案する。
次に、品質認識復号のためのQEモデルを統合する復号戦略を提案する。
私たちのアプローチは文書翻訳タスクにおいて大きなメリットをもたらします。
論文 参考訳(メタデータ) (2025-02-12T16:49:52Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Proof of Quality: A Costless Paradigm for Trustless Generative AI Model Inference on Blockchains [24.934767209724335]
生成AIモデルは、自然言語や画像タスクにおいて強力で破壊的な能力を示している。
これらのモデルを分散環境で展開することは 依然として困難です
ブロックチェーンアーキテクチャ上に任意の大規模な生成モデルをデプロイ可能にするために,Emphproof of Quality(PoQ)と呼ばれる新たな推論パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-28T08:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。