論文の概要: Adaptive and Robust Cost-Aware Proof of Quality for Decentralized LLM Inference Networks
- arxiv url: http://arxiv.org/abs/2601.21189v1
- Date: Thu, 29 Jan 2026 02:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.525897
- Title: Adaptive and Robust Cost-Aware Proof of Quality for Decentralized LLM Inference Networks
- Title(参考訳): 分散型LLM推論ネットワークにおける適応的・ロバストなコストアウェアの品質証明
- Authors: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan,
- Abstract要約: 我々は、対向レジリエントなコンセンサス形成を追加することで、コスト意識による品質証明機構を拡張した。
我々は評価器の信頼性を定量化し、相関を逆転できるタスク依存のミスアライメントを含む評価器間の強いばらつきを示す。
これらの発見は、コストを意識したProof of Qualityのデフォルトコンポーネントとして、堅牢なコンセンサスを動機付けている。
- 参考スコア(独自算出の注目度): 2.621929201001929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized large language model inference networks require lightweight mechanisms to reward high quality outputs under heterogeneous latency and cost. Proof of Quality provides scalable verification by sampling evaluator nodes that score candidate outputs, then aggregating their scores into a consensus signal that determines rewards. However, evaluator heterogeneity and malicious score manipulation can distort consensus and inflate payouts, which weakens incentive alignment in open participation settings. This paper extends a cost-aware Proof of Quality mechanism by adding adversary-resilient consensus formation. We study robust aggregation rules, including median and trimmed mean, and an adaptive trust-weighted consensus that updates evaluator weights from deviation signals. Using question answering and summarization workloads with a ground truth proxy for offline analysis, we quantify evaluator reliability and show strong variance across evaluators, including task-dependent misalignment that can invert correlations. We then evaluate robustness under four adversarial strategies, including noise injection, boosting, sabotage, and intermittent manipulation, across a sweep of malicious ratios and evaluator sample sizes. Our results show that robust aggregation improves consensus alignment with the ground truth proxy and reduces sensitivity to noisy and strategic attacks compared with simple averaging. We further characterize the operational trade-off introduced by evaluator sampling, where larger evaluator sets reduce evaluator rewards and increase payoff variance while inference rewards remain relatively stable in our configuration. These findings motivate robust consensus as a default component for cost-aware Proof of Quality and provide practical guidance for selecting evaluator sampling parameters under adversarial risk and resource constraints.
- Abstract(参考訳): 分散化された大規模言語モデル推論ネットワークは、不均一なレイテンシとコストの下で高品質な出力を報酬する軽量なメカニズムを必要とする。
Proof of Qualityは、候補出力をスコアする評価ノードをサンプリングし、スコアをコンセンサス信号に集約して報酬を決定する、スケーラブルな検証を提供する。
しかし、評価器の不均一性と悪意のあるスコア操作は、コンセンサスを歪め、支払いを減少させ、オープンな参加設定におけるインセンティブアライメントを弱める。
本稿では、対向レジリエントなコンセンサス形成を追加することで、コスト意識による品質証明のメカニズムを拡張した。
中央値およびトリミング平均値を含むロバストアグリゲーションルールと、偏差信号から評価器重みを更新する適応的信頼重み付きコンセンサスについて検討する。
オフライン分析のための基礎的真理プロキシを用いた質問応答および要約処理を用いて、評価者の信頼性を定量化し、相関を逆転できるタスク依存のミスアライメントを含む評価者間での強いばらつきを示す。
次に, ノイズ注入, ブースティング, サボタージュ, 断続的操作を含む4つの対向戦略の下で, 悪質な比率と評価器のサンプルサイズを網羅して頑健性を評価する。
以上の結果から,ロバストアグリゲーションは,基本真理プロキシとのコンセンサス整合性を向上し,ノイズや戦略攻撃に対する感度を簡易平均よりも低下させることがわかった。
さらに、評価器サンプリングによって導入された運用上のトレードオフを特徴付け、より大きな評価器セットは評価器の報酬を減らし、報酬の分散を増大させ、推論報酬は我々の構成では比較的安定している。
これらの知見は,コスト認識型品質証明の既定要素としてロバストなコンセンサスを動機付け,敵対的リスクと資源制約の下で評価指標を選択するための実践的ガイダンスを提供する。
関連論文リスト
- Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark [27.134554623769898]
推論に基づくポーズ推定(RPE)ベンチマークは、ポーズ対応大規模言語モデル(MLLM)の広く採用されている評価標準として登場した。
公平で一貫した定量的評価を妨げる批判的かつベンチマーク品質の問題を特定しました。
論文 参考訳(メタデータ) (2025-07-17T17:33:11Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。