論文の概要: A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality
- arxiv url: http://arxiv.org/abs/2603.04028v1
- Date: Wed, 04 Mar 2026 13:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.312488
- Title: A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality
- Title(参考訳): 品質証明付き分散LLM推論のための多次元品質スコアフレームワーク
- Authors: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan,
- Abstract要約: 出力品質をモジュラー次元に分解する多次元品質評価フレームワークを提案する。
一見合理的な次元はタスク依存であり、校正なしで基準品質と負の相関があることを示す。
- 参考スコア(独自算出の注目度): 2.621929201001929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized large language model (LLM) inference networks can pool heterogeneous compute to scale serving, but they require lightweight and incentive-compatible mechanisms to assess output quality. Prior work introduced cost-aware Proof of Quality (PoQ) and adaptive robust PoQ to allocate rewards under evaluator heterogeneity and adversarial behavior. In this paper, we focus on the quality signal itself and propose a multi-dimensional quality scoring framework that decomposes output quality into modular dimensions, including model and cost priors, structure quality, semantic quality, query-output alignment, and agreement/uncertainty. Using logged outputs from QA and summarization tasks, we systematically audit dimension reliability and show that seemingly reasonable dimensions can be task-dependent and even negatively correlated with reference quality without calibration. While the default composite underperforms a strong single semantic evaluator, ablations reveal that removing unreliable dimensions and re-normalizing weights yields a calibrated composite that matches or exceeds the best single- evaluator and consensus baselines. Finally, we integrate the composite score as a drop-in quality signal in PoQ and demonstrate complementary benefits with robust aggregation and adaptive trust weighting under adversarial evaluator attacks.
- Abstract(参考訳): 分散大言語モデル (LLM) 推論ネットワークは多種多様な計算をプールしてサービス提供をスケールすることができるが、出力品質を評価するには軽量でインセンティブに適合するメカニズムが必要である。
それまでの作業では、コストアウェアな品質証明(PoQ)と適応的なロバストなPoQを導入して、評価の不均一性と敵対的な振る舞いの下で報酬を割り当てた。
本稿では,品質信号自体に焦点をあて,出力品質をモデルとコスト先行,構造品質,セマンティック品質,クエリアウトプットアライメント,コンセンサス/不確実性などのモジュール次元に分解する多次元品質スコアリングフレームワークを提案する。
QAおよび要約タスクからのログ出力を用いて, 寸法信頼性を体系的に監査し, 一見合理的な寸法はタスク依存であり, 校正なしで基準品質と負の相関があることを示す。
デフォルトのコンポジットは強いシングルセマンティック評価器を過小評価する一方で、信頼性の低い次元と再正規化重みを除去すると、最高のシングルセマンティック評価器とコンセンサスベースラインに適合または超過する校正されたコンポジットが得られることが明らかになった。
最後に, 合成スコアをPopQのドロップイン品質信号として統合し, 対向評価器攻撃によるロバストアグリゲーションと適応信頼重み付けによる相補的利点を示す。
関連論文リスト
- QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment [59.63956655216264]
No-Reference Point Cloud Quality Assessment (NR-PCQA)は、まだ一般化に苦戦している。
HVS(Human Visual System)は、メディアタイプとは独立して知覚品質の評価を実行する。
QD-PCQAと呼ばれるPCQAのための新しい品質対応ドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T04:58:07Z) - Adaptive and Robust Cost-Aware Proof of Quality for Decentralized LLM Inference Networks [2.621929201001929]
我々は、対向レジリエントなコンセンサス形成を追加することで、コスト意識による品質証明機構を拡張した。
我々は評価器の信頼性を定量化し、相関を逆転できるタスク依存のミスアライメントを含む評価器間の強いばらつきを示す。
これらの発見は、コストを意識したProof of Qualityのデフォルトコンポーネントとして、堅牢なコンセンサスを動機付けている。
論文 参考訳(メタデータ) (2026-01-29T02:39:40Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Design and Evaluation of Cost-Aware PoQ for Decentralized LLM Inference [4.254924788681319]
本稿では,分散型大規模言語モデル (LLM) 推論のためのコストアウェアな品質証明 (PoQ) フレームワークを提案する。
この設計は、基底真理トークンレベルF1、軽量学習評価器、GPTに基づく判定を統一評価パイプライン内で組み合わせる。
モンテカルロの5000回以上のPoQラウンドのシミュレーションでは、コスト認識報酬スキームは高品質の低コスト推論モデルに常に高い平均報酬を割り当てることを示した。
論文 参考訳(メタデータ) (2025-12-18T08:57:17Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework [0.23872611575805827]
モデル信頼度とモデル間コンセンサス(外部エントロピー)を組み合わせた二重信号品質評価フレームワークを開発する。
法的な理由づけ、政治的分析、医学的分類書にまたがって評価する。
このフレームワークは、広範に二重符号化することなく定性的なコーディングをスケールする、原則化された、ドメインに依存しない品質保証メカニズムを提供する。
論文 参考訳(メタデータ) (2025-08-28T06:25:07Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - FUNQUE: Fusion of Unified Quality Evaluators [42.41484412777326]
核融合による品質評価は、高性能な品質モデルを開発するための強力な方法として登場した。
統一品質評価器を融合した品質モデルであるFUNQUEを提案する。
論文 参考訳(メタデータ) (2022-02-23T00:21:43Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。