論文の概要: InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation
- arxiv url: http://arxiv.org/abs/2602.08229v1
- Date: Mon, 09 Feb 2026 03:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.042666
- Title: InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation
- Title(参考訳): InfiCoEvalChain:LLM評価のためのブロックチェーンベースの分散フレームワーク
- Authors: Yifan Yang, Jinjia Li, Kunxi Li, Puhao Zheng, Yuanyi Wang, Zheyan Qu, Yang Yu, Jianmin Wu, Ming Li, Hongxia Yang,
- Abstract要約: 本研究では,グローバルコントリビュータが独立したバリデータとして振舞うための分散評価フレームワークを提案する。
ブロックチェーンベースのプロトコルを活用することにより、このフレームワークは、グローバルコントリビュータに対して、独立したバリデータとして行動するインセンティブを与える。
実験結果から,分散評価フレームワークは,同一モデル上での10ランの標準偏差を0.28に低減することが示された。
- 参考スコア(独自算出の注目度): 27.11073536061576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) demands increasingly reliable evaluation, yet current centralized evaluation suffers from opacity, overfitting, and hardware-induced variance. Our empirical analysis reveals an alarming inconsistency in existing evaluations: the standard deviation across ten repeated runs of a single model on HumanEval (1.67) actually exceeds the performance gap among the top-10 models on the official leaderboard (0.91), rendering current rankings statistically precarious. To mitigate these instabilities, we propose a decentralized evaluation framework that enables hardware and parameter diversity through large-scale benchmarking across heterogeneous compute nodes. By leveraging the blockchain-based protocol, the framework incentivizes global contributors to act as independent validators, using a robust reward system to ensure evaluation integrity and discourage dishonest participation. This collective verification transforms evaluation from a "centralized black box" into a "decentralized endorsement" where multi-party consensus and diverse inference environments yield a more stable, representative metric. Experimental results demonstrate that the decentralized evaluation framework reduces the standard deviation across ten runs on the same model to 0.28. This significant improvement over conventional frameworks ensures higher statistical confidence in model rankings. We have completely implemented this platform and will soon release it to the community.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、信頼性の高い評価をますます要求するが、現在の集中型評価は不透明さ、過度な適合、ハードウェアによる分散に悩まされている。
従来の評価では,HumanEval (1.67) 上での10回連続するモデル間の標準偏差は,公式のリーダーボード (0.91) 上での上位10モデルのパフォーマンスギャップを実際に上回り,現在のランキングが統計的に悪用されている。
これらの不安定性を軽減するために、異種計算ノード間の大規模ベンチマークにより、ハードウェアとパラメータの多様性を実現する分散評価フレームワークを提案する。
ブロックチェーンベースのプロトコルを活用することで、このフレームワークは、グローバルコントリビュータに対して、独立したバリデータとして行動するインセンティブを与え、堅牢な報酬システムを使用して、評価の完全性を確保し、不正な参加を阻止する。
この集合的検証は、評価を「分散化されたブラックボックス」から「分散化された支持」に変換し、多党のコンセンサスと多様な推論環境がより安定した代表的指標をもたらす。
実験結果から,分散評価フレームワークは,同一モデル上での10ランの標準偏差を0.28に低減することが示された。
この従来のフレームワークに対する大幅な改善により、モデルランキングの統計的信頼性が向上する。
私たちはこのプラットフォームを完全に実装し、すぐにコミュニティにリリースします。
関連論文リスト
- GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks? [29.804627410258732]
我々は、ペアワイズ比較パラダイムを活用する統一評価フレームワークを導入し、安定的かつ人道的な評価を確実にする。
提案手法は,評価精度を20%以上向上し,信頼性の高いLMArenaリーダボードとSpearmanの0.86の相関性を実現する。
論文 参考訳(メタデータ) (2026-02-05T18:52:48Z) - Adaptive and Robust Cost-Aware Proof of Quality for Decentralized LLM Inference Networks [2.621929201001929]
我々は、対向レジリエントなコンセンサス形成を追加することで、コスト意識による品質証明機構を拡張した。
我々は評価器の信頼性を定量化し、相関を逆転できるタスク依存のミスアライメントを含む評価器間の強いばらつきを示す。
これらの発見は、コストを意識したProof of Qualityのデフォルトコンポーネントとして、堅牢なコンセンサスを動機付けている。
論文 参考訳(メタデータ) (2026-01-29T02:39:40Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。