論文の概要: Emergent evaluation hubs in a decentralizing large language model ecosystem
- arxiv url: http://arxiv.org/abs/2510.01286v1
- Date: Tue, 30 Sep 2025 23:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.790687
- Title: Emergent evaluation hubs in a decentralizing large language model ecosystem
- Title(参考訳): 分散化大規模言語モデルエコシステムにおける創発的評価ハブ
- Authors: Manuel Cebrian, Tomomi Kito, Raul Castro Fernandez,
- Abstract要約: 大規模な言語モデルは増加しており、ベンチマークも一般的なヤードスティックとして機能している。
これら2つのレイヤの集合パターンがどのように比較されるのかを問う。
相補的ではあるが、対照的なダイナミクスを見つけます。
- 参考スコア(独自算出の注目度): 4.5311655360445515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are proliferating, and so are the benchmarks that serve as their common yardsticks. We ask how the agglomeration patterns of these two layers compare: do they evolve in tandem or diverge? Drawing on two curated proxies for the ecosystem, the Stanford Foundation-Model Ecosystem Graph and the Evidently AI benchmark registry, we find complementary but contrasting dynamics. Model creation has broadened across countries and organizations and diversified in modality, licensing, and access. Benchmark influence, by contrast, displays centralizing patterns: in the inferred benchmark-author-institution network, the top 15% of nodes account for over 80% of high-betweenness paths, three countries produce 83% of benchmark outputs, and the global Gini for inferred benchmark authority reaches 0.89. An agent-based simulation highlights three mechanisms: higher entry of new benchmarks reduces concentration; rapid inflows can temporarily complicate coordination in evaluation; and stronger penalties against over-fitting have limited effect. Taken together, these results suggest that concentrated benchmark influence functions as coordination infrastructure that supports standardization, comparability, and reproducibility amid rising heterogeneity in model production, while also introducing trade-offs such as path dependence, selective visibility, and diminishing discriminative power as leaderboards saturate.
- Abstract(参考訳): 大規模な言語モデルは増加しており、ベンチマークも一般的なヤードスティックとして機能している。
これら2つのレイヤの凝集パターンはどのように比較されるのか?
エコシステムのための2つのキュレートされたプロキシ、Stanford Foundation-Model Ecosystem GraphとEvidently AIベンチマークレジストリに基づいて、補完的だが対照的なダイナミクスを見つけました。
モデル作成は国や組織に広まり、モダリティ、ライセンス、アクセスに多様化している。
一方、ベンチマークの影響は中央集権化パターンを示す: 推論されたベンチマークオーサリングのネットワークでは、上位15%のノードが高い相互性パスの80%以上を占め、3つの国が83%のベンチマークアウトプットを生成し、推定されたベンチマークオーソリティのグローバルGiniは0.89に達した。
エージェントベースのシミュレーションでは、3つのメカニズムが強調されている。新しいベンチマークのより高いエントリーは集中度を低下させ、迅速なインフローは一時的に調整を複雑にし、過剰適合に対するより強い罰則は限定的な効果をもたらす。
これらの結果は、モデル生産における不均一性の増大に伴い、標準化、可視性、再現性をサポートする調整基盤として、集中ベンチマークが機能し、一方で、経路依存、選択的可視性、リーダーボードが飽和するにつれて差別力の低下といったトレードオフを導入することを示唆している。
関連論文リスト
- Harnessing Implicit Cooperation: A Multi-Agent Reinforcement Learning Approach Towards Decentralized Local Energy Markets [41.99844472131922]
分散エージェントは、明示的なピアツーピア通信なしで、ローカルエネルギー市場における最適調整を近似することができる。
スティグマイシンシグナリングは複雑なグリッドコーディネートに十分なコンテキストを提供し、高価な集中型通信インフラに代わる堅牢でプライバシー保護の代替を提供する。
論文 参考訳(メタデータ) (2026-02-17T22:22:32Z) - Benchmark Health Index: A Systematic Framework for Benchmarking the Benchmarks of LLMs [0.546518222976141]
大きな言語モデル(LLM)は急速に進歩しているが、この進歩を測定するために使われるベンチマークはますます信頼できないものになりつつある。
ベンチマークヘルス指標(BHI)は、3つの軸に沿って評価セットを監査するための純粋なデータ駆動型フレームワークである。
BHIは、ベンチマークの健全性をマクロレベルで定量化する最初のフレームワークであり、ベンチマークの選択と動的なライフサイクル管理を可能にするための原則化された基盤を提供する。
論文 参考訳(メタデータ) (2026-02-12T07:47:16Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models [15.143674484507251]
本稿では,鍵となる観測を基礎とした新しい圧縮フレームワークであるHierarchicalPruneを紹介する。
DMブロックは異なる機能的階層を示し、初期のブロックはセマンティック構造を確立し、後のブロックはテクスチャの洗練を扱う。
我々のフレームワークは、出力画像の品質を保ちながら、デバイス上の推論に適した範囲に数十億の拡散モデルをもたらす。
論文 参考訳(メタデータ) (2025-08-06T17:30:44Z) - Evaluating the Robustness of Dense Retrievers in Interdisciplinary Domains [0.6432265982168868]
評価ベンチマークの特徴は、検索モデルにおけるドメイン適応の真の利点を歪める可能性がある。
トピックの多様性,境界重なり,意味的複雑性といった,大きく異なる特徴を持つ2つのベンチマークが,微調整のメリットの認識に影響を及ぼす可能性があることを示す。
論文 参考訳(メタデータ) (2025-06-16T23:54:08Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。