論文の概要: Emergent evaluation hubs in a decentralizing large language model ecosystem
- arxiv url: http://arxiv.org/abs/2510.01286v1
- Date: Tue, 30 Sep 2025 23:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.790687
- Title: Emergent evaluation hubs in a decentralizing large language model ecosystem
- Title(参考訳): 分散化大規模言語モデルエコシステムにおける創発的評価ハブ
- Authors: Manuel Cebrian, Tomomi Kito, Raul Castro Fernandez,
- Abstract要約: 大規模な言語モデルは増加しており、ベンチマークも一般的なヤードスティックとして機能している。
これら2つのレイヤの集合パターンがどのように比較されるのかを問う。
相補的ではあるが、対照的なダイナミクスを見つけます。
- 参考スコア(独自算出の注目度): 4.5311655360445515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are proliferating, and so are the benchmarks that serve as their common yardsticks. We ask how the agglomeration patterns of these two layers compare: do they evolve in tandem or diverge? Drawing on two curated proxies for the ecosystem, the Stanford Foundation-Model Ecosystem Graph and the Evidently AI benchmark registry, we find complementary but contrasting dynamics. Model creation has broadened across countries and organizations and diversified in modality, licensing, and access. Benchmark influence, by contrast, displays centralizing patterns: in the inferred benchmark-author-institution network, the top 15% of nodes account for over 80% of high-betweenness paths, three countries produce 83% of benchmark outputs, and the global Gini for inferred benchmark authority reaches 0.89. An agent-based simulation highlights three mechanisms: higher entry of new benchmarks reduces concentration; rapid inflows can temporarily complicate coordination in evaluation; and stronger penalties against over-fitting have limited effect. Taken together, these results suggest that concentrated benchmark influence functions as coordination infrastructure that supports standardization, comparability, and reproducibility amid rising heterogeneity in model production, while also introducing trade-offs such as path dependence, selective visibility, and diminishing discriminative power as leaderboards saturate.
- Abstract(参考訳): 大規模な言語モデルは増加しており、ベンチマークも一般的なヤードスティックとして機能している。
これら2つのレイヤの凝集パターンはどのように比較されるのか?
エコシステムのための2つのキュレートされたプロキシ、Stanford Foundation-Model Ecosystem GraphとEvidently AIベンチマークレジストリに基づいて、補完的だが対照的なダイナミクスを見つけました。
モデル作成は国や組織に広まり、モダリティ、ライセンス、アクセスに多様化している。
一方、ベンチマークの影響は中央集権化パターンを示す: 推論されたベンチマークオーサリングのネットワークでは、上位15%のノードが高い相互性パスの80%以上を占め、3つの国が83%のベンチマークアウトプットを生成し、推定されたベンチマークオーソリティのグローバルGiniは0.89に達した。
エージェントベースのシミュレーションでは、3つのメカニズムが強調されている。新しいベンチマークのより高いエントリーは集中度を低下させ、迅速なインフローは一時的に調整を複雑にし、過剰適合に対するより強い罰則は限定的な効果をもたらす。
これらの結果は、モデル生産における不均一性の増大に伴い、標準化、可視性、再現性をサポートする調整基盤として、集中ベンチマークが機能し、一方で、経路依存、選択的可視性、リーダーボードが飽和するにつれて差別力の低下といったトレードオフを導入することを示唆している。
関連論文リスト
- The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models [15.143674484507251]
本稿では,鍵となる観測を基礎とした新しい圧縮フレームワークであるHierarchicalPruneを紹介する。
DMブロックは異なる機能的階層を示し、初期のブロックはセマンティック構造を確立し、後のブロックはテクスチャの洗練を扱う。
我々のフレームワークは、出力画像の品質を保ちながら、デバイス上の推論に適した範囲に数十億の拡散モデルをもたらす。
論文 参考訳(メタデータ) (2025-08-06T17:30:44Z) - Evaluating the Robustness of Dense Retrievers in Interdisciplinary Domains [0.6432265982168868]
評価ベンチマークの特徴は、検索モデルにおけるドメイン適応の真の利点を歪める可能性がある。
トピックの多様性,境界重なり,意味的複雑性といった,大きく異なる特徴を持つ2つのベンチマークが,微調整のメリットの認識に影響を及ぼす可能性があることを示す。
論文 参考訳(メタデータ) (2025-06-16T23:54:08Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。