論文の概要: Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps
- arxiv url: http://arxiv.org/abs/2508.11452v1
- Date: Fri, 15 Aug 2025 13:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.959878
- Title: Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps
- Title(参考訳): Inclusion Arena: 大規模ファンデーションモデルを現実世界のアプリケーションで評価するためのオープンプラットフォーム
- Authors: Kangyu Wang, Hongliang He, Lin Liu, Ruiqi Liang, Zhenzhong Lan, Jianguo Li,
- Abstract要約: 大規模言語モデル(LLMs)とマルチモーダル大規模言語モデル(MLLMs)は、AI機能の新たな時代を支えている。
Inclusion Arenaは、アプリケーションから直接収集された人間のフィードバックに基づいてモデルをランク付けする、ライブのリーダーボードです。
- 参考スコア(独自算出の注目度): 28.169685609148676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have ushered in a new era of AI capabilities, demonstrating near-human-level performance across diverse scenarios. While numerous benchmarks (e.g., MMLU) and leaderboards (e.g., Chatbot Arena) have been proposed to help evolve the development of LLMs and MLLMs, most rely on static datasets or crowdsourced general-domain prompts, often falling short of reflecting performance in real-world applications. To bridge this critical gap, we present Inclusion Arena, a live leaderboard that ranks models based on human feedback collected directly from AI-powered applications. Our platform integrates pairwise model comparisons into natural user interactions, ensuring evaluations reflect practical usage scenarios. For robust model ranking, we employ the Bradley-Terry model augmented with two key innovations: (1) Placement Matches, a cold-start mechanism to quickly estimate initial ratings for newly integrated models, and (2) Proximity Sampling, an intelligent comparison strategy that prioritizes battles between models of similar capabilities to maximize information gain and enhance rating stability. Extensive empirical analyses and simulations demonstrate that Inclusion Arena yields reliable and stable rankings, exhibits higher data transitivity compared to general crowdsourced datasets, and significantly mitigates the risk of malicious manipulation. By fostering an open alliance between foundation models and real-world applications, Inclusion Arena aims to accelerate the development of LLMs and MLLMs truly optimized for practical, user-centric deployments. The platform is publicly accessible at https://doraemon.alipay.com/model-ranking.
- Abstract(参考訳): 大規模言語モデル(LLMs)とマルチモーダル大規模言語モデル(MLLMs)は、AI機能の新たな時代を支え、さまざまなシナリオにおけるほぼ人間レベルのパフォーマンスを実証している。
多くのベンチマーク(例えばMMLU、Chatbot Arena)とリーダーボード(例えば、Chatbot Arena)がLSMやMLLMの開発を進化させるために提案されているが、ほとんどの場合、静的なデータセットやクラウドソースされた汎用ドメインプロンプトに依存しており、現実のアプリケーションの性能を反映していないことが多い。
この重要なギャップを埋めるために、AIによるアプリケーションから直接収集された人間のフィードバックに基づいて、モデルをランク付けする、ライブのリーダーボードであるInclusion Arenaを紹介します。
我々のプラットフォームは、ペアワイズモデルの比較を自然なユーザインタラクションに統合し、評価が実用的な利用シナリオを反映することを保証する。
頑健なモデルランキングには,(1)配置マッチング,新しい統合モデルの初期評価を素早く見積もるコールドスタート機構,(2)類似機能のモデル間の戦いを優先順位付けして情報獲得を最大化し,評価安定性を高めるインテリジェントな比較戦略,の2つの重要な革新を付加したBradley-Terryモデルを用いる。
大規模な実験分析とシミュレーションにより、インクルージョン・アリーナは信頼性が高く安定したランキングをもたらし、一般的なクラウドソースデータセットよりも高いデータ推移性を示し、悪意のある操作のリスクを著しく軽減することが示された。
ファウンデーションモデルと現実世界のアプリケーションとのオープンアライアンスを育むことで、Inclusion Arenaは、実用的でユーザ中心のデプロイメントに本当に最適化されたLLMとMLLMの開発を加速することを目指している。
プラットフォームはhttps://doraemon.alipay.com/model- grade.comで公開されている。
関連論文リスト
- SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model [88.04128601981145]
汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。
モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。
特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
論文 参考訳(メタデータ) (2025-07-31T17:57:20Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。