論文の概要: Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference
- arxiv url: http://arxiv.org/abs/2605.00300v1
- Date: Fri, 01 May 2026 00:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.79448
- Title: Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference
- Title(参考訳): Token Arena: AI推論におけるエネルギーと認知を統一する継続的ベンチマーク
- Authors: Yuxuan Gao, Megan Wang, Yi Ling Yu,
- Abstract要約: TokenArenaは、5つのコア軸に沿って粒度エンドポイントでの推論を測定する連続ベンチマークである。
フレームワーク、スキーマ、プローブ、evalハーネス、v1.0のリーダボードスナップショットをCC BY 4.0でリリースしています。
- 参考スコア(独自算出の注目度): 1.2299000423193074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public inference benchmarks compare AI systems at the model and provider level, but the unit at which deployment decisions are actually made is the endpoint: the (provider, model, stock-keeping-unit) tuple at which a specific quantization, decoding strategy, region, and serving stack is exposed. We introduce TokenArena, a continuous benchmark that measures inference at endpoint granularity along five core axes (output speed, time to first token, workload-blended price, effective context, and quality on the live endpoint) and synthesizes them, together with a modeled energy estimate, into three headline composites: joules per correct answer, dollars per correct answer, and endpoint fidelity (output-distribution similarity to a first-party reference). The framework's novelty is empirical and methodological. Across 78 endpoints serving 12 model families, the same model on different endpoints differs in mean accuracy by up to 12.5 points on math and code, in fingerprint similarity to first party by up to 12 points, in tail latency by an order of magnitude, and in modeled joules per correct answer by a factor of 6.2. We further show that workload-aware blended pricing reorders the leaderboard substantially: 7 of 10 top-ranked endpoints under the chat preset (3:1 input:output) fall out of the top 10 under the retrieval-augmented preset (20:1), and the reasoning preset (1:5) elevates frontier closed models that the chat preset penalizes on price. We release the framework, schema, probe and eval harness, and a v1.0 leaderboard snapshot under CC BY 4.0. TokenArena is a methodology, not a single ranking; we publish full provenance and limitations and welcome external replication.
- Abstract(参考訳): パブリック推論ベンチマークは、モデルとプロバイダレベルでAIシステムを比較するが、実際のデプロイメント決定を行うユニットはエンドポイントである:特定の量子化、デコード戦略、リージョン、サービススタックが露出する(プロデューサ、モデル、ストックキーピングユニット)タプル。
TokenArenaは、5つのコア軸(アウトプット速度、ファーストトークンの時間、ワークロード短縮価格、ライブエンドポイントの有効コンテキスト、品質)に沿ってエンドポイントの粒度を計測し、それらをモデル化されたエネルギー推定とともに、3つの見出し合成に合成する。
フレームワークの斬新さは経験的かつ方法論的です。
12のモデルファミリを提供する78のエンドポイントで、異なるエンドポイント上の同じモデルの平均精度は、数学とコードで最大12.5ポイント、指紋類似度は最大12ポイント、テールレイテンシは桁違いで、正解ごとに6.2倍のモデル付きジュールで異なる。
チャットプリセット(3:1のインプット:アウトプット)は、検索強化プリセット(20:1)の下でトップ10から外れ、推論プリセット(1:5)は、チャットプリセットが価格でペナルティするフロンティアクローズドモデルを高める。
フレームワーク、スキーマ、プローブ、evalハーネス、v1.0のリーダボードスナップショットをCC BY 4.0でリリースしています。
TokenArenaは、単一のランキングではなく、方法論である。
関連論文リスト
- PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners [9.324642081509756]
大規模言語モデル(LLM)推論には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
近年の独占型自己蒸留は,同じモデルによる学生のロールアウトを,検証済みのソリューションコンテキスト下で評価することによって中等地を探索している。
ロールアウト-参照重なりに応じて検証された解を隠蔽し、エントロピー-ミスマッチトークンのスパースセットに小さなエネルギー空間を適用したPAINTを提案する。
論文 参考訳(メタデータ) (2026-04-29T11:56:07Z) - Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents [0.4666493857924357]
複雑なマルチステップ環境において,推論時足場のみに追加のトレーニング計算を使わずに,小さなモデルの性能を向上させることができるかどうかを検討した。
我々は,AppWorldベンチマークのQwen3-8Bを,完全精度と4ビット量子化構成の両方で評価した。
本格的な推測では、私たちの足場付き8Bモデルは、オリジナルのAppWorld評価からDeepSeek-Coder 33Bインストラクション(7.1%)を上回っています。
論文 参考訳(メタデータ) (2026-04-13T13:40:33Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs [49.61011897610774]
How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
論文 参考訳(メタデータ) (2026-02-09T15:47:14Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Open Horizons: Evaluating Deep Models in the Wild [0.0]
CIFAR-10におけるオープンセット認識(OSR)とクラスインクリメンタル学習(FSCIL)の併用に関する統一実験を行った。
OSRでは、ResNet-50、ConvNeXt-Tiny、CLIP ViT-B/16の3つの事前学習された凍結型視覚エンコーダを比較し、線形プローブと4つのポストホックスコア関数(MSP、Energy、Mahalanobis、kNN)を使用。
FSCILでは,部分凍結型ResNet-50を用いたSPPR,OrCo,ConCMの比較を行った。
論文 参考訳(メタデータ) (2025-12-13T03:03:59Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。