論文の概要: LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics
- arxiv url: http://arxiv.org/abs/2512.21010v1
- Date: Wed, 24 Dec 2025 07:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.711607
- Title: LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics
- Title(参考訳): LLM Swiss Round: 競合型Swiss-System Dynamicsによるマルチベンチマークパフォーマンスの集約
- Authors: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong,
- Abstract要約: 大規模言語モデル(LLM)と多様な特殊なベンチマークでは、断片化されたタスク固有のメトリクスから、総合的で競争的なランキングシステムに移行する必要がある。
本稿では,コンペティティブ・スイス・システム・ダイナミクス (CSD) フレームワークを紹介し,シーケンシャル・コンテストをシミュレートする。
CSDは従来のアグリゲーションスコアリングや静的ペアワイズモデルよりもニュアンスでコンテキスト対応のランキングを提供する。
- 参考スコア(独自算出の注目度): 23.99262273166077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation ($N=100,000$ iterations) is used to approximate the statistically robust Expected Win Score ($E[S_m]$), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity ($T_k$), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)と多種多様な専門ベンチマークの急速な普及は、断片化されたタスク固有のメトリクスから、複数の能力範囲でパフォーマンスを効果的に集約する総合的な競争的なランキングシステムに移行する必要がある。
主に静的スコアリングを用いる場合、現在の評価手法は基本的に制限されている。
彼らは多様なベンチマーク間で適切な混合比率を決定するのに苦労し、重要なことは、シーケンシャルでハイテイクなタスクに直面しているときに、モデルのダイナミックな競争力や脆弱性を捉えるのに失敗する。
そこで本研究では,CSD(Competitive Swiss-System Dynamics)フレームワークについて紹介する。
CSDはマルチラウンドでシーケンシャルなコンテストをシミュレートし、モデルが蓄積したウィンロスレコードに基づいて、キュレートされたベンチマーク列に動的にペアリングされる。
そしてモンテカルロシミュレーション(N=100,000ドル)は、統計的に堅牢なWin Score(E[S_m]$)を近似するために使われ、ランダムなペアリングとアーリーラウンド運のノイズを排除している。
さらに, 包括的除去量(T_k$)をパラメータ化することにより, 頑健なジェネラリストと攻撃的なスペシャリストの区別に基づくモデルプロファイルを実現する。
我々は、CDDが従来のアグリゲーションスコアや静的ペアワイズモデルよりも、よりニュアンスでコンテキスト対応のランキングを提供し、リスクインフォームドな次世代LCM評価に向けた重要なステップであることを示す。
関連論文リスト
- Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models [72.52332895840279]
GenClusterはテスト時の計算フレームワークで、オープンウェイトモデルを使用してIOIゴールドレベルのパフォーマンスを実現する。
GenClusterは、オープンウェイトモデルで、初めてIOI 2025で金メダルを獲得できることを示します。
論文 参考訳(メタデータ) (2025-10-16T02:19:25Z) - Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文 参考訳(メタデータ) (2025-10-06T18:53:23Z) - Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis [17.98292973608615]
マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T16:01:58Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - Revisit Mixture Models for Multi-Agent Simulation: Experimental Study within a Unified Framework [19.558523263211942]
マルチエージェントシミュレーションでは、行動多様性や閉ループ分布シフトが主な課題である。
本研究では,マルチモーダルエージェントの挙動を生成するための混合モデルを再検討し,本研究の主流となる手法について述べる。
本研究では,混合モデルに適したクローズドループサンプル生成手法を導入し,分散シフトを緩和する。
論文 参考訳(メタデータ) (2025-01-28T15:26:25Z) - Ensemble Methods for Sequence Classification with Hidden Markov Models [8.241486511994202]
隠れマルコフモデル(HMM)のためのアンサンブル手法を用いたシーケンス分類への軽量なアプローチを提案する。
HMMは、その単純さ、解釈可能性、効率性のために、不均衡または小さいデータセットを持つシナリオにおいて、大きな利点を提供する。
アンサンブルに基づくスコアリング手法により,任意の長さのシーケンスの比較が可能となり,不均衡なデータセットの性能が向上する。
論文 参考訳(メタデータ) (2024-09-11T20:59:32Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。