論文の概要: SKATE, a Scalable Tournament Eval: Weaker LLMs differentiate between stronger ones using verifiable challenges
- arxiv url: http://arxiv.org/abs/2508.06111v1
- Date: Fri, 08 Aug 2025 08:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.138687
- Title: SKATE, a Scalable Tournament Eval: Weaker LLMs differentiate between stronger ones using verifiable challenges
- Title(参考訳): SKATE, a Scalable Tournament Eval: Weaker LLMs
- Authors: Dewi S. W. Gould, Bruno Mlodozeniec, Samuel F. Brown,
- Abstract要約: 大規模言語モデル(LLM)が互いに検証可能なタスクを生成することによって競合する新しい評価フレームワークであるSKATEを紹介する。
私たちのコアは、タスクセットとソルバの両方のモデルとしての評価をゲームとして扱うことです。
TrueSkillベースのランキングシステムを用いて、6つのLCMを評価し、(1)より弱いモデルでは、より強力なモデルを確実に識別し、スコア付けすることができ、(2)LSMベースのシステムは、自己参照の振る舞いを可能とし、自己の能力に合わせた質問を生成し、(3)SKATEは自動的に、きめ細かな表面を呈する。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the capabilities and risks of foundation models is paramount, yet current methods demand extensive domain expertise, hindering their scalability as these models rapidly evolve. We introduce SKATE: a novel evaluation framework in which large language models (LLMs) compete by generating and solving verifiable tasks for one another. Our core insight is to treat evaluation as a game: models act as both task-setters and solvers, incentivized to create questions which highlight their own strengths while exposing others' weaknesses. SKATE offers several key advantages, balancing scalability, open-endedness, and objectivity. It is fully automated, data-free, and scalable, requiring no human input or domain expertise. By using verifiable tasks rather than LLM judges, scoring is objective. Unlike domain-limited programmatically-generated benchmarks (e.g. chess-playing or spatial reasoning), having LLMs creatively pose challenges enables open-ended and scalable evaluation. As a proof of concept, we introduce LLM-set code-output-prediction (COP) challenges as a verifiable and extensible framework in which to test our approach. Using a TrueSkill-based ranking system, we evaluate six frontier LLMs and find that: (1) weaker models can reliably differentiate and score stronger ones, (2) LLM-based systems are capable of self-preferencing behavior, generating questions that align with their own capabilities, and (3) SKATE automatically surfaces fine-grained capability differences between models. Our findings are an important step towards general, scalable evaluation frameworks which can keep pace with LLM progress.
- Abstract(参考訳): 基礎モデルの能力とリスクを評価することは最重要であるが、現在の手法は広範なドメインの専門知識を必要としており、これらのモデルが急速に進化するにつれてスケーラビリティを妨げている。
SKATEは,大規模言語モデル(LLM)が互いに検証可能なタスクを生成し,解決することで競合する,新たな評価フレームワークである。
モデルはタスクセッターとソルバの両方として機能し、自身の強みを強調しながら、他人の弱点を露呈する質問をインセンティブにします。
SKATEはスケーラビリティ、オープンディペンデンス、客観性など、いくつかの重要な利点を提供します。
完全に自動化され、データフリーで、スケーラブルで、人間の入力やドメインの専門知識を必要としない。
LLMの判断よりも検証可能なタスクを使用することで、スコアリングは客観的である。
ドメイン限定のプログラム生成ベンチマーク(例えばチェスプレイや空間推論)とは異なり、LLMが創造的に課題に対処することで、オープンでスケーラブルな評価が可能になる。
概念実証として, LLM-set code-output-prediction (COP) の課題を検証可能な拡張可能なフレームワークとして紹介する。
The TrueSkill-based ranking system を用いて6つのフロンティアLCMを評価し,(1) より弱いモデルでは,より強力なモデルを確実に識別し,スコア付けすることができる,(2) LLM-based system では,自己参照行動や,自己の能力に適合する質問を生成する,(3) SKATE では,モデル間の細かな機能差を自動的に表面化する,といった結果を得た。
我々の発見は、LCMの進歩に追随できる、汎用的でスケーラブルな評価フレームワークへの重要な一歩である。
関連論文リスト
- LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。
我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文 参考訳(メタデータ) (2025-07-30T03:50:46Z) - Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。
我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。