論文の概要: SCAN: Structured Capability Assessment and Navigation for LLMs
- arxiv url: http://arxiv.org/abs/2505.06698v3
- Date: Mon, 06 Oct 2025 04:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.378676
- Title: SCAN: Structured Capability Assessment and Navigation for LLMs
- Title(参考訳): SCAN: LLMの構造的能力評価とナビゲーション
- Authors: Zongqi Wang, Tianle Gu, Chen Gong, Xin Tian, Siqi Bao, Yujiu Yang,
- Abstract要約: textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
- 参考スコア(独自算出の注目度): 54.54085382131134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating Large Language Models (LLMs) has become increasingly important, with automatic evaluation benchmarks gaining prominence as alternatives to human evaluation. While existing research has focused on approximating model rankings, such benchmarks fail to provide users and developers with a comprehensive and fine-grained understanding of a specific model's capabilities. To fill this gap, we propose \textbf{SCAN} (Structured Capability Assessment and Navigation), a practical framework that enables detailed characterization of LLM capabilities through comprehensive and fine-grained evaluation. SCAN incorporates four key components: (1) TaxBuilder, which extracts capability-indicating tags from extensive queries to construct a hierarchical taxonomy automatically; (2) RealMix, a query synthesis and filtering mechanism that ensures sufficient evaluation data for each capability tag; (3) a suite of visualization and analysis tools that facilitate efficient navigation and analysis of model capabilities; and (4) a PC$^2$-based (Pre-Comparison-derived Criteria) LLM-as-a-Judge approach that achieves significantly higher accuracy compared to classic LLM-as-a-Judge method. Using SCAN, we conduct a comprehensive evaluation of 21 mainstream LLMs. Our detailed analysis of the GPT-OSS family reveals substantial performance variations, even within sub-capabilities belonging to the same category of capability. This finding highlights the importance of fine-grained evaluation in accurately understanding LLM behavior. Project homepage and resources are available at \href{https://liudan193.github.io/Feedbacker/}{https://liudan193.github.io/Feedbacker/}.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価がますます重要になってきており、自動評価ベンチマークが人間の評価に代わるものとして注目されている。
既存の研究はモデルランキングの近似に重点を置いているが、そのようなベンチマークはユーザーや開発者に対して、特定のモデルの能力に関する包括的できめ細かい理解を提供するには至っていない。
このギャップを埋めるために, 包括的かつきめ細かな評価により, LLM 能力の詳細な評価を可能にする実践的フレームワークである textbf{SCAN} (Structured Capability Assessment and Navigation) を提案する。
SCANは,(1)階層的な分類を自動的に構築するために,広範囲なクエリから機能表示タグを抽出するTaxBuilder,(2)各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリング機構であるRealMix,(3)モデル機能の効率的なナビゲーションと分析を容易にする視覚化と分析ツールのスイート,(4)従来のLLM-as-a-Judge手法と比較してはるかに高い精度を実現するPC$^2$-based (Pre-Comparison- Origin Criteria) LLM-as-a-Judgeアプローチである。
SCANを用いて、21のLLMを総合的に評価する。
GPT-OSSファミリーの詳細な解析により,同一の能力カテゴリに属するサブ能力においても,性能が著しく変化していることが判明した。
この発見は、LCMの挙動を正確に理解する上で、きめ細かい評価の重要性を強調している。
プロジェクトのホームページとリソースは \href{https://liudan193.github.io/Feedbacker/}{https://liudan193.github.io/Feedbacker/} で公開されている。
関連論文リスト
- RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Gradient-Boosted Decision Tree for Listwise Context Model in Multimodal
Review Helpfulness Prediction [40.09991896766369]
マルチモーダルレビュー ヘルプフルネス予測は、予測された有用度スコアに基づいて製品レビューをランク付けすることを目的としている。
本稿ではMRHPランキングの文脈を明確に把握するリストワイズアテンションネットワークを提案する。
また,製品レビューの表現を効果的に分割するスコア予測木として,勾配ブースト決定木を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。