論文の概要: EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
- arxiv url: http://arxiv.org/abs/2503.08893v1
- Date: Tue, 11 Mar 2025 21:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:22.225273
- Title: EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
- Title(参考訳): EvalTree: 階層的な機能木による言語モデルの弱さのプロファイリング
- Authors: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh,
- Abstract要約: 異なる弱みのプロファイリング法を比較するための定量的評価スイートを紹介する。
EvalTreeはベースラインの弱点プロファイリング法より優れていることを示す。
コードと、EvalTreeによって構築された機能ツリーをインタラクティブに探索できるインターフェースをリリースしています。
- 参考スコア(独自算出の注目度): 69.96560215277285
- License:
- Abstract: An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.
- Abstract(参考訳): 理想的なモデル評価は、2つの目標を達成するべきである。
言語モデル(LM)評価のこれらの目標に向けて、ベンチマーク中の各インスタンスにおけるLMのパフォーマンスを考慮し、自然言語で表される弱点の集合である弱点プロファイルを生成する問題を定式化する。
異なる弱みのプロファイリング法を比較するための定量的評価スイートを紹介する。
また,EvalTreeの弱点のプロファイリング手法を提案する。
自然言語で記述された機能を表す機能ツリーを構築し、この機能を特に評価するベンチマークインスタンスのサブセットにリンクする。
MATHとWildChatのベンチマークでは、EvalTreeは弱点をより正確かつ包括的に識別することで、ベースラインの弱点プロファイリング法より優れていることを示す。
EvalTreeで識別された弱点によってガイドされるトレーニングデータ収集は、他のデータ収集戦略よりもLMのパフォーマンスを向上させる。
また、EvalTreeがChatbot Arenaの人間声に基づく評価プラクティスの欠陥をいかに明らかにしているかを示す。
今後の作業を容易にするため、EvalTreeによって構築された機能ツリーを対話的に探索することのできるコードとインターフェースをリリースしています。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning [16.590275264195586]
TreeEvalは、大規模言語モデル(LLM)のベンチマークフリー評価手法である。
これにより、高性能なLLMが再現不可能な評価セッションをホストし、本質的にデータ漏洩を回避することができる。
パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,約45ドルの質問でAlpacaEval2.0との相関係数を最大化する。
論文 参考訳(メタデータ) (2024-02-20T16:38:33Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Unsupervised Learning of Explainable Parse Trees for Improved
Generalisation [15.576061447736057]
より有意義で説明しやすい解析木構造を学ぶために、Tree-LSTMよりも注意メカニズムを提案します。
また,提案モデルの自然言語推論,意味的関連性,感情分析タスクにおける優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-11T12:10:03Z) - Feature Partitioning for Robust Tree Ensembles and their Certification
in Adversarial Scenarios [8.300942601020266]
モデルが安全な環境でトレーニングされ、テスト時に攻撃にさらされる、回避攻撃に焦点を当てます。
我々は,与えられたデータセットの特徴に基づく分割に基づいて基本モデルをトレーニングすることにより,堅牢なアンサンブルを構築するモデルに依存しない戦略を提案する。
我々のアルゴリズムは、アンサンブルのほとんどのモデルが攻撃者の影響を受けないことを保証する。
論文 参考訳(メタデータ) (2020-04-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。