論文の概要: EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
- arxiv url: http://arxiv.org/abs/2503.08893v2
- Date: Fri, 11 Jul 2025 05:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 14:01:05.275595
- Title: EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
- Title(参考訳): EvalTree: 階層的な機能木による言語モデルの弱さのプロファイリング
- Authors: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh,
- Abstract要約: 言語モデル評価のための弱点探索手法を開発した。
EvalTreeは弱点をより正確に、包括的に識別する。
EvalTreeがアリーナの人間による評価実践の欠陥を明らかにする。
- 参考スコア(独自算出の注目度): 69.96560215277285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for language model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also introduce a weakness profiling method EvalTree. EvalTree constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we provide an interface that allows practitioners to interactively explore the capability trees built by EvalTree.
- Abstract(参考訳): 理想的なモデル評価は、2つの目標を達成するべきである。
言語モデル(LM)評価のこれらの目標に向けて、ベンチマーク中の各インスタンスにおけるLMのパフォーマンスを考慮し、自然言語で表現された弱点の集合である弱点プロファイルを生成する問題を定式化する。
異なる弱みのプロファイリング法を比較するための定量的評価スイートを紹介する。
また、EvalTreeという弱点のプロファイリング手法も導入する。
EvalTreeは、各ノードが自然言語で記述された能力を表す機能ツリーを構築し、この機能を特に評価するベンチマークインスタンスのサブセットにリンクする。
MATHとWildChatのベンチマークでは、EvalTreeは弱点をより正確かつ包括的に識別することで、ベースラインの弱点プロファイリング法より優れていることを示す。
EvalTreeで識別された弱点によってガイドされるトレーニングデータ収集は、他のデータ収集戦略よりもLMのパフォーマンスを向上させる。
また、EvalTreeがChatbot Arenaの人間声に基づく評価プラクティスの欠陥をいかに明らかにしているかを示す。
今後の作業を容易にするために,EvalTreeによって構築された機能ツリーを対話的に探索するインターフェースを提供する。
関連論文リスト
- SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation [70.27631454256024]
SkillVerseは、特定の能力におけるモデル習熟度を理解するための教師なしツリー構造化診断フレームワークである。
任意のレベルの粒度の習熟度を考慮すれば、SkillVerseはモダンな大規模モデルの振る舞いの洞察を生み出す柔軟性がある。
論文 参考訳(メタデータ) (2025-05-31T00:08:59Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - xIDS-EnsembleGuard: An Explainable Ensemble Learning-based Intrusion Detection System [7.2738577621227085]
我々は、先進的な説明可能な侵入検知システム(xIDS)を設計することで、ネットワーク内の悪意ある攻撃を検出することの課題に対処することに注力する。
既存の機械学習とディープラーニングアプローチには、予測の潜在的なバイアス、解釈可能性の欠如、トレーニングデータに過度に適合するリスクなど、目に見えない制限がある。
本稿では,これらの課題を克服するためのアンサンブル学習手法"EnsembleGuard"を提案する。
論文 参考訳(メタデータ) (2025-03-01T20:49:31Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Ranking Perspective for Tree-based Methods with Applications to Symbolic Feature Selection [3.2964064859807496]
木に基づく手法は統計学や機械学習において強力な非パラメトリック手法である。
近年の応用は、現在の理論的理解の下では明らかでない変換を区別する驚くべき能力を明らかにしている。
この研究は、ランク付けの観点から木に基づく手法の有限サンプル解析を提供する。
論文 参考訳(メタデータ) (2024-10-03T16:03:39Z) - UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Unsupervised Learning of Explainable Parse Trees for Improved
Generalisation [15.576061447736057]
より有意義で説明しやすい解析木構造を学ぶために、Tree-LSTMよりも注意メカニズムを提案します。
また,提案モデルの自然言語推論,意味的関連性,感情分析タスクにおける優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-11T12:10:03Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Feature Partitioning for Robust Tree Ensembles and their Certification
in Adversarial Scenarios [8.300942601020266]
モデルが安全な環境でトレーニングされ、テスト時に攻撃にさらされる、回避攻撃に焦点を当てます。
我々は,与えられたデータセットの特徴に基づく分割に基づいて基本モデルをトレーニングすることにより,堅牢なアンサンブルを構築するモデルに依存しない戦略を提案する。
我々のアルゴリズムは、アンサンブルのほとんどのモデルが攻撃者の影響を受けないことを保証する。
論文 参考訳(メタデータ) (2020-04-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。