論文の概要: DyVal: Graph-informed Dynamic Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.17167v2
- Date: Thu, 5 Oct 2023 07:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 21:11:37.185395
- Title: DyVal: Graph-informed Dynamic Evaluation of Large Language Models
- Title(参考訳): DyVal: 大規模言語モデルのグラフインフォームド動的評価
- Authors: Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang,
Xing Xie
- Abstract要約: 大規模言語モデル(LLM)の動的評価のための新鮮で汎用的でフレキシブルな評価プロトコルDyValを紹介する。
提案した動的評価フレームワークに基づいて、有向非巡回グラフの構造的利点を利用してグラフインフォームドDyValを構築する。
DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。
- 参考スコア(独自算出の注目度): 119.38508247380864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance in various
evaluation benchmarks. However, concerns about their performance are raised on
potential data contamination in their considerable volume of training corpus.
Moreover, the static nature and fixed complexity of current benchmarks may
inadequately gauge the advancing capabilities of LLMs. In this paper, we
introduce DyVal, a novel, general, and flexible evaluation protocol for dynamic
evaluation of LLMs. Based on our proposed dynamic evaluation framework, we
build graph-informed DyVal by leveraging the structural advantage of directed
acyclic graphs to dynamically generate evaluation samples with controllable
complexities. DyVal generates challenging evaluation sets on reasoning tasks
including mathematics, logical reasoning, and algorithm problems. We evaluate
various LLMs ranging from Flan-T5-large to ChatGPT and GPT4. Experiments
demonstrate that LLMs perform worse in DyVal-generated evaluation samples with
different complexities, emphasizing the significance of dynamic evaluation. We
also analyze the failure cases and results of different prompting methods.
Moreover, DyVal-generated samples are not only evaluation sets, but also
helpful data for fine-tuning to improve the performance of LLMs on existing
benchmarks. We hope that DyVal can shed light on the future evaluation research
of LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な評価ベンチマークで顕著な性能を達成した。
しかし、その性能に関する懸念は、膨大な量のトレーニングコーパスにおける潜在的なデータ汚染に起因している。
さらに、現在のベンチマークの静的な性質と固定された複雑さは、LLMの進行能力を不適切に評価することができる。
本稿では,LLMの動的評価のための新しい,汎用的で柔軟な評価プロトコルであるDyValを紹介する。
提案する動的評価フレームワークに基づき,有向非巡回グラフの構造的利点を利用して,制御可能な複雑度を有する評価サンプルを動的に生成する。
DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。
Flan-T5-large から ChatGPT , GPT4 まで様々な LLM の評価を行った。
実験により, 複雑度が異なるDyVal生成評価試料では, LLMが悪化し, 動的評価の重要性が強調された。
また,異なるプロンプト手法の故障事例と結果についても分析した。
さらに、DyValの生成したサンプルは評価セットだけではなく、既存のベンチマーク上でのLCMの性能向上のための微調整に役立つデータでもある。
我々はDyValが将来のLCMの評価研究に光を当てられることを願っている。
関連論文リスト
- FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。