論文の概要: DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2309.17167v3
- Date: Thu, 14 Mar 2024 09:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:42:46.535772
- Title: DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks
- Title(参考訳): DyVal: タスクの推論のための大規模言語モデルの動的評価
- Authors: Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang, Xing Xie,
- Abstract要約: 大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。
この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。
Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
- 参考スコア(独自算出の注目度): 112.66827096358857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns are raised about potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a general and flexible protocol for dynamic evaluation of LLMs. Based on our framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to GPT-3.5-Turbo and GPT-4. Experiments show that LLMs perform worse in DyVal-generated evaluation samples with different complexities, highlighting the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on future evaluation research of LLMs. Code is available at: https://github.com/microsoft/promptbench.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な評価ベンチマークで顕著な性能を達成した。
しかし、膨大な量のトレーニングコーパスにおいて、潜在的なデータ汚染に関する懸念が持ち上がっている。
さらに、現在のベンチマークの静的な性質と固定された複雑さは、LLMの進行能力を不適切に評価することができる。
本稿では,LLMの動的評価のための汎用かつ柔軟なプロトコルであるDyValを紹介する。
本フレームワークでは,有向非巡回グラフの構造的利点を活用して,制御可能な複素量を持つ評価サンプルを動的に生成することにより,グラフインフォームドDyValを構築する。
DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。
Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
実験により, 複雑度が異なるDyVal生成評価試料では, LLMが低下し, 動的評価の重要性が示された。
また、異なるプロンプト手法の障害事例と結果も分析する。
さらに、DyValの生成したサンプルは評価セットだけではなく、既存のベンチマーク上でのLCMの性能向上のための微調整に役立つデータでもある。
我々はDyValが将来のLCMの評価研究に光を当てられることを願っている。
コードは、https://github.com/microsoft/promptbench.comで入手できる。
関連論文リスト
- DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
Agents [47.420587592802775]
我々は,大規模言語モデル(LLM)を評価するための心理指標にインスパイアされた動的評価プロトコルを提案する。
MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力に関する心理測定理論に従って新しいものに自動的に変換する。
多面的解析により,基本能力とモデルサイズに対する暗黙的マシュー効果の強い相関が示された。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [29.99545703896457]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。