Fugu-MT 論文翻訳(概要): DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks

論文の概要: DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks

arxiv url: http://arxiv.org/abs/2309.17167v3
Date: Thu, 14 Mar 2024 09:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:42:46.535772
Title: DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks
Title（参考訳）: DyVal: タスクの推論のための大規模言語モデルの動的評価
Authors: Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang, Xing Xie,
Abstract要約: 大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。 Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
参考スコア（独自算出の注目度）: 112.66827096358857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns are raised about potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a general and flexible protocol for dynamic evaluation of LLMs. Based on our framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to GPT-3.5-Turbo and GPT-4. Experiments show that LLMs perform worse in DyVal-generated evaluation samples with different complexities, highlighting the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on future evaluation research of LLMs. Code is available at: https://github.com/microsoft/promptbench.
Abstract（参考訳）: 大規模言語モデル (LLM) は様々な評価ベンチマークで顕著な性能を達成した。しかし、膨大な量のトレーニングコーパスにおいて、潜在的なデータ汚染に関する懸念が持ち上がっている。さらに、現在のベンチマークの静的な性質と固定された複雑さは、LLMの進行能力を不適切に評価することができる。本稿では,LLMの動的評価のための汎用かつ柔軟なプロトコルであるDyValを紹介する。本フレームワークでは,有向非巡回グラフの構造的利点を活用して,制御可能な複素量を持つ評価サンプルを動的に生成することにより,グラフインフォームドDyValを構築する。 DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。 Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。実験により, 複雑度が異なるDyVal生成評価試料では, LLMが低下し, 動的評価の重要性が示された。また、異なるプロンプト手法の障害事例と結果も分析する。さらに、DyValの生成したサンプルは評価セットだけではなく、既存のベンチマーク上でのLCMの性能向上のための微調整に役立つデータでもある。我々はDyValが将来のLCMの評価研究に光を当てられることを願っている。コードは、https://github.com/microsoft/promptbench.comで入手できる。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文参考訳（メタデータ） (2024-10-15T21:48:57Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文参考訳（メタデータ） (2024-04-01T06:01:17Z)
Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。 MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。 MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文参考訳（メタデータ） (2024-02-21T06:46:34Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文参考訳（メタデータ） (2023-08-21T06:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。