Fugu-MT 論文翻訳(概要): DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents

論文の概要: DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents

arxiv url: http://arxiv.org/abs/2402.14865v1
Date: Wed, 21 Feb 2024 06:46:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 17:01:00.331646
Title: DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents
Title（参考訳）: DyVal 2:メタプローブエージェントによる大規模言語モデルの動的評価
Authors: Kaijie Zhu, Jindong Wang, Qinlin Zhao, Ruochen Xu, Xing Xie
Abstract要約: 我々は,大規模言語モデル(LLM)を評価するための心理指標にインスパイアされた動的評価プロトコルを提案する。 MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力に関する心理測定理論に従って新しいものに自動的に変換する。多面的解析により,基本能力とモデルサイズに対する暗黙的マシュー効果の強い相関が示された。
参考スコア（独自算出の注目度）: 47.420587592802775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluation of large language models (LLMs) has raised great concerns in the community due to the issue of data contamination. Existing work designed evaluation protocols using well-defined algorithms for specific tasks, which cannot be easily extended to diverse scenarios. Moreover, current evaluation benchmarks can only provide the overall benchmark results and cannot support a fine-grained and multifaceted analysis of LLMs' abilities. In this paper, we propose meta probing agents (MPA), a general dynamic evaluation protocol inspired by psychometrics to evaluate LLMs. MPA is the key component of DyVal 2, which naturally extends the previous DyVal~\citep{zhu2023dyval}. MPA designs the probing and judging agents to automatically transform an original evaluation problem into a new one following psychometric theory on three basic cognitive abilities: language understanding, problem solving, and domain knowledge. These basic abilities are also dynamically configurable, allowing multifaceted analysis. We conducted extensive evaluations using MPA and found that most LLMs achieve poorer performance, indicating room for improvement. Our multifaceted analysis demonstrated the strong correlation between the basic abilities and an implicit Matthew effect on model size, i.e., larger models possess stronger correlations of the abilities. MPA can also be used as a data augmentation approach to enhance LLMs.
Abstract（参考訳）: 大規模言語モデル (LLM) の評価は, データの汚染問題により, コミュニティで大きな関心を集めている。既存の作業は、様々なシナリオに容易に拡張できない特定のタスクに対して、適切に定義されたアルゴリズムを使用して評価プロトコルを設計した。さらに、現在の評価ベンチマークは、全体的なベンチマーク結果のみを提供することができ、LLMの能力のきめ細かい多面的解析をサポートできない。本稿では,心理指標にインスパイアされた一般動的評価プロトコルであるメタ・プロブリング・エージェント(MPA)を提案する。 MPAはDyVal 2のキーコンポーネントであり、DyVal~\citep{zhu2023dyval} を自然に拡張している。 MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力(言語理解、問題解決、ドメイン知識)に関する心理学的理論に従う新しいものに自動的に変換する。これらの基本的な機能は動的に設定可能で、多面解析が可能である。 MPAを用いて広範囲な評価を行ったところ,ほとんどのLLMは性能が悪く,改善の余地があることが判明した。マルチフェイス分析により,基本能力と暗黙のマシュー効果との相関が,モデルサイズ,すなわち,より大きなモデルでは能力の強い相関関係が示された。 MPAはLLMを強化するためのデータ拡張アプローチとしても使用できる。

関連論文リスト

Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文参考訳（メタデータ） (2025-11-13T08:13:23Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文参考訳（メタデータ） (2025-07-23T07:51:56Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。 SCANには4つの重要なコンポーネントが含まれている。 TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。 RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。 PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文参考訳（メタデータ） (2025-02-16T22:54:44Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。 G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文参考訳（メタデータ） (2024-02-28T10:43:54Z)
AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。 AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。我々の調査では興味深い発見がいくつか示されている。
論文参考訳（メタデータ） (2024-02-14T18:59:33Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文参考訳（メタデータ） (2023-10-23T21:15:54Z)
DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks [112.66827096358857]
大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。 Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
論文参考訳（メタデータ） (2023-09-29T12:04:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。