Fugu-MT 論文翻訳(概要): Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs

論文の概要: Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs

arxiv url: http://arxiv.org/abs/2410.11507v1
Date: Tue, 15 Oct 2024 11:20:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.751415
Title: Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs
Title（参考訳）: ベンチマークと評価を再考する: LLMのためのエージェントベースの探索的動的評価フレームワーク
Authors: Wanying Wang, Zeyu Ma, Pengfei Liu, Mingang Chen,
Abstract要約: 従来のQAベンチマークをより柔軟な戦略基準のフォーマットに拡張する**Benchmark+**と、より大きな探索のためにインタラクションプロセスを強化する**Assessment+**の2つの定義を導入する。本稿では,この2つの概念を,検索拡張生成と強化学習によって実装したエージェントベース評価フレームワーク*TestAgent*を提案する。垂直ドメインの評価をスクラッチからアクティベートする既存のベンチマークまで、さまざまなシナリオにおける *TestAgent* の有効性を示す。
参考スコア（独自算出の注目度）: 29.72874725703848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While various vertical domain large language models (LLMs) have been developed, the challenge of automatically evaluating their performance across different domains remains significant in addressing real-world user needs. Current benchmark-based evaluation methods exhibit rigid, purposeless interactions and rely on pre-collected static datasets that are costly to build, inflexible across domains, and misaligned with practical user needs. To address this, we revisit the evaluation components and introduce two definitions: **Benchmark+**, which extends traditional QA benchmarks into a more flexible ``strategy-criterion'' format; and **Assessment+**, which enhances the interaction process for greater exploration and enables both quantitative metrics and qualitative insights that capture nuanced target LLM behaviors from richer multi-turn interactions. We propose an agent-based evaluation framework called *TestAgent*, which implements these two concepts through retrieval augmented generation and reinforcement learning. Experiments on tasks ranging from building vertical domain evaluation from scratch to activating existing benchmarks demonstrate the effectiveness of *TestAgent* across various scenarios. We believe this work offers an interesting perspective on automatic evaluation for LLMs.
Abstract（参考訳）: 様々な垂直ドメイン大言語モデル(LLM)が開発されているが、実際のユーザニーズに対処するためには、異なるドメイン間でパフォーマンスを自動評価するという課題が依然として重要である。現在のベンチマークベースの評価手法では、厳密で目的のないインタラクションを示し、ビルドにコストがかかり、ドメイン間で柔軟性がなく、実践的なユーザニーズと不一致な、事前コンパイルされた静的データセットに依存しています。従来のQAベンチマークをよりフレキシブルな ‘strategy-criterion'' フォーマットに拡張する **Benchmark+* と、より深い探索のためのインタラクションプロセスを強化する *Assessment+* と、よりリッチなマルチターンインタラクションから、ニュアンスされたターゲットのLCMの振る舞いをキャプチャする定量的なメトリクスと定性的洞察の両方を可能にする **Assessment+* である。本稿では,この2つの概念を,検索拡張生成と強化学習によって実装したエージェントベース評価フレームワーク*TestAgent*を提案する。垂直ドメインの評価をスクラッチからアクティベートする既存のベンチマークまで、さまざまなシナリオにおける *TestAgent* の有効性を示す。本研究は,LLMの自動評価に関する興味深い視点を提供すると考えている。

関連論文リスト

MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。 MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文参考訳（メタデータ） (2025-07-17T05:46:27Z)
Beyond Benchmarks: A Novel Framework for Domain-Specific LLM Evaluation and Knowledge Mapping [0.7555681642774916]
本稿では,言語モデル(LM)評価における2つの重要な課題として,信頼性の高いドメイン固有ベンチマークの作成と,ドメイン適応時の知識表現の理解について論じる。本稿では,LMや人為的なキュレーションに頼らずに,生のドメインコーパスを補完型ベンチマークに変換する決定論的パイプラインを提案する。提案手法は,TFとTF-IDFを用いたドメイン固有キーワードと関連する単語リストを生成し,プロンプトとターゲットのペアを構築する。我々は,これらのプロンプトを適切なドメイン固有ターゲットで完了させる能力を測定し,計算コストの低いドメイン知識を直接評価することによって,モデルを評価する。
論文参考訳（メタデータ） (2025-06-09T11:30:12Z)
Survey on Evaluation of LLM-based Agents [28.91672694491855]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文参考訳（メタデータ） (2025-03-20T17:59:23Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-04T15:47:47Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。 EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。 EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文参考訳（メタデータ） (2024-12-13T23:15:35Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文参考訳（メタデータ） (2024-10-07T00:22:07Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文参考訳（メタデータ） (2024-06-01T02:41:34Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。