論文の概要: Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture
- arxiv url: http://arxiv.org/abs/2411.13768v2
- Date: Thu, 27 Mar 2025 02:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:27.108234
- Title: Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture
- Title(参考訳): LLMエージェントの評価駆動開発:プロセスモデルと参照アーキテクチャ
- Authors: Boming Xia, Qinghua Lu, Liming Zhu, Zhenchang Xing, Dehai Zhao, Hao Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、未特定目標を達成することができる自律システムの出現を可能にした。
本稿では,テスト駆動型および行動駆動型開発に触発された評価駆動型開発手法を提案する。
我々のアプローチは、オンライン(ランタイム)とオフライン(再開発)の評価を統合し、適応的なランタイム調整を可能にします。
- 参考スコア(独自算出の注目度): 25.752294816136807
- License:
- Abstract: Large Language Models (LLMs) have enabled the emergence of LLM agents: autonomous systems capable of achieving under-specified goals and adapting post-deployment, often without explicit code or model changes. Evaluating these agents is critical to ensuring their performance and safety, especially given their dynamic, probabilistic, and evolving nature. However, traditional approaches such as predefined test cases and standard redevelopment pipelines struggle to address the unique challenges of LLM agent evaluation. These challenges include capturing open-ended behaviors, handling emergent outcomes, and enabling continuous adaptation over the agent's lifecycle. To address these issues, we propose an evaluation-driven development approach, inspired by test-driven and behavior-driven development but reimagined for the unique characteristics of LLM agents. Through a multivocal literature review (MLR), we synthesize the limitations of existing LLM evaluation methods and introduce a novel process model and reference architecture tailored for evaluation-driven development of LLM agents. Our approach integrates online (runtime) and offline (redevelopment) evaluations, enabling adaptive runtime adjustments and systematic iterative refinement of pipelines, artifacts, system architecture, and LLMs themselves. By continuously incorporating evaluation results, including fine-grained feedback from human and AI evaluators, into each stage of development and operation, this framework ensures that LLM agents remain aligned with evolving goals, user needs, and governance standards.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLMエージェントの出現を可能にした: 未指定の目標を達成でき、しばしば明示的なコードやモデルの変更なしに、デプロイ後の適応が可能な自律システム。
これらのエージェントを評価することは、特にその動的で確率的で進化する性質を考えると、パフォーマンスと安全性を確保するために重要である。
しかし、事前定義されたテストケースや標準的な再開発パイプラインのような従来のアプローチは、LLMエージェント評価のユニークな課題に対処するのに苦労している。
これらの課題には、オープンな振る舞いのキャプチャ、創発的な結果の処理、エージェントのライフサイクルに対する継続的な適応の実現などが含まれる。
これらの課題に対処するために,テスト駆動型および行動駆動型開発に触発された評価駆動型開発手法を提案する。
マルチボカル文献レビュー(MLR)を通じて,既存のLLM評価手法の限界を合成し,LLMエージェントの評価駆動開発に適した新しいプロセスモデルと参照アーキテクチャを導入する。
当社のアプローチは、オンライン(ランタイム)とオフライン(再開発)の評価を統合し、適応的なランタイム調整と、パイプライン、アーティファクト、システムアーキテクチャ、LLM自体の体系的な反復的な改善を可能にします。
このフレームワークは、人間とAI評価者からのきめ細かいフィードバックを含む評価結果を開発と運用の各段階に継続的に組み込むことで、LLMエージェントが進化する目標、ユーザニーズ、ガバナンス標準に一致し続けることを保証します。
関連論文リスト
- Linear Feedback Control Systems for Iterative Prompt Optimization in Large Language Models [0.9572675949441439]
大規模言語モデル(LLM)は、与えられたプロンプトに基づいて出力を生成することで、様々なアプリケーションに革命をもたらした。
本稿では,LLMにおける反復的プロンプト最適化プロセスとフィードバック制御システムとの並列性を示す新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T08:52:47Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
SILICON(textbfSystematic textbfInference with textbfLLMs for textbfInformation textbfClassificatitextbfon and textbfNotation)ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
SILICONのワークフローは、共通管理研究タスクをカバーする7つのケーススタディを通して検証する。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Towards more realistic evaluation of LLM-based code generation: an experimental study and beyond [36.1669124651617]
我々は,ソフトウェア開発の進化する性質を反映した,大規模言語モデルのコード生成性能を理解するための実証的研究を行った。
従来の非無視評価手法は10.0%から61.1%の範囲でLLMの膨らませた性能をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-06-11T03:19:18Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。