Fugu-MT 論文翻訳(概要): An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture

論文の概要: An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture

arxiv url: http://arxiv.org/abs/2411.13768v1
Date: Thu, 21 Nov 2024 00:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.679923
Title: An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture
Title（参考訳）: LLMエージェント設計への評価駆動アプローチ:プロセスとアーキテクチャ
Authors: Boming Xia, Qinghua Lu, Liming Zhu, Zhenchang Xing, Dehai Zhao, Hao Zhang,
Abstract要約: 大規模言語モデル(LLM)は、未特定目標を自律的に達成できるLLMエージェントの開発を可能にする。事前定義されたテストケースやコード/モデル再開発パイプラインといった従来のアプローチは、LLMエージェント開発におけるユニークな課題に対処するには不十分です。本稿では,これらの課題に対処するために,テスト駆動開発に触発された評価駆動設計手法を提案する。
参考スコア（独自算出の注目度）: 25.752294816136807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Large Language Models (LLMs) has enabled the development of LLM agents capable of autonomously achieving under-specified goals and continuously evolving through post-deployment improvement, sometimes without requiring code or model updates. Conventional approaches, such as pre-defined test cases and code/model redevelopment pipelines, are inadequate for addressing the unique challenges of LLM agent development, particularly in terms of quality and risk control. This paper introduces an evaluation-driven design approach, inspired by test-driven development, to address these challenges. Through a multivocal literature review (MLR), we synthesize existing LLM evaluation methods and propose a novel process model and reference architecture specifically designed for LLM agents. The proposed approach integrates online and offline evaluations to support adaptive runtime adjustments and systematic offline redevelopment, improving runtime pipelines, artifacts, system architecture, and LLMs by continuously incorporating evaluation results, including fine-grained feedback from human and AI evaluators.
Abstract（参考訳）: LLM(Large Language Models)の出現により、LLMエージェントは、未指定の目標を自律的に達成し、時にはコードやモデルの更新を必要とせずに、デプロイ後の改善を通じて継続的に進化することができるようになった。事前定義されたテストケースやコード/モデル再開発パイプラインといった従来のアプローチは、特に品質とリスク管理の観点から、LLMエージェント開発におけるユニークな課題に対処するには不十分です。本稿では,これらの課題に対処するために,テスト駆動開発に触発された評価駆動設計手法を提案する。マルチボカル文献レビュー (MLR) を通じて, 既存のLCM評価手法を合成し, LLMエージェントに特化して設計された新しいプロセスモデルと参照アーキテクチャを提案する。提案手法は,適応型ランタイム調整と体系型オフライン再開発をサポートするために,オンラインおよびオフライン評価を統合した。ランタイムパイプライン,アーティファクト,システムアーキテクチャ,LLMを,人間やAI評価者からのきめ細かいフィードバックを含む評価結果を継続的に取り入れることで改善する。

関連論文リスト

Meta-Judging with Large Language Models: Concepts, Methods, and Challenges [0.5095655848679577]
大規模言語モデル(LLM)は急速に進化しており、現在では評価者として頻繁に使われている。メタアジャッジの最近の進歩を振り返り,文献を整理する。 LLM-as-a-Meta-Judgeはより安定的で信頼性の高い自動評価に有望な方向を提供すると我々は主張する。
論文参考訳（メタデータ） (2026-01-24T05:41:50Z)
Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems [0.0]
エージェントAIの最近の進歩は、スタンドアロンの大規模言語モデルから統合システムへと焦点を移している。 LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。我々はこのフレームワークを、従来のメトリクスによる振る舞いの偏りを示す、代表的なAutonomous CloudOpsユースケースで検証する。
論文参考訳（メタデータ） (2025-12-14T18:17:40Z)
Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications [0.0]
大規模言語モデル(LLM)は、意思決定支援ツール、自動化、AI対応ソフトウェアシステムに急速に統合されている。本稿では,現実のLLMアプリケーションで発生する15の隠れ障害モードのシステムレベルでの分類について述べる。
論文参考訳（メタデータ） (2025-11-25T05:19:23Z)
Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development [33.01897134024342]
エンドツーエンドソフトウェア開発のためのLLMベースの自律エージェントの開発は、ソフトウェア工学における重要なパラダイムシフトである。この作業はコミュニティに、より現実的なベンチマーク、包括的な評価フレームワーク、そしてソフトウェア開発エージェントの現在の能力とコア課題に対する重要な洞察を提供する。
論文参考訳（メタデータ） (2025-11-06T05:10:04Z)
Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文参考訳（メタデータ） (2025-10-10T10:32:39Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。 LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文参考訳（メタデータ） (2025-02-25T01:52:37Z)
Toward LLM-Agent-Based Modeling of Transportation Systems: A Conceptual Framework [15.11130742093296]
交通システムのための汎用LLMエージェントに基づくモデリングフレームワークを提案する。我々の概念的枠組み設計は、人間の旅行者の意思決定と相互作用の過程と特性を忠実に再現する。 LLMエージェントに基づくモデリングフレームワークのさらなる改良が必要であるが、本手法は輸送システムのモデリングとシミュレーションを改善する可能性を秘めていると信じている。
論文参考訳（メタデータ） (2024-12-09T17:24:41Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文参考訳（メタデータ） (2024-10-15T21:48:57Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Towards more realistic evaluation of LLM-based code generation: an experimental study and beyond [36.1669124651617]
我々は,ソフトウェア開発の進化する性質を反映した,大規模言語モデルのコード生成性能を理解するための実証的研究を行った。従来の非無視評価手法は10.0%から61.1%の範囲でLLMの膨らませた性能をもたらすことがわかった。
論文参考訳（メタデータ） (2024-06-11T03:19:18Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。 FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。
論文参考訳（メタデータ） (2024-04-26T16:41:24Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Solution-oriented Agent-based Models Generation with Verifier-assisted Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。 SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文参考訳（メタデータ） (2024-02-04T07:59:06Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。 AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-12T17:24:15Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。