Fugu-MT 論文翻訳(概要): Assessing and Verifying Task Utility in LLM-Powered Applications

論文の概要: Assessing and Verifying Task Utility in LLM-Powered Applications

arxiv url: http://arxiv.org/abs/2405.02178v1
Date: Fri, 3 May 2024 15:26:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 12:26:23.810865
Title: Assessing and Verifying Task Utility in LLM-Powered Applications
Title（参考訳）: LLMアプリケーションにおけるタスクユーティリティの評価と検証
Authors: Negar Arabzadeh, Siging Huo, Nikhil Mehta, Qinqyun Wu, Chi Wang, Ahmed Awadallah, Charles L. A. Clarke, Julia Kiseleva,
Abstract要約: 大規模言語モデル(LLM)は、エージェント間のコラボレーションを促進し、人間の日常的なタスクを支援するアプリケーションの増加につながっている。このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。 AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。
参考スコア（独自算出の注目度）: 28.41607905656699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents, assisting humans in their daily tasks. However, a significant gap remains in assessing to what extent LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the need to verify utility of LLM-powered applications, particularly by ensuring alignment between the application's functionality and end-user needs. We introduce AgentEval, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the effectiveness and robustness of AgentEval for two open source datasets including Math Problem solving and ALFWorld House-hold related tasks. For reproducibility purposes, we make the data, code and all the logs publicly available at https://bit.ly/3w3yKcS .
Abstract（参考訳）: LLM(Large Language Models)の急速な開発は、複数のエージェント間のコラボレーションを促進し、人間の日常的な作業を支援するアプリケーションの増加につながっている。しかし、LDMを利用したアプリケーションが実際のユーザエクスペリエンスとタスク実行効率をどの程度向上させるかを評価する上で、大きなギャップが残っている。このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。 AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。これにより、提案された基準に対してアプリケーションの実用性を定量化する、包括的な評価が可能になる。本稿では,AgentEval の有効性とロバスト性について,Math Problemsolving や ALFWorld House-hold 関連タスクを含む2つのオープンソースデータセットに対して包括的な解析を行った。再現性のために、データ、コード、すべてのログをhttps://bit.ly/3w3yKcSで公開しています。

関連論文リスト

EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
Goal2Story: A Multi-Agent Fleet based on Privately Enabled sLLMs for Impacting Mapping on Requirements Elicitation [6.547589336272875]
Goal2Storyは、Impact Mapping(IM)フレームワークを採用したマルチエージェントのフリートであり、単にゴール駆動REにコスト効率のよいsLLMを使用するだけである。 StorySeekデータセットには、対応する目標とプロジェクトコンテキスト情報を備えた1,000以上のユーザストーリ(US)が含まれている。評価のために,FHR(Factality Hit Rate)とQuACE(Quality And Consistency Evaluation)の2つの指標を提案した。
論文参考訳（メタデータ） (2025-03-17T15:31:20Z)
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely [8.507599833330346]
外部データで拡張された大規模言語モデル(LLM)は、現実世界のタスクを完了させる際、顕著な能力を示した。 Retrieval-Augmented Generation (RAG) とファインチューニングが注目され、広く応用されている。しかし、データ拡張LDMを様々な専門分野に効果的に展開することは、重大な課題である。
論文参考訳（メタデータ） (2024-09-23T11:20:20Z)
OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。 OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文参考訳（メタデータ） (2024-07-26T19:27:17Z)
Benchmarking Open-Source Language Models for Efficient Question Answering in Industrial Applications [0.0]
大規模言語モデル (LLM) は質問応答 (QA) のようなタスクにおいて顕著な機能を示した。本稿では,オープンソース LLM とオープンソースでない LLM を比較し,質問応答の課題について総合的なベンチマーク研究を行う。
論文参考訳（メタデータ） (2024-06-19T17:11:51Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications [37.047117782796064]
AgentEvalはユーティリティ検証プロセスをシンプルにするために設計されたフレームワークである。本稿では,量子化器の研究の堅牢性について包括的に分析する。
論文参考訳（メタデータ） (2024-02-14T08:46:15Z)
T-RAG: Lessons from the LLM Trenches [7.545277950323593]
アプリケーションエリアは、民間企業文書に対する質問応答です。 Retrieval-Augmented Generationは、LLMベースのアプリケーションを構築するための最も顕著なフレームワークである。 Tree-RAG (T-RAG) と呼ばれるシステムは、エンティティ階層を表現するためにツリー構造を使用する。
論文参考訳（メタデータ） (2024-02-12T08:45:08Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
The Shifted and The Overlooked: A Task-oriented Investigation of User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文参考訳（メタデータ） (2023-10-19T02:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。