論文の概要: DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing
- arxiv url: http://arxiv.org/abs/2410.12189v2
- Date: Sun, 08 Dec 2024 06:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:12.169910
- Title: DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing
- Title(参考訳): DocETL:複雑な文書処理のためのエージェントクエリ書き換えと評価
- Authors: Shreya Shankar, Tristan Chambers, Tarak Shah, Aditya G. Parameswaran, Eugene Wu,
- Abstract要約: 大規模言語モデル(LLM)は、構造化されていないデータを分析することを約束している。
ユーザ定義操作のためのLLM出力は、最適化されたプロンプトであっても、しばしば不正確である。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
- 参考スコア(独自算出の注目度): 10.712756715779822
- License:
- Abstract: Analyzing unstructured data has been a persistent challenge in data processing. Large Language Models (LLMs) have shown promise in this regard, leading to recent proposals for declarative frameworks for LLM-powered processing of unstructured data. However, these frameworks focus on reducing cost when executing user-specified operations using LLMs, rather than improving accuracy, executing most operations as-is (in a single LLM call). This is problematic for complex tasks and data, where LLM outputs for user-defined operations are often inaccurate, even with optimized prompts. For example, an LLM may struggle to identify {\em all} instances of specific clauses, like force majeure or indemnification, in lengthy legal documents, requiring decomposition of the data, the task, or both. We present DocETL, a system that optimizes complex document processing pipelines, while accounting for LLM shortcomings. DocETL offers a declarative interface for users to define such pipelines and uses an agent-based approach to automatically optimize them, leveraging novel agent-based rewrites (that we call rewrite directives), as well as an optimization and evaluation framework. We introduce (i) logical rewriting of pipelines, tailored for LLM-based tasks, (ii) an agent-guided plan evaluation mechanism that synthesizes and orchestrates task-specific validation prompts, and (iii) an optimization algorithm that efficiently finds promising plans, considering the latencies of agent-based plan generation and evaluation. Our evaluation on four different unstructured document analysis tasks demonstrates that DocETL finds plans with outputs that are 25 to 80% more accurate than well-engineered baselines, addressing a critical gap in unstructured data analysis. DocETL is open-source at docetl.org, and as of November 2024, has amassed over 1.3k GitHub Stars, with users spanning a variety of domains.
- Abstract(参考訳): 構造化されていないデータを分析することは、データ処理において永続的な課題である。
大規模言語モデル(LLM)は、この点において有望であり、LLMを利用した非構造化データの処理のための宣言的フレームワークに関する最近の提案につながっている。
しかしながら、これらのフレームワークは、精度を向上させるのではなく、LLMを使用してユーザ指定の操作を実行する場合のコスト削減に重点を置いている(単一のLLMコールで)。
複雑なタスクやデータには問題があり、ユーザ定義操作のLCM出力は最適化されたプロンプトであっても不正確な場合が多い。
例えば、LLMは、データ、タスク、またはその両方を分解する必要のある長い法的文書において、力のまとまりや償却のような特定の条項のすべての例を特定するのに苦労することがある。
LLMの欠点を考慮した複雑な文書処理パイプラインを最適化するDocETLを提案する。
DocETLは、ユーザーがそのようなパイプラインを定義するための宣言的インターフェースを提供し、エージェントベースのアプローチを使用して自動的にそれらを最適化し、新しいエージェントベースの書き換え(リライトディレクティブと呼ばれる)と最適化および評価フレームワークを活用する。
紹介
i) LLM ベースのタスクに適したパイプラインの論理的書き換え。
二 タスク固有の検証プロンプトを合成し、編成するエージェント誘導型計画評価機構及び
三 エージェントベースの計画作成及び評価のレイテンシを考慮して、効果的に有望な計画を見つける最適化アルゴリズム。
4つの異なる非構造化文書解析タスクに対する評価は、DocETLがよく設計されたベースラインよりも25~80%精度の高い出力を持つプランを見つけ、非構造化データ解析における重要なギャップに対処していることを示している。
DocETLはdocetl.orgでオープンソースとして公開されている。2024年11月現在、GitHub Starsは1.3kを超えており、さまざまなドメインにまたがっている。
関連論文リスト
- Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - SAGEval: The frontiers of Satisfactory Agent based NLG Evaluation for reference-free open-ended text [0.848663031844483]
本稿では,参照/グラウンドラベルが存在しない,あるいは十分に利用できない,自然言語生成のためのロバストな評価手法を開発する必要性を明らかにする。
本研究では,LCM評価器のスコアを補正し,複雑なNLG評価シナリオにおいてもラベル付きデータの必要性を低減できることを示す。
論文 参考訳(メタデータ) (2024-11-25T04:07:16Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - ProcessTBench: An LLM Plan Generation Dataset for Process Mining [0.0]
大規模言語モデル(LLM)は、計画生成において大きな可能性を示しています。
既存のデータセットは、高度なツール使用シナリオに必要な複雑さを欠いていることが多い。
本稿では,TaskBench データセットの拡張である ProcessTBench 合成データセットを提案する。
論文 参考訳(メタデータ) (2024-09-13T20:56:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models [28.105271954633682]
本稿では,Large Language Models (LLMs) へのリーク情報の再ランク付けのための,Q-PEFT (Q-PEFT) アプローチを提案する。
クエリを使用して、入力ドキュメントから上位$kのトークンを抽出し、コンテキストのヒントとして機能します。
検索機構をマルチヘッドアテンション層に置き換えて、エンドツーエンドのトレーニングを実現し、文書中のすべてのトークンをカバーすることにより、Q-PEFTをさらに強化する。
論文 参考訳(メタデータ) (2024-04-06T06:44:41Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。