Fugu-MT 論文翻訳(概要): DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing

論文の概要: DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing

arxiv url: http://arxiv.org/abs/2410.12189v2
Date: Sun, 08 Dec 2024 06:18:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.216802
Title: DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing
Title（参考訳）: DocETL:複雑な文書処理のためのエージェントクエリ書き換えと評価
Authors: Shreya Shankar, Tristan Chambers, Tarak Shah, Aditya G. Parameswaran, Eugene Wu,
Abstract要約: 大規模言語モデル(LLM)は、構造化されていないデータを分析することを約束している。ユーザ定義操作のためのLLM出力は、最適化されたプロンプトであっても、しばしば不正確である。本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
参考スコア（独自算出の注目度）: 10.712756715779822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Analyzing unstructured data has been a persistent challenge in data processing. Large Language Models (LLMs) have shown promise in this regard, leading to recent proposals for declarative frameworks for LLM-powered processing of unstructured data. However, these frameworks focus on reducing cost when executing user-specified operations using LLMs, rather than improving accuracy, executing most operations as-is (in a single LLM call). This is problematic for complex tasks and data, where LLM outputs for user-defined operations are often inaccurate, even with optimized prompts. For example, an LLM may struggle to identify {\em all} instances of specific clauses, like force majeure or indemnification, in lengthy legal documents, requiring decomposition of the data, the task, or both. We present DocETL, a system that optimizes complex document processing pipelines, while accounting for LLM shortcomings. DocETL offers a declarative interface for users to define such pipelines and uses an agent-based approach to automatically optimize them, leveraging novel agent-based rewrites (that we call rewrite directives), as well as an optimization and evaluation framework. We introduce (i) logical rewriting of pipelines, tailored for LLM-based tasks, (ii) an agent-guided plan evaluation mechanism that synthesizes and orchestrates task-specific validation prompts, and (iii) an optimization algorithm that efficiently finds promising plans, considering the latencies of agent-based plan generation and evaluation. Our evaluation on four different unstructured document analysis tasks demonstrates that DocETL finds plans with outputs that are 25 to 80% more accurate than well-engineered baselines, addressing a critical gap in unstructured data analysis. DocETL is open-source at docetl.org, and as of November 2024, has amassed over 1.3k GitHub Stars, with users spanning a variety of domains.
Abstract（参考訳）: 構造化されていないデータを分析することは、データ処理において永続的な課題である。大規模言語モデル(LLM)は、この点において有望であり、LLMを利用した非構造化データの処理のための宣言的フレームワークに関する最近の提案につながっている。しかしながら、これらのフレームワークは、精度を向上させるのではなく、LLMを使用してユーザ指定の操作を実行する場合のコスト削減に重点を置いている(単一のLLMコールで)。複雑なタスクやデータには問題があり、ユーザ定義操作のLCM出力は最適化されたプロンプトであっても不正確な場合が多い。例えば、LLMは、データ、タスク、またはその両方を分解する必要のある長い法的文書において、力のまとまりや償却のような特定の条項のすべての例を特定するのに苦労することがある。 LLMの欠点を考慮した複雑な文書処理パイプラインを最適化するDocETLを提案する。 DocETLは、ユーザーがそのようなパイプラインを定義するための宣言的インターフェースを提供し、エージェントベースのアプローチを使用して自動的にそれらを最適化し、新しいエージェントベースの書き換え(リライトディレクティブと呼ばれる)と最適化および評価フレームワークを活用する。紹介 i) LLM ベースのタスクに適したパイプラインの論理的書き換え。二タスク固有の検証プロンプトを合成し、編成するエージェント誘導型計画評価機構及び三エージェントベースの計画作成及び評価のレイテンシを考慮して、効果的に有望な計画を見つける最適化アルゴリズム。 4つの異なる非構造化文書解析タスクに対する評価は、DocETLがよく設計されたベースラインよりも25～80%精度の高い出力を持つプランを見つけ、非構造化データ解析における重要なギャップに対処していることを示している。 DocETLはdocetl.orgでオープンソースとして公開されている。2024年11月現在、GitHub Starsは1.3kを超えており、さまざまなドメインにまたがっている。

関連論文リスト

Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
LLM4Hint: Leveraging Large Language Models for Hint Recommendation in Offline Query Optimization [7.00597706249493]
本稿では,学習句の一般化を促進するために,Large Language Model(LLM)をどのように組み込むかを検討する。我々は,中規模のバックボーンLLMを利用してクエリ最適化ヒントを推奨する textbfLLM4Hint を提案する。
論文参考訳（メタデータ） (2025-07-04T08:32:17Z)
Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-19T03:47:38Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
SoK: LLM-based Log Parsing [2.2779174914142346]
本稿では,29の大規模言語モデル (LLM) に基づくログ解析手法を体系的にレビューする。我々は,学習パラダイムとプロンプトエンジニアリングパラダイム,効率・有効性向上技術,解析プロセスにおけるLLMの役割を分析した。
論文参考訳（メタデータ） (2025-04-07T09:41:04Z)
Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB [44.057784044659726]
大規模言語モデル(LLM)により、このような検索と推論データパイプラインのプロトタイプがより簡単になった。これはしばしば、データシステムのオーケストレーション、データムーブメントの管理、低レベルの詳細処理を含む。我々はFlockMTLを紹介した。FlockMTLはLLM機能と検索拡張生成を深く統合した抽象化用拡張である。
論文参考訳（メタデータ） (2025-04-01T19:48:17Z)
GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensは、自動車分野のデータ分析のためのLLMベースのシステムである。遅くて不透明でメンテナンスにコストがかかる従来のマルチエージェントや計画ベースのシステムとは異なり、GateLensはスピード、透明性、信頼性を強調している。
論文参考訳（メタデータ） (2025-03-27T17:48:32Z)
SAGEval: The frontiers of Satisfactory Agent based NLG Evaluation for reference-free open-ended text [0.848663031844483]
本稿では,参照/グラウンドラベルが存在しない,あるいは十分に利用できない,自然言語生成のためのロバストな評価手法を開発する必要性を明らかにする。本研究では,LCM評価器のスコアを補正し,複雑なNLG評価シナリオにおいてもラベル付きデータの必要性を低減できることを示す。
論文参考訳（メタデータ） (2024-11-25T04:07:16Z)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳（メタデータ） (2024-10-12T03:13:44Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
ProcessTBench: An LLM Plan Generation Dataset for Process Mining [0.0]
大規模言語モデル(LLM)は、計画生成において大きな可能性を示しています。既存のデータセットは、高度なツール使用シナリオに必要な複雑さを欠いていることが多い。本稿では,TaskBench データセットの拡張である ProcessTBench 合成データセットを提案する。
論文参考訳（メタデータ） (2024-09-13T20:56:21Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文参考訳（メタデータ） (2024-06-15T17:07:31Z)
Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models [28.105271954633682]
本稿では,Large Language Models (LLMs) へのリーク情報の再ランク付けのための,Q-PEFT (Q-PEFT) アプローチを提案する。クエリを使用して、入力ドキュメントから上位$kのトークンを抽出し、コンテキストのヒントとして機能します。検索機構をマルチヘッドアテンション層に置き換えて、エンドツーエンドのトレーニングを実現し、文書中のすべてのトークンをカバーすることにより、Q-PEFTをさらに強化する。
論文参考訳（メタデータ） (2024-04-06T06:44:41Z)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。 TableLLMはデータ操作タスクを巧みに扱うために構築されている。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文参考訳（メタデータ） (2024-03-28T11:21:12Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。 ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。以上の結果から,ADaPTは強いベースラインを確立した。
論文参考訳（メタデータ） (2023-11-08T17:59:15Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。