Fugu-MT 論文翻訳(概要): Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

論文の概要: Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

arxiv url: http://arxiv.org/abs/2405.20245v1
Date: Thu, 30 May 2024 16:54:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:19:40.095645
Title: Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use
Title（参考訳）: Retrieval Augmented Structured Generation: ツールとしてのビジネスドキュメント情報抽出
Authors: Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo,
Abstract要約: ビジネス文書情報抽出(Business Document Information extract, BDIE)は、非構造化情報の塊を下流システムが解析および使用可能な構造化形式に変換する問題である。本稿では,BDIEがツール利用問題として最もよくモデル化されていることを論じる。本稿では,BDIE ベンチマーク上での KIE および LIR タスク上でのSOTA (Retrieval Augmented Structured Generation) の結果を得るための,BDIE のための新しい汎用フレームワークである Retrieval Augmented Structured Generation (RASG) を提案する。
参考スコア（独自算出の注目度）: 1.1041257788838883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Business Document Information Extraction (BDIE) is the problem of transforming a blob of unstructured information (raw text, scanned documents, etc.) into a structured format that downstream systems can parse and use. It has two main tasks: Key-Information Extraction (KIE) and Line Items Recognition (LIR). In this paper, we argue that BDIE is best modeled as a Tool Use problem, where the tools are these downstream systems. We then present Retrieval Augmented Structured Generation (RASG), a novel general framework for BDIE that achieves state of the art (SOTA) results on both KIE and LIR tasks on BDIE benchmarks. The contributions of this paper are threefold: (1) We show, with ablation benchmarks, that Large Language Models (LLMs) with RASG are already competitive with or surpasses current SOTA Large Multimodal Models (LMMs) without RASG on BDIE benchmarks. (2) We propose a new metric class for Line Items Recognition, General Line Items Recognition Metric (GLIRM), that is more aligned with practical BDIE use cases compared to existing metrics, such as ANLS*, DocILE, and GriTS. (3) We provide a heuristic algorithm for backcalculating bounding boxes of predicted line items and tables without the need for vision encoders. Finally, we claim that, while LMMs might sometimes offer marginal performance benefits, LLMs + RASG is oftentimes superior given real-world applications and constraints of BDIE.
Abstract（参考訳）: ビジネス文書情報抽出(Business Document Information extract, BDIE)は、非構造化情報(生テキスト、スキャンされた文書など)の塊を下流システムが解析および使用可能な構造化形式に変換する問題である。キー情報抽出(KIE)とラインアイテム認識(LIR)の2つの主要なタスクがある。本稿では,BDIEがツール利用問題として最もよくモデル化されていることを論じる。次に、BDIEベンチマーク上のKIEとLIRの両方のタスクに対して、SOTA(State-of-the-art)結果を達成するBDIEの新しい汎用フレームワークであるRetrieval Augmented Structured Generation(RASG)を提案する。 1) Ablationベンチマークを用いて、RASGを用いたLarge Language Models (LLMs)が、RASGをBDIEベンチマークに含まない現在のSOTA Large Multimodal Models (LMMs)と既に競合しているか、もしくは上回っていることを示す。 2)ANLS*,DocILE,GriTSなどの既存のメトリクスと比較して,実用的なBDIEのユースケースに適合した,ラインアイテム認識,一般ラインアイテム認識(GLIRM)のための新しいメトリクスクラスを提案する。 (3)視覚エンコーダを必要とせずに,予測ラインアイテムやテーブルのバウンディングボックスを逆計算するヒューリスティックアルゴリズムを提案する。最後に、LMMは時として性能に限界をもたらすことがあるが、実世界のアプリケーションやBDIEの制約を考えると、LSM+RASGの方が優れた場合が多いと主張している。

関連論文リスト

PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-07-23T16:14:08Z)
SAFT: Structure-Aware Fine-Tuning of LLMs for AMR-to-Text Generation [50.277959544420455]
SAFTは、事前訓練された言語モデルにグラフトポロジーを注入する構造対応の微調整手法である。変換されたAMRの磁気ラプラシアンから方向感応的な位置エンコーディングを計算する。 SAFTはAMR 3.0に新しい最先端を設定、ベースラインを3.5BLEU改善した。
論文参考訳（メタデータ） (2025-07-15T18:12:57Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文参考訳（メタデータ） (2025-06-06T04:07:55Z)
Insight-RAG: Enhancing LLMs with Insight-Driven Augmentation [4.390998479503661]
本稿では,インサイトに基づく文書検索のための新しいフレームワークであるInsight-RAGを提案する。 Insight-RAG の初期段階では,従来の検索手法の代わりに LLM を用いて入力クエリとタスクを解析する。従来のRAG手法と同様に、元のクエリを抽出した洞察と統合することにより、最終的なLCMを用いて、文脈的に豊かで正確な応答を生成する。
論文参考訳（メタデータ） (2025-03-31T19:50:27Z)
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文参考訳（メタデータ） (2025-02-17T22:10:47Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models [4.1180254968265055]
LLM-Refは、研究者が複数のソース文書から記事を書くのを補助する記述支援ツールである。チャンキングとインデックスを使用する従来のRAGシステムとは異なり、私たちのツールはテキスト段落から直接コンテンツを検索し、生成します。我々の手法は、RAGシステムの正確で関連性があり、文脈的に適切な応答を生成する能力の全体像を提供する総合的な指標である、Ragasスコアの3.25タイムから6.26タイムの上昇を達成する。
論文参考訳（メタデータ） (2024-11-01T01:11:58Z)
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文参考訳（メタデータ） (2024-10-14T15:04:18Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery [24.38640001674072]
Retrieval-Augmented Generation (RAG)は、検索ツールを利用して外部データベースにアクセスする。既存のRAGシステムは主に簡単な質問応答タスクに有効である。本稿では,MemoRAGを提案する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
Meta Knowledge for Retrieval Augmented Large Language Models [0.0]
大規模言語モデル(LLM)のための新しいデータ中心型RAGワークフローを提案する。提案手法は,各文書にメタデータと合成質問文(QA)を生成することに依存する。合成質問マッチングによる拡張クエリの使用は、従来のRAGパイプラインよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2024-08-16T20:55:21Z)
Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文参考訳（メタデータ） (2024-06-25T22:50:48Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文参考訳（メタデータ） (2024-02-02T06:44:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。