Fugu-MT 論文翻訳(概要): LLM Based Multi-Agent Generation of Semi-structured Documents from Semantic Templates in the Public Administration Domain

論文の概要: LLM Based Multi-Agent Generation of Semi-structured Documents from Semantic Templates in the Public Administration Domain

arxiv url: http://arxiv.org/abs/2402.14871v1
Date: Wed, 21 Feb 2024 13:54:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 17:02:05.036728
Title: LLM Based Multi-Agent Generation of Semi-structured Documents from Semantic Templates in the Public Administration Domain
Title（参考訳）: LLMによる行政領域における意味テンプレートからの半構造化文書のマルチエージェント生成
Authors: Emanuele Musumeci, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico Daniele Bloisi
Abstract要約: 大きな言語モデル(LLM)により、ユーザ要求を満たすカスタマイズされたテキスト出力が作成できるようになった。所望の構造に適合した新しい文書を生成するために,LLMと迅速なエンジニアリングシステム,マルチエージェントシステムを組み合わせた新しい手法を提案する。
参考スコア（独自算出の注目度）: 2.3999111269325266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the last years' digitalization process, the creation and management of documents in various domains, particularly in Public Administration (PA), have become increasingly complex and diverse. This complexity arises from the need to handle a wide range of document types, often characterized by semi-structured forms. Semi-structured documents present a fixed set of data without a fixed format. As a consequence, a template-based solution cannot be used, as understanding a document requires the extraction of the data structure. The recent introduction of Large Language Models (LLMs) has enabled the creation of customized text output satisfying user requests. In this work, we propose a novel approach that combines the LLMs with prompt engineering and multi-agent systems for generating new documents compliant with a desired structure. The main contribution of this work concerns replacing the commonly used manual prompting with a task description generated by semantic retrieval from an LLM. The potential of this approach is demonstrated through a series of experiments and case studies, showcasing its effectiveness in real-world PA scenarios.
Abstract（参考訳）: 近年のデジタル化の過程において、様々な分野、特に公共行政(pa)における文書の作成と管理はますます複雑で多様なものとなっている。この複雑さは、広範囲のドキュメントタイプを扱う必要性から生じ、しばしば半構造化形式によって特徴づけられる。半構造化文書は、固定フォーマットのない固定されたデータの集合を示す。その結果、文書を理解するにはデータ構造を抽出する必要があるため、テンプレートベースのソリューションは使用できない。最近のLLM(Large Language Models)の導入により、ユーザ要求を満たすカスタマイズされたテキスト出力の作成が可能になった。そこで本研究では,llmとプロンプトエンジニアリングとマルチエージェントシステムを組み合わせて,所望の構造に準拠した新しい文書を生成する新しい手法を提案する。この作業の主な貢献は、一般的に使用されるマニュアルプロンプトを、llmから意味検索によって生成されたタスク記述に置き換えることである。このアプローチのポテンシャルは、実世界のPAシナリオでの有効性を示す一連の実験とケーススタディによって実証される。

関連論文リスト

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs [64.27273946787344]
最近のLong-Context Language Modelsは、1つのプロンプトで数十万のトークンを処理することができる。我々は、従来の問題解決トレースから導かれた再利用可能な思考キャッシュとして、推論をリキャストする。本稿では,自然言語フィードバックによって学習データから得られるテンプレートを反復的に洗練する更新戦略を提案する。
論文参考訳（メタデータ） (2025-10-08T19:52:35Z)
Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
Unsupervised Document and Template Clustering using Multimodal Embeddings [0.0]
本稿では,マルチモーダル埋め込みを入力として活用し,教師なし文書クラスタリングへの新たなアプローチについて検討する。本手法は,文書を型レベルでグループ化し,異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的としている。提案手法の有効性を,いくつかの最先端事前学習型マルチモーダルモデルによって生成された埋め込みを用いて評価した。
論文参考訳（メタデータ） (2025-06-13T14:07:44Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-10-26T03:07:22Z)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳（メタデータ） (2024-10-12T03:13:44Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
LAPDoc: Layout-Aware Prompting for Documents [3.523208537466128]
そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
論文参考訳（メタデータ） (2024-02-15T10:00:49Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
Absformer: Transformer-based Model for Unsupervised Multi-Document Abstractive Summarization [1.066048003460524]
MDS(Multi-document summarization)とは、複数の文書のテキストを簡潔な要約に要約する作業である。抽象MDSは、自然言語生成技術を用いて、複数の文書の一貫性と流動性を備えた要約を生成することを目的としている。本稿では、教師なし抽象要約生成のためのトランスフォーマーに基づく新しい手法であるAbsformerを提案する。
論文参考訳（メタデータ） (2023-06-07T21:18:23Z)
A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Summarization [66.08074487429477]
事前学習言語モデル(PLM)は、抽象的な単一文書要約(SDS)において優れた成果を上げている。本稿では,多文書要約(MDS)タスクにおける多文書間相互作用を容易にするために,PLMをよりよく活用する手法を提案する。提案手法は, 最大3ルージュLのPLMバックボーンよりも優れており, 人間に好まれる。
論文参考訳（メタデータ） (2023-05-15T10:03:31Z)
PDSum: Prototype-driven Continuous Summarization of Evolving Multi-document Sets Stream [33.68263291948121]
我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。 PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
論文参考訳（メタデータ） (2023-02-10T23:43:46Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。