論文の概要: LLM Based Multi-Agent Generation of Semi-structured Documents from
Semantic Templates in the Public Administration Domain
- arxiv url: http://arxiv.org/abs/2402.14871v1
- Date: Wed, 21 Feb 2024 13:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:02:05.036728
- Title: LLM Based Multi-Agent Generation of Semi-structured Documents from
Semantic Templates in the Public Administration Domain
- Title(参考訳): LLMによる行政領域における意味テンプレートからの半構造化文書のマルチエージェント生成
- Authors: Emanuele Musumeci, Michele Brienza, Vincenzo Suriani, Daniele Nardi,
Domenico Daniele Bloisi
- Abstract要約: 大きな言語モデル(LLM)により、ユーザ要求を満たすカスタマイズされたテキスト出力が作成できるようになった。
所望の構造に適合した新しい文書を生成するために,LLMと迅速なエンジニアリングシステム,マルチエージェントシステムを組み合わせた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.3999111269325266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last years' digitalization process, the creation and management of
documents in various domains, particularly in Public Administration (PA), have
become increasingly complex and diverse. This complexity arises from the need
to handle a wide range of document types, often characterized by
semi-structured forms. Semi-structured documents present a fixed set of data
without a fixed format. As a consequence, a template-based solution cannot be
used, as understanding a document requires the extraction of the data
structure. The recent introduction of Large Language Models (LLMs) has enabled
the creation of customized text output satisfying user requests. In this work,
we propose a novel approach that combines the LLMs with prompt engineering and
multi-agent systems for generating new documents compliant with a desired
structure. The main contribution of this work concerns replacing the commonly
used manual prompting with a task description generated by semantic retrieval
from an LLM. The potential of this approach is demonstrated through a series of
experiments and case studies, showcasing its effectiveness in real-world PA
scenarios.
- Abstract(参考訳): 近年のデジタル化の過程において、様々な分野、特に公共行政(pa)における文書の作成と管理はますます複雑で多様なものとなっている。
この複雑さは、広範囲のドキュメントタイプを扱う必要性から生じ、しばしば半構造化形式によって特徴づけられる。
半構造化文書は、固定フォーマットのない固定されたデータの集合を示す。
その結果、文書を理解するにはデータ構造を抽出する必要があるため、テンプレートベースのソリューションは使用できない。
最近のLLM(Large Language Models)の導入により、ユーザ要求を満たすカスタマイズされたテキスト出力の作成が可能になった。
そこで本研究では,llmとプロンプトエンジニアリングとマルチエージェントシステムを組み合わせて,所望の構造に準拠した新しい文書を生成する新しい手法を提案する。
この作業の主な貢献は、一般的に使用されるマニュアルプロンプトを、llmから意味検索によって生成されたタスク記述に置き換えることである。
このアプローチのポテンシャルは、実世界のPAシナリオでの有効性を示す一連の実験とケーススタディによって実証される。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - LAPDoc: Layout-Aware Prompting for Documents [3.523208537466128]
そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。
その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-15T10:00:49Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Absformer: Transformer-based Model for Unsupervised Multi-Document
Abstractive Summarization [1.066048003460524]
MDS(Multi-document summarization)とは、複数の文書のテキストを簡潔な要約に要約する作業である。
抽象MDSは、自然言語生成技術を用いて、複数の文書の一貫性と流動性を備えた要約を生成することを目的としている。
本稿では、教師なし抽象要約生成のためのトランスフォーマーに基づく新しい手法であるAbsformerを提案する。
論文 参考訳(メタデータ) (2023-06-07T21:18:23Z) - A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document
Summarization [66.08074487429477]
事前学習言語モデル(PLM)は、抽象的な単一文書要約(SDS)において優れた成果を上げている。
本稿では,多文書要約(MDS)タスクにおける多文書間相互作用を容易にするために,PLMをよりよく活用する手法を提案する。
提案手法は, 最大3ルージュLのPLMバックボーンよりも優れており, 人間に好まれる。
論文 参考訳(メタデータ) (2023-05-15T10:03:31Z) - PDSum: Prototype-driven Continuous Summarization of Evolving
Multi-document Sets Stream [33.68263291948121]
我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。
本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。
PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
論文 参考訳(メタデータ) (2023-02-10T23:43:46Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。