Fugu-MT 論文翻訳(概要): A Large Language Model-based Framework for Semi-Structured Tender Document Retrieval-Augmented Generation

論文の概要: A Large Language Model-based Framework for Semi-Structured Tender Document Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2410.09077v1
Date: Fri, 4 Oct 2024 16:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 16:48:15.063192
Title: A Large Language Model-based Framework for Semi-Structured Tender Document Retrieval-Augmented Generation
Title（参考訳）: 半構造化テンダー文書検索用大規模言語モデルベースフレームワーク
Authors: Yilong Zhao, Daifeng Li,
Abstract要約: 大規模言語モデル(LLM)は文書生成の可能性を示しているが、ほとんどのLLMは調達に特別な知識を欠いている。我々は、検索強化技術を用いて、プロのドキュメント生成を実現し、調達文書の正確性と関連性を確保する。
参考スコア（独自算出の注目度）: 1.9842353033302136
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The drafting of documents in the procurement field has progressively become more complex and diverse, driven by the need to meet legal requirements, adapt to technological advancements, and address stakeholder demands. While large language models (LLMs) show potential in document generation, most LLMs lack specialized knowledge in procurement. To address this gap, we use retrieval-augmented techniques to achieve professional document generation, ensuring accuracy and relevance in procurement documentation.
Abstract（参考訳）: 調達分野における文書の起草は、法的要件を満たし、技術的進歩に適応し、ステークホルダーの要求に対処する必要があるため、徐々に複雑で多様なものになっている。大規模言語モデル(LLM)は文書生成の可能性を示しているが、ほとんどのLLMは調達に特別な知識を欠いている。このギャップに対処するために、我々は、プロのドキュメント生成を実現するために、検索強化技術を使用し、調達文書の正確性と関連性を保証する。

関連論文リスト

Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
From Domain Documents to Requirements: Retrieval-Augmented Generation in the Space Industry [12.724250939323216]
我々は、生の宇宙ミッション文書を前処理する、モジュール型のAI駆動型アプローチを提案する。ドメイン標準からコンテキスト関連コンテンツを検索し、大規模言語モデルを用いてドラフト要求を合成する。予備的な結果は、このアプローチが手作業の労力を削減し、関連する要件のカバレッジを改善し、軽量なコンプライアンスアライメントをサポートすることを示唆している。
論文参考訳（メタデータ） (2025-07-10T12:11:01Z)
DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej [5.790242888372048]
以下に、VidhikDastaavejを紹介します。 NyayaShilpは、インドの法律文書に特化された微調整の法的文書生成モデルである。
論文参考訳（メタデータ） (2025-04-04T14:41:50Z)
Analyzing Images of Legal Documents: Toward Multi-Modal LLMs for Access to Justice [0.7673339435080445]
大規模言語モデル(LLM)は、このギャップに対処する可能性を持つ強力な技術として登場した。本稿では,多モードLCMを用いた手書き紙の画像解析について検討する。
論文参考訳（メタデータ） (2024-12-16T14:58:27Z)
Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications [1.1682259692399921]
LLM(Long-context Large Language Model)は、広範囲の接続を把握し、結合的な要約を提供し、様々な業界領域に適応することができる。ケーススタディでは、効率と精度の両方が顕著に向上している。
論文参考訳（メタデータ） (2024-09-27T05:29:31Z)
Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 [0.0]
本稿では,LLM ChatGPTから文書理解知識をFLAN-T5に抽出する手法を提案する。本研究は, 実世界のシナリオにおける高度言語モデルの展開を促進する蒸留技術の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-09-17T15:37:56Z)
A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文参考訳（メタデータ） (2024-08-12T03:52:11Z)
LLM Based Multi-Agent Generation of Semi-structured Documents from Semantic Templates in the Public Administration Domain [2.3999111269325266]
大きな言語モデル(LLM)により、ユーザ要求を満たすカスタマイズされたテキスト出力が作成できるようになった。所望の構造に適合した新しい文書を生成するために,LLMと迅速なエンジニアリングシステム,マルチエージェントシステムを組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-21T13:54:53Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文参考訳（メタデータ） (2023-05-24T17:48:40Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
LAWDR: Language-Agnostic Weighted Document Representations from Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。 BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文参考訳（メタデータ） (2021-06-07T07:14:00Z)
A Survey of Deep Learning Approaches for OCR and Document Understanding [68.65995739708525]
我々は、英語で書かれた文書の文書理解のための様々な手法をレビューする。文献に現れる方法論を集約し,この領域を探索する研究者の跳躍点として機能させる。
論文参考訳（メタデータ） (2020-11-27T03:05:59Z)
SPECTER: Document-level Representation Learning using Citation-informed Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。 SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文参考訳（メタデータ） (2020-04-15T16:05:51Z)
Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。本稿では154K文書から622Kサンプルのデータセットを作成する。
論文参考訳（メタデータ） (2020-02-02T03:54:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。