論文の概要: RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery
- arxiv url: http://arxiv.org/abs/2503.00751v1
- Date: Sun, 02 Mar 2025 06:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:19.633046
- Title: RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery
- Title(参考訳): RAPID: 効率的な検索拡張長文生成と記述計画と情報発見
- Authors: Hongchao Gu, Dexun Li, Kuicai Dong, Hao Zhang, Hang Lv, Hao Wang, Defu Lian, Yong Liu, Enhong Chen,
- Abstract要約: 直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
- 参考スコア(独自算出の注目度): 69.41989381702858
- License:
- Abstract: Generating knowledge-intensive and comprehensive long texts, such as encyclopedia articles, remains significant challenges for Large Language Models. It requires not only the precise integration of facts but also the maintenance of thematic coherence throughout the article. Existing methods, such as direct generation and multi-agent discussion, often struggle with issues like hallucinations, topic incoherence, and significant latency. To address these challenges, we propose RAPID, an efficient retrieval-augmented long text generation framework. RAPID consists of three main modules: (1) Retrieval-augmented preliminary outline generation to reduce hallucinations, (2) Attribute-constrained search for efficient information discovery, (3) Plan-guided article generation for enhanced coherence. Extensive experiments on our newly compiled benchmark dataset, FreshWiki-2024, demonstrate that RAPID significantly outperforms state-of-the-art methods across a wide range of evaluation metrics (e.g. long-text generation, outline quality, latency, etc). Our work provides a robust and efficient solution to the challenges of automated long-text generation.
- Abstract(参考訳): 百科事典記事のような知識集約的で包括的な長文を生成することは、大規模言語モデルにとって重要な課題である。
事実の正確な統合だけでなく、記事全体を通して主題的一貫性の維持も必要である。
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
これらの課題に対処するために,効率的な検索強化長文生成フレームワークであるRAPIDを提案する。
RAPID は,(1) 幻覚を抑えるための検索用予備アウトライン生成,(2) 効率的な情報発見のための属性制約付き探索,(3) 一貫性を高めるためのプラン誘導記事生成の3つの主要モジュールから構成される。
新しくコンパイルされたベンチマークデータセットであるFreshWiki-2024の大規模な実験では、RAPIDは、さまざまな評価指標(例えば、長期テキスト生成、アウトライン品質、レイテンシなど)で最先端のメソッドよりも大幅に優れています。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
関連論文リスト
- DTELS: Towards Dynamic Granularity of Timeline Summarization [23.375978839341855]
我々は,ユーザ命令や要求に基づいて適応タイムラインを構築することを目的とした新しいパラダイムである動的粒度TimELine Summarization(DTELS)を導入する。
本稿では,(1)4次元にわたるタイムライン品質を評価するためのジャーナリスト標準に基づく評価フレームワーク,(2)複数の粒度タイムラインアノテーションを用いた大規模マルチソースデータセット,(3)大規模言語モデル(LLM)に基づく2つの提案されたソリューションによる広範な実験と分析を含む,DTLESの総合的ベンチマークを確立する。
論文 参考訳(メタデータ) (2024-11-14T09:16:48Z) - FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-fact Retrieval [20.217386507637475]
大規模言語モデル(LLM)は、拡張された文脈から単一の事実を抽出するのに熟練しているが、複数の事実の同時検索を必要とするタスクに苦労する。
本稿では,LSMが生成過程を通じて重要情報の追跡を段階的に失う,新たな「中間者ロスト」現象を特定する。
本研究では,連続する書き直しラウンドを通じてコンテキストを洗練する反復的検索手法であるFind All Crucial Texts (FACT)を紹介する。
論文 参考訳(メタデータ) (2024-10-28T13:36:41Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [11.62210546106209]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - Deliberate then Generate: Enhanced Prompting Framework for Text
Generation [70.10319005141888]
Deliberate then Generate (DTG) プロンプトフレームワークはエラー検出命令とエラーを含む可能性のある候補で構成されている。
我々は、要約、翻訳、対話など、7つのテキスト生成タスクにまたがる20以上のデータセットに関する広範な実験を行う。
本稿では,DTGが既存のプロンプト手法を一貫して上回り,複数のテキスト生成タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-31T13:23:04Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。