論文の概要: ConvergeWriter: Data-Driven Bottom-Up Article Construction
- arxiv url: http://arxiv.org/abs/2509.12811v1
- Date: Tue, 16 Sep 2025 08:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.965827
- Title: ConvergeWriter: Data-Driven Bottom-Up Article Construction
- Title(参考訳): ConvergeWriter: データ駆動型ボトムアップ記事構築
- Authors: Binquan Ji, Jiaqi Wang, Ruiting Li, Xingchen Han, Yiyang Qi, Shichao Wang, Yifei Lu, Yuantao Han, Feiliang Ren,
- Abstract要約: 大規模言語モデル (LLM) はテキスト生成において顕著な進歩を見せている。
しかし、外部知識基盤に根ざした長文の事実文書を作成することは、依然として大きな課題である。
本稿では,従来の生成パイプラインを逆転する,データ駆動型フレームワーク"bottom-up"を提案する。
- 参考スコア(独自算出の注目度): 6.782320986360278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable prowess in text generation, yet producing long-form, factual documents grounded in extensive external knowledge bases remains a significant challenge. Existing "top-down" methods, which first generate a hypothesis or outline and then retrieve evidence, often suffer from a disconnect between the model's plan and the available knowledge, leading to content fragmentation and factual inaccuracies. To address these limitations, we propose a novel "bottom-up," data-driven framework that inverts the conventional generation pipeline. Our approach is predicated on a "Retrieval-First for Knowledge, Clustering for Structure" strategy, which first establishes the "knowledge boundaries" of the source corpus before any generative planning occurs. Specifically, we perform exhaustive iterative retrieval from the knowledge base and then employ an unsupervised clustering algorithm to organize the retrieved documents into distinct "knowledge clusters." These clusters form an objective, data-driven foundation that directly guides the subsequent generation of a hierarchical outline and the final document content. This bottom-up process ensures that the generated text is strictly constrained by and fully traceable to the source material, proactively adapting to the finite scope of the knowledge base and fundamentally mitigating the risk of hallucination. Experimental results on both 14B and 32B parameter models demonstrate that our method achieves performance comparable to or exceeding state-of-the-art baselines, and is expected to demonstrate unique advantages in knowledge-constrained scenarios that demand high fidelity and structural coherence. Our work presents an effective paradigm for generating reliable, structured, long-form documents, paving the way for more robust LLM applications in high-stakes, knowledge-intensive domains.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト生成において顕著な進歩を見せているが、外部知識ベースに根ざした長文の事実文書は依然として大きな課題である。
既存の"トップダウン"手法は、まず仮説やアウトラインを生成して証拠を回収するが、しばしばモデルの計画と利用可能な知識の切り離しに悩まされ、内容の断片化と事実の不正確さにつながる。
これらの制約に対処するため、従来の生成パイプラインを反転させるデータ駆動型フレームワーク「ボットアップ」を提案する。
提案手法は,まずソースコーパスの「知識境界」を生成計画に先立って確立する「知識・クラスタリング・フォー・ストラクチャ」戦略に基づく。
具体的には、知識ベースから徹底的に反復的検索を行い、教師なしクラスタリングアルゴリズムを用いて、検索した文書を別個の「知識クラスタ」に整理する。
これらのクラスタは客観的でデータ駆動の基盤を形成し、階層的なアウトラインと最終的なドキュメントコンテンツの生成を直接ガイドします。
このボトムアッププロセスは、生成したテキストがソース材料に厳格に拘束され、完全にトレース可能であることを保証し、知識基盤の有限の範囲に積極的に適応し、幻覚のリスクを根本的に軽減する。
14Bと32Bのパラメータモデルによる実験結果から,本手法は最先端のベースラインに匹敵する,あるいは超越した性能を達成し,高い忠実度と構造的整合性を必要とする知識制約シナリオにおいて,独特な優位性を示すことが期待される。
我々の研究は、信頼性が高く構造化された長い形式の文書を生成するための効果的なパラダイムを示し、より堅牢で知識集約的な分野におけるLLMアプリケーションへの道を開いた。
関連論文リスト
- Enhancing Retrieval Augmented Generation with Hierarchical Text Segmentation Chunking [0.9968037829925942]
本稿では階層的なテキストセグメンテーションとクラスタリングを統合してRAGを強化する新しいフレームワークを提案する。
推論中、このフレームワークはセグメントレベルのベクトル表現とクラスタレベルのベクトル表現の両方を活用することで情報を取得する。
ナラティブQA,Quality,QASPERデータセットの評価は,従来のチャンキング手法と比較して,提案手法が改善したことを示している。
論文 参考訳(メタデータ) (2025-07-14T05:21:58Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs [31.457954100196524]
我々は、優先事項に関する審議(DP)と呼ばれる信頼できる推論フレームワークを提案する。
DPは、教師付き微調整とKahneman-Tversky最適化を組み合わせることで、構造的事前をLLM(Large Language Models)に統合する。
本フレームワークでは,LLMに対して,抽出した制約前処理に基づいて精巧な推論検証を行うための推論イントロスペクション戦略を採用している。
論文 参考訳(メタデータ) (2025-05-21T07:38:45Z) - Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation [28.568010424711563]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の機能強化を目的としている。
生成に使用する前に検索したチャンクを洗練するために設計された,コンパクトで効率的な,プラグ可能なモジュールを導入する。
論文 参考訳(メタデータ) (2025-02-18T16:38:39Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models [6.099774114286838]
LLM(Large Language Models)における信頼度推定手法は主に、個々のトークンレベルや出力シーケンスレベル全体の信頼度に重点を置いている。
本稿では、構造化データ生成におけるサブ構造レベルで動作する新しい復号法である、信頼性対応サブ構造ビームサーチ(CABS)を提案する。
その結果、CABSは、製品属性生成の問題で平均90%の精度で、構造化データ生成における従来のトークンレベルのビーム探索を16.7%リコールした。
論文 参考訳(メタデータ) (2024-05-30T18:21:05Z) - Everything is Editable: Extend Knowledge Editing to Unstructured Data in Large Language Models [65.10456412127405]
本稿では,非構造化知識編集手法,すなわちUnKEを提案する。
そこで本研究では,非局所ブロック鍵値記憶方式を提案する。
トークンのディメンションでは、コンテキストを保存しながら最後のトークンを直接編集する"期間駆動最適化"を"原因駆動最適化"に置き換えます。
論文 参考訳(メタデータ) (2024-05-24T08:42:40Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。