論文の概要: DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation
- arxiv url: http://arxiv.org/abs/2503.07170v1
- Date: Mon, 10 Mar 2025 10:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:24.500150
- Title: DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation
- Title(参考訳): DeFine: 長い記事生成のための分解および微粒化アノテーション付きデータセット
- Authors: Ming Wang, Fang Wang, Minghao Hu, Li He, Haiyang Wang, Jun Zhang, Tianwei Yan, Li Li, Zhunchen Luo, Wei Luo, Xiaoying Bai, Guotong Geng,
- Abstract要約: DeFine(Decomposed and Fine-fine annotated dataset for long-form article generation)を紹介する。
DeFineは階層的な分解戦略とドメイン固有の知識とマルチレベルアノテーションの統合によって特徴付けられる。
実験結果から, テキスト品質, 特にトピックカバレッジ, 情報深度, 内容の忠実度が有意に向上した。
- 参考スコア(独自算出の注目度): 24.091769825963173
- License:
- Abstract: Long-form article generation (LFAG) presents challenges such as maintaining logical consistency, comprehensive topic coverage, and narrative coherence across extended articles. Existing datasets often lack both the hierarchical structure and fine-grained annotation needed to effectively decompose tasks, resulting in shallow, disorganized article generation. To address these limitations, we introduce DeFine, a Decomposed and Fine-grained annotated dataset for long-form article generation. DeFine is characterized by its hierarchical decomposition strategy and the integration of domain-specific knowledge with multi-level annotations, ensuring granular control and enhanced depth in article generation. To construct the dataset, a multi-agent collaborative pipeline is proposed, which systematically segments the generation process into four parts: Data Miner, Cite Retreiver, Q&A Annotator and Data Cleaner. To validate the effectiveness of DeFine, we designed and tested three LFAG baselines: the web retrieval, the local retrieval, and the grounded reference. We fine-tuned the Qwen2-7b-Instruct model using the DeFine training dataset. The experimental results showed significant improvements in text quality, specifically in topic coverage, depth of information, and content fidelity. Our dataset publicly available to facilitate future research.
- Abstract(参考訳): 長文記事生成(LFAG)は、論理的一貫性の維持、包括的なトピックカバレッジ、拡張された記事間の物語の一貫性の維持といった課題を提示する。
既存のデータセットは、タスクを効果的に分解するのに必要となる階層構造と微粒なアノテーションの両方を欠いていることが多く、結果として浅い、非組織的な記事が生成される。
これらの制約に対処するため、長文記事生成のための分解および微粒化アノテートデータセットであるDeFineを導入する。
DeFineは階層的な分解戦略と、ドメイン固有の知識とマルチレベルアノテーションの統合によって特徴付けられる。
データセットを構築するために、データマイニング、Cite Retreiver、Q&Aアノテーション、データクリーナーの4つの部分に、生成プロセスを体系的に分割するマルチエージェント協調パイプラインが提案されている。
DeFineの有効性を検証するために、Web検索、ローカル検索、グラウンドドリファレンスの3つのLFAGベースラインを設計、テストした。
DeFineトレーニングデータセットを用いてQwen2-7b-Instructモデルを微調整した。
実験結果から, テキスト品質, 特にトピックカバレッジ, 情報深度, 内容の忠実度が有意に向上した。
私たちのデータセットは、将来の研究を促進するために公開されています。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ConTReGen: Context-driven Tree-structured Retrieval for Open-domain Long-form Text Generation [26.4086456393314]
長い形式のテキスト生成には、幅と深さの両方で複雑なクエリに対処する一貫性のある包括的な応答が必要である。
既存の反復的な検索拡張生成アプローチは、複雑なクエリの各側面を深く掘り下げるのに苦労することが多い。
本稿では,コンテキスト駆動型木構造検索手法を用いた新しいフレームワークであるConTReGenを紹介する。
論文 参考訳(メタデータ) (2024-10-20T21:17:05Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Contextual Categorization Enhancement through LLMs Latent-Space [0.31263095816232184]
本稿では,ウィキペディアデータセットのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
論文 参考訳(メタデータ) (2024-04-25T09:20:51Z) - HIBRIDS: Attention with Hierarchical Biases for Structure-aware Long
Document Summarization [17.58231642569116]
注意点の計算に文書構造を取り入れた階層的バイアスフォアを注入するHIBRIDSを提案する。
また、ソース文書中の有能な内容を質問階層と要約階層に要約するための新しいタスクである階層的質問要約生成を提案する。
論文 参考訳(メタデータ) (2022-03-21T05:27:35Z) - BookSum: A Collection of Datasets for Long-form Narrative Summarization [42.26628743419607]
booksumは長文要約のためのデータセットのコレクションである。
我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
論文 参考訳(メタデータ) (2021-05-18T00:22:46Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。