論文の概要: DocSynthv2: A Practical Autoregressive Modeling for Document Generation
- arxiv url: http://arxiv.org/abs/2406.08354v1
- Date: Wed, 12 Jun 2024 16:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:06:55.922830
- Title: DocSynthv2: A Practical Autoregressive Modeling for Document Generation
- Title(参考訳): DocSynthv2: ドキュメント生成のための実用的な自動回帰モデリング
- Authors: Sanket Biswas, Rajiv Jain, Vlad I. Morariu, Jiuxiang Gu, Puneet Mathur, Curtis Wigington, Tong Sun, Josep Lladós,
- Abstract要約: 本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
- 参考スコア(独自算出の注目度): 43.84027661517748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While the generation of document layouts has been extensively explored, comprehensive document generation encompassing both layout and content presents a more complex challenge. This paper delves into this advanced domain, proposing a novel approach called DocSynthv2 through the development of a simple yet effective autoregressive structured model. Our model, distinct in its integration of both layout and textual cues, marks a step beyond existing layout-generation approaches. By focusing on the relationship between the structural elements and the textual content within documents, we aim to generate cohesive and contextually relevant documents without any reliance on visual components. Through experimental studies on our curated benchmark for the new task, we demonstrate the ability of our model combining layout and textual information in enhancing the generation quality and relevance of documents, opening new pathways for research in document creation and automated design. Our findings emphasize the effectiveness of autoregressive models in handling complex document generation tasks.
- Abstract(参考訳): ドキュメントレイアウトの生成は広く検討されているが、レイアウトとコンテンツの両方を含む包括的なドキュメント生成は、より複雑な課題である。
本稿は、単純で効果的な自己回帰構造モデルの開発を通じて、DocSynthv2と呼ばれる新しいアプローチを提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
文書中の構造的要素とテキスト内容の関係に着目して,視覚的要素に依存しない密集的かつ文脈的に関連のある文書を作成することを目指す。
本研究は,新しいタスクに対する評価ベンチマーク実験を通じて,文書の生成品質と関連性を向上し,文書作成と自動設計の新たな経路を開拓する上で,レイアウトとテキスト情報を組み合わせたモデルの有効性を実証するものである。
本研究は,複雑な文書生成タスクの処理における自己回帰モデルの有効性を強調した。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Reasoning with Latent Structure Refinement for Document-Level Relation
Extraction [20.308845516900426]
本稿では,潜在文書レベルグラフを自動的に誘導することにより,文間の関係推論を促進する新しいモデルを提案する。
具体的には、大規模文書レベルデータセット(DocRED)上でF1スコア59.05を達成する。
論文 参考訳(メタデータ) (2020-05-13T13:36:09Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。