Fugu-MT 論文翻訳(概要): Diffusion-based Document Layout Generation

論文の概要: Diffusion-based Document Layout Generation

arxiv url: http://arxiv.org/abs/2303.10787v1
Date: Sun, 19 Mar 2023 22:41:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 17:18:39.780874
Title: Diffusion-based Document Layout Generation
Title（参考訳）: 拡散に基づく文書レイアウト生成
Authors: Liu He, Yijuan Lu, John Corring, Dinei Florencio, Cha Zhang
Abstract要約: 各種文書レイアウトシーケンス生成のための拡散に基づく手法を開発した。我々はまた、新しい測度、Doc-EMD(Doc-Earth Mover's Distance)も導入する。
参考スコア（独自算出の注目度）: 15.77308256077418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop a diffusion-based approach for various document layout sequence generation. Layout sequences specify the contents of a document design in an explicit format. Our novel diffusion-based approach works in the sequence domain rather than the image domain in order to permit more complex and realistic layouts. We also introduce a new metric, Document Earth Mover's Distance (Doc-EMD). By considering similarity between heterogeneous categories document designs, we handle the shortcomings of prior document metrics that only evaluate the same category of layouts. Our empirical analysis shows that our diffusion-based approach is comparable to or outperforming other previous methods for layout generation across various document datasets. Moreover, our metric is capable of differentiating documents better than previous metrics for specific cases.
Abstract（参考訳）: 様々な文書レイアウトシーケンス生成のための拡散ベース手法を開発した。レイアウトシーケンスは、文書設計の内容を明示的なフォーマットで指定する。この新しい拡散ベースアプローチは,より複雑で現実的なレイアウトを可能にするため,画像領域ではなくシーケンス領域で動作する。また,新たにドキュメンテーションアース・マーバー距離(Doc-EMD)を導入した。不均一なカテゴリの文書設計の類似性を考慮することで、レイアウトの同一のカテゴリのみを評価する事前文書メトリクスの欠点を扱う。実験分析の結果,我々の拡散ベースアプローチは,様々な文書データセットをまたいだレイアウト生成手法に匹敵する,あるいは比較できることがわかった。さらに,本手法では,特定の事例に対する従来の指標よりも文書の識別が優れている。

関連論文リスト

DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
Unsupervised Document and Template Clustering using Multimodal Embeddings [0.0]
本稿では,マルチモーダル埋め込みを入力として活用し,教師なし文書クラスタリングへの新たなアプローチについて検討する。本手法は,文書を型レベルでグループ化し,異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的としている。提案手法の有効性を,いくつかの最先端事前学習型マルチモーダルモデルによって生成された埋め込みを用いて評価した。
論文参考訳（メタデータ） (2025-06-13T14:07:44Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文参考訳（メタデータ） (2024-05-20T03:34:24Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Are Layout-Infused Language Models Robust to Layout Distribution Shifts? A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文参考訳（メタデータ） (2023-06-01T18:01:33Z)
Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (2022-12-05T22:14:49Z)
Large-Scale Multi-Document Summarization with Information Extraction and Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文参考訳（メタデータ） (2022-05-01T19:49:15Z)
Specialized Document Embeddings for Aspect-based Similarity of Research Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文参考訳（メタデータ） (2022-03-28T07:35:26Z)
Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-24T00:49:19Z)
Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文参考訳（メタデータ） (2021-11-11T01:58:44Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。