論文の概要: MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding
- arxiv url: http://arxiv.org/abs/2211.14958v1
- Date: Sun, 27 Nov 2022 22:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:29:47.877860
- Title: MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding
- Title(参考訳): mgdoc: 文書画像理解のためのマルチグラニュラー階層による事前学習
- Authors: Zilong Wang, Jiuxiang Gu, Chris Tensmeyer, Nikolaos Barmpalios, Ani
Nenkova, Tong Sun, Jingbo Shang, Vlad I. Morariu
- Abstract要約: 異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
- 参考スコア(独自算出の注目度): 53.03978356918377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document images are a ubiquitous source of data where the text is organized
in a complex hierarchical structure ranging from fine granularity (e.g.,
words), medium granularity (e.g., regions such as paragraphs or figures), to
coarse granularity (e.g., the whole page). The spatial hierarchical
relationships between content at different levels of granularity are crucial
for document image understanding tasks. Existing methods learn features from
either word-level or region-level but fail to consider both simultaneously.
Word-level models are restricted by the fact that they originate from pure-text
language models, which only encode the word-level context. In contrast,
region-level models attempt to encode regions corresponding to paragraphs or
text blocks into a single embedding, but they perform worse with additional
word-level features. To deal with these issues, we propose MGDoc, a new
multi-modal multi-granular pre-training framework that encodes page-level,
region-level, and word-level information at the same time. MGDoc uses a unified
text-visual encoder to obtain multi-modal features across different
granularities, which makes it possible to project the multi-granular features
into the same hyperspace. To model the region-word correlation, we design a
cross-granular attention mechanism and specific pre-training tasks for our
model to reinforce the model of learning the hierarchy between regions and
words. Experiments demonstrate that our proposed model can learn better
features that perform well across granularities and lead to improvements in
downstream tasks.
- Abstract(参考訳): 文書画像は、テキストが細かい粒度(例えば、単語)、中程度の粒度(例えば、段落や図形のような領域)、粗い粒度(例えば、ページ全体)を含む複雑な階層構造で構成される、ユビキタスなデータのソースである。
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存のメソッドは、単語レベルまたは領域レベルから機能を学ぶが、両方を同時に考慮しない。
単語レベルのモデルは、単語レベルのコンテキストのみをエンコードする純粋なテキスト言語モデルに由来するという事実によって制限される。
対照的に、地域レベルのモデルは、段落やテキストブロックに対応する領域を単一の埋め込みにエンコードしようと試みるが、追加の単語レベルの特徴でさらに悪化する。
これらの問題に対処するために,ページレベル,領域レベル,単語レベルの情報を同時に符号化する,新しいマルチモーダルなマルチグラニュラー事前学習フレームワークMGDocを提案する。
mgdocは統一されたテキスト・ビジュアルエンコーダを使用して、異なる粒度にまたがるマルチモーダルな特徴を得ることで、複数の粒度の特徴を同じハイパースペースに投影することができる。
領域と単語の相関関係をモデル化するために,領域と単語の階層構造を学習するモデルを強化するために,クロス・グラニュラー・アテンション機構と特定の事前学習タスクを設計する。
実験により,提案モデルが粒度をまたいで良好な性能を向上し,下流タスクの改善につながることを示す。
関連論文リスト
- Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。
既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。
本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文 参考訳(メタデータ) (2024-10-03T19:25:01Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Language Through a Prism: A Spectral Approach for Multiscale Language
Representations [30.224517199646993]
信号処理は、スケールをまたいだ構造を分離するための自然な枠組みを提供することを示す。
入力を通したニューロンの活性化にスペクトルフィルタを適用し、音声タグ付けの一部でよく機能するフィルタ埋め込みを生成する。
また、スペクトルフィルタを用いて異なるニューロンを拘束し、異なるスケールで構造をモデル化する訓練モデルのためのプリズム層を提案する。
論文 参考訳(メタデータ) (2020-11-09T23:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。