Fugu-MT 論文翻訳(概要): MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding

論文の概要: MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding

arxiv url: http://arxiv.org/abs/2211.14958v1
Date: Sun, 27 Nov 2022 22:47:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 18:29:47.877860
Title: MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding
Title（参考訳）: mgdoc: 文書画像理解のためのマルチグラニュラー階層による事前学習
Authors: Zilong Wang, Jiuxiang Gu, Chris Tensmeyer, Nikolaos Barmpalios, Ani Nenkova, Tong Sun, Jingbo Shang, Vlad I. Morariu
Abstract要約: 異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。 MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
参考スコア（独自算出の注目度）: 53.03978356918377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Document images are a ubiquitous source of data where the text is organized in a complex hierarchical structure ranging from fine granularity (e.g., words), medium granularity (e.g., regions such as paragraphs or figures), to coarse granularity (e.g., the whole page). The spatial hierarchical relationships between content at different levels of granularity are crucial for document image understanding tasks. Existing methods learn features from either word-level or region-level but fail to consider both simultaneously. Word-level models are restricted by the fact that they originate from pure-text language models, which only encode the word-level context. In contrast, region-level models attempt to encode regions corresponding to paragraphs or text blocks into a single embedding, but they perform worse with additional word-level features. To deal with these issues, we propose MGDoc, a new multi-modal multi-granular pre-training framework that encodes page-level, region-level, and word-level information at the same time. MGDoc uses a unified text-visual encoder to obtain multi-modal features across different granularities, which makes it possible to project the multi-granular features into the same hyperspace. To model the region-word correlation, we design a cross-granular attention mechanism and specific pre-training tasks for our model to reinforce the model of learning the hierarchy between regions and words. Experiments demonstrate that our proposed model can learn better features that perform well across granularities and lead to improvements in downstream tasks.
Abstract（参考訳）: 文書画像は、テキストが細かい粒度(例えば、単語)、中程度の粒度(例えば、段落や図形のような領域)、粗い粒度(例えば、ページ全体)を含む複雑な階層構造で構成される、ユビキタスなデータのソースである。異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。既存のメソッドは、単語レベルまたは領域レベルから機能を学ぶが、両方を同時に考慮しない。単語レベルのモデルは、単語レベルのコンテキストのみをエンコードする純粋なテキスト言語モデルに由来するという事実によって制限される。対照的に、地域レベルのモデルは、段落やテキストブロックに対応する領域を単一の埋め込みにエンコードしようと試みるが、追加の単語レベルの特徴でさらに悪化する。これらの問題に対処するために,ページレベル,領域レベル,単語レベルの情報を同時に符号化する,新しいマルチモーダルなマルチグラニュラー事前学習フレームワークMGDocを提案する。 mgdocは統一されたテキスト・ビジュアルエンコーダを使用して、異なる粒度にまたがるマルチモーダルな特徴を得ることで、複数の粒度の特徴を同じハイパースペースに投影することができる。領域と単語の相関関係をモデル化するために,領域と単語の階層構造を学習するモデルを強化するために,クロス・グラニュラー・アテンション機構と特定の事前学習タスクを設計する。実験により,提案モデルが粒度をまたいで良好な性能を向上し,下流タスクの改善につながることを示す。

関連論文リスト

DRISHTIKON: Visual Grounding at Multiple Granularities in Documents [21.376466879737855]
DRISHTIKON (DRISHTIKON) は、マルチグラニュラおよびマルチブロックのビジュアルグラウンドフレームワークである。提案手法は,多言語OCR,大規模言語モデル,および応答スパンをローカライズする新しい領域マッチングアルゴリズムを統合する。我々の発見は、より堅牢で解釈可能な文書理解システムへの道を開いた。
論文参考訳（メタデータ） (2025-06-26T14:32:23Z)
Hierarchical Level-Wise News Article Clustering via Multilingual Matryoshka Embeddings [5.161088104035108]
本稿では,ニュース記事やソーシャルメディアデータをクラスタリングするための,新しい,スケーラブルで解釈可能な,階層的,多言語的なアプローチを提案する。まず、さまざまなレベルの粒度でストーリーの類似性を決定するマルチリンガルなMatryoshka埋め込みを訓練する。本研究では,Matryoshka埋め込みの階層性を活用し,ユニークなニュース,物語,テーマを識別する効率的な階層的クラスタリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-30T22:17:18Z)
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文参考訳（メタデータ） (2024-10-03T19:25:01Z)
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文参考訳（メタデータ） (2024-08-07T11:20:37Z)
Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文参考訳（メタデータ） (2024-05-28T15:58:31Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Text Reading Order in Uncontrolled Conditions by Sparse Graph Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。モデルは言語に依存しず、多言語データセットで効果的に実行される。モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文参考訳（メタデータ） (2023-05-04T06:21:00Z)
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文参考訳（メタデータ） (2022-12-16T05:08:52Z)
Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文参考訳（メタデータ） (2022-06-19T07:28:54Z)
SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文参考訳（メタデータ） (2022-01-05T14:23:30Z)
Language Through a Prism: A Spectral Approach for Multiscale Language Representations [30.224517199646993]
信号処理は、スケールをまたいだ構造を分離するための自然な枠組みを提供することを示す。入力を通したニューロンの活性化にスペクトルフィルタを適用し、音声タグ付けの一部でよく機能するフィルタ埋め込みを生成する。また、スペクトルフィルタを用いて異なるニューロンを拘束し、異なるスケールで構造をモデル化する訓練モデルのためのプリズム層を提案する。
論文参考訳（メタデータ） (2020-11-09T23:17:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。