論文の概要: A Simple yet Effective Layout Token in Large Language Models for Document Understanding
- arxiv url: http://arxiv.org/abs/2503.18434v1
- Date: Mon, 24 Mar 2025 08:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:00.937810
- Title: A Simple yet Effective Layout Token in Large Language Models for Document Understanding
- Title(参考訳): 文書理解のための大規模言語モデルにおける単純で効果的なレイアウトトークン
- Authors: Zhaoqing Zhu, Chuwei Luo, Zirui Shao, Feiyu Gao, Hangdi Xing, Qi Zheng, Ji Zhang,
- Abstract要約: LayTokenLLMはレイアウト情報をテキストセグメントごとに単一のトークンとして表現する。
テキストとレイアウトトークンの間に位置IDを共有し、追加の位置IDを不要にする。
- 参考スコア(独自算出の注目度): 13.40043973365106
- License:
- Abstract: Recent methods that integrate spatial layouts with text for document understanding in large language models (LLMs) have shown promising results. A commonly used method is to represent layout information as text tokens and interleave them with text content as inputs to the LLMs. However, such a method still demonstrates limitations, as it requires additional position IDs for tokens that are used to represent layout information. Due to the constraint on max position IDs, assigning them to layout information reduces those available for text content, reducing the capacity for the model to learn from the text during training, while also introducing a large number of potentially untrained position IDs during long-context inference, which can hinder performance on document understanding tasks. To address these issues, we propose LayTokenLLM, a simple yet effective method for document understanding. LayTokenLLM represents layout information as a single token per text segment and uses a specialized positional encoding scheme. It shares position IDs between text and layout tokens, eliminating the need for additional position IDs. This design maintains the model's capacity to learn from text while mitigating long-context issues during inference. Furthermore, a novel pre-training objective called Next Interleaved Text and Layout Token Prediction (NTLP) is devised to enhance cross-modality learning between text and layout tokens. Extensive experiments show that LayTokenLLM outperforms existing layout-integrated LLMs and MLLMs of similar scales on multi-page document understanding tasks, as well as most single-page tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)における文書理解のためのテキストと空間レイアウトを統合した最近の手法は有望な結果を示している。
一般的に用いられる方法は、レイアウト情報をテキストトークンとして表現し、LLMへの入力としてテキストコンテンツをインターリーブすることである。
しかし、そのような手法は、レイアウト情報を表すために使われるトークンのための追加の位置IDを必要とするため、依然として制限を示す。
最大位置IDの制約により、レイアウト情報にそれらを割り当てることで、テキストコンテンツとして利用可能なものを減らすことができ、トレーニング中にモデルがテキストから学習する能力を減らすとともに、長いコンテキスト推論中に潜在的にトレーニングされていない位置IDを多数導入することで、文書理解タスクのパフォーマンスを阻害する。
これらの問題に対処するために、文書理解のためのシンプルで効果的な方法であるLayTokenLLMを提案する。
LayTokenLLMは、レイアウト情報をテキストセグメントごとに単一のトークンとして表現し、特殊な位置符号化方式を使用する。
テキストとレイアウトトークンの間に位置IDを共有し、追加の位置IDを不要にする。
この設計は、推論中に長文問題を緩和しながらテキストから学習するモデルの能力を維持している。
さらに,Next Interleaved Text and Layout Token Prediction (NTLP)と呼ばれる新たな事前学習目標が,テキストとレイアウトトークン間の相互モダリティ学習を強化するために考案された。
大規模な実験により、LayTokenLLMは、複数ページの文書理解タスクやほとんどのシングルページタスクにおいて、既存のレイアウト統合 LLM や MLLM よりも優れていることが示された。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding [30.754200683466788]
文書理解のための大規模言語モデル(LayTextLLM)にインターリービングレイアウトとテキストを導入する。
LayTextLLMは、各バウンディングボックスを単一の埋め込みに投影し、テキストでインターリーブする。
また、キー情報抽出(KIE)と視覚質問応答(VQA)の性能向上も示す。
論文 参考訳(メタデータ) (2024-07-02T06:29:05Z) - LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding [21.916774808384893]
提案手法は,レイアウト対応事前学習とレイアウト対応監視ファインタニングの2つのコンポーネントから構成される。
標準ベンチマークの実験では、提案されたLayoutLLMは、文書理解のためにオープンソースの7B LLMs/MLLMを採用する既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-08T06:40:28Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。