論文の概要: Large Language Models Understand Layout
- arxiv url: http://arxiv.org/abs/2407.05750v2
- Date: Thu, 25 Jul 2024 09:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:37:36.629565
- Title: Large Language Models Understand Layout
- Title(参考訳): レイアウトに従わない大規模言語モデル
- Authors: Weiming Li, Manni Duan, Dong An, Yan Shao,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
- 参考スコア(独自算出の注目度): 6.732578061359833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
本稿では,テキスト理解機能以外に,空間マーカーで表されるテキストレイアウトをLLMで処理できることを示す。
元のデータから空間マーカーを除外した場合に、劇的な性能低下が観察される一方で、明示的な空間知覚と推論を必要とする質問に答えることができる。
我々は,GPT-3.5,Baichuan2,Llama2,ChatGLM3モデルを用いて,様々なタイプのレイアウトに敏感なデータセットを用いて実験を行い,さらなる分析を行った。
実験結果から, LLMのレイアウト理解能力は, 事前学習のためのコーディングデータによって主に導入され, 指導訓練段階でさらに強化されていることがわかった。
さらに、新しいテキストゲームによってアプローチされた低コストで自動生成されたデータを統合することで、レイアウト理解を向上させることができる。
最後に,視覚的質問応答(VQA)システムを構築する上で,レイアウト理解能力が有用であることを示す。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Can LLMs Effectively Leverage Graph Structural Information through Prompts, and Why? [18.328637750057037]
大きな言語モデル(LLM)は、リッチテキスト属性でグラフを処理する能力に注目が集まっている。
グラフデータに固有の構造情報の取り込みにより,LLMの予測性能が向上する理由を理解することを目的としている。
論文 参考訳(メタデータ) (2023-09-28T16:58:37Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning [10.810615375345511]
本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-04-12T21:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。