Fugu-MT 論文翻訳(概要): Large Language Models Understand Layouts

論文の概要: Large Language Models Understand Layouts

arxiv url: http://arxiv.org/abs/2407.05750v1
Date: Mon, 8 Jul 2024 09:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 16:20:46.830490
Title: Large Language Models Understand Layouts
Title（参考訳）: レイアウトを理解する大規模言語モデル
Authors: Weiming Li, Manni Duan, Dong An, Yan Shao,
Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
参考スコア（独自算出の注目度）: 6.732578061359833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。本稿では,テキスト理解機能以外に,空間マーカーで表されるテキストレイアウトをLLMで処理できることを示す。元のデータから空間マーカーを除外した場合に、劇的な性能低下が観察される一方で、明示的な空間知覚と推論を必要とする質問に答えることができる。我々は,GPT-3.5,Baichuan2,Llama2,ChatGLM3モデルを用いて,様々なタイプのレイアウトに敏感なデータセットを用いて実験を行い,さらなる分析を行った。実験結果から, LLMのレイアウト理解能力は, 事前学習のためのコーディングデータによって主に導入され, 指導訓練段階でさらに強化されていることがわかった。さらに、新しいテキストゲームによってアプローチされた低コストで自動生成されたデータを統合することで、レイアウト理解を向上させることができる。最後に,視覚的質問応答(VQA)システムを構築する上で,レイアウト理解能力が有用であることを示す。

関連論文リスト

Understanding Counting Mechanisms in Large Language and Vision-Language Models [8.918147502104603]
本研究では,大規模言語モデル (LLM) と大規模視覚言語モデル (LVLM) が,タスク数における数値情報をどのように表現し,計算するかを検討する。その結果、個々のトークンや視覚的特徴が、コンテキスト間で抽出および転送可能な潜在位置カウント情報を符号化していることがわかった。 LVLMでは、空間組成に応じて背景領域と前景領域を移動する視覚埋め込みにも数値情報が現れる。
論文参考訳（メタデータ） (2025-11-21T18:48:22Z)
An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions [24.947855662285015]
物理特性を指向したChain-of-Thought(CoT)推論機構を統合した6-DoFグリップ検出フレームワークを提案する。 IntentGraspは、多目的把握検出のための公共データセットのギャップを、多言語および間接的なコマンドで埋める大規模なベンチマークである。
論文参考訳（メタデータ） (2025-03-20T10:32:38Z)
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-03T13:34:51Z)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-03T06:15:04Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである 2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。 VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-04-15T10:04:15Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文参考訳（メタデータ） (2024-01-12T12:10:28Z)
Can LLMs Effectively Leverage Graph Structural Information through Prompts, and Why? [18.328637750057037]
大きな言語モデル(LLM)は、リッチテキスト属性でグラフを処理する能力に注目が集まっている。グラフデータに固有の構造情報の取り込みにより,LLMの予測性能が向上する理由を理解することを目的としている。
論文参考訳（メタデータ） (2023-09-28T16:58:37Z)
Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文参考訳（メタデータ） (2023-09-27T06:33:29Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
Using Large Language Models to Generate Engaging Captions for Data Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文参考訳（メタデータ） (2022-12-27T23:56:57Z)
SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning [10.810615375345511]
本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2021-04-12T21:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。