Fugu-MT 論文翻訳(概要): Responses Fall Short of Understanding: Revealing the Gap between Internal Representations and Responses in Visual Document Understanding

論文の概要: Responses Fall Short of Understanding: Revealing the Gap between Internal Representations and Responses in Visual Document Understanding

arxiv url: http://arxiv.org/abs/2604.04411v1
Date: Mon, 06 Apr 2026 04:25:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.09017
Title: Responses Fall Short of Understanding: Revealing the Gap between Internal Representations and Responses in Visual Document Understanding
Title（参考訳）: 視覚文書理解における内部表現と応答のギャップの解明
Authors: Haruka Kawasaki, Ryota Tanaka, Kyosuke Nishida,
Abstract要約: 本稿では,VDU課題の解決に必要な情報が,大規模視覚言語モデルの異なる層にどのように表現されるかを検討する。本研究は,内部表現と生成応答の間に明確なギャップがあることを明らかにする。実験により、微調整中間層はギャップを狭めながら線形探索精度と応答精度の両方を改善することが示された。
参考スコア（独自算出の注目度）: 13.93076527078901
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual document understanding (VDU) is a challenging task for large vision language models (LVLMs), requiring the integration of visual perception, text recognition, and reasoning over structured layouts. Although recent LVLMs have shown progress on VDU benchmarks, their performance is typically evaluated based on generated responses, which may not necessarily reflect whether the model has actually captured the required information internally. In this paper, we investigate how information required to solve VDU tasks is represented across different layers of LLMs within LVLMs using linear probing. Our study reveals that (1) there is a clear gap between internal representations and generated responses, and (2) information required to solve the task is often encoded more linearly from intermediate layers than from the final layer. Motivated by these findings, we explore fine-tuning strategies that target intermediate layers. Experiments show that fine-tuning intermediate layers improves both linear probing accuracy and response accuracy while narrowing the gap.
Abstract（参考訳）: 視覚文書理解(VDU)は、大きな視覚言語モデル(LVLM)にとって難しい課題であり、視覚認識、テキスト認識、構造化レイアウトに対する推論などを統合する必要がある。近年のLVLMはVDUベンチマークで進歩を見せているが、その性能は一般的に生成された応答に基づいて評価される。本稿では,線形探索を用いて,LVLM内のLLMの異なる層間で,VDUタスクを解くために必要な情報がどのように表現されるかを検討する。本研究では,(1)内部表現と生成応答の間に明確なギャップがあること,(2)タスクの解決に必要な情報が最終層よりも中間層からより線形に符号化されることを明らかにする。これらの知見に触発され,中間層をターゲットとした微調整戦略について検討した。実験により、微調整中間層はギャップを狭めながら線形探索精度と応答精度の両方を改善することが示された。

関連論文リスト

From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文参考訳（メタデータ） (2026-03-18T00:22:15Z)
A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文参考訳（メタデータ） (2025-11-19T04:13:36Z)
How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文参考訳（メタデータ） (2025-08-27T21:22:01Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [15.991125806837386]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。 Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-29T23:32:03Z)
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳（メタデータ） (2025-05-29T03:40:21Z)
Multimodal Language Models See Better When They Look Shallower [54.5303326937134]
マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。 MLLMの視覚層選択に関する最初の総合的研究を行い,VT層間の表現類似性を解析した。我々は、深い層がOCRのようなセマンティックリッチなタスクに優れているのに対して、浅い層と中層の層は、きめ細かい視覚的なタスクでそれらを著しく上回っていることに気付きました。
論文参考訳（メタデータ） (2025-04-30T09:07:10Z)
Does Representation Matter? Exploring Intermediate Layers in Large Language Models [22.704926222438456]
大規模言語モデル(LLM)における中間表現の品質について検討する。中間層は、最終層よりも下流のタスクに対してより情報的な表現をもたらすことがよくあります。本研究は,LLMの内部力学とアーキテクチャ最適化とトレーニングのためのガイド戦略を照らしたものである。
論文参考訳（メタデータ） (2024-12-12T18:48:51Z)
From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文参考訳（メタデータ） (2024-06-04T13:52:54Z)
Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。