論文の概要: Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.02865v1
- Date: Tue, 03 Mar 2026 11:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.761722
- Title: Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models
- Title(参考訳): ノードは早い、エッジは遅い - 大規模な視覚言語モデルにおけるダイアグラム表現の探索
- Authors: Haruto Yoshida, Keito Kudo, Yoichi Aoki, Ryota Tanaka, Itsumi Saito, Keisuke Sakaguchi, Kentaro Inui,
- Abstract要約: 我々は,有向グラフに基づく合成図データセットを用いて,大規模視覚言語モデル(LVLM)の内部表現を探索する。
実験の結果,エッジ情報はビジョンエンコーダでは線形に分離できず,言語モデルではテキストトークンでのみ線形に符号化されることがわかった。
これらのことから,線形分離可能な表現が形成される段階は視覚情報の種類によって異なることが示唆された。
- 参考スコア(独自算出の注目度): 32.05060138278358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) demonstrate strong performance on diagram understanding benchmarks, yet they still struggle with understanding relationships between elements, particularly those represented by nodes and directed edges (e.g., arrows and lines). To investigate the underlying causes of this limitation, we probe the internal representation of LVLMs using a carefully constructed synthetic diagram dataset based on directed graphs. Our probing experiments reveal that edge information is not linearly separable in the vision encoder and becomes linearly encoded only in the text tokens in the language model. In contrast, node information and global structural features are already linearly encoded in individual hidden states of the vision encoder. These findings suggest that the stage at which linearly separable representations are formed varies depending on the type of visual information. In particular, the delayed emergence of edge representations may help explain why LVLMs struggle with relational understanding, such as interpreting edge directions, which require more abstract, compositionally integrated processes.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、ダイアグラム理解ベンチマークにおいて強力な性能を示すが、要素、特にノードと有向エッジ(例えば矢印や線)の関係の理解に苦慮している。
この制限の根底にある原因を解明するために,有向グラフに基づく慎重に構築された合成図形データセットを用いて,LVLMの内部表現を探索する。
探索実験により,エッジ情報はビジョンエンコーダでは線形に分離できず,言語モデルではテキストトークンでのみ線形に符号化されることがわかった。
対照的に、ノード情報とグローバルな構造的特徴は、視覚エンコーダの個々の隠れ状態に線形に符号化されている。
これらのことから,線形分離可能な表現が形成される段階は視覚情報の種類によって異なることが示唆された。
特に、エッジ表現の遅延は、LVLMがより抽象的で構成的に統合されたプロセスを必要とするエッジ方向の解釈など、リレーショナル理解に苦しむ理由を説明するのに役立つ。
関連論文リスト
- Synthetic Captions for Open-Vocabulary Zero-Shot Segmentation [6.004292247258359]
生成的視覚言語モデルにより生成された合成記述と画像の密な整合性を示す。
提案手法は, 標準ゼロショット開語彙セグメンテーションベンチマーク/データセットにおいて, 先行研究より優れていた。
論文 参考訳(メタデータ) (2025-09-15T12:26:47Z) - From Nodes to Narratives: Explaining Graph Neural Networks with LLMs and Graph Context [2.66757978610454]
LOGICは軽量でポストホックなフレームワークで、大きな言語モデルを使用して、GNN予測に対する忠実で解釈可能な説明を生成する。
実験の結果,LOGICはインサイトフルネスなどの人間中心の指標を大幅に改善しつつ,忠実さと疎さのトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2025-08-09T23:22:38Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Can Visual Encoder Learn to See Arrows? [6.561578916344682]
画像エンコーダがエッジ表現を学習できるかどうかを図形データセット上で学習する。
そこで我々は,画像エンコーダを訓練するために,人工的に生成されたダイアグラム・キャプション・データセットに対してコントラスト学習を行う。
以上の結果から, 微調整モデルでは, プレトレーニング済みのCLIPよりも優れ, キャプションタスクではゼロショットGPT-4o, LLaVA-Mistralよりも優れていた。
論文 参考訳(メタデータ) (2025-05-26T13:09:31Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Multi-View Empowered Structural Graph Wordification for Language Models [12.22063024099311]
本稿では,LLM-graphアライメントのためのエンドツーエンドのモダリティアライメントフレームワークについて紹介する。
提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的' を理解可能な自然言語に効果的に翻訳することができる。
我々のフレームワークは、LLMとGNN間のトークンレベルのアライメントを実現するための、有望な試みである、ある視覚的解釈可能性、効率、堅牢性を保証する。
論文 参考訳(メタデータ) (2024-06-19T16:43:56Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。