論文の概要: How to Utilize Complementary Vision-Text Information for 2D Structure Understanding
- arxiv url: http://arxiv.org/abs/2603.16245v1
- Date: Tue, 17 Mar 2026 08:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.172434
- Title: How to Utilize Complementary Vision-Text Information for 2D Structure Understanding
- Title(参考訳): 2次元構造理解のための補完的視覚テキスト情報の利用法
- Authors: Jiancheng Dong, Pengyue Jia, Derong Xu, Jiawei Cheng, Jingyu Peng, Chao Zhang, Bowen Liu, Xin Sun, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiangyu Zhao,
- Abstract要約: DiVA-Formerは、視覚とテキスト情報を効果的に統合するために設計された軽量アーキテクチャである。
13のテーブルベンチマークで評価され、DiVA-Formerは純粋テキストベースラインを23.9%改善した。
- 参考スコア(独自算出の注目度): 55.98339043221623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs typically linearize 2D tables into 1D sequences to fit their autoregressive architecture, which weakens row-column adjacency and other layout cues. In contrast, purely visual encoders can capture spatial cues, yet often struggle to preserve exact cell text. Our analysis reveals that these two modalities provide highly distinct information to LLMs and exhibit strong complementarity. However, direct concatenation and other fusion methods yield limited gains and frequently introduce cross-modal interference. To address this issue, we propose DiVA-Former, a lightweight architecture designed to effectively integrate vision and text information. DiVA-Former leverages visual tokens as dynamic queries to distill long textual sequences into digest vectors, thereby effectively exploiting complementary vision--text information. Evaluated across 13 table benchmarks, DiVA-Former improves upon the pure-text baseline by 23.9\% and achieves consistent gains over existing baselines using visual inputs, textual inputs, or a combination of both.
- Abstract(参考訳): LLMは通常、2Dテーブルを1Dシーケンスに線形化して自己回帰アーキテクチャに適合させ、行列の隣接やその他のレイアウトのキューを弱める。
対照的に、純粋に視覚的なエンコーダは空間的な手がかりを捉えることができるが、しばしば正確なセルテキストの保存に苦労する。
解析の結果,これらの2つのモダリティはLLMに極めて明確な情報を提供し,高い相補性を示すことが明らかとなった。
しかし、直接結合やその他の融合法は限られた利得をもたらし、しばしば相互干渉をもたらす。
本稿では,視覚情報とテキスト情報を効果的に統合する軽量アーキテクチャであるDiVA-Formerを提案する。
DiVA-Formerは、視覚トークンを動的クエリとして利用して、長いテキストシーケンスをダイジェストベクターに蒸留し、補完的な視覚-テキスト情報を効果的に活用する。
13のテーブルベンチマークで評価され、DiVA-Formerは純粋テキストベースラインを23.9\%改善し、ビジュアル入力、テキスト入力、または両方の組み合わせを使用して既存のベースラインよりも一貫したゲインを達成する。
関連論文リスト
- Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models [51.475129418355465]
大規模視覚言語モデルに対する単純で効果的な非対称テキスト・ビジュアル・ウェイト・プルーニング法を提案する。
まず、キャリブレーションプールはすべてのテキストトークンと視覚トークンのサブセットに描画することで適応的に構築される。
論文 参考訳(メタデータ) (2026-03-16T23:23:05Z) - Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。