Fugu-MT 論文翻訳(概要): Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

論文の概要: Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

arxiv url: http://arxiv.org/abs/2605.24530v1
Date: Sat, 23 May 2026 11:48:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.166054
Title: Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval
Title（参考訳）: Unveil: マルチモーダル文書検索のための統一されたビジュアルテキスト統合と蒸留
Authors: Hao Sun, Yingyan Hou, Jiayan Guo, Bo Wang, Chunyu Yang, Jinsong Ni, Yan Zhang,
Abstract要約: 実世界のシナリオにおける文書検索は、様々な文書形式やモダリティのために重大な課題に直面している。従来のテキストベースのアプローチは、レイアウト情報を無視し、エラーを起こしやすいように調整された解析技術に依存している。最近の解析自由な視覚的手法は、テキストリッチなシナリオにおいて、細粒度のテキストセマンティクスを捉えるのに苦労することが多い。
参考スコア（独自算出の注目度）: 13.450276171264177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document retrieval in real-world scenarios faces significant challenges due to diverse document formats and modalities. Traditional text-based approaches rely on tailored parsing techniques that disregard layout information and are prone to errors, while recent parsing-free visual methods often struggle to capture fine-grained textual semantics in text-rich scenarios. To address these limitations, we propose \textbf{Unveil}, a novel visual-textual embedding framework that effectively integrates textual and visual features for robust document representation. Through knowledge distillation, we transfer the semantic understanding capabilities from the visual-textual embedding model to a purely visual model, enabling efficient parsing-free retrieval while preserving semantic fidelity. Experimental results demonstrate that our visual-textual embedding method surpasses existing approaches, while knowledge distillation successfully bridges the performance gap between visual-textual and visual-only methods, improving both retrieval accuracy and efficiency.
Abstract（参考訳）: 実世界のシナリオにおける文書検索は、様々な文書形式やモダリティのために重大な課題に直面している。従来のテキストベースのアプローチはレイアウト情報を無視し、エラーを起こしやすい調整されたパーシング技術に依存しているが、最近のパーシングフリーなビジュアル手法は、テキストリッチなシナリオで微細なテキストセマンティクスを捉えるのに苦労することが多い。このような制約に対処するために,文書表現の堅牢化のために,テキストと視覚機能を効果的に統合する新しい視覚-テキスト埋め込みフレームワークである \textbf{Unveil} を提案する。知識蒸留により, 意味理解能力を視覚テキスト埋め込みモデルから純粋視覚モデルに変換し, 意味の忠実さを維持しつつ, 効率的な解析自由検索を可能にする。実験により,本手法は既存の手法を超越し,知識蒸留は視覚的テクスチャと視覚のみの手法間の性能ギャップを橋渡しし,精度と効率を向上することを示した。

関連論文リスト

Informative Text-Image Alignment for Visual Affordance Learning with Foundation Models [13.874282137468517]
本稿では,機能レベルでのテキスト画像のアライメントを実現するために,情報に基づく制約を伴ってテキスト誘導型アプライアンス学習のためのフレームワークを提案する。具体的には、適切なテキストプロンプトとタスク指向の視覚的特徴を同時に学習するのに役立つ割高な相互情報制約を設計する。さらに,対象物の視覚的特徴と属するカテゴリのテキスト的特徴との間の相互情報を最大化するオブジェクトレベルの情報制約を提案する。
論文参考訳（メタデータ） (2025-09-21T13:21:16Z)
Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文参考訳（メタデータ） (2025-04-30T14:19:29Z)
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3181276611945267]
本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。 DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文参考訳（メタデータ） (2024-12-17T13:26:31Z)
Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文参考訳（メタデータ） (2024-01-12T03:46:29Z)
Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-22T06:46:37Z)
Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文参考訳（メタデータ） (2022-11-23T14:40:51Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。