論文の概要: VaaWIT: Visual-Aware Adaptation of Large Language Models for Multilingual Web Image Translation
- arxiv url: http://arxiv.org/abs/2605.24675v1
- Date: Sat, 23 May 2026 17:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.307394
- Title: VaaWIT: Visual-Aware Adaptation of Large Language Models for Multilingual Web Image Translation
- Title(参考訳): VaaWIT:多言語Web画像翻訳のための大規模言語モデルの視覚的適応
- Authors: Bo Li, Ronghao Chen, Ningyuan Deng, Huacan Wang, Shaolin Zhu, Lijie Wen,
- Abstract要約: VaaWITは、多言語Web画像変換にLarge Language Modelsを適用するエンドツーエンドフレームワークである。
Dual-Stream Attention Module (DSAM)は、多言語の意味的特徴と詳細な視覚的表現の間の双方向の相互作用を容易にする。
VAA(Visual-Aware Adapter)は、これらの融合した視覚的手がかりを冷凍LDMバックボーンに動的に注入する。
- 参考スコア(独自算出の注目度): 18.312531006938162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating text embedded in Web images is crucial for improving content accessibility and cross-lingual information retrieval, particularly within social media and e-commerce domains. Although Large Vision-Language Models (LVLMs) have advanced multimodal understanding, applying them to Web image translation remains challenging due to the visual representation gap: standard encoders often prioritize high-level semantics over the fine-grained visual details required for recognizing diverse character morphologies. To address this challenge, we propose VaaWIT, an end-to-end framework that adapts Large Language Models for multilingual Web image translation. The framework introduces two key technical contributions: (1) a Dual-Stream Attention Module (DSAM), which facilitates bidirectional interaction between multilingual semantic features and detailed visual representations, thereby synthesizing unified features robust to textual variations; and (2) a Visual-Aware Adapter (VAA), a parameter-efficient fine-tuning strategy that dynamically injects these fused visual cues into the frozen LLM backbone. This design enables the model to align the visual context with linguistic reasoning effectively while minimizing computational costs. Extensive experiments on eight tasks on three public benchmarks demonstrate that VaaWIT significantly outperforms state-of-the-art (SOTA) open-source baselines and achieves competitive performance against proprietary models. These results validate the efficacy of integrating fine-grained visual perception into LLMs for complex Web content analysis.
- Abstract(参考訳): Web画像に埋め込まれたテキストの翻訳は、特にソーシャルメディアやeコマース領域において、コンテンツアクセシビリティと言語間情報検索の改善に不可欠である。
LVLM(Large Vision-Language Models)には高度なマルチモーダル理解があるが、視覚的表現のギャップのためにWebイメージ翻訳に適用することは依然として困難である。
この課題に対処するため,多言語Web画像翻訳に大規模言語モデルを適用するエンドツーエンドフレームワークであるVaWITを提案する。
このフレームワークは,(1)多言語意味的特徴と詳細な視覚表現の双方向相互作用を促進するDSAM(Dual-Stream Attention Module),(2)パラメータ効率の良い微調整戦略であるVisual-Aware Adapter(VAA)の2つの技術的貢献を紹介する。
この設計により、計算コストを最小化しながら、視覚コンテキストと言語推論を効果的に整合させることができる。
3つの公開ベンチマーク上の8つのタスクに関する大規模な実験は、VaaWITがオープンソースベースライン(SOTA)を著しく上回り、プロプライエタリなモデルと競合するパフォーマンスを実現していることを示している。
これらの結果から,複雑なWebコンテンツ分析のための細粒度視覚認識をLCMに組み込むことの有効性が検証された。
関連論文リスト
- Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。