論文の概要: Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models
- arxiv url: http://arxiv.org/abs/2508.14264v1
- Date: Tue, 19 Aug 2025 20:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.268165
- Title: Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models
- Title(参考訳): Directed-Tokens: 大規模言語ビジョンモデルに対するロバストな多モードアライメントアプローチ
- Authors: Thanh-Dat Truong, Huu-Thien Tran, Tran Thai Son, Bhiksha Raj, Khoa Luu,
- Abstract要約: 視覚的・テキスト的モダリティ間のロバストなアライメントを改善するための,シンプルだが効率的な学習機構を提案する。
提案手法は,従来のLMMと比較して常に最先端(SoTA)性能を実現する。
- 参考スコア(独自算出の注目度): 28.82265769298008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have gained impressive performance due to their outstanding capability in various understanding tasks. However, these models still suffer from some fundamental limitations related to robustness and generalization due to the alignment and correlation between visual and textual features. In this paper, we introduce a simple but efficient learning mechanism for improving the robust alignment between visual and textual modalities by solving shuffling problems. In particular, the proposed approach can improve reasoning capability, visual understanding, and cross-modality alignment by introducing two new tasks: reconstructing the image order and the text order into the LMM's pre-training and fine-tuning phases. In addition, we propose a new directed-token approach to capture visual and textual knowledge, enabling the capability to reconstruct the correct order of visual inputs. Then, we introduce a new Image-to-Response Guided loss to further improve the visual understanding of the LMM in its responses. The proposed approach consistently achieves state-of-the-art (SoTA) performance compared with prior LMMs on academic task-oriented and instruction-following LMM benchmarks.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は, 様々な理解タスクにおいて, 優れた性能を発揮している。
しかしながら、これらのモデルは、視覚的特徴とテキスト的特徴のアライメントと相関により、ロバスト性や一般化に関連するいくつかの基本的な制限に悩まされている。
本稿では,シャッフル問題を解くことで,視覚的・テキスト的モダリティのロバストな整合性を改善するための,シンプルだが効率的な学習機構を提案する。
特に,提案手法は,画像の順序とテキストの順序をLMMの事前学習段階と微調整段階に再構築することで,推論能力,視覚的理解,モダリティ間のアライメントを改善することができる。
さらに,視覚的およびテキスト的知識を抽出し,視覚的入力の正しい順序を再構築する新たな指向的アプローチを提案する。
そして,LMMの応答における視覚的理解をさらに向上させるために,新しいイメージ・ツー・レスポンス・ガイドド・ロスを導入した。
提案手法は,学術的なタスク指向および命令追従型LMMベンチマークにおいて,従来のLMMと比較して,最新技術(SoTA)性能を一貫して達成する。
関連論文リスト
- Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。