Fugu-MT 論文翻訳(概要): MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models

論文の概要: MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models

arxiv url: http://arxiv.org/abs/2411.10557v3
Date: Sat, 28 Jun 2025 18:24:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 15:08:38.650868
Title: MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models
Title（参考訳）: MLAN:マルチモーダル言語モデルにおける知識の保存と伝達
Authors: Jianhong Tu, Zhuohao Ni, Nicholas Crispino, Zihao Yu, Michael Bendersky, Beliz Gunel, Ruoxi Jia, Xin Liu, Lingjuan Lyu, Dawn Song, Chenguang Wang,
Abstract要約: マルチモーダルな大言語モデルのゼロショットタスクの一般化を改善するために,新しい視覚的インストラクションチューニング手法を提案する。十分な多彩なテキストのみのデータの増加は、視覚言語アプローチよりも効率的でありながら、モダリティ全体にわたって命令追従能力とドメイン知識の伝達を可能にする。
参考スコア（独自算出の注目度）: 79.0546136194314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel visual instruction tuning strategy to improve the zero-shot task generalization of multimodal large language models by building a firm text-only knowledge base. Existing work lacks sufficient experimentation on the importance of each modality in the instruction tuning stage, often using a majority of vision-language data while keeping text-only data limited and fixing mixtures of modalities. By incorporating diverse text-only data in the visual instruction tuning stage, we vary vision-language data in various controlled experiments to investigate the importance of modality in visual instruction tuning. Our comprehensive evaluation shows that the text-heavy instruction tuning approach is able to perform on-par with traditional vision-heavy mixtures on both modalities across 12 general datasets while using as low as half the total training tokens. We find that simply increasing sufficiently diverse text-only data enables transfer of instruction following ability and domain knowledge across modalities while being more efficient than the vision-language approach.
Abstract（参考訳）: 本稿では,テキストのみの知識ベースを構築することで,マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するための,新しいビジュアルインストラクションチューニング手法を提案する。既存の作業では、インストラクションチューニング段階における各モダリティの重要性に関する十分な実験が欠如しており、多くの場合、テキストのみのデータに制限を課し、モダリティの混合を固定しながら、視覚言語データの大部分を使用します。多様なテキストのみのデータを視覚指導訓練段階に組み込むことで、視覚指導訓練におけるモダリティの重要性を調べるために、様々な制御実験における視覚言語データを変化させる。包括的評価の結果、テキスト重み付けチューニング手法は、従来の視覚重み付けの混合処理を12の一般データセットで行うことができ、総トレーニングトークンの半数を使用できることがわかった。十分な多彩なテキストのみのデータの増加は、視覚言語アプローチよりも効率的でありながら、モダリティ全体にわたって命令追従能力とドメイン知識の伝達を可能にする。

関連論文リスト

True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
Unified Multimodal Understanding via Byte-Pair Visual Encoding [34.96534298857146]
マルチモーダル大言語モデル (MLLM) は視覚言語理解において大きな進歩を遂げている。視覚トークンにバイトペアエンコーディングを適用することで,マルチモーダル理解を統一するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T09:08:08Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文参考訳（メタデータ） (2024-08-12T16:15:32Z)
SwitchCIT: Switching for Continual Instruction Tuning [14.085371250265224]
大規模言語モデル (LLM) とマルチモーダルモデル (MM) は、様々な領域で印象的な機能を示している。タスクやドメインの進化に大規模なモデルを適用するためには、継続的な命令チューニングが不可欠である。この研究は、パラメータ効率の調整モデルに計算をルーティングするメカニズムを通じて、連続的な命令学習における破滅的な忘れに対処する。
論文参考訳（メタデータ） (2024-07-16T14:37:33Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。 Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。評価の結果,モザイクITの性能と訓練効率が向上した。
論文参考訳（メタデータ） (2024-05-22T04:08:20Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。 2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文参考訳（メタデータ） (2024-02-22T12:35:50Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Language Grounded QFormer for Efficient Vision Language Understanding [25.432918254523344]
BLIP-2モデルで提案したクエリトランスフォーマー(QFormer)アプローチから着想を得た。より効率的なQFormerベースの視覚言語アライメント法を提案する。
論文参考訳（メタデータ） (2023-11-13T16:30:49Z)
Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-17T09:32:17Z)
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning [43.54069813039309]
我々は、事前訓練されたBLIP-2モデルに基づいて、視覚言語による指導のチューニングについて研究する。 InstructBLIPは、13のホールトアウトデータセットすべてにわたって、最先端のゼロショットパフォーマンスを実現する。私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
論文参考訳（メタデータ） (2023-05-11T00:38:10Z)
ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文参考訳（メタデータ） (2022-10-04T16:56:22Z)
Multimodal Semi-Supervised Learning for Text Recognition [10.33262222726707]
本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。新たなセットアップでは、各モダリティに個別に一貫性が強制される。
論文参考訳（メタデータ） (2022-05-08T13:55:30Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文参考訳（メタデータ） (2022-04-15T03:44:00Z)
InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。コントラスト学習に基づく新しい事前学習課題を提案する。単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文参考訳（メタデータ） (2020-07-15T16:58:01Z)
DIET: Lightweight Language Understanding for Dialogue Systems [0.0]
大規模な事前学習型言語モデルは、GLUEやSuperGLUEのような言語理解ベンチマークにおいて、驚くべき結果を示している。本稿では,Dual Intent and Entity Transformer (DIET)アーキテクチャを導入し,意図と実体予測に対する事前学習表現の有効性について検討する。
論文参考訳（メタデータ） (2020-04-21T12:10:48Z)
Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文参考訳（メタデータ） (2020-04-14T18:23:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。