論文の概要: Diffusion Instruction Tuning
- arxiv url: http://arxiv.org/abs/2502.06814v1
- Date: Tue, 04 Feb 2025 22:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-16 04:07:14.434000
- Title: Diffusion Instruction Tuning
- Title(参考訳): 拡散インストラクションチューニング
- Authors: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare,
- Abstract要約: Lavenderは、高度な視覚言語モデル(VLM)の性能を高めるシンプルな教師付き微調整(SFT)手法である。
ラベンダーは、VLMトランスにおけるテキストビジョンの注意を、SFT中に安定拡散で使用される同等のものと整合させる。
Lavenderは、わずか0.13万のトレーニングサンプル、典型的な大規模SFTデータセットの2.5%、標準ハードウェア(8GPU)を1日で微調整する。
- 参考スコア(独自算出の注目度): 8.985668637331335
- License:
- Abstract: We introduce Lavender, a simple supervised fine-tuning (SFT) method that boosts the performance of advanced vision-language models (VLMs) by leveraging state-of-the-art image generation models such as Stable Diffusion. Specifically, Lavender aligns the text-vision attention in the VLM transformer with the equivalent used by Stable Diffusion during SFT, instead of adapting separate encoders. This alignment enriches the model's visual understanding and significantly boosts performance across in- and out-of-distribution tasks. Lavender requires just 0.13 million training examples, 2.5% of typical large-scale SFT datasets, and fine-tunes on standard hardware (8 GPUs) in a single day. It consistently improves state-of-the-art open-source multimodal LLMs (e.g., Llama-3.2-11B, MiniCPM-Llama3-v2.5), achieving up to 30% gains and a 68% boost on challenging out-of-distribution medical QA tasks. By efficiently transferring the visual expertise of image generators with minimal supervision, Lavender offers a scalable solution for more accurate vision-language systems. All code, training data, and models will be shared at https://astrazeneca.github.io/vlm/.
- Abstract(参考訳): 安定拡散のような最先端の画像生成モデルを活用することで、高度な視覚言語モデル(VLM)の性能を向上させるシンプルな教師付き微調整(SFT)手法であるLavenderを紹介する。
具体的には、Lavenderは、VLM変換器のテキストビジョンの注意を、別のエンコーダを適応するのではなく、SFT中に安定拡散で使用される同等のものと整合させる。
このアライメントは、モデルの視覚的理解を強化し、イン・オブ・アウト・ディストリビューション・タスクにおけるパフォーマンスを大幅に向上させる。
Lavenderは、わずか0.13万のトレーニングサンプル、典型的な大規模SFTデータセットの2.5%、標準ハードウェア(8GPU)を1日で微調整する。
最先端のオープンソースマルチモーダルLCM(Llama-3.2-11B、MiniCPM-Llama3-v2.5)を継続的に改善し、最大30%のゲインを達成し、68%の医療QAタスクに挑戦する。
イメージジェネレータの視覚的専門知識を最小限の監督で効率的に転送することで、Lavenderはより正確な視覚言語システムのためのスケーラブルなソリューションを提供する。
すべてのコード、トレーニングデータ、モデルはhttps://astrazeneca.github.io/vlm/で共有されます。
関連論文リスト
- I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models [50.34197948438868]
ThinkDiffは、マルチモーダルなインコンテキスト理解と推論機能を備えたテキストから画像への拡散モデルを強化するアライメントパラダイムである。
我々はThinkDiffの精度が19.2%から46.3%に大幅に向上したことを示す。
また、複数の画像やテキストを論理的に一貫性のある画像に合成する際、例外的な性能を示す。
論文 参考訳(メタデータ) (2025-02-12T05:30:08Z) - Liquid: Language Models are Scalable Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。