Fugu-MT 論文翻訳(概要): MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

論文の概要: MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

arxiv url: http://arxiv.org/abs/2412.14164v1
Date: Wed, 18 Dec 2024 18:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.374553
Title: MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
Title（参考訳）: MetaMorph: インストラクションチューニングによるマルチモーダル理解と生成
Authors: Shengbang Tong, David Fan, Jiachen Zhu, Yunyang Xiong, Xinlei Chen, Koustuv Sinha, Michael Rabbat, Yann LeCun, Saining Xie, Zhuang Liu,
Abstract要約: 視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。 VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。 MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
参考スコア（独自算出の注目度）: 57.35160715164359
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose Visual-Predictive Instruction Tuning (VPiT) - a simple and effective extension to visual instruction tuning that enables a pretrained LLM to quickly morph into an unified autoregressive model capable of generating both text and visual tokens. VPiT teaches an LLM to predict discrete text tokens and continuous visual tokens from any input sequence of image and text data curated in an instruction-following format. Our empirical investigation reveals several intriguing properties of VPiT: (1) visual generation ability emerges as a natural byproduct of improved visual understanding, and can be unlocked efficiently with a small amount of generation data; (2) while we find understanding and generation to be mutually beneficial, understanding data contributes to both capabilities more effectively than generation data. Building upon these findings, we train our MetaMorph model and achieve competitive performance on both visual understanding and generation. In visual generation, MetaMorph can leverage the world knowledge and reasoning abilities gained from LLM pretraining, and overcome common failure modes exhibited by other generation models. Our results suggest that LLMs may have strong "prior" vision capabilities that can be efficiently adapted to both visual understanding and generation with a relatively simple instruction tuning process.
Abstract（参考訳）: 本研究では,事前学習したLLMが,テキストと視覚トークンの両方を生成可能な統合自己回帰モデルに迅速に変換可能な,視覚的命令チューニングのシンプルかつ効果的な拡張である視覚予測命令チューニング(VPiT)を提案する。 VPiTは、命令フォローフォーマットでキュレートされた画像およびテキストデータの入力シーケンスから、離散テキストトークンと連続的な視覚トークンを予測することをLLMに教える。本稿では,VPiTの視覚的生成能力が視覚的理解の向上の自然な副産物として出現し,少数の生成データで効率的にアンロック可能であること,理解と生成が相互に有益であることを示す一方で,データの理解が生成データよりも効果的に両機能に寄与すること,などを実証した。これらの知見に基づいて,メタモルフモデルを訓練し,視覚的理解と生成の両面での競争性能を達成する。ビジュアルジェネレーションでは、メタモルフはLLMプレトレーニングから得られる世界の知識と推論能力を活用し、他の世代モデルで示される共通の障害モードを克服することができる。この結果から,LLMは視覚的理解と生成の両方に比較的単純な命令チューニングプロセスで効率よく適応できる,強力な"適切な"視覚能力を持つ可能性が示唆された。

関連論文リスト

Seeing to Generalize: How Visual Data Corrects Binding Shortcuts [5.724899979571379]
ビジョン言語モデルは、純粋にテキストのみのタスクにおいて、基盤となるLarge Language Modelよりもパフォーマンスが高い。視覚訓練がモデルの内部結合戦略を変えることを示す。本研究は,1つのモダリティに根ざしたタスクにおいても,クロスモーダルトレーニングが推論と一般化を促進することを示唆している。
論文参考訳（メタデータ） (2026-02-16T20:43:12Z)
Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文参考訳（メタデータ） (2025-09-29T17:59:57Z)
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文参考訳（メタデータ） (2025-06-09T17:38:45Z)
Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation [85.22602924467603]
視覚的理解と生成の協調的共進化を可能にすることを提案する。教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文参考訳（メタデータ） (2025-06-02T09:39:28Z)
VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。 VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文参考訳（メタデータ） (2025-01-21T17:50:43Z)
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。 Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文参考訳（メタデータ） (2024-12-04T18:58:10Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。