論文の概要: List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2404.16375v1
- Date: Thu, 25 Apr 2024 07:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:38:43.550899
- Title: List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
- Title(参考訳): List Items One: A New Data Source and Learning Paradigm for Multimodal LLMs
- Authors: An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang,
- Abstract要約: 『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
- 参考スコア(独自算出の注目度): 160.6296629396925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Set-of-Mark (SoM) Prompting unleashes the visual grounding capability of GPT-4V, by enabling the model to associate visual objects with tags inserted on the image. These tags, marked with alphanumerics, can be indexed via text tokens for easy reference. Despite the extraordinary performance from GPT-4V, we observe that other Multimodal Large Language Models (MLLMs) struggle to understand these visual tags. To promote the learning of SoM prompting for open-source models, we propose a new learning paradigm: "list items one by one," which asks the model to enumerate and describe all visual tags placed on the image following the alphanumeric orders of tags. By integrating our curated dataset with other visual instruction tuning datasets, we are able to equip existing MLLMs with the SoM prompting ability. Furthermore, we evaluate our finetuned SoM models on five MLLM benchmarks. We find that this new dataset, even in a relatively small size (10k-30k images with tags), significantly enhances visual reasoning capabilities and reduces hallucinations for MLLMs. Perhaps surprisingly, these improvements persist even when the visual tags are omitted from input images during inference. This suggests the potential of "list items one by one" as a new paradigm for training MLLMs, which strengthens the object-text alignment through the use of visual tags in the training stage. Finally, we conduct analyses by probing trained models to understand the working mechanism of SoM. Our code and data are available at \url{https://github.com/zzxslp/SoM-LLaVA}.
- Abstract(参考訳): Set-of-Mark (SoM) Promptingは、画像に挿入されたタグと視覚オブジェクトを関連付けることによって、GPT-4Vの視覚的接地能力を解き放つ。
アルファ数値でマークされたこれらのタグは、簡単な参照のためにテキストトークンを介してインデックス化することができる。
GPT-4Vの異常な性能にもかかわらず、他のマルチモーダル大言語モデル(MLLM)がこれらの視覚的タグを理解するのに苦労していることが観察された。
オープンソースモデルのSoMプロンプトの学習を促進するため,我々は新たな学習パラダイムである"list items one by one"を提案し,そのモデルに対して,タグのアルファ数値順序に従って画像上に置かれるすべての視覚的タグを列挙して記述するよう求めている。
キュレートしたデータセットを他のビジュアルインストラクションチューニングデータセットと統合することにより、既存のMLLMにSoMプロンプト機能を持たせることができる。
さらに,5つのMLLMベンチマークを用いて,精巧なSoMモデルの評価を行った。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
おそらく驚くべきことに、これらの改善は、推論中に入力画像から視覚タグを省略しても継続する。
このことは、MLLMをトレーニングするための新しいパラダイムとして「リストアイテム1つ」の可能性を示唆しており、トレーニング段階ではビジュアルタグを使用することで、オブジェクト・テキストのアライメントを強化する。
最後に、SoMの動作メカニズムを理解するために、訓練されたモデルを探索して分析を行う。
私たちのコードとデータは、 \url{https://github.com/zzxslp/SoM-LLaVA}で利用可能です。
関連論文リスト
- Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。