論文の概要: List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2404.16375v2
- Date: Mon, 20 Jan 2025 00:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:46.657071
- Title: List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
- Title(参考訳): List Items One: A New Data Source and Learning Paradigm for Multimodal LLMs
- Authors: An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang,
- Abstract要約: 『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
- 参考スコア(独自算出の注目度): 160.6296629396925
- License:
- Abstract: Set-of-Mark (SoM) Prompting unleashes the visual grounding capability of GPT-4V, by enabling the model to associate visual objects with tags inserted on the image. These tags, marked with alphanumerics, can be indexed via text tokens for easy reference. Despite the extraordinary performance from GPT-4V, we observe that other Multimodal Large Language Models (MLLMs) struggle to understand these visual tags. To promote the learning of SoM prompting for open-source models, we propose a new learning paradigm: "list items one by one," which asks the model to enumerate and describe all visual tags placed on the image following the alphanumeric orders of tags. By integrating our curated dataset with other visual instruction tuning datasets, we are able to equip existing MLLMs with the SoM prompting ability. Furthermore, we evaluate our finetuned SoM models on five MLLM benchmarks. We find that this new dataset, even in a relatively small size (10k-30k images with tags), significantly enhances visual reasoning capabilities and reduces hallucinations for MLLMs. Perhaps surprisingly, these improvements persist even when the visual tags are omitted from input images during inference. This suggests the potential of "list items one by one" as a new paradigm for training MLLMs, which strengthens the object-text alignment through the use of visual tags in the training stage. Finally, we conduct analyses by probing trained models to understand the working mechanism of SoM. Our code and data are available at \url{https://github.com/zzxslp/SoM-LLaVA}.
- Abstract(参考訳): Set-of-Mark (SoM) Promptingは、画像に挿入されたタグと視覚オブジェクトを関連付けることによって、GPT-4Vの視覚的接地能力を解き放つ。
アルファ数値でマークされたこれらのタグは、簡単な参照のためにテキストトークンを介してインデックス化することができる。
GPT-4Vの異常な性能にもかかわらず、他のマルチモーダル大言語モデル(MLLM)がこれらの視覚的タグを理解するのに苦労していることが観察された。
オープンソースモデルのSoMプロンプトの学習を促進するため,我々は新たな学習パラダイムである"list items one by one"を提案し,そのモデルに対して,タグのアルファ数値順序に従って画像上に置かれるすべての視覚的タグを列挙して記述するよう求めている。
キュレートしたデータセットを他のビジュアルインストラクションチューニングデータセットと統合することにより、既存のMLLMにSoMプロンプト機能を持たせることができる。
さらに,5つのMLLMベンチマークを用いて,精巧なSoMモデルの評価を行った。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
おそらく驚くべきことに、これらの改善は、推論中に入力画像から視覚タグを省略しても継続する。
このことは、MLLMをトレーニングするための新しいパラダイムとして「リストアイテム1つ」の可能性を示唆しており、トレーニング段階ではビジュアルタグを使用することで、オブジェクト・テキストのアライメントを強化する。
最後に、SoMの動作メカニズムを理解するために、訓練されたモデルを探索して分析を行う。
私たちのコードとデータは、 \url{https://github.com/zzxslp/SoM-LLaVA}で利用可能です。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。