Fugu-MT 論文翻訳(概要): List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

論文の概要: List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

arxiv url: http://arxiv.org/abs/2404.16375v1
Date: Thu, 25 Apr 2024 07:29:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 14:38:43.550899
Title: List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
Title（参考訳）: List Items One: A New Data Source and Learning Paradigm for Multimodal LLMs
Authors: An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang,
Abstract要約: 『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
参考スコア（独自算出の注目度）: 160.6296629396925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Set-of-Mark (SoM) Prompting unleashes the visual grounding capability of GPT-4V, by enabling the model to associate visual objects with tags inserted on the image. These tags, marked with alphanumerics, can be indexed via text tokens for easy reference. Despite the extraordinary performance from GPT-4V, we observe that other Multimodal Large Language Models (MLLMs) struggle to understand these visual tags. To promote the learning of SoM prompting for open-source models, we propose a new learning paradigm: "list items one by one," which asks the model to enumerate and describe all visual tags placed on the image following the alphanumeric orders of tags. By integrating our curated dataset with other visual instruction tuning datasets, we are able to equip existing MLLMs with the SoM prompting ability. Furthermore, we evaluate our finetuned SoM models on five MLLM benchmarks. We find that this new dataset, even in a relatively small size (10k-30k images with tags), significantly enhances visual reasoning capabilities and reduces hallucinations for MLLMs. Perhaps surprisingly, these improvements persist even when the visual tags are omitted from input images during inference. This suggests the potential of "list items one by one" as a new paradigm for training MLLMs, which strengthens the object-text alignment through the use of visual tags in the training stage. Finally, we conduct analyses by probing trained models to understand the working mechanism of SoM. Our code and data are available at \url{https://github.com/zzxslp/SoM-LLaVA}.
Abstract（参考訳）: Set-of-Mark (SoM) Promptingは、画像に挿入されたタグと視覚オブジェクトを関連付けることによって、GPT-4Vの視覚的接地能力を解き放つ。アルファ数値でマークされたこれらのタグは、簡単な参照のためにテキストトークンを介してインデックス化することができる。 GPT-4Vの異常な性能にもかかわらず、他のマルチモーダル大言語モデル(MLLM)がこれらの視覚的タグを理解するのに苦労していることが観察された。オープンソースモデルのSoMプロンプトの学習を促進するため,我々は新たな学習パラダイムである"list items one by one"を提案し,そのモデルに対して,タグのアルファ数値順序に従って画像上に置かれるすべての視覚的タグを列挙して記述するよう求めている。キュレートしたデータセットを他のビジュアルインストラクションチューニングデータセットと統合することにより、既存のMLLMにSoMプロンプト機能を持たせることができる。さらに,5つのMLLMベンチマークを用いて,精巧なSoMモデルの評価を行った。比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。おそらく驚くべきことに、これらの改善は、推論中に入力画像から視覚タグを省略しても継続する。このことは、MLLMをトレーニングするための新しいパラダイムとして「リストアイテム1つ」の可能性を示唆しており、トレーニング段階ではビジュアルタグを使用することで、オブジェクト・テキストのアライメントを強化する。最後に、SoMの動作メカニズムを理解するために、訓練されたモデルを探索して分析を行う。私たちのコードとデータは、 \url{https://github.com/zzxslp/SoM-LLaVA}で利用可能です。

関連論文リスト

HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-30T07:21:36Z)
Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。 LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文参考訳（メタデータ） (2025-07-28T23:52:53Z)
Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding [42.15416804253783]
MLLM(Multi-modal Large Language Models)は、視覚的理解能力を備えた大規模言語モデルを提供する。文書レベルのMLLMにおける視覚的・言語的モダリティをブリッジするに適した画像テキスト事前学習タスクを設計するには,まだ未検討である。本稿では,マスク生成による視覚質問応答(VQAMask)タスクとして重要な課題を提示する新しい視覚言語アライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-18T11:07:14Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。 MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである 2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。 VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-04-15T10:04:15Z)
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文参考訳（メタデータ） (2024-02-16T16:31:46Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。