論文の概要: MLLMs-Augmented Visual-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2311.18765v3
- Date: Wed, 13 Mar 2024 08:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:27.912500
- Title: MLLMs-Augmented Visual-Language Representation Learning
- Title(参考訳): MLLMによる視覚言語表現学習
- Authors: Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou,
Kaipeng Zhang and Yang You
- Abstract要約: MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
- 参考スコア(独自算出の注目度): 70.5293060238008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-language pre-training has achieved remarkable success in many
multi-modal tasks, largely attributed to the availability of large-scale
image-text datasets. In this work, we demonstrate that Multi-modal Large
Language Models (MLLMs) can enhance visual-language representation learning by
establishing richer image-text associations for image-text datasets. Our
approach is simple, utilizing MLLMs to extend multiple diverse captions for
each image. To prevent the bias introduced by MLLMs' hallucinations and
monotonous language styles, we propose "text shearing" to maintain the quality
and availability of extended captions. In image-text retrieval, without
introducing additional training cost, our method consistently obtains 5.6 ~
35.0 and 16.8 ~ 46.1 improvement on Recall@1 under the fine-tuning and
zero-shot settings, respectively. Notably, we obtain zero-shot results that are
comparable to fine-tuning on target datasets, which encourages more exploration
of the versatile use of MLLMs.
- Abstract(参考訳): 視覚言語による事前学習は多くのマルチモーダルタスクで顕著な成功を収めた。
本研究では,マルチモーダル大規模言語モデル (MLLM) が画像テキストデータセットに対してよりリッチな画像テキストアソシエーションを確立することにより,視覚言語表現の学習を向上させることを実証する。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
MLLMの幻覚や単調な言語スタイルによってもたらされるバイアスを回避するため,拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
画像テキスト検索では、追加のトレーニングコストを導入することなく、5.6 ~ 35.0 および16.8 ~ 46.1 の改善を Recall@1 の微調整およびゼロショット設定で連続的に得る。
特に、ターゲットデータセットの微調整に匹敵するゼロショット結果が得られ、MLLMの多目的利用のさらなる探索が促進される。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [96.5230327196615]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - LLaFS: When Large-Language Models Meet Few-Shot Segmentation [35.256802691098365]
本稿では,LLaFSを提案する。LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLLaFSは、LLMが獲得した膨大な事前知識を効果的なサプリメントとして利用し、LLMを使って画像を数ショットで分割する。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
論文 参考訳(メタデータ) (2023-11-28T16:31:27Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。