Fugu-MT 論文翻訳(概要): MLLMs-Augmented Visual-Language Representation Learning

論文の概要: MLLMs-Augmented Visual-Language Representation Learning

arxiv url: http://arxiv.org/abs/2311.18765v2
Date: Fri, 1 Dec 2023 15:38:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 11:47:16.311258
Title: MLLMs-Augmented Visual-Language Representation Learning
Title（参考訳）: MLLMによる視覚言語表現学習
Authors: Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang and Yang You
Abstract要約: MLLM(Multi-modal large language model)は、データ品質を向上させることにより、視覚言語表現学習を強化することができる。原文の字幕と同じ長さの字幕を維持できる「テキストシーリング」を提案する。画像テキスト検索では,R@1の5.635.0%と16.846.1%の改善が連続的に得られる。
参考スコア（独自算出の注目度）: 70.5293060238008
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-language pre-training (VLP) has achieved remarkable success in multi-modal tasks, largely attributed to the availability of large-scale image-text datasets. In this work, we demonstrate that multi-modal large language models (MLLMs) can enhance visual-language representation learning by improving data quality. Our approach is simple, utilizing MLLMs to extend multiple captions for each image. To prevent the bias introduced by MLLMs' hallucinations and intrinsic caption styles, we propose "text shearing" to maintain the same length for extended captions as that of the original captions. In image-text retrieval, our method consistently obtains 5.6 ~ 35.0% and 16.8 ~ 46.1% improvement on R@1 under the fine-tuning and zero-shot settings, respectively. Notably, we obtain zero-shot results that are comparable to fine-tuning on target datasets, which encourages more exploration of the versatile use of MLLMs.
Abstract（参考訳）: 視覚言語事前学習(VLP)は、大規模な画像テキストデータセットが利用可能であることから、マルチモーダルタスクにおいて顕著な成功を収めている。本研究では,マルチモーダル大規模言語モデル(mllms)が,データ品質の向上によって視覚表現学習を向上できることを実証する。 MLLMを用いて,画像毎に複数のキャプションを拡張する手法を提案する。 MLLMの幻覚や本態的なキャプションスタイルがもたらすバイアスを回避するため,従来のキャプションと同じ長さのキャプションを維持できる「テキストシーリング」を提案する。画像テキスト検索では,r@1の5.6 ～ 35.0%,16.8 ～ 46.1%の精度向上が得られた。特に、ターゲットデータセットの微調整に匹敵するゼロショット結果が得られ、MLLMの多目的利用のさらなる探索が促進される。

関連論文リスト

Multilingual Training-Free Remote Sensing Image Captioning [3.5445909595817096]
リモートセンシング画像キャプションに対するトレーニング不要なマルチ言語アプローチを提案する。ドメイン適応型SigLIP2エンコーダを用いて,データストアから関連するキャプションやサンプルを検索する。 10言語にわたる4つのベンチマークデータセットの実験は、我々のアプローチが完全に教師付き英語のみのシステムと競合していることを示している。
論文参考訳（メタデータ） (2025-11-30T13:16:42Z)
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文参考訳（メタデータ） (2024-12-04T19:01:06Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models [11.683093317651517]
大規模言語モデル(LLM)は、画像分類を含む多くのコンピュータビジョンタスクに効果的に使用されている。マルチモーダルLCMを用いたゼロショット画像分類法を提案する。この結果は,複数のデータセットのベンチマーク精度を上回り,その顕著な効果を示した。
論文参考訳（メタデータ） (2024-05-24T16:05:15Z)
Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID [44.372336186832584]
本稿では,提案する大規模データベース上でモデルをトレーニングするReID問題について検討する。 MLLM(Multi-modal Large Language Models)による訓練データを得る。画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-08T10:15:04Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。