論文の概要: Vision-Language Instruction Tuning: A Review and Analysis
- arxiv url: http://arxiv.org/abs/2311.08172v1
- Date: Tue, 14 Nov 2023 14:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:04:02.269984
- Title: Vision-Language Instruction Tuning: A Review and Analysis
- Title(参考訳): Vision-Language Instruction Tuning: レビューと分析
- Authors: Chen Li, Yixiao Ge, Dian Li, and Ying Shan
- Abstract要約: 本稿では,マルチモーダルLLMにおける最新の視覚言語命令チューニング設定とデータセットを体系的にレビューする。
本稿では,これらの特徴を視覚言語指導データ構築の基本原則とみなす。
本稿では,データ収集,命令生成,品質制御モジュールからなる完全な構築パイプラインを提案する。
- 参考スコア(独自算出の注目度): 52.218690619616474
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instruction tuning is an essential supervised training phase for Large
Language Models (LLMs), with the goal of enhancing LLMs' capacity to generalize
instruction execution and adapt to user preferences. With the growing
incorporation of multi-modal data into LLMs, there is an increasing interest in
the performance of vision-language instruction tuning which presents more
complex features in comparison to pure text instructions. In this paper, we
systematically review the latest vision-language instruction tuning settings
and datasets in multi-modal LLMs and summarize the characteristics that
high-quality vision-language tuning data should have. We consider these
characteristics as the foundational principles for constructing vision-language
instruction data and propose a complete construction pipeline consisting of
data collection, instruction generation, and quality control modules that
incorporate meticulously designed instruction property evaluation indicators.
We perform vision-language instruction tuning on three widely used multi-modal
LLMs based on the instruction data we constructed and conduct extensive
experiments on the corresponding metrics to demonstrate the rationality of the
construction principles proposed in this paper. The code and dataset related to
this paper have been open-sourced at
\url{https://github.com/palchenli/VL-Instruction-Tuning}.
- Abstract(参考訳): インストラクションチューニングは,LLMが命令実行を一般化し,ユーザの好みに適応する能力を向上させることを目的として,LLM(Large Language Models)にとって不可欠なトレーニングフェーズである。
LLMへのマルチモーダルデータの導入が進むにつれて、純粋なテキスト命令よりも複雑な特徴を示す視覚言語命令チューニングのパフォーマンスへの関心が高まっている。
本稿では,マルチモーダルLLMにおける最新の視覚言語チューニング設定とデータセットを体系的にレビューし,高品質な視覚言語チューニングデータが持つべき特性を要約する。
本稿では,これらの特徴を視覚言語による命令データ構築の基本原理として捉え,データ収集,命令生成,品質管理モジュールからなる完全な構築パイプラインを提案する。
本稿では,構築した命令データに基づいて,広範に使用されている3つのマルチモーダルLCMに対して視覚言語指導を行い,それに対応するメトリクスについて広範な実験を行い,提案した構成原理の合理性を示す。
この論文に関連するコードとデータセットは、 \url{https://github.com/palchenli/VL-Instruction-Tuning}でオープンソース化されている。
関連論文リスト
- Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning [45.233150828317164]
コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。
具体的には、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。
LVLMのVLITデータ生成能力をさらに向上させるために、対照的な学習モジュールが導入された。
論文 参考訳(メタデータ) (2024-05-21T13:04:10Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。
本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。