Fugu-MT 論文翻訳(概要): Vision-Language Instruction Tuning: A Review and Analysis

論文の概要: Vision-Language Instruction Tuning: A Review and Analysis

arxiv url: http://arxiv.org/abs/2311.08172v1
Date: Tue, 14 Nov 2023 14:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:04:02.269984
Title: Vision-Language Instruction Tuning: A Review and Analysis
Title（参考訳）: Vision-Language Instruction Tuning: レビューと分析
Authors: Chen Li, Yixiao Ge, Dian Li, and Ying Shan
Abstract要約: 本稿では,マルチモーダルLLMにおける最新の視覚言語命令チューニング設定とデータセットを体系的にレビューする。本稿では,これらの特徴を視覚言語指導データ構築の基本原則とみなす。本稿では,データ収集,命令生成,品質制御モジュールからなる完全な構築パイプラインを提案する。
参考スコア（独自算出の注目度）: 52.218690619616474
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Instruction tuning is an essential supervised training phase for Large Language Models (LLMs), with the goal of enhancing LLMs' capacity to generalize instruction execution and adapt to user preferences. With the growing incorporation of multi-modal data into LLMs, there is an increasing interest in the performance of vision-language instruction tuning which presents more complex features in comparison to pure text instructions. In this paper, we systematically review the latest vision-language instruction tuning settings and datasets in multi-modal LLMs and summarize the characteristics that high-quality vision-language tuning data should have. We consider these characteristics as the foundational principles for constructing vision-language instruction data and propose a complete construction pipeline consisting of data collection, instruction generation, and quality control modules that incorporate meticulously designed instruction property evaluation indicators. We perform vision-language instruction tuning on three widely used multi-modal LLMs based on the instruction data we constructed and conduct extensive experiments on the corresponding metrics to demonstrate the rationality of the construction principles proposed in this paper. The code and dataset related to this paper have been open-sourced at \url{https://github.com/palchenli/VL-Instruction-Tuning}.
Abstract（参考訳）: インストラクションチューニングは,LLMが命令実行を一般化し,ユーザの好みに適応する能力を向上させることを目的として,LLM(Large Language Models)にとって不可欠なトレーニングフェーズである。 LLMへのマルチモーダルデータの導入が進むにつれて、純粋なテキスト命令よりも複雑な特徴を示す視覚言語命令チューニングのパフォーマンスへの関心が高まっている。本稿では,マルチモーダルLLMにおける最新の視覚言語チューニング設定とデータセットを体系的にレビューし,高品質な視覚言語チューニングデータが持つべき特性を要約する。本稿では,これらの特徴を視覚言語による命令データ構築の基本原理として捉え,データ収集,命令生成,品質管理モジュールからなる完全な構築パイプラインを提案する。本稿では,構築した命令データに基づいて,広範に使用されている3つのマルチモーダルLCMに対して視覚言語指導を行い,それに対応するメトリクスについて広範な実験を行い,提案した構成原理の合理性を示す。この論文に関連するコードとデータセットは、 \url{https://github.com/palchenli/VL-Instruction-Tuning}でオープンソース化されている。

関連論文リスト

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳（メタデータ） (2025-05-29T03:40:21Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Learning to Instruct for Visual Instruction Tuning [56.23557578405653]
視覚インストラクションチューニング(VIT)の進歩であるLITを提案する。 LITは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことによって、シンプルだが効果的なアプローチを採用する。驚くべきことに、LITは極めて基本的な視覚能力を備えており、キャプション性能は最大で18%向上している。
論文参考訳（メタデータ） (2025-03-28T08:04:51Z)
NILE: Internal Consistency Alignment in Large Language Models [59.16120063368364]
NILE(iNternal consIstency aLignmEnt)フレームワークを導入し、IFTデータセットを最適化してLLMの機能をさらに開放する。 NILE は、訓練済みの LLM の内部知識を命令データに対応付けることで動作する。実験により,NILE 対応 IFT データセットは複数の能力評価データセットにまたがる LLM 性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-12-21T16:25:16Z)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文参考訳（メタデータ） (2024-10-10T17:59:22Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning [45.233150828317164]
コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。具体的には、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。 LVLMのVLITデータ生成能力をさらに向上させるために、対照的な学習モジュールが導入された。
論文参考訳（メタデータ） (2024-05-21T13:04:10Z)
DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。 DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文参考訳（メタデータ） (2024-05-20T16:01:01Z)
VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文参考訳（メタデータ） (2024-03-19T21:31:56Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文参考訳（メタデータ） (2023-06-01T07:19:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。