Fugu-MT 論文翻訳(概要): SVIT: Scaling up Visual Instruction Tuning

論文の概要: SVIT: Scaling up Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2307.04087v2
Date: Sat, 9 Sep 2023 03:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 19:28:49.994480
Title: SVIT: Scaling up Visual Instruction Tuning
Title（参考訳）: SVIT: Visual Instruction Tuningのスケールアップ
Authors: Bo Zhao, Boya Wu, Tiejun Huang
Abstract要約: 我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。 SVIT上でのマルチモーダルモデルのトレーニングは、視覚的知覚、推論、プランニングの観点から、多モーダル性能を著しく向上させることができることを実証的に検証する。
参考スコア（独自算出の注目度）: 30.11483943469215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Thanks to the emerging of foundation models, the large language and vision models are integrated to acquire the multimodal ability of visual captioning, dialogue, question answering, etc. Although existing multimodal models present impressive performance of visual understanding and reasoning, their limits are still largely under-explored due to the scarcity of high-quality instruction tuning data. To push the limits of multimodal capability, we Sale up Visual Instruction Tuning (SVIT) by constructing a dataset of 4.2 million visual instruction tuning data including 1.6M conversation question-answer (QA) pairs, 1.6M complex reasoning QA pairs, 1.0M referring QA pairs and 106K detailed image descriptions. Besides the volume, the proposed dataset is also featured by the high quality and rich diversity, which is generated by prompting GPT-4 with the abundant manual annotations of images. We empirically verify that training multimodal models on SVIT can significantly improve the multimodal performance in terms of visual perception, reasoning and planing.
Abstract（参考訳）: 基礎モデルの出現により、大きな言語とビジョンモデルは統合され、視覚的キャプション、対話、質問応答などのマルチモーダル機能を取得する。既存のマルチモーダルモデルは、視覚的理解と推論の印象的な性能を示すが、高品質な命令チューニングデータの不足のため、その限界は依然としてほとんど未熟である。マルチモーダル能力の限界を押し上げるために,160mの会話質問応答(qa)ペア,1.6mの複雑な推論qaペア,1.0mの参照qaペア,106kの詳細な画像記述を含む420万の視覚的命令チューニングデータを構成することにより,視覚的命令チューニング(svit)を売り出す。ボリュームに加えて,画像の豊富な手動アノテーションでGPT-4を誘導することにより,高品質で豊富な多様性を特徴付けるデータセットも提案されている。 SVIT上でのマルチモーダルモデルのトレーニングは,視覚的知覚や推論,計画といった面で,多モーダル性能を大幅に向上させることができることを実証的に検証した。

関連論文リスト

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search [42.560419395815146]
視覚言語モデルは多くの知覚に焦点を当てたタスクにおいて大きな進歩を遂げた。しかし、高品質で多様なトレーニングデータがないため、推論に焦点を絞ったタスクの進歩は依然として限られている。複数の分野にまたがる多種多様な高品質なデータセットを作成するために、VisualWebInstructを提案する。
論文参考訳（メタデータ） (2025-03-13T17:32:48Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文参考訳（メタデータ） (2024-10-24T09:03:48Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning [74.34171839925114]
MLLM(Multimodal large language model)の新しいファミリーであるMM1.5を提案する。我々のモデルは1Bから30Bのパラメータで、密度と混合スペクトル(MoE)の両方を含む。最終設計を知らせるトレーニングプロセスと決定について、詳細な洞察を提供する。
論文参考訳（メタデータ） (2024-09-30T17:59:34Z)
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models [7.056824589733873]
MLLM(Multi-modal large language model)は、実運用における画像とテキストの相互変換のマルチターンクエリをサポートすることが期待されている。現在のMLLMは、視覚的な問合せのデータセットで訓練されており、劣化に悩まされる可能性がある。そこで本研究では,MLLMの言語能力の回復と向上を図った,細粒度アノテーションを用いた蒸留法に基づくマルチモーダルアライメントモデルを提案する。
論文参考訳（メタデータ） (2024-02-16T18:42:08Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。