Fugu-MT 論文翻訳(概要): World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

論文の概要: World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

arxiv url: http://arxiv.org/abs/2409.20424v1
Date: Mon, 30 Sep 2024 15:49:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-02 06:50:32.302968
Title: World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering
Title（参考訳）: World to Code: 自己指示型合成キャプションとフィルタリングによるマルチモーダルデータ生成
Authors: Jiacong Wang, Bohong Wu, Haiyong Jiang, Xun Zhou, Xin Xiao, Haoyuan Guo, Jun Xiao,
Abstract要約: We present World to Code (W2C), a meticulously curated multi-modal data construction pipeline。パイプラインは、最終的な生成出力をPythonコード形式に整理する。実験では、様々な視覚的質問応答と視覚的接地ベンチマークを改善して、W2Cの質を実証している。
参考スコア（独自算出の注目度）: 16.03491048830499
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Vision-Language Models (VLMs) and the scarcity of high-quality multi-modal alignment data have inspired numerous researches on synthetic VLM data generation. The conventional norm in VLM data construction uses a mixture of specialists in caption and OCR, or stronger VLM APIs and expensive human annotation. In this paper, we present World to Code (W2C), a meticulously curated multi-modal data construction pipeline that organizes the final generation output into a Python code format. The pipeline leverages the VLM itself to extract cross-modal information via different prompts and filter the generated outputs again via a consistency filtering strategy. Experiments have demonstrated the high quality of W2C by improving various existing visual question answering and visual grounding benchmarks across different VLMs. Further analysis also demonstrates that the new code parsing ability of VLMs presents better cross-modal equivalence than the commonly used detail caption ability. Our code is available at https://github.com/foundation-multimodal-models/World2Code.
Abstract（参考訳）: VLM(Vision-Language Models)の最近の進歩と、高品質なマルチモーダルアライメントデータの不足は、合成VLMデータ生成に関する多くの研究に影響を与えた。 VLMデータ構築における従来の標準は、キャプション内のスペシャリストとOCR、あるいはより強力なVLM APIと高価な人間のアノテーションが混在している。本稿では,Python コード形式に最終生成出力を整理する,厳密にキュレートされたマルチモーダルデータ構築パイプライン World to Code (W2C) を提案する。パイプラインはVLM自体を活用して、異なるプロンプトを介してクロスモーダル情報を抽出し、一貫性のあるフィルタリング戦略を通じて出力を再度フィルタリングする。実験では、様々なVLMにわたる様々な視覚的質問応答と視覚的接地ベンチマークを改善して、W2Cの質を実証している。さらなる分析により、VLMの新しいコード解析能力は、一般的に使用されるディテールキャプション能力よりも、モーダルな相互同値性を示すことが示されている。私たちのコードはhttps://github.com/foundation-multimodal-models/World2Codeで利用可能です。

関連論文リスト

GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models [20.976319536167512]
我々は、視覚言語モデルの長期的性能を高める効果的なソリューションを確立することを目指している。本稿では, 有効長が128Kまで拡張されたジリンを提案する。コード、データ、モデルをオープンソースにします。
論文参考訳（メタデータ） (2024-12-17T09:57:21Z)
V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding [40.784423313750075]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクを扱う上で有望な能力を示しているが、長いコンテキストシナリオでは苦労している。本稿では,視覚トークンに可変インクリメントを取り入れた新しい位置符号化手法を提案し,長いマルチモーダルシーケンスのより効率的な管理を実現する。細調整されたモデルでは、標準タスクと長文マルチモーダルタスクの両方で高い性能が得られることを示す。
論文参考訳（メタデータ） (2024-12-12T18:59:46Z)
Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文参考訳（メタデータ） (2024-10-03T17:36:49Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Ovis: Structural Embedding Alignment for Multimodal Large Language Model [41.32013722697081]
Ovisは、視覚とテキストの埋め込みを構造的に整列するように設計された新しいMLLMアーキテクチャである。 Ovisは学習可能なビジュアル埋め込みテーブルをビジュアルエンコーダのプロセスに統合する。様々なマルチモーダルベンチマークにおける実証的な評価は、OvisがオープンソースMLLMよりも優れていることを示している。
論文参考訳（メタデータ） (2024-05-31T13:59:18Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。 ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文参考訳（メタデータ） (2024-04-18T02:40:31Z)
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters [38.41887207958015]
微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
論文参考訳（メタデータ） (2024-03-05T06:05:15Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文参考訳（メタデータ） (2023-11-14T14:02:32Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文参考訳（メタデータ） (2021-05-20T08:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。