論文の概要: UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets
- arxiv url: http://arxiv.org/abs/2509.14738v1
- Date: Thu, 18 Sep 2025 08:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.124184
- Title: UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets
- Title(参考訳): UnifiedVisual:Unified Vision-Languageデータセットを構築するためのフレームワーク
- Authors: Pengyu Wang, Shaojun Zhou, Chenkun Tan, Xinghao Wang, Wei Huang, Zhen Ye, Zhaowei Li, Botian Jiang, Dong Zhang, Xipeng Qiu,
- Abstract要約: 統合視覚大言語モデル(VLLM)は、最近、マルチモーダル理解と生成の両方において顕著な進歩を遂げている。
本稿では,新しいデータセット構築フレームワークUnifiedVisualを導入し,UnifiedVisual-240Kを提案する。
UnifiedVisual-240Kは、様々な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的なクロスモーダル推論を可能にする。
- 参考スコア(独自算出の注目度): 51.284864284520744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified vision large language models (VLLMs) have recently achieved impressive advancements in both multimodal understanding and generation, powering applications such as visual question answering and text-guided image synthesis. However, progress in unified VLLMs remains constrained by the lack of datasets that fully exploit the synergistic potential between these two core abilities. Existing datasets typically address understanding and generation in isolation, thereby limiting the performance of unified VLLMs. To bridge this critical gap, we introduce a novel dataset construction framework, UnifiedVisual, and present UnifiedVisual-240K, a high-quality dataset meticulously designed to facilitate mutual enhancement between multimodal understanding and generation. UnifiedVisual-240K seamlessly integrates diverse visual and textual inputs and outputs, enabling comprehensive cross-modal reasoning and precise text-to-image alignment. Our dataset encompasses a wide spectrum of tasks and data sources, ensuring rich diversity and addressing key shortcomings of prior resources. Extensive experiments demonstrate that models trained on UnifiedVisual-240K consistently achieve strong performance across a wide range of tasks. Notably, these models exhibit significant mutual reinforcement between multimodal understanding and generation, further validating the effectiveness of our framework and dataset. We believe UnifiedVisual represents a new growth point for advancing unified VLLMs and unlocking their full potential. Our code and datasets is available at https://github.com/fnlp-vision/UnifiedVisual.
- Abstract(参考訳): 統合視覚大言語モデル(VLLM)は近年,多モーダル理解と生成,視覚的質問応答やテキスト誘導画像合成などの応用において,目覚しい進歩を遂げている。
しかしながら、統合されたVLLMの進歩は、これらの2つのコア能力間の相乗的ポテンシャルを完全に活用するデータセットの欠如に制約されている。
既存のデータセットは通常、独立した理解と生成に対処するため、統一されたVLLMのパフォーマンスが制限される。
この重要なギャップを埋めるために、我々は新しいデータセット構築フレームワークUnifiedVisualを導入し、マルチモーダル理解と生成の相互強化を容易にするために、高度に設計された高品質なデータセットUnifiedVisual-240Kを紹介した。
UnifiedVisual-240Kは多様な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的な相互モーダル推論と正確なテキスト・ツー・イメージアライメントを可能にする。
我々のデータセットは幅広いタスクやデータソースを含み、豊富な多様性を確保し、以前のリソースの重要な欠点に対処します。
広範な実験により、UnifiedVisual-240Kでトレーニングされたモデルは、広範囲のタスクで一貫して強力なパフォーマンスを達成することが示されている。
特に、これらのモデルはマルチモーダル理解と生成の間に大きな相互強化を示し、フレームワークとデータセットの有効性をさらに検証する。
私たちはUnifiedVisualが、統一VLLMを進化させ、その潜在能力を最大限に活用するための新たな成長ポイントであると考えています。
私たちのコードとデータセットはhttps://github.com/fnlp-vision/UnifiedVisualで公開されています。
関連論文リスト
- VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-29T03:40:21Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。