論文の概要: JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2512.22905v1
- Date: Sun, 28 Dec 2025 12:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.28087
- Title: JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
- Title(参考訳): JavisGPT: 音声・映像の理解と生成のための統一型マルチモーダルLCM
- Authors: Kai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua,
- Abstract要約: 本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。
JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。
JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
- 参考スコア(独自算出の注目度): 108.21827580870979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.
- Abstract(参考訳): 本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合型マルチモーダル大言語モデル(MLLM)であるJavisGPTを提案する。
JavisGPTは簡潔エンコーダ-LLMデコーダアーキテクチャを採用しており、時空間オーディオビデオ融合のためのSyncFusionモジュールと、事前訓練されたJAV-DiTジェネレータをブリッジするために同期対応の学習クエリを備えている。
この設計により、時間的コヒーレントなビデオオーディオ理解とマルチモーダル命令からの生成が可能となる。
我々は,マルチモーダル・プレトレーニング,オーディオ・ビデオ・ファインチューニング,大規模インストラクション・チューニングからなる効果的な3段階学習パイプラインを設計し,既存の視覚言語モデルから多モーダル・コングリゲーションと生成を段階的に構築する。
これをサポートするために,多段階の理解・生成シナリオにまたがる200K GPT-4o 以上の音声-ビデオ-テキスト対話を備えた高品質な命令データセット JavisInst-Omni を構築した。
JAV理解と生成ベンチマークに関する大規模な実験により、JavisGPTは既存のMLLM、特に複雑で時間的に同期された設定において、優れた性能を発揮することが示された。
関連論文リスト
- MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文 参考訳(メタデータ) (2025-03-30T09:40:42Z) - Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。
視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。
LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。