論文の概要: JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2512.22905v1
- Date: Sun, 28 Dec 2025 12:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.28087
- Title: JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
- Title(参考訳): JavisGPT: 音声・映像の理解と生成のための統一型マルチモーダルLCM
- Authors: Kai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua,
- Abstract要約: 本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。
JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。
JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
- 参考スコア(独自算出の注目度): 108.21827580870979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.
- Abstract(参考訳): 本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合型マルチモーダル大言語モデル(MLLM)であるJavisGPTを提案する。
JavisGPTは簡潔エンコーダ-LLMデコーダアーキテクチャを採用しており、時空間オーディオビデオ融合のためのSyncFusionモジュールと、事前訓練されたJAV-DiTジェネレータをブリッジするために同期対応の学習クエリを備えている。
この設計により、時間的コヒーレントなビデオオーディオ理解とマルチモーダル命令からの生成が可能となる。
我々は,マルチモーダル・プレトレーニング,オーディオ・ビデオ・ファインチューニング,大規模インストラクション・チューニングからなる効果的な3段階学習パイプラインを設計し,既存の視覚言語モデルから多モーダル・コングリゲーションと生成を段階的に構築する。
これをサポートするために,多段階の理解・生成シナリオにまたがる200K GPT-4o 以上の音声-ビデオ-テキスト対話を備えた高品質な命令データセット JavisInst-Omni を構築した。
JAV理解と生成ベンチマークに関する大規模な実験により、JavisGPTは既存のMLLM、特に複雑で時間的に同期された設定において、優れた性能を発揮することが示された。
関連論文リスト
- JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [93.8111348452324]
Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。
テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
論文 参考訳(メタデータ) (2026-02-10T10:01:16Z) - JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion [47.70095297438178]
軽量なLoRAによるビデオダビングにオーディオ・ビデオ拡散モデルを適用する単一モデルアプローチを提案する。
言語スイッチを1つのクリップで生成し、その半分の顔と音声を他の半分の言語にマッチさせる。
提案手法は,既存のダビングパイプラインと比較して,視覚的忠実度,唇の同期性,ロバスト性を改善した高品質なビデオを生成する。
論文 参考訳(メタデータ) (2026-01-29T18:57:13Z) - LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding [23.207637210563504]
LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
論文 参考訳(メタデータ) (2026-01-21T14:14:20Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文 参考訳(メタデータ) (2025-03-30T09:40:42Z) - Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。
視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。
LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。