論文の概要: OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2605.12480v1
- Date: Tue, 12 May 2026 17:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.075595
- Title: OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation
- Title(参考訳): OmniNFT:ジョイントオーディオビデオ生成のためのモダリティワイドオムニ拡散強化
- Authors: Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu, Hu Yu, Siming Fu, Yuming Li, Zeyue Xue, Lin Song, Haoyang Huang, Nan Duan, Feng Zhao,
- Abstract要約: 近年のジョイント・オーディオ・ビデオ・ジェネレーションの進歩は、モダリティ毎の忠実度、クロスモーダルアライメント、きめ細かい同期を強く要求している。
これらの欠点は、単一のグローバルな優位性を持つバニラRL微調整戦略が、しばしば準最適結果をもたらすことを示唆している。
提案するOmniNFTは,新しいモダリティ対応オンライン拡散RLフレームワークである。
- 参考スコア(独自算出の注目度): 60.95158352332569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in joint audio-video generation have been remarkable, yet real-world applications demand strong per-modality fidelity, cross-modal alignment, and fine-grained synchronization. Reinforcement Learning (RL) offers a promising paradigm, but its extension to multi-objective and multi-modal joint audio-video generation remains unexplored. Notably, our in-depth analysis first reveals that the primary obstacles to applying RL in this stem from: (i) multi-objective advantages inconsistency, where the advantages of multimodal outputs are not always consistent within a group; (ii) multi-modal gradients imbalance, where video-branch gradients leak into shallow audio layers responsible for intra-modal generation; (iii) uniform credit assignment, where fine-grained cross-modal alignment regions fail to get efficient exploration. These shortcomings suggest that vanilla RL fine-tuning strategy with a single global advantage often leads to suboptimal results. To address these challenges, we propose OmniNFT, a novel modality-aware online diffusion RL framework with three key innovations: (1) Modality-wise advantage routing, which routes independent per-reward advantages to their respective modality generation branches. (2) Layer-wise gradient surgery, which selectively detaches video-branch gradients on shallow audio layers while retaining those for cross-modal interaction layers. (3) Region-wise loss reweighting, which modulates policy optimization toward critical regions related to audio-video synchronization and fine-grained alignment. Extensive experiments on JavisBench and VBench with the LTX-2 backbone demonstrate that OmniNFT achieves comprehensive improvements in audio and video perceptual quality, cross-modal alignment, and audio-video synchronization.
- Abstract(参考訳): 近年のジョイント・オーディオ・ビデオ・ジェネレーションの進歩は目覚ましいが、実世界のアプリケーションには、強いモダリティ毎の忠実さ、クロスモーダルアライメント、きめ細かい同期が要求されている。
Reinforcement Learning (RL) は有望なパラダイムを提供するが、マルチオブジェクトとマルチモーダルのジョイントオーディオビデオ生成への拡張はまだ検討されていない。
特に、我々の詳細な分析では、まず最初に、この起源にRLを適用する際の主な障害が明らかになっている。
(i)マルチモーダル出力の利点が必ずしも群内で整合であるとは限らない多目的的不整合性
(二)マルチモーダル勾配の不均衡、ビデオブランチ勾配が浅層オーディオ層に漏れてモーダル内発生
第三に、細粒度のクロスモーダルアライメント領域が効率的な探査に失敗する一様信用割当。
これらの欠点は、単一のグローバルな優位性を持つバニラRL微調整戦略が、しばしば準最適結果をもたらすことを示唆している。
これらの課題に対処するため,(1)モダリティ単位のアドバンテージをそれぞれのモダリティ生成ブランチに独立にルーティングするモダリティ単位のアドバンテージルーティングという,新しいモダリティ対応オンライン拡散RLフレームワークであるOmniNFTを提案する。
2) ビデオブラッチ勾配を浅層オーディオ層に選択的に切り離し, クロスモーダルな相互作用層に保持する階層的勾配手術を行った。
(3) 音声・ビデオ同期および微粒化アライメントに関連する重要な領域に対するポリシー最適化を変調する領域ワイド・ロス・リヘアリング。
LTX-2バックボーンを用いたJavisBenchとVBenchの大規模な実験により、OmniNFTは、オーディオとビデオの知覚品質、クロスモーダルアライメント、オーディオとビデオの同期の包括的な改善を実現している。
関連論文リスト
- Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling [59.97930201616015]
本研究では,共有バックボーン内で高レベルなクロスモーダルモデリングを行う自己回帰拡散フレームワークであるTalker-T2AVを提案する。
共有自己回帰言語モデルは、統一されたパッチレベルのトークン空間において、オーディオとビデオに対して共同で原因となる。
ポートレートベンチマークの実験では、Talker-T2AVはリップシンク精度、ビデオ品質、オーディオ品質において、デュアルブランチベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-26T07:48:47Z) - OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering [53.30273345137238]
我々は、時間的順序付けプロキシタスクに基づいて構築された汎用的な自己教師型フレームワークであるOmniJigsawを提案する。
クロスモーダル統合を強制するために、ジョイントモダリティ統合、サンプルレベルモダリティ選択、クリップレベルモダリティマスキングが使用される。
両モードのショートカット現象'を共同モダリティ統合で明らかにし,細粒度クリップレベルのモダリティマスキングがこの問題を緩和することを示した。
論文 参考訳(メタデータ) (2026-04-09T13:09:40Z) - Apollo: Unified Multi-Task Audio-Video Joint Generation [15.004783109205666]
非商業的アプローチは、音声・視覚的非同期性、唇・音声のアライメントの低さ、そして一過性の劣化に悩まされている。
モデルアーキテクチャ、トレーニング戦略、データキュレーションの3つにApolloとDelveを導入します。
データセットについては,大容量キャプションを用いた最初の大規模オーディオビデオデータセットを提示する。
論文 参考訳(メタデータ) (2026-01-07T18:03:45Z) - UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions [34.27531187147479]
UniAVGenは、ジョイントオーディオとビデオ生成のための統一されたフレームワークである。
UniAVGenは、オーディオオーディオ同期、音色、感情の一貫性において全体的なアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-11-05T10:06:51Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration [50.38965090742822]
長いきめの細かいビデオオーディオ推論ときめ細かいピクセルは、全方位モデルに矛盾する要求を課す。
我々は,このトレードオフを2システムアーキテクチャで解決する:グローバル推論システムは,情報を選択し,空間的コストでタスクを書き換える一方,詳細理解システムはピクセルレベルのグラウンド化を行う。
最適ホライゾンの選択と改革は曖昧で監督が難しいため、強化学習(RL)問題として定式化し、グループ相対政策に基づくエンドツーエンドのRLフレームワークであるOmni-R1を提示する。
論文 参考訳(メタデータ) (2025-05-26T17:34:06Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。