論文の概要: UniVid: The Open-Source Unified Video Model
- arxiv url: http://arxiv.org/abs/2509.24200v2
- Date: Tue, 30 Sep 2025 09:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.406905
- Title: UniVid: The Open-Source Unified Video Model
- Title(参考訳): UniVid: オープンソースのUnified Video Model
- Authors: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang,
- Abstract要約: MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 41.15980565061684
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unified video modeling that combines generation and understanding capabilities is increasingly important but faces two key challenges: maintaining semantic faithfulness during flow-based generation due to text-visual token imbalance and the limitations of uniform cross-modal attention across the flow trajectory, and efficiently extending image-centric MLLMs to video without costly retraining. We present UniVid, a unified architecture that couples an MLLM with a diffusion decoder through a lightweight adapter, enabling both video understanding and generation. We introduce Temperature Modality Alignment to improve prompt adherence and Pyramid Reflection for efficient temporal reasoning via dynamic keyframe selection. Extensive experiments on standard benchmarks demonstrate state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA and ActivityNet-QA, respectively, compared with the best prior 7B baselines. Code: https://github.com/AIGeeksGroup/UniVid. Website: https://aigeeksgroup.github.io/UniVid.
- Abstract(参考訳): 生成と理解能力を組み合わせた統一ビデオモデリングはますます重要になっているが、テキスト-視覚的トークンの不均衡によるフローベース生成における意味的忠実さの維持と、フロー軌跡を横断する一様横断的な注意の制限、画像中心のMLLMをコストを伴わずにビデオに効率よく拡張する、という2つの大きな課題に直面している。
MLLMと拡散デコーダを結合した統合アーキテクチャであるUniVidを,ビデオ理解と生成の両方が可能な軽量アダプタで提供する。
本研究では,動的キーフレーム選択による時間的推論を効果的に行うために,温度モードアライメントを導入し,プロンプトアヒーレンスとピラミッド反射を改善した。
VBench-LongのスコアはEasyAnimateV5.1と比べて2.2%向上し、MSVD-QAとActivityNet-QAでは1.0%と3.3%の精度向上を達成した。
コード:https://github.com/AIGeeksGroup/UniVid
ウェブサイト:https://aigeeksgroup.github.io/UniVid.com
関連論文リスト
- EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。
EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。
我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-17T09:51:51Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。