論文の概要: UniVid: The Open-Source Unified Video Model
- arxiv url: http://arxiv.org/abs/2509.24200v2
- Date: Tue, 30 Sep 2025 09:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.406905
- Title: UniVid: The Open-Source Unified Video Model
- Title(参考訳): UniVid: オープンソースのUnified Video Model
- Authors: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang,
- Abstract要約: MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 41.15980565061684
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unified video modeling that combines generation and understanding capabilities is increasingly important but faces two key challenges: maintaining semantic faithfulness during flow-based generation due to text-visual token imbalance and the limitations of uniform cross-modal attention across the flow trajectory, and efficiently extending image-centric MLLMs to video without costly retraining. We present UniVid, a unified architecture that couples an MLLM with a diffusion decoder through a lightweight adapter, enabling both video understanding and generation. We introduce Temperature Modality Alignment to improve prompt adherence and Pyramid Reflection for efficient temporal reasoning via dynamic keyframe selection. Extensive experiments on standard benchmarks demonstrate state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA and ActivityNet-QA, respectively, compared with the best prior 7B baselines. Code: https://github.com/AIGeeksGroup/UniVid. Website: https://aigeeksgroup.github.io/UniVid.
- Abstract(参考訳): 生成と理解能力を組み合わせた統一ビデオモデリングはますます重要になっているが、テキスト-視覚的トークンの不均衡によるフローベース生成における意味的忠実さの維持と、フロー軌跡を横断する一様横断的な注意の制限、画像中心のMLLMをコストを伴わずにビデオに効率よく拡張する、という2つの大きな課題に直面している。
MLLMと拡散デコーダを結合した統合アーキテクチャであるUniVidを,ビデオ理解と生成の両方が可能な軽量アダプタで提供する。
本研究では,動的キーフレーム選択による時間的推論を効果的に行うために,温度モードアライメントを導入し,プロンプトアヒーレンスとピラミッド反射を改善した。
VBench-LongのスコアはEasyAnimateV5.1と比べて2.2%向上し、MSVD-QAとActivityNet-QAでは1.0%と3.3%の精度向上を達成した。
コード:https://github.com/AIGeeksGroup/UniVid
ウェブサイト:https://aigeeksgroup.github.io/UniVid.com
関連論文リスト
- ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation [14.141157176094737]
画像対ビデオ生成(I2V)は、静的画像をテキスト命令に従って時間的に一貫性のあるビデオシーケンスに変換する。
既存のI2Vパイプラインは、しばしば外観のドリフトと幾何学的歪みに悩まされる。
本稿では、第1フレームを非表示の補助ビューで拡張するビュー支援I2V生成フレームワークであるConsID-Genを提案する。
論文 参考訳(メタデータ) (2026-02-10T18:59:51Z) - Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks [4.888851550406879]
本稿では,映像中の「概念的感情」の自動認識に取り組むための弱視的枠組みを提案する。
実験により、厳密なクラス不均衡にもかかわらず、提案手法は以前の作業で0.6以下から0.69以上に上昇することが示された。
論文 参考訳(メタデータ) (2026-02-08T17:02:55Z) - FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging [27.981298261747288]
FlashVIDはビデオ大言語モデル(VLLM)のためのトレーニング不要のアクセラレーションフレームワークである
基本的なビデオ表現のために最も代表的なトークンを選択し、その後、微細な時間的冗長性にTree-based Stemporal Tokenging (TSTM)を適用する。
FlashVIDは、長いビデオフレームを拡張するためのトレーニングフリーでプラグアンドプレイモジュールとして機能し、Qwen2.5-VLに入力されるビデオフレームを10倍増やすことができる。
論文 参考訳(メタデータ) (2026-02-08T15:56:46Z) - LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文 参考訳(メタデータ) (2025-11-26T08:11:10Z) - Seeing Across Time and Views: Multi-Temporal Cross-View Learning for Robust Video Person Re-Identification [1.4270165633706586]
クロスビュー領域におけるビデオベースの人物再識別(ReID)は依然として未解決の問題である。
ViT-B/16バックボーン上に7つの相補的なモジュールを導入するパラメータ効率のフレームワークであるMTF-CVReIDを提案する。
我々は,MTF-CVReIDがリアルタイム効率(189FPS)を維持し,AG-VPReIDベンチマークの最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-04T13:37:59Z) - EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。
EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。
我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-17T09:51:51Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。