論文の概要: Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding
- arxiv url: http://arxiv.org/abs/2506.07576v1
- Date: Mon, 09 Jun 2025 09:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.887154
- Title: Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding
- Title(参考訳): Super Encoding Network: ビデオ理解のためのマルチモーダルエンコーダの再帰的アソシエーション
- Authors: Boyu Chen, Siran Chen, Kunchang Li, Qinglin Xu, Yu Qiao, Yali Wang,
- Abstract要約: ビデオ理解は世界モデリングの重要なステップである。
ビデオ理解のための統合スーパーネットワーク(SEN)を提案する。
私たちのSENは、最も代表的な4つのタスクを著しく強化できます。
- 参考スコア(独自算出の注目度): 34.50473981161247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding has been considered as one critical step towards world modeling, which is an important long-term problem in AI research. Recently, multi-modal foundation models have shown such potential via large-scale pretraining. However, these models simply align encoders of different modalities via contrastive learning, while lacking deeper multi-modal interactions, which is critical for understanding complex target movements with diversified video scenes. To fill this gap, we propose a unified Super Encoding Network (SEN) for video understanding, which builds up such distinct interactions through recursive association of multi-modal encoders in the foundation models. Specifically, we creatively treat those well-trained encoders as "super neurons" in our SEN. Via designing a Recursive Association (RA) block, we progressively fuse multi-modalities with the input video, based on knowledge integrating, distributing, and prompting of super neurons in a recursive manner. In this way, our SEN can effectively encode deeper multi-modal interactions, for prompting various video understanding tasks in downstream. Extensive experiments show that, our SEN can remarkably boost the four most representative video tasks, including tracking, recognition, chatting, and editing, e.g., for pixel-level tracking, the average jaccard index improves 2.7%, temporal coherence(TC) drops 8.8% compared to the popular CaDeX++ approach. For one-shot video editing, textual alignment improves 6.4%, and frame consistency increases 4.1% compared to the popular TuneA-Video approach.
- Abstract(参考訳): ビデオ理解は、AI研究において重要な長期的な問題である世界モデリングへの重要なステップであると考えられてきた。
近年、マルチモーダル基礎モデルは大規模な事前訓練を通じてそのような可能性を示している。
しかし、これらのモデルでは、異なるモダリティのエンコーダをコントラスト学習で整列させるだけで、より深いマルチモーダル相互作用が欠如しており、ビデオシーンの多様化による複雑なターゲット運動の理解に不可欠である。
このギャップを埋めるために,ビデオ理解のための統合スーパーエンコーディングネットワーク(SEN)を提案する。
再帰的アソシエーション(RA)ブロックを設計し、知識の統合、分散、再帰的な方法でスーパーニューロンの促進に基づいて、インプットビデオと段階的にマルチモダリティを融合させる。
このように、SENはより深いマルチモーダルインタラクションを効果的にエンコードすることができ、下流で様々なビデオ理解タスクを促せる。
我々のSENは、トラッキング、認識、チャット、編集など、最も代表的な4つのビデオタスクを著しく向上させることができる。例えば、ピクセルレベルのトラッキングでは、平均ジャカードインデックスが2.7%、時間的コヒーレンス(TC)が8.8%低下する。
ワンショットビデオ編集ではテキストアライメントが6.4%改善し、フレームの一貫性は一般的なTuneA-Videoアプローチに比べて4.1%向上した。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - FaVChat: Unlocking Fine-Grained Facial Video Understanding with Multimodal Large Language Models [12.029771909598647]
FaVChatは、顔のきめ細かいビデオ理解のために特別に設計された最初のVMLLMである。
我々は60k以上の動画からなる大規模な顔画像データセットを構築し,大半が83の微粒な顔属性で注釈付けされている。
我々は,映像要約から高品質な映像QAサブセットへ移行し,タスクの複雑さを徐々に増大させ,モデルのきめ細かい視覚知覚を高める,プログレッシブトレーニングパラダイムを採用する。
論文 参考訳(メタデータ) (2025-03-12T08:33:46Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。