論文の概要: Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding
- arxiv url: http://arxiv.org/abs/2506.07576v1
- Date: Mon, 09 Jun 2025 09:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.887154
- Title: Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding
- Title(参考訳): Super Encoding Network: ビデオ理解のためのマルチモーダルエンコーダの再帰的アソシエーション
- Authors: Boyu Chen, Siran Chen, Kunchang Li, Qinglin Xu, Yu Qiao, Yali Wang,
- Abstract要約: ビデオ理解は世界モデリングの重要なステップである。
ビデオ理解のための統合スーパーネットワーク(SEN)を提案する。
私たちのSENは、最も代表的な4つのタスクを著しく強化できます。
- 参考スコア(独自算出の注目度): 34.50473981161247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding has been considered as one critical step towards world modeling, which is an important long-term problem in AI research. Recently, multi-modal foundation models have shown such potential via large-scale pretraining. However, these models simply align encoders of different modalities via contrastive learning, while lacking deeper multi-modal interactions, which is critical for understanding complex target movements with diversified video scenes. To fill this gap, we propose a unified Super Encoding Network (SEN) for video understanding, which builds up such distinct interactions through recursive association of multi-modal encoders in the foundation models. Specifically, we creatively treat those well-trained encoders as "super neurons" in our SEN. Via designing a Recursive Association (RA) block, we progressively fuse multi-modalities with the input video, based on knowledge integrating, distributing, and prompting of super neurons in a recursive manner. In this way, our SEN can effectively encode deeper multi-modal interactions, for prompting various video understanding tasks in downstream. Extensive experiments show that, our SEN can remarkably boost the four most representative video tasks, including tracking, recognition, chatting, and editing, e.g., for pixel-level tracking, the average jaccard index improves 2.7%, temporal coherence(TC) drops 8.8% compared to the popular CaDeX++ approach. For one-shot video editing, textual alignment improves 6.4%, and frame consistency increases 4.1% compared to the popular TuneA-Video approach.
- Abstract(参考訳): ビデオ理解は、AI研究において重要な長期的な問題である世界モデリングへの重要なステップであると考えられてきた。
近年、マルチモーダル基礎モデルは大規模な事前訓練を通じてそのような可能性を示している。
しかし、これらのモデルでは、異なるモダリティのエンコーダをコントラスト学習で整列させるだけで、より深いマルチモーダル相互作用が欠如しており、ビデオシーンの多様化による複雑なターゲット運動の理解に不可欠である。
このギャップを埋めるために,ビデオ理解のための統合スーパーエンコーディングネットワーク(SEN)を提案する。
再帰的アソシエーション(RA)ブロックを設計し、知識の統合、分散、再帰的な方法でスーパーニューロンの促進に基づいて、インプットビデオと段階的にマルチモダリティを融合させる。
このように、SENはより深いマルチモーダルインタラクションを効果的にエンコードすることができ、下流で様々なビデオ理解タスクを促せる。
我々のSENは、トラッキング、認識、チャット、編集など、最も代表的な4つのビデオタスクを著しく向上させることができる。例えば、ピクセルレベルのトラッキングでは、平均ジャカードインデックスが2.7%、時間的コヒーレンス(TC)が8.8%低下する。
ワンショットビデオ編集ではテキストアライメントが6.4%改善し、フレームの一貫性は一般的なTuneA-Videoアプローチに比べて4.1%向上した。
関連論文リスト
- FaVChat: Unlocking Fine-Grained Facial Video Understanding with Multimodal Large Language Models [12.029771909598647]
FaVChatは、顔のきめ細かいビデオ理解のために特別に設計された最初のVMLLMである。
我々は60k以上の動画からなる大規模な顔画像データセットを構築し,大半が83の微粒な顔属性で注釈付けされている。
我々は,映像要約から高品質な映像QAサブセットへ移行し,タスクの複雑さを徐々に増大させ,モデルのきめ細かい視覚知覚を高める,プログレッシブトレーニングパラダイムを採用する。
論文 参考訳(メタデータ) (2025-03-12T08:33:46Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。