論文の概要: DisCo: Towards Distinct and Coherent Visual Encapsulation in Video MLLMs
- arxiv url: http://arxiv.org/abs/2507.10302v1
- Date: Mon, 14 Jul 2025 14:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.06896
- Title: DisCo: Towards Distinct and Coherent Visual Encapsulation in Video MLLMs
- Title(参考訳): DisCo:ビデオMLLMにおける識別とコヒーレントな視覚カプセル化を目指して
- Authors: Jiahe Zhao, Rongkun Zheng, Yi Wang, Helin Wang, Hengshuang Zhao,
- Abstract要約: DisCoは、ビデオMLLMに対して意味的に区別され、時間的に一貫性のある視覚トークンを提供するために設計された視覚カプセル化手法である。
DisCoは、様々なビデオ理解ベンチマークで過去の最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 28.998923104606614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video Multimodal Large Language Models (video MLLMs), the visual encapsulation process plays a pivotal role in converting video contents into representative tokens for LLM input. While linear projectors are widely employed for encapsulation, they introduce semantic indistinctness and temporal incoherence when applied to videos. Conversely, the structure of resamplers shows promise in tackling these challenges, but an effective solution remains unexplored. Drawing inspiration from resampler structures, we introduce DisCo, a novel visual encapsulation method designed to yield semantically distinct and temporally coherent visual tokens for video MLLMs. DisCo integrates two key components: (1) A Visual Concept Discriminator (VCD) module, assigning unique semantics for visual tokens by associating them in pair with discriminative concepts in the video. (2) A Temporal Focus Calibrator (TFC) module, ensuring consistent temporal focus of visual tokens to video elements across every video frame. Through extensive experiments on multiple video MLLM frameworks, we demonstrate that DisCo remarkably outperforms previous state-of-the-art methods across a variety of video understanding benchmarks, while also achieving higher token efficiency thanks to the reduction of semantic indistinctness. The code: https://github.com/ZJHTerry18/DisCo.
- Abstract(参考訳): ビデオMLLM(Multimodal Large Language Models)では、映像コンテンツをLLM入力のための代表トークンに変換する上で、視覚的カプセル化プロセスが重要な役割を担っている。
線形プロジェクタはカプセル化に広く用いられているが、ビデオに適用した場合、意味的不連続性と時間的不整合を導入する。
逆に、リサンプラーの構造はこれらの課題に取り組む上で有望であることを示しているが、効果的な解は未解明のままである。
Resampler構造からインスピレーションを得たDisCoは、ビデオMLLMに対して意味的に区別され、時間的に整合した視覚トークンを生成するために設計された新しい視覚カプセル化手法である。
DisCoは、(1)視覚概念識別器(VCD)モジュールを、ビデオ内の識別概念と組み合わせて関連付けることで、視覚トークンに固有の意味論を割り当てる。
2) ビデオフレームごとの映像要素に対する視覚トークンの時間的焦点を一定に確保するTFCモジュール。
複数のビデオMLLMフレームワークに関する広範な実験を通じて、DisCoは様々なビデオ理解ベンチマークで従来の最先端手法よりも優れており、意味的不明瞭さの低減によるトークン効率の向上も達成している。
コード:https://github.com/ZJHTerry18/DisCo。
関連論文リスト
- Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。