Fugu-MT 論文翻訳(概要): Clapper: Compact Learning and Video Representation in VLMs

論文の概要: Clapper: Compact Learning and Video Representation in VLMs

arxiv url: http://arxiv.org/abs/2505.15529v1
Date: Wed, 21 May 2025 13:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.677435
Title: Clapper: Compact Learning and Video Representation in VLMs
Title（参考訳）: Clapper: VLMにおけるコンパクトな学習とビデオ表現
Authors: Lingyu Kong, Hongzhi Zhang, Jingyuan Zhang, Jianzhao Huang, Kunze Li, Qi Wang, Fuzheng Zhang,
Abstract要約: 現在の視覚言語モデル(VLM)は、多様なビデオ理解アプリケーションにまたがる顕著な機能を示している。本稿では,映像表現の速度を遅くする手法であるクラッパーを提案し,時間空間符号化を効率的にするためのTimePerceiverという新しいモジュールを提案する。
参考スコア（独自算出の注目度）: 15.564506713994406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current vision-language models (VLMs) have demonstrated remarkable capabilities across diverse video understanding applications. Designing VLMs for video inputs requires effectively modeling the temporal dimension (i.e. capturing dependencies across frames) and balancing the processing of short and long videos. Specifically, short videos demand preservation of fine-grained details, whereas long videos require strategic compression of visual information to handle extensive temporal contexts efficiently. However, our empirical analysis reveals a critical limitation: most existing VLMs suffer severe performance degradation in long video understanding tasks when compressing visual tokens below a quarter of their original visual tokens. To enable more effective modeling of both short and long video inputs, we propose Clapper, a method that utilizes a slow-fast strategy for video representation and introduces a novel module named TimePerceiver for efficient temporal-spatial encoding within existing VLM backbones. By using our method, we achieves 13x compression of visual tokens per frame (averaging 61 tokens/frame) without compromising QA accuracy. In our experiments, Clapper achieves 62.0% on VideoMME, 69.8% on MLVU, and 67.4% on TempCompass, all with fewer than 6,000 visual tokens per video. The code will be publicly available on the homepage.
Abstract（参考訳）: 現在の視覚言語モデル(VLM)は、多様なビデオ理解アプリケーションにまたがる顕著な機能を示している。ビデオ入力のためにVLMを設計するには、時間次元(フレーム間で依存関係をキャプチャする)を効果的にモデル化し、ショートビデオとロングビデオの処理のバランスをとる必要がある。特に、短いビデオは細かな細部を保存する必要があるが、長いビデオは時間的文脈を効率的に扱うために、視覚情報の戦略的圧縮を必要とする。しかしながら、我々の経験的分析では、ほとんどの既存のVLMは、元の視覚トークンの4分の1以下で視覚トークンを圧縮する場合に、長いビデオ理解タスクで重大なパフォーマンス劣化を被る。ビデオの短い入力と長い入力の両方をより効果的にモデル化するために、ビデオ表現の遅い戦略を利用するClapperを提案し、既存のVLMバックボーン内の時間空間エンコーディングを効率的にするためのTimePerceiverという新しいモジュールを提案する。提案手法を用いて,QAの精度を損なうことなく,フレーム毎の視覚トークンの13倍の圧縮(61トークン/フレーム)を実現する。我々の実験では、ClapperはビデオMMEで62.0%、MLVUで69.8%、TempCompassで67.4%、ビデオあたり6000枚未満の視覚トークンで達成している。コードはホームページで公開されている。

関連論文リスト

DynTok: Dynamic Compression of Visual Tokens for Efficient and Effective Video Understanding [17.319420726271876]
我々は,新しい textbfDynamic video textbfToken 圧縮戦略である DynTok を紹介する。本手法は,トークンの数を,同等の性能を維持しつつ,元のサイズの44.4%に削減する。
論文参考訳（メタデータ） (2025-06-04T14:17:42Z)
LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文参考訳（メタデータ） (2025-04-09T12:51:10Z)
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。 AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。 VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文参考訳（メタデータ） (2025-03-16T16:14:52Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3～5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文参考訳（メタデータ） (2024-12-29T15:42:24Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。