論文の概要: ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
- arxiv url: http://arxiv.org/abs/2602.16412v1
- Date: Wed, 18 Feb 2026 12:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.59137
- Title: ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
- Title(参考訳): ReMoRa:ロングビデオ理解のためのRefined Motion Representationに基づくマルチモーダル大言語モデル
- Authors: Daichi Yashima, Shuhei Kurita, Yusuke Oda, Komei Sugiura,
- Abstract要約: 本研究では,大言語モデル(MLLM)による映像理解に焦点を当てた。
圧縮表現を直接操作して動画を処理するビデオMLLMであるReMoRaを提案する。
本稿では,ReMoRaの長期ビデオ理解ベンチマークを網羅した実験により,ReMoRaの有効性を実証する。
- 参考スコア(独自算出の注目度): 12.236081012244533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multimodal large language models (MLLMs) have shown remarkable success across a wide range of tasks, long-form video understanding remains a significant challenge. In this study, we focus on video understanding by MLLMs. This task is challenging because processing a full stream of RGB frames is computationally intractable and highly redundant, as self-attention have quadratic complexity with sequence length. In this paper, we propose ReMoRa, a video MLLM that processes videos by operating directly on their compressed representations. A sparse set of RGB keyframes is retained for appearance, while temporal dynamics are encoded as a motion representation, removing the need for sequential RGB frames. These motion representations act as a compact proxy for optical flow, capturing temporal dynamics without full frame decoding. To refine the noise and low fidelity of block-based motions, we introduce a module to denoise and generate a fine-grained motion representation. Furthermore, our model compresses these features in a way that scales linearly with sequence length. We demonstrate the effectiveness of ReMoRa through extensive experiments across a comprehensive suite of long-video understanding benchmarks. ReMoRa outperformed baseline methods on multiple challenging benchmarks, including LongVideoBench, NExT-QA, and MLVU.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は様々なタスクで顕著な成功を収めてきたが、長いビデオ理解は依然として大きな課題である。
本研究では,MLLMによる映像理解に焦点を当てた。
この課題は、RGBフレームのフルストリームの処理が計算可能で冗長であり、自己アテンションはシーケンス長の2次複雑さを持つため、困難である。
本稿では,圧縮表現を直接操作して動画を処理するビデオMLLMであるReMoRaを提案する。
RGBキーフレームのスパースセットは外観に保持され、時間的ダイナミクスはモーション表現として符号化され、シーケンシャルなRGBフレームは不要となる。
これらの動き表現は光フローのコンパクトなプロキシとして機能し、フルフレームデコーディングなしで時間的ダイナミクスをキャプチャする。
ブロックをベースとした動きのノイズや忠実度を低減させるため,よりきめ細かな動きを表現するモジュールを導入する。
さらに,本モデルでは,これらの特徴を列長と線形にスケールする方法で圧縮する。
本稿では,ReMoRaの長期ビデオ理解ベンチマークを網羅した実験により,ReMoRaの有効性を実証する。
ReMoRaは、LongVideoBench、NExT-QA、MLVUなど、複数の挑戦的なベンチマークのベースラインメソッドよりも優れていた。
関連論文リスト
- VideoScaffold: Elastic-Scale Visual Hierarchies for Streaming Video Understanding in MLLMs [28.026438743789907]
VideoScaffoldはビデオ理解のストリーミング用に設計された動的表現フレームワークである。
微粒な視覚的意味を保ちながら、ビデオの長さに応じてイベントの粒度を適応的に調整する。
このフレームワークはモジュール式でプラグアンドプレイで、既存の画像ベースのMLLMをシームレスに継続的ビデオ理解に拡張する。
論文 参考訳(メタデータ) (2025-12-23T03:33:45Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。
実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文 参考訳(メタデータ) (2025-08-04T07:31:10Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。