論文の概要: See More, Store Less: Memory-Efficient Resolution for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2601.09350v1
- Date: Wed, 14 Jan 2026 10:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.362129
- Title: See More, Store Less: Memory-Efficient Resolution for Video Moment Retrieval
- Title(参考訳): ビデオモーメント検索のためのメモリ効率の良い解決法
- Authors: Mingyu Jeon, Sungjin Han, Jinkwon Hwang, Minchol Kwon, Jonghee Kim, Junyeong Kim,
- Abstract要約: 本稿では,高情報解像度を維持しながらメモリ効率を向上させるフレームワークであるSMORE(See MORE, store less)を提案する。
SMORE (1) は,ユーザ意図に沿ったセマンティクスを符号化するためにクエリ誘導キャプションを使用し,(2) 関連するセグメントをハイライトするためにクエリ認識の重要度変調を適用し,(3) キーコンテンツを保存するためにフレームを適応的に圧縮する。
実験的検証により、SMOREはQVHighlights、Charades-STA、ActivityNet-Captionsベンチマークで最先端のパフォーマンスを達成することが明らかになった。
- 参考スコア(独自算出の注目度): 5.835635134105812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have improved image recognition and reasoning, but video-related tasks remain challenging due to memory constraints from dense frame processing. Existing Video Moment Retrieval (VMR) methodologies rely on sparse frame sampling, risking potential information loss, especially in lengthy videos. We propose SMORE (See MORE, store less), a framework that enhances memory efficiency while maintaining high information resolution. SMORE (1) uses query-guided captions to encode semantics aligned with user intent, (2) applies query-aware importance modulation to highlight relevant segments, and (3) adaptively compresses frames to preserve key content while reducing redundancy. This enables efficient video understanding without exceeding memory budgets. Experimental validation reveals that SMORE achieves state-of-the-art performance on QVHighlights, Charades-STA, and ActivityNet-Captions benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、画像認識と推論を改善しているが、高密度フレーム処理によるメモリ制約のため、ビデオ関連タスクは難しいままである。
既存のビデオモーメント検索(VMR)手法はスパースフレームサンプリングに依存しており、特に長いビデオにおいて潜在的な情報損失のリスクがある。
本稿では,高情報解像度を維持しながらメモリ効率を向上させるフレームワークであるSMORE(See MORE, store less)を提案する。
SMORE (1) は,ユーザ意図に沿ったセマンティクスを符号化するためにクエリ誘導キャプションを使用し,(2) 関連するセグメントを強調するためにクエリ認識の重要度変調を適用し,(3) フレームを適応的に圧縮し,冗長性を低減させる。
これにより、メモリ予算を超えることなく、効率的なビデオ理解が可能になる。
実験的検証により、SMOREはQVHighlights、Charades-STA、ActivityNet-Captionsベンチマークで最先端のパフォーマンスを達成することが明らかになった。
関連論文リスト
- VideoMem: Enhancing Ultra-Long Video Understanding via Adaptive Memory Management [17.645183933549458]
VideoMemは、適応メモリ管理によるシーケンシャルな生成タスクとして、長いビデオ理解をモデル化する新しいフレームワークである。
我々は,VMemが,超長期ビデオ理解タスクの様々なベンチマークにおいて,既存のオープンソースモデルを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-04T07:42:13Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。