論文の概要: Exploring High-Order Self-Similarity for Video Understanding
- arxiv url: http://arxiv.org/abs/2604.20760v1
- Date: Wed, 22 Apr 2026 16:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.237866
- Title: Exploring High-Order Self-Similarity for Video Understanding
- Title(参考訳): 映像理解のための高次自己相似性探索
- Authors: Manjin Kim, Heeseung Kwon, Karteek Alahari, Minsu Cho,
- Abstract要約: MOSS(Multi-Order Self-Similarity)は、マルチオーダーSTSS機能の学習と統合を目的とした軽量ニューラルネットワークモジュールである。
多様なビデオタスクに適用することで、限界計算コストとメモリ使用量のみを消費しながら、モーションモデリング能力を向上させることができる。
- 参考スコア(独自算出の注目度): 55.52840327834189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Space-time self-similarity (STSS), which captures visual correspondences across frames, provides an effective way to represent temporal dynamics for video understanding. In this work, we explore higher-order STSS and demonstrate how STSSs at different orders reveal distinct aspects of these dynamics. We then introduce the Multi-Order Self-Similarity (MOSS) module, a lightweight neural module designed to learn and integrate multi-order STSS features. It can be applied to diverse video tasks to enhance motion modeling capabilities while consuming only marginal computational cost and memory usage. Extensive experiments on video action recognition, motion-centric video VQA, and real-world robotic tasks consistently demonstrate substantial improvements, validating the broad applicability of MOSS as a general temporal modeling module. The source code and checkpoints will be publicly available.
- Abstract(参考訳): 空間時間自己相似性(STSS)は、フレーム間の視覚的対応を捉え、ビデオ理解のための時間的ダイナミクスを表現する効果的な方法を提供する。
本研究では、高次STSSを探索し、異なる順序でのSTSSがどのようにこれらのダイナミクスの異なる側面を明らかにするかを実証する。
次に,Multi-Order Self-Similarity (MOSS)モジュールを紹介した。
多様なビデオタスクに適用することで、限界計算コストとメモリ使用量のみを消費しながら、モーションモデリング能力を向上させることができる。
ビデオアクション認識、モーション中心ビデオVQA、実世界のロボットタスクに関する広範囲にわたる実験は、一般的な時間モデリングモジュールとしてのMOSSの適用性を検証し、一貫して顕著な改善を証明している。
ソースコードとチェックポイントが公開されている。
関連論文リスト
- Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders [9.162827706080337]
本稿では,視覚エンコーダ内に直接重畳された時間的注意モジュールを導入したビデオLLMアーキテクチャを提案する。
この設計では、視覚エンコーダの時間的注意が組み込まれており、モデルがアクションの進行とフレーム間の関係をよりよく捉えることができる。
その結果,本手法は時間的推論を著しく改善し,ビデオ質問応答タスクにおける既存モデルよりも優れることがわかった。
論文 参考訳(メタデータ) (2025-10-29T23:50:57Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。