論文の概要: iMOVE: Instance-Motion-Aware Video Understanding
- arxiv url: http://arxiv.org/abs/2502.11594v1
- Date: Mon, 17 Feb 2025 09:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:43.270565
- Title: iMOVE: Instance-Motion-Aware Video Understanding
- Title(参考訳): iMOVE:インスタンス対応のビデオ理解
- Authors: Jiaze Li, Yaya Shi, Zongyang Ma, Haoran Xu, Feng Cheng, Huihui Xiao, Ruiwen Kang, Fan Yang, Tingting Gao, Di Zhang,
- Abstract要約: 現在のモデルは、詳細で複雑なインスタンスの動きを認識するのに苦労している。
データとモデルの両方の観点から改善しました。
インスタンス・モーションアウェア・ファンデーションモデルであるiMOVEを紹介する。
- 参考スコア(独自算出の注目度): 18.202010607906768
- License:
- Abstract: Enhancing the fine-grained instance spatiotemporal motion perception capabilities of Video Large Language Models is crucial for improving their temporal and general video understanding. However, current models struggle to perceive detailed and complex instance motions. To address these challenges, we have made improvements from both data and model perspectives. In terms of data, we have meticulously curated iMOVE-IT, the first large-scale instance-motion-aware video instruction-tuning dataset. This dataset is enriched with comprehensive instance motion annotations and spatiotemporal mutual-supervision tasks, providing extensive training for the model's instance-motion-awareness. Building on this foundation, we introduce iMOVE, an instance-motion-aware video foundation model that utilizes Event-aware Spatiotemporal Efficient Modeling to retain informative instance spatiotemporal motion details while maintaining computational efficiency. It also incorporates Relative Spatiotemporal Position Tokens to ensure awareness of instance spatiotemporal positions. Evaluations indicate that iMOVE excels not only in video temporal understanding and general video understanding but also demonstrates significant advantages in long-term video understanding.
- Abstract(参考訳): ビデオ大言語モデルの細粒度時空間運動知覚能力を向上することは、その時間的および一般的な映像理解を改善するために不可欠である。
しかし、現在のモデルは詳細で複雑なインスタンスの動きを知覚するのに苦労している。
これらの課題に対処するため、私たちはデータとモデルの両方の観点から改善を行いました。
データに関して、我々は、最初の大規模インスタンスモーション対応ビデオインストラクションチューニングデータセットであるiMOVE-ITを慎重にキュレートした。
このデータセットには、包括的なインスタンスモーションアノテーションと時空間相互スーパービジョンタスクが組み込まれており、モデルのインスタンスモーション認識のための広範なトレーニングを提供する。
この基礎の上に構築されたiMOVEは、イベント認識時空間効率モデルを用いて、計算効率を維持しつつ、情報的時空間運動の詳細を保持するインスタンスモーション対応ビデオ基盤モデルである。
また、インスタンスの時空間位置の認識を確保するために、相対時空間位置トークンも組み込まれている。
評価の結果,iMOVEはビデオの時間的理解や一般的な映像理解に優れるだけでなく,長期的映像理解において大きな優位性を示すことが明らかとなった。
関連論文リスト
- Mamba Fusion: Learning Actions Through Questioning [12.127052057927182]
ビデオ言語モデル(VLM)は、多様なタスクを一般化し、学習を強化するために言語キューを使用するために不可欠である。
本稿では,長距離依存関係を効率的にキャプチャし,視覚と言語データの共同表現を学習する新しいモデルであるMambaVLを紹介する。
MambaVLは、Epic-Kitchens-100データセット上でのアクション認識における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-17T19:36:37Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。