Fugu-MT 論文翻訳(概要): Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling

論文の概要: Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling

arxiv url: http://arxiv.org/abs/2410.14993v1
Date: Sat, 19 Oct 2024 05:50:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.832057
Title: Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling
Title（参考訳）: すべてのフレームを重要視する - 適応状態モデリングによる大規模モデルの連続的ビデオ理解
Authors: Hao Wu, Donglin Bai, Shiqi Jiang, Qianxi Zhang, Yifan Yang, Ting Cao, Fengyuan Xu,
Abstract要約: マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。 C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。 2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
参考スコア（独自算出の注目度）: 14.450847211200292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video understanding has become increasingly important with the rise of multi-modality applications. Understanding continuous video poses considerable challenges due to the fast expansion of streaming video, which contains multi-scale and untrimmed events. We introduce a novel system, C-VUE, to overcome these issues through adaptive state modeling. C-VUE has three key designs. The first is a long-range history modeling technique that uses a video-aware approach to retain historical video information. The second is a spatial redundancy reduction technique, which enhances the efficiency of history modeling based on temporal relations. The third is a parallel training structure that incorporates the frame-weighted loss to understand multi-scale events in long videos. Our C-VUE offers high accuracy and efficiency. It runs at speeds >30 FPS on typical edge devices and outperforms all baselines in accuracy. Moreover, applying C-VUE to a video foundation model as a video encoder in our case study resulted in a 0.46-point enhancement (on a 5-point scale) on the in-distribution dataset, and an improvement ranging from 1.19\% to 4\% on zero-shot datasets.
Abstract（参考訳）: マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。連続ビデオの理解は、マルチスケールおよび未トリミングイベントを含むストリーミングビデオの急速な拡張により、大きな課題となる。適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。 C-VUEには3つの重要な設計がある。 1つ目は、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。 2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。 3つ目は、フレーム重み付き損失を組み込んだ並列トレーニング構造で、長いビデオのマルチスケールイベントを理解する。我々のC-VUEは高い精度と効率を提供する。通常のエッジデバイスで30 FPSの速度で動作し、すべてのベースラインを精度で上回る。さらに,ビデオエンコーダとしてC-VUEをビデオ基盤モデルに適用することにより,配信内データセットの0.46ポイント向上(5ポイントスケール)と,ゼロショットデータセットの1.19\%から4.%の改善を実現した。

関連論文リスト

Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文参考訳（メタデータ） (2024-10-14T17:59:46Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文参考訳（メタデータ） (2024-07-23T02:10:50Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition [12.521014978532548]
GTAutoActは、ゲームエンジン技術を活用してアクション認識の進歩を促進する新しいデータセット生成フレームワークである。座標に基づく3次元人間の動きを、複数の視点で適合性を高めた回転向きの表現に変換する。自律的なビデオキャプチャと処理パイプラインを実装しており、ランダムにナビゲートするカメラと自動トリミングとラベル付け機能を備えている。
論文参考訳（メタデータ） (2024-01-24T12:18:31Z)
TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文参考訳（メタデータ） (2023-12-13T21:02:03Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。 Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文参考訳（メタデータ） (2023-07-13T17:59:33Z)
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文参考訳（メタデータ） (2022-12-31T11:36:53Z)
Dynamic Appearance: A Video Representation for Action Recognition with Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。 4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文参考訳（メタデータ） (2022-11-23T07:16:16Z)
Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。 Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文参考訳（メタデータ） (2022-08-25T17:59:00Z)
Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:39Z)
Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文参考訳（メタデータ） (2022-01-14T03:35:22Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)
RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-27T16:42:50Z)
Knowing What, Where and When to Look: Efficient Video Action Modeling with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。 What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-04-02T21:48:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。