論文の概要: Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation
- arxiv url: http://arxiv.org/abs/2208.06554v1
- Date: Sat, 13 Aug 2022 02:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:46:56.015330
- Title: Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation
- Title(参考訳): 教師なしビデオ領域適応のためのメモリ効率の高い時間・ビジュアルグラフモデル
- Authors: Xinyue Hu, Lin Gu, Liangchen Liu, Ruijiang Li, Chang Su, Tatsuya
Harada, Yingying Zhu
- Abstract要約: 既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
- 参考スコア(独自算出の注目度): 50.158454960223274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video domain adaption (DA) methods need to store all temporal
combinations of video frames or pair the source and target videos, which are
memory cost expensive and can't scale up to long videos. To address these
limitations, we propose a memory-efficient graph-based video DA approach as
follows. At first our method models each source or target video by a graph:
nodes represent video frames and edges represent the temporal or visual
similarity relationship between frames. We use a graph attention network to
learn the weight of individual frames and simultaneously align the source and
target video into a domain-invariant graph feature space. Instead of storing a
large number of sub-videos, our method only constructs one graph with a graph
attention mechanism for one video, reducing the memory cost substantially. The
extensive experiments show that, compared with the state-of-art methods, we
achieved superior performance while reducing the memory cost significantly.
- Abstract(参考訳): 既存のビデオドメイン適応(DA)メソッドは、ビデオフレームのすべての時間的組み合わせを格納するか、ソースとターゲットのビデオをペアリングする必要がある。
これらの制約に対処するため,メモリ効率のよいグラフベースビデオDA手法を提案する。
ノードはビデオフレームを表し、エッジはフレーム間の時間的または視覚的な類似性を表す。
グラフアテンションネットワークを用いて、個々のフレームの重みを学習し、同時にソースとターゲット映像をドメイン不変グラフ特徴空間にアライメントする。
多数のサブビデオを保存する代わりに,1つのビデオに対してグラフ注目機構を備えたグラフを1つだけ構築し,メモリコストを大幅に削減する。
実験により, 最先端手法と比較して, メモリコストを大幅に削減しつつ, 優れた性能を示した。
関連論文リスト
- VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection [1.9384004397336387]
ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。
本稿では,VideoPatchCore と呼ばれる VAD の効率的なメモリ手法を提案する。
提案手法では,メモリ最適化を優先する構造を導入し,映像データの特徴に合わせて3種類のメモリを設定する。
論文 参考訳(メタデータ) (2024-09-24T16:38:41Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - GraphVid: It Only Takes a Few Nodes to Understand a Video [0.0]
視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。
我々は,スーパーピクセルをグラフノードとして考慮し,ビデオのスーパーピクセルベースグラフ表現を構築した。
グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
論文 参考訳(メタデータ) (2022-07-04T12:52:54Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。