論文の概要: We're Not Using Videos Effectively: An Updated Domain Adaptive Video
Segmentation Baseline
- arxiv url: http://arxiv.org/abs/2402.00868v1
- Date: Thu, 1 Feb 2024 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 13:52:13.109096
- Title: We're Not Using Videos Effectively: An Updated Domain Adaptive Video
Segmentation Baseline
- Title(参考訳): ビデオは効果的に使っていない: 更新されたドメイン適応ビデオセグメンテーションベースライン
- Authors: Simar Kareer, Vivek Vijaykumar, Harsh Maheshwari, Prithvijit
Chattopadhyay, Judy Hoffman, Viraj Prabhu
- Abstract要約: Video-DASの研究は歴史的にImage-DASと異なるベンチマークのセットを最小のベンチマークで研究してきた。
我々は,データとモデルアーキテクチャを慎重に制御した後でも,既存のビデオDASベンチマークにおいて,最先端のImage-DAS法がビデオDAS法より優れていることを発見した。
我々は、Image-DASとVideo-DASのサイロ化の進展を避けるため、共通のベンチマークでVideo-DASおよびImage-DASメソッドの包括的なセットをサポートする ourUnified をオープンソース化した。
- 参考スコア(独自算出の注目度): 19.098970392639476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been abundant work in unsupervised domain adaptation for semantic
segmentation (DAS) seeking to adapt a model trained on images from a labeled
source domain to an unlabeled target domain. While the vast majority of prior
work has studied this as a frame-level Image-DAS problem, a few Video-DAS works
have sought to additionally leverage the temporal signal present in adjacent
frames. However, Video-DAS works have historically studied a distinct set of
benchmarks from Image-DAS, with minimal cross-benchmarking. In this work, we
address this gap. Surprisingly, we find that (1) even after carefully
controlling for data and model architecture, state-of-the-art Image-DAS methods
(HRDA and HRDA+MIC)} outperform Video-DAS methods on established Video-DAS
benchmarks (+14.5 mIoU on Viper$\rightarrow$CityscapesSeq, +19.0 mIoU on
Synthia$\rightarrow$CityscapesSeq), and (2) naive combinations of Image-DAS and
Video-DAS techniques only lead to marginal improvements across datasets. To
avoid siloed progress between Image-DAS and Video-DAS, we open-source our
codebase with support for a comprehensive set of Video-DAS and Image-DAS
methods on a common benchmark. Code available at
https://github.com/SimarKareer/UnifiedVideoDA
- Abstract(参考訳): セマンティックセグメンテーション(DAS)のための教師なしドメイン適応には、ラベル付きソースドメインからラベル付きターゲットドメインへのイメージに基づいてトレーニングされたモデルを適応させようとする多くの作業がある。
以前の研究の大半はフレームレベルの画像DAS問題としてこれを研究してきたが、ビデオDASでは隣接するフレームに存在する時間信号をさらに活用しようと試みている。
しかし、Video-DASの研究は歴史的にImage-DASとは異なるベンチマークのセットを最小のベンチマークで研究してきた。
この作業では、このギャップに対処します。
驚いたことに、(1)データとモデルアーキテクチャを慎重に制御した後でも、(HRDAとHRDA+MIC)は、確立されたビデオDASベンチマーク(+14.5 mIoU on Viper$\rightarrow$CityscapesSeq, +19.0 mIoU on Synthia$\rightarrow$CityscapesSeq)において、ビデオDASメソッドよりも優れた性能を示し、(2)Image-DASとVideo-DASの単純な組み合わせはデータセット間の限界改善にしか至らない。
Image-DAS と Video-DAS のサイロ化の進展を避けるため、我々は、共通のベンチマークで Video-DAS と Image-DAS メソッドの包括的なセットをサポートするコードベースをオープンソース化した。
コードはhttps://github.com/simarkareer/unifiedvideodaで利用可能
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - GIM: Learning Generalizable Image Matcher From Internet Videos [18.974842517202365]
我々は,任意の画像マッチングアーキテクチャに基づいて,単一の一般化可能なモデルを学習するための自己学習フレームワークであるGIMを提案する。
また、画像マッチングのための最初のゼロショット評価ベンチマークであるZEBを提案する。
論文 参考訳(メタデータ) (2024-02-16T21:48:17Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - CycDA: Unsupervised Cycle Domain Adaptation from Image to Video [26.30914383638721]
ドメイン・サイクル適応 (Domain Cycle Adaptation, CycDA) は、教師なし画像・ビデオ領域適応のためのサイクルベースのアプローチである。
我々は、画像からビデオまでのベンチマークデータセットと、混合ソース領域適応のためのベンチマークデータセットについて評価する。
論文 参考訳(メタデータ) (2022-03-30T12:22:26Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。