論文の概要: Generative Adversarial Networks for Video-to-Video Domain Adaptation
- arxiv url: http://arxiv.org/abs/2004.08058v1
- Date: Fri, 17 Apr 2020 04:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:26:46.179394
- Title: Generative Adversarial Networks for Video-to-Video Domain Adaptation
- Title(参考訳): ビデオ間ドメイン適応のためのジェネレータネットワーク
- Authors: Jiawei Chen, Yuexiang Li, Kai Ma, Yefeng Zheng
- Abstract要約: 本稿では,ビデオベースデータを異なるドメイン間で転送するための新しい生成逆ネットワーク(GAN, VideoGAN)を提案する。
映像のフレームには類似した内容と撮像条件がある可能性があるため、提案したビデオGANは、映像内部の一貫性を維持するためのX字型ジェネレータを備えている。
CVC-ClinicとETIS-Laribの2つの大腸内視鏡的データセットを用いて,ビデオGANの性能評価を行った。
- 参考スコア(独自算出の注目度): 32.670977389990306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endoscopic videos from multicentres often have different imaging conditions,
e.g., color and illumination, which make the models trained on one domain
usually fail to generalize well to another. Domain adaptation is one of the
potential solutions to address the problem. However, few of existing works
focused on the translation of video-based data. In this work, we propose a
novel generative adversarial network (GAN), namely VideoGAN, to transfer the
video-based data across different domains. As the frames of a video may have
similar content and imaging conditions, the proposed VideoGAN has an X-shape
generator to preserve the intra-video consistency during translation.
Furthermore, a loss function, namely color histogram loss, is proposed to tune
the color distribution of each translated frame. Two colonoscopic datasets from
different centres, i.e., CVC-Clinic and ETIS-Larib, are adopted to evaluate the
performance of domain adaptation of our VideoGAN. Experimental results
demonstrate that the adapted colonoscopic video generated by our VideoGAN can
significantly boost the segmentation accuracy, i.e., an improvement of 5%, of
colorectal polyps on multicentre datasets. As our VideoGAN is a general network
architecture, we also evaluate its performance with the CamVid driving video
dataset on the cloudy-to-sunny translation task. Comprehensive experiments show
that the domain gap could be substantially narrowed down by our VideoGAN.
- Abstract(参考訳): マルチセンターの内視鏡ビデオは、色や照明などの異なる撮像条件を持つことが多いため、ある領域で訓練されたモデルを他の領域に一般化できないことが多い。
ドメイン適応は、この問題に対処する潜在的な解決策の1つです。
しかし、ビデオベースのデータの翻訳に焦点を当てた既存の作品はほとんどない。
本研究では,ビデオベースデータを異なるドメイン間で転送するための新しい生成逆ネットワーク(GAN, VideoGAN)を提案する。
ビデオのフレームは類似した内容と撮像条件を持つ可能性があるため、提案するビデオガンは、翻訳中にビデオ内一貫性を保つためのx字型生成器を持っている。
さらに、各変換フレームの色分布を調整するために、色ヒストグラム損失と呼ばれる損失関数が提案されている。
CVC-ClinicとETIS-Laribの2つの大腸内視鏡的データセットを用いて,ビデオGANの領域適応性を評価する。
実験の結果,videoganで生成された大腸内視鏡映像は,マルチセンタデータセット上の大腸ポリープのセグメンテーション精度,すなわち5%の改善を著しく向上することが示された。
当社のvideoganは一般的なネットワークアーキテクチャなので,cloudy-to-sunny翻訳タスクのcamvid driving videoデータセットによるパフォーマンス評価も行います。
総合的な実験では、ビデオGANによってドメインギャップが大幅に狭まる可能性がある。
関連論文リスト
- Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - EXTERN: Leveraging Endo-Temporal Regularization for Black-box Video
Domain Adaptation [36.8236874357225]
Black-box Video Domain Adaptation (BVDA)は、ソースビデオモデルをブラックボックス予測子としてのみ提供する、より現実的で困難なシナリオである。
本研究では,マスク・ツー・ミックス戦略とビデオ調整正規化を適用して,新しいEdoとeXo-temporal Regularized Network(EXTERN)を提案する。
論文 参考訳(メタデータ) (2022-08-10T07:09:57Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。