論文の概要: HRVGAN: High Resolution Video Generation using Spatio-Temporal GAN
- arxiv url: http://arxiv.org/abs/2008.09646v2
- Date: Mon, 12 Jul 2021 05:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-28 03:44:52.274010
- Title: HRVGAN: High Resolution Video Generation using Spatio-Temporal GAN
- Title(参考訳): HRVGAN:時空間GANを用いた高分解能ビデオ生成
- Authors: Abhinav Sagar
- Abstract要約: 我々は高解像度ビデオ生成のための新しいネットワークを提案する。
我々のネットワークは、損失項にk-Lipschitz制約を課し、クラスラベルをトレーニングとテストに使用することで、Wasserstein GANのアイデアを使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel network for high resolution video
generation. Our network uses ideas from Wasserstein GANs by enforcing
k-Lipschitz constraint on the loss term and Conditional GANs using class labels
for training and testing. We present Generator and Discriminator network
layerwise details along with the combined network architecture, optimization
details and algorithm used in this work. Our network uses a combination of two
loss terms: mean square pixel loss and an adversarial loss. The datasets used
for training and testing our network are UCF101, Golf and Aeroplane Datasets.
Using Inception Score and Fr\'echet Inception Distance as the evaluation
metrics, our network outperforms previous state of the art networks on
unsupervised video generation.
- Abstract(参考訳): 本稿では,高解像度ビデオ生成のための新しいネットワークを提案する。
本ネットワークは,クラスラベルを用いて損失項と条件付きganにk-リプシッツ制約を課すことで,wasserstein gansのアイデアを用いる。
本研究で使用されるネットワークアーキテクチャ,最適化の詳細,アルゴリズムなどとともに,ネットワークの詳細を階層的に表現する。
我々のネットワークは2つの損失項、平均平方ピクセル損失と対角損失の組合せを使っている。
ネットワークのトレーニングとテストに使用されるデータセットは、UCF101、Golf、Aeroplane Datasetsである。
Inception Score と Fr\'echet Inception Distance を評価指標として、我々のネットワークは教師なしビデオ生成における過去の技術ネットワークの状態を上回ります。
関連論文リスト
- VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning [21.35520258725298]
VQ-Insightは、AIGCビデオ品質評価のための新しい推論スタイルのフレームワークである。
画像品質のウォームアップ、タスク固有の時間学習、およびビデオ生成モデルとの協調最適化を組み合わせる。
選好比較、多次元スコア、自然なビデオスコアにおいて、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-23T12:20:14Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Landslide Detection and Segmentation Using Remote Sensing Images and
Deep Neural Network [42.59806784981723]
2022 Landslide4Senseコンペティションの結果に基づいて,地すべり検出とセグメンテーションのためのディープニューラルネットワークシステムを提案する。
ベースラインモデルとしてクロスエントロピー損失をトレーニングしたU-Netを用いる。
次に、幅広いディープラーニング技術を活用して、U-Netベースラインモデルを改善する。
論文 参考訳(メタデータ) (2023-12-27T20:56:55Z) - Network state Estimation using Raw Video Analysis: vQoS-GAN based
non-intrusive Deep Learning Approach [5.8010446129208155]
vQoS GANは、劣化した受信ビデオデータからネットワーク状態パラメータを推定することができる。
ディープラーニングネットワークモデルのロバストでユニークな設計が、データレートとパケット損失クラスラベルと共にビデオデータで訓練されている。
提案した半教師付き生成対向ネットワークは、劣化したビデオデータを元の形式に再構築することで、より良いエンドユーザー体験を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:42:19Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion [0.0]
ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増大させる。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-09-11T18:08:52Z) - Medical Image Segmentation Using a U-Net type of Architecture [0.0]
我々は、U-Netのアーキテクチャとボトルネック層における教師付きトレーニング戦略を組み合わせることで、元のU-Netアーキテクチャと同等の結果が得られると論じる。
我々は,U-Netのエンコーダブランチのボトルネックに対して,完全に教師付きFC層に基づくピクセルワイズロスを導入する。
2層ベースのFCサブネットは、より多くのセマンティック情報を含むようにボトルネック表現をトレーニングし、デコーダ層が最終的なセグメンテーションマップを予測するために使用する。
論文 参考訳(メタデータ) (2020-05-11T16:10:18Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Learning the Loss Functions in a Discriminative Space for Video
Restoration [48.104095018697556]
本稿では,映像復元作業に特有の識別空間を学習し,効果的な損失関数を構築するための新しい枠組みを提案する。
私たちのフレームワークは、ジェネレータと損失ネットワークという2つのネットワークを反復的にトレーニングするという点で、GANと似ています。
ビデオスーパーレゾリューションとデブロワーリングの実験により,我々の手法がより視覚的に楽しいビデオを生成することが示された。
論文 参考訳(メタデータ) (2020-03-20T06:58:27Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。