論文の概要: ViT-Inception-GAN for Image Colourising
- arxiv url: http://arxiv.org/abs/2106.06321v1
- Date: Fri, 11 Jun 2021 11:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:27:14.246968
- Title: ViT-Inception-GAN for Image Colourising
- Title(参考訳): ViT-inception-GANによる画像カラー化
- Authors: Tejas Bana, Jatan Loya and Siddhant Kulkarni
- Abstract要約: 提案手法では,視覚変換器-インセプション-生成逆数ネットワーク(ViT-I-GAN)を用いて画像のカラー化を試みる。
安定かつロバストなネットワークでは、視覚変換器(ViT)を識別器として使用しています。
我々は、インセプション-v3埋め込みによる改善を示すために、UnsplashとCOCOデータセットでモデルをトレーニングした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Studies involving colourising images has been garnering researchers' keen
attention over time, assisted by significant advances in various Machine
Learning techniques and compute power availability. Traditionally, colourising
images have been an intricate task that gave a substantial degree of freedom
during the assignment of chromatic information. In our proposed method, we
attempt to colourise images using Vision Transformer - Inception - Generative
Adversarial Network (ViT-I-GAN), which has an Inception-v3 fusion embedding in
the generator. For a stable and robust network, we have used Vision Transformer
(ViT) as the discriminator. We trained the model on the Unsplash and the COCO
dataset for demonstrating the improvement made by the Inception-v3 embedding.
We have compared the results between ViT-GANs with and without Inception-v3
embedding.
- Abstract(参考訳): 画像の彩色に関する研究は、様々な機械学習技術や計算能力の大幅な進歩に助けられ、研究者の注意を惹きつけてきた。
伝統的に、彩色画像は、彩色情報の割り当て中にかなりの自由度を与える複雑な作業であった。
提案手法では,インセプション-v3融合をジェネレータに埋め込んだViT-I-GAN(ViT-I-GAN)を用いて画像のカラー化を試みる。
安定でロバストなネットワークでは,視覚トランスフォーマー(vit)を識別器として用いた。
Inception-v3埋め込みによる改善を示すために、UnsplashとCOCOデータセットでモデルをトレーニングしました。
Inception-v3 埋込量と ViT-GAN の比較を行った。
関連論文リスト
- Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers [0.0]
このモデルをRetina Vision Transformer (RetinaViT) と呼ぶのは、人間の視覚系からのインスピレーションによるものである。
実験の結果,ImageNet-1Kデータセットを適度な構成でトレーニングすると,RetinaViTは元のViTよりも3.3%パフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-03-20T15:35:36Z) - Novel View Synthesis from a Single RGBD Image for Indoor Scenes [4.292698270662031]
単一RGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。
本手法では,RGBD画像を点雲に変換し,異なる視点からレンダリングし,NVSタスクを画像翻訳問題に変換する。
論文 参考訳(メタデータ) (2023-11-02T08:34:07Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z) - Towards Vivid and Diverse Image Colorization with Generative Color Prior [17.087464490162073]
最近のディープラーニングベースの手法は、画像のカラー化を低コストで行うことができる。
我々は,事前学習されたGAN(Generative Adversarial Networks)にカプセル化されている,豊かで多様な色を活かして鮮やかな色を復元することを目的としている。
先進的なデザインと繊細なデザインの強力な生成色のおかげで、我々の手法は1つの前進パスで鮮やかな色を作り出すことができた。
論文 参考訳(メタデータ) (2021-08-19T17:49:21Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。