Fugu-MT 論文翻訳(概要): T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network

論文の概要: T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network

arxiv url: http://arxiv.org/abs/2210.03734v1
Date: Sat, 1 Oct 2022 09:26:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-16 16:22:12.210038
Title: T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network
Title（参考訳）: T2CI-GAN:Generative Adversarial Networkを用いた圧縮画像生成
Authors: Bulla Rajesh and Nandakishore Dusa and Mohammed Javed and Shiv Ram Dubey and P. Nagabhushan
Abstract要約: 実際には、ほとんどの視覚データは、圧縮された表現形式で処理され、送信される。提案手法は,Deep Convolutional GAN(DCGAN)を用いて,圧縮表現形式で直接視覚データを生成しようとするものである。最初のモデルはJPEG圧縮DCT画像(圧縮領域)で直接訓練され、テキスト記述から圧縮画像を生成する。第2のモデルはRGB画像(ピクセル領域)でトレーニングされ、テキスト記述からJPEG圧縮DCT表現を生成する。
参考スコア（独自算出の注目度）: 9.657133242509671
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The problem of generating textual descriptions for the visual data has gained research attention in the recent years. In contrast to that the problem of generating visual data from textual descriptions is still very challenging, because it requires the combination of both Natural Language Processing (NLP) and Computer Vision techniques. The existing methods utilize the Generative Adversarial Networks (GANs) and generate the uncompressed images from textual description. However, in practice, most of the visual data are processed and transmitted in the compressed representation. Hence, the proposed work attempts to generate the visual data directly in the compressed representation form using Deep Convolutional GANs (DCGANs) to achieve the storage and computational efficiency. We propose GAN models for compressed image generation from text. The first model is directly trained with JPEG compressed DCT images (compressed domain) to generate the compressed images from text descriptions. The second model is trained with RGB images (pixel domain) to generate JPEG compressed DCT representation from text descriptions. The proposed models are tested on an open source benchmark dataset Oxford-102 Flower images using both RGB and JPEG compressed versions, and accomplished the state-of-the-art performance in the JPEG compressed domain. The code will be publicly released at GitHub after acceptance of paper.
Abstract（参考訳）: 近年,視覚データに対してテキスト記述を生成する問題は研究の注目を集めている。対照的に、テキスト記述から視覚データを生成するという問題は、自然言語処理(NLP)とコンピュータビジョンの組み合わせを必要とするため、依然として非常に難しい。既存の手法では、gans(generative adversarial network)を利用し、テキスト記述から未圧縮画像を生成する。しかし、実際には、視覚データのほとんどが圧縮表現で処理され、送信される。そこで,提案手法では,Deep Convolutional GAN(DCGAN)を用いて圧縮表現形式で直接視覚データを生成し,記憶効率と計算効率を向上させる。テキストから圧縮画像を生成するためのGANモデルを提案する。最初のモデルはJPEG圧縮DCT画像(圧縮領域)で直接訓練され、テキスト記述から圧縮画像を生成する。第2のモデルはRGB画像(ピクセル領域)でトレーニングされ、テキスト記述からJPEG圧縮DCT表現を生成する。提案したモデルは、RGBおよびJPEG圧縮版の両方を用いて、オープンソースのベンチマークデータセットであるOxford-102 Flowerイメージ上でテストされ、JPEG圧縮領域における最先端のパフォーマンスを達成した。コードは、論文を受理した後、GitHubで公開される。

関連論文リスト

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.097213824684665]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。正規表現を用いることで、言語生成と視覚生成の障壁を低くすることができることを示す。
論文参考訳（メタデータ） (2024-08-15T23:57:02Z)
Perceptual Image Compression with Cooperative Cross-Modal Side Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文参考訳（メタデータ） (2023-11-23T08:31:11Z)
CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients [0.9405458160620535]
本稿では,JPEG圧縮領域におけるテキストの局所化を実現するために,JPEG圧縮係数から直接,深層特徴学習を利用する手法を提案する。 Compressed Text-Line Localization Network (CompTLL-UNet) と呼ばれる改良されたU-Netアーキテクチャは、それを実現するために設計されている。このモデルは、ICDAR 2017 (cBAD) や ICDAR 2019 (cBAD) などのベンチマークデータセットのJPEG圧縮バージョンでトレーニングされ、テストされている。
論文参考訳（メタデータ） (2023-08-11T14:02:52Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
Document Image Binarization in JPEG Compressed Domain using Dual Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文参考訳（メタデータ） (2022-09-13T12:07:32Z)
OCR for TIFF Compressed Document Images Directly in Compressed Domain Using Text segmentation and Hidden Markov Model [0.0]
我々は,CCITT (The International Telegraph and Telephone Consultative Committee) に圧縮されたTIFF文書画像を直接圧縮領域に印刷するOCRを開発するという新しいアイデアを提案する。テキスト領域を行と単語に分割した後、HMMはCCITT--水平モード、垂直モード、パスモードの3つの符号化モードを用いて認識する。
論文参考訳（メタデータ） (2022-09-13T06:34:26Z)
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-07-29T01:21:54Z)
Text to Image Synthesis using Stacked Conditional Variational Autoencoders and Conditional Generative Adversarial Networks [0.0]
現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。本研究では、条件付きVAEを初期生成器として使用し、テキスト記述子の高レベルスケッチを生成する。提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。
論文参考訳（メタデータ） (2022-07-06T13:43:56Z)
Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文参考訳（メタデータ） (2021-08-03T08:38:16Z)
Deep Learning Based Image Retrieval in the JPEG Compressed Domain [0.0]
本稿では,DCT係数を入力とし,JPEG圧縮領域のグローバルおよびローカルな特徴を直接抽出し,正確な画像検索を行う画像検索統合モデルを提案する。提案手法は,RGB特徴を平均精度に言及した入力として用いた現在のDELGモデルとよく似ている。
論文参考訳（メタデータ） (2021-07-08T07:30:03Z)
Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文参考訳（メタデータ） (2020-02-17T07:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。