Fugu-MT 論文翻訳(概要): Survey on Visual Signal Coding and Processing with Generative Models: Technologies, Standards and Optimization

論文の概要: Survey on Visual Signal Coding and Processing with Generative Models: Technologies, Standards and Optimization

arxiv url: http://arxiv.org/abs/2405.14221v1
Date: Thu, 23 May 2024 06:32:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 18:34:03.254055
Title: Survey on Visual Signal Coding and Processing with Generative Models: Technologies, Standards and Optimization
Title（参考訳）: 生成モデルを用いた視覚信号符号化と処理に関する調査:技術,標準,最適化
Authors: Zhibo Chen, Heming Sun, Li Zhang, Fan Zhang,
Abstract要約: この調査は、VAEモデル、GANモデル、自己回帰(AR)モデル、正規化フロー、拡散モデルなど、確立された生成モデルの簡単な導入から始まる。また、生成モデルを用いた視覚信号品質評価と生成モデルの品質評価とともに、生成的視覚信号合成と編集の最新の展開を示す。
参考スコア（独自算出の注目度）: 19.879654014611805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper provides a survey of the latest developments in visual signal coding and processing with generative models. Specifically, our focus is on presenting the advancement of generative models and their influence on research in the domain of visual signal coding and processing. This survey study begins with a brief introduction of well-established generative models, including the Variational Autoencoder (VAE) models, Generative Adversarial Network (GAN) models, Autoregressive (AR) models, Normalizing Flows and Diffusion models. The subsequent section of the paper explores the advancements in visual signal coding based on generative models, as well as the ongoing international standardization activities. In the realm of visual signal processing, our focus lies on the application and development of various generative models in the research of visual signal restoration. We also present the latest developments in generative visual signal synthesis and editing, along with visual signal quality assessment using generative models and quality assessment for generative models. The practical implementation of these studies is closely linked to the investigation of fast optimization. This paper additionally presents the latest advancements in fast optimization on visual signal coding and processing with generative models. We hope to advance this field by providing researchers and practitioners a comprehensive literature review on the topic of visual signal coding and processing with generative models.
Abstract（参考訳）: 本稿では,視覚信号の符号化と生成モデルによる処理の最新の展開について調査する。具体的には、生成モデルの進歩とその視覚信号符号化・処理分野の研究への影響について述べる。この調査は、VAEモデル、GANモデル、自己回帰(AR)モデル、正規化フロー、拡散モデルなど、確立された生成モデルの簡単な導入から始まる。その後の節では、生成モデルに基づく視覚信号符号化の進歩と、現在進行中の国際標準化活動について考察する。視覚信号処理の分野では、視覚信号復元研究における様々な生成モデルの適用と開発に焦点が当てられている。また、生成モデルを用いた視覚信号品質評価と生成モデルの品質評価とともに、生成的視覚信号合成と編集の最新の展開を示す。これらの研究の実践的実装は、高速最適化の研究と密接に関連している。本稿では,視覚信号の符号化と生成モデルによる処理の高速化について述べる。我々は,視覚信号の符号化と生成モデルによる処理の話題について,研究者や実践者たちに総合的な文献レビューを提供することで,この分野を推し進めたい。

関連論文リスト

IN45023 Neural Network Design Patterns in Computer Vision Seminar Report, Summer 2025 [0.0]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。本稿では,残差接続を導入したResNetについて概説する。我々は、画像パッチのシーケンスにTransformer ar- chitectureを適用することで、新しいパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文参考訳（メタデータ） (2025-07-31T09:08:11Z)
Content Generation Models in Computational Pathology: A Comprehensive Survey on Methods, Applications, and Challenges [55.41538606569424]
レビューでは、画像生成、テキスト生成、分子プロファイル形態学生成などの4つの重要な領域に焦点を当てている。我々は、コンテンツ生成アーキテクチャーの進化を、初期の生成的敵ネットワークから、拡散モデルや生成的視覚言語モデルにおける最近の進歩まで遡る。レビューはオープン課題と今後の研究方向性について議論し、統合的かつ臨床的に展開可能な世代システムの開発に重点を置いて締めくくっている。
論文参考訳（メタデータ） (2025-05-16T08:44:50Z)
Revealing the Implicit Noise-based Imprint of Generative Models [71.94916898756684]
本稿では,検出タスクにノイズに基づくモデル固有インプリントを利用する新しいフレームワークを提案する。様々な生成モデルからのインプリントを集約することにより、将来のモデルのインプリントを外挿してトレーニングデータを拡張することができる。提案手法は,GenImage,Synthbuster,Chameleonの3つの公開ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-12T12:04:53Z)
A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文参考訳（メタデータ） (2024-11-13T14:59:41Z)
Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文参考訳（メタデータ） (2024-11-08T17:15:12Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
Recommendation with Generative Models [35.029116616023586]
生成モデルは、統計分布から学習し、サンプリングすることで、データの新しいインスタンスを作成することができるAIモデルである。これらのモデルは、画像生成、テキスト合成、音楽合成など、様々な領域に応用されている。レコメンデーションシステムでは、Gen-RecSysと呼ばれる生成モデルは、レコメンデーションの正確性と多様性を改善する。
論文参考訳（メタデータ） (2024-09-18T18:29:15Z)
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文参考訳（メタデータ） (2024-04-23T14:53:15Z)
Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文参考訳（メタデータ） (2024-02-26T07:47:12Z)
Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文参考訳（メタデータ） (2023-10-19T21:10:39Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)
Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。モデル信号認識における最大4.8倍の改善を実現している。
論文参考訳（メタデータ） (2021-11-10T17:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。