論文の概要: Guided Diffusion for the Extension of Machine Vision to Human Visual Perception
- arxiv url: http://arxiv.org/abs/2503.17907v1
- Date: Sun, 23 Mar 2025 03:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:16.594918
- Title: Guided Diffusion for the Extension of Machine Vision to Human Visual Perception
- Title(参考訳): 機械ビジョンの人間の視覚知覚への拡張のためのガイド付き拡散
- Authors: Takahiro Shindo, Yui Tatsumi, Taiju Watanabe, Hiroshi Watanabe,
- Abstract要約: 誘導拡散を用いた人間の視覚知覚にマシンビジョンを拡張させる手法を提案する。
誘導拡散は、マシンビジョンと人間の知覚の間のブリッジとして機能し、追加のオーバーヘッドなしにそれらの間の遷移を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Image compression technology eliminates redundant information to enable efficient transmission and storage of images, serving both machine vision and human visual perception. For years, image coding focused on human perception has been well-studied, leading to the development of various image compression standards. On the other hand, with the rapid advancements in image recognition models, image compression for AI tasks, known as Image Coding for Machines (ICM), has gained significant importance. Therefore, scalable image coding techniques that address the needs of both machines and humans have become a key area of interest. Additionally, there is increasing demand for research applying the diffusion model, which can generate human-viewable images from a small amount of data to image compression methods for human vision. Image compression methods that use diffusion models can partially reconstruct the target image by guiding the generation process with a small amount of conditioning information. Inspired by the diffusion model's potential, we propose a method for extending machine vision to human visual perception using guided diffusion. Utilizing the diffusion model guided by the output of the ICM method, we generate images for human perception from random noise. Guided diffusion acts as a bridge between machine vision and human vision, enabling transitions between them without any additional bitrate overhead. The generated images then evaluated based on bitrate and image quality, and we compare their compression performance with other scalable image coding methods for humans and machines.
- Abstract(参考訳): 画像圧縮技術は、余分な情報を排除し、画像の効率的な伝送と保存を可能にし、マシンビジョンと人間の視覚知覚の両方に役立てる。
長年にわたり、人間の知覚に焦点をあてた画像符号化はよく研究され、様々な画像圧縮標準の開発に繋がった。
一方、画像認識モデルの急速な進歩により、画像符号化・フォー・マシン(ICM)として知られるAIタスクのための画像圧縮が重要視されている。
そのため、機械と人間の双方のニーズに対処するスケーラブルな画像符号化技術が重要な分野となっている。
また,人間の視覚に対する画像圧縮手法に少量のデータから人視画像を生成できる拡散モデルを用いた研究の需要が高まっている。
拡散モデルを用いた画像圧縮法は、少ない条件情報で生成プロセスを導くことにより、ターゲット画像を部分的に再構成することができる。
拡散モデルの可能性に触発されて,誘導拡散を用いた人間の視覚知覚にマシンビジョンを拡張する方法を提案する。
ICM法の出力に導かれる拡散モデルを用いて、ランダムノイズから人間の知覚のための画像を生成する。
誘導拡散は、マシンビジョンと人間のビジョンの間のブリッジとして機能し、追加のビットレートオーバーヘッドなしにそれら間の遷移を可能にする。
生成した画像はビットレートと画質に基づいて評価し、圧縮性能を人間や機械の他のスケーラブルな画像符号化手法と比較する。
関連論文リスト
- Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。
これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文 参考訳(メタデータ) (2024-12-02T16:20:59Z) - Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach [44.03561901593423]
本稿では,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は拡散過程を通じて微細なテクスチャを符号化し,知覚品質を向上する。
画像再構成および下流マシンビジョンタスクにおいて,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-10-08T15:48:34Z) - Refining Coded Image in Human Vision Layer Using CNN-Based Post-Processing [0.0]
本稿では,ポストプロセッシングをスケーラブルな符号化方式に統合することにより,人間のデコード画像の品質を向上させる手法を提案する。
実験結果から, 後処理により圧縮性能が向上することが示された。
提案手法の有効性を従来の手法との比較により検証した。
論文 参考訳(メタデータ) (2024-05-20T09:19:01Z) - Scalable Image Coding for Humans and Machines Using Feature Fusion Network [0.0]
本稿では,多数の画像認識モデルと互換性のある人や機械を対象とした,学習に基づくスケーラブルな画像符号化手法を提案する。
提案手法では,パラメータ数を削減しつつ,画像圧縮モデルを効率よく組み合わせることを確認する。
論文 参考訳(メタデータ) (2024-05-15T07:31:48Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Rate-Distortion in Image Coding for Machines [26.32381277880991]
監視などの多くのアプリケーションでは、画像は主として自動分析のために送信され、人間が見ることは滅多にない。
このシナリオの従来の圧縮はビットレートの点で非効率であることが示されている。
このようなスケーラブルなモデルのマシンサイドを作成する方法の1つは、マシンタスクを実行するディープニューラルネットワークにおいて、中間層の機能マッチングを実行することである。
論文 参考訳(メタデータ) (2022-09-21T20:24:14Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。