論文の概要: Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task
- arxiv url: http://arxiv.org/abs/2412.18158v1
- Date: Tue, 24 Dec 2024 04:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:16.422505
- Title: Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task
- Title(参考訳): 人目知覚と機械視の両面に向けての言語コーデックのセマンティックス・ディタングルメントと構成
- Authors: Jinming Liu, Yuntao Wei, Junyan Lin, Shengyang Zhao, Heming Sun, Zhibo Chen, Wenjun Zeng, Xin Jin,
- Abstract要約: 本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
- 参考スコア(独自算出の注目度): 47.7670923159071
- License:
- Abstract: While learned image compression methods have achieved impressive results in either human visual perception or machine vision tasks, they are often specialized only for one domain. This drawback limits their versatility and generalizability across scenarios and also requires retraining to adapt to new applications-a process that adds significant complexity and cost in real-world scenarios. In this study, we introduce an innovative semantics DISentanglement and COmposition VERsatile codec (DISCOVER) to simultaneously enhance human-eye perception and machine vision tasks. The approach derives a set of labels per task through multimodal large models, which grounding models are then applied for precise localization, enabling a comprehensive understanding and disentanglement of image components at the encoder side. At the decoding stage, a comprehensive reconstruction of the image is achieved by leveraging these encoded components alongside priors from generative models, thereby optimizing performance for both human visual perception and machine-based analytical tasks. Extensive experimental evaluations substantiate the robustness and effectiveness of DISCOVER, demonstrating superior performance in fulfilling the dual objectives of human and machine vision requirements.
- Abstract(参考訳): 学習された画像圧縮法は、人間の視覚的知覚または機械視覚のタスクにおいて印象的な結果を得たが、それらは多くの場合、1つのドメインのみに特化されている。
この欠点は、シナリオ間の汎用性と汎用性を制限し、また、新しいアプリケーションに適応するために再トレーニングを必要とする。
本研究では,人間の目知覚と機械視のタスクを同時に強化する,革新的な意味論の分離とコミュレーション・バーサタイル・コーデック(DISCOVER)を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用し、人間の視覚知覚と機械による解析タスクの両方のパフォーマンスを最適化することにより、画像の包括的再構成を実現する。
広汎な実験的評価は、DiscoVERの堅牢性と有効性を実証し、人間と機械の視覚要件の二重目的を達成する上で優れた性能を示す。
関連論文リスト
- Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision [44.5080084219247]
本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。
提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
論文 参考訳(メタデータ) (2025-01-08T15:48:30Z) - An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks [27.318182211122558]
本稿では,人間の知覚と複数のマシンビジョンのタスクに適した適応圧縮(EAC)手法を提案する。
本手法は、人間の視覚の質を維持しつつ、複数のマシンビジョンタスクの性能を向上させる。
論文 参考訳(メタデータ) (2025-01-08T08:03:49Z) - All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation [28.62276713652864]
我々は,人間の共同ビジョンのための既存の符号化モデルにMPA(Multi-Path Aggregation)を統合することを提案する。
MPAはタスク固有のパスに遅延特徴を割り当てるために予測器を使用する。
MPAはタスク特化最適化と多目的最適化の両方において最先端の手法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-09-29T11:14:21Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - DeepCap: Monocular Human Performance Capture Using Weak Supervision [106.50649929342576]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-03-18T16:39:56Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。