論文の概要: Machines Serve Human: A Novel Variable Human-machine Collaborative Compression Framework
- arxiv url: http://arxiv.org/abs/2511.08915v1
- Date: Thu, 13 Nov 2025 01:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.296773
- Title: Machines Serve Human: A Novel Variable Human-machine Collaborative Compression Framework
- Title(参考訳): 機械が人間を救う:新しい可変な人間機械協調圧縮フレームワーク
- Authors: Zifu Zhang, Shengxi Li, Xiancheng Sun, Mai Xu, Zhengyuan Liu, Jingyuan Xia,
- Abstract要約: 我々は,機械ビジョン指向圧縮に基づく新しい協調圧縮手法による最初の試みを行った。
コンピュータビジョンタスクのために、プラグアンドプレイの可変ビットレート戦略も開発されている。
本稿では,人間の視覚の高忠実度の詳細を復元する前に,機械ビジョン圧縮から意味を段階的に集約し,拡散をシームレスに調整することを提案する。
- 参考スコア(独自算出の注目度): 54.49297832630979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-machine collaborative compression has been receiving increasing research efforts for reducing image/video data, serving as the basis for both human perception and machine intelligence. Existing collaborative methods are dominantly built upon the de facto human-vision compression pipeline, witnessing deficiency on complexity and bit-rates when aggregating the machine-vision compression. Indeed, machine vision solely focuses on the core regions within the image/video, requiring much less information compared with the compressed information for human vision. In this paper, we thus set out the first successful attempt by a novel collaborative compression method based on the machine-vision-oriented compression, instead of human-vision pipeline. In other words, machine vision serves as the basis for human vision within collaborative compression. A plug-and-play variable bit-rate strategy is also developed for machine vision tasks. Then, we propose to progressively aggregate the semantics from the machine-vision compression, whilst seamlessly tailing the diffusion prior to restore high-fidelity details for human vision, thus named as diffusion-prior based feature compression for human and machine visions (Diff-FCHM). Experimental results verify the consistently superior performances of our Diff-FCHM, on both machine-vision and human-vision compression with remarkable margins. Our code will be released upon acceptance.
- Abstract(参考訳): 人間と機械の協調圧縮は、人間の知覚とマシンインテリジェンスの両方の基礎となる画像/ビデオデータを減らすための研究努力が増えている。
既存の協調手法は、マシンビジョン圧縮を集約する際の複雑性とビットレートの欠如を目撃する、事実上の人間ビジョン圧縮パイプライン上に構築されている。
実際、マシンビジョンは画像/ビデオの中核領域のみに焦点を当てており、人間の視覚の圧縮情報に比べてはるかに少ない情報を必要とする。
そこで本稿では,人間ビジョンパイプラインではなく,機械ビジョン指向圧縮に基づく新しい協調圧縮手法による最初の試みを行う。
言い換えれば、機械ビジョンは協調圧縮における人間の視覚の基礎となる。
コンピュータビジョンタスクのために、プラグアンドプレイの可変ビットレート戦略も開発されている。
そこで,本研究では,人間の視覚に対する高忠実度の詳細を復元する上で,その拡散をシームレスに調整しながら,マシンビジョン圧縮から徐々にセマンティクスを集約し,人間の視覚と機械ビジョンの拡散優先特徴圧縮(Diff-FCHM)と呼ぶ。
Diff-FCHMは, 機械的, 人為的圧縮の両面において, 顕著なマージンを有する一貫した性能を検証した。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Guided Diffusion for the Extension of Machine Vision to Human Visual Perception [0.0]
誘導拡散を用いた人間の視覚知覚にマシンビジョンを拡張させる手法を提案する。
誘導拡散は、マシンビジョンと人間の知覚の間のブリッジとして機能し、追加のオーバーヘッドなしにそれらの間の遷移を可能にする。
論文 参考訳(メタデータ) (2025-03-23T03:04:26Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - Machine Perceptual Quality: Evaluating the Impact of Severe Lossy
Compression on Audio and Image Models [1.2584276673531931]
損失圧縮に対する異なるアプローチが機械知覚タスクにどのように影響するかを評価する。
重く損失のある圧縮を発生させながら、圧縮された知覚的圧縮を利用することが可能である。
事前トレーニングのためのロッシー圧縮は、マシン直観的なシナリオを劣化させる可能性がある。
論文 参考訳(メタデータ) (2024-01-15T20:47:24Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。