論文の概要: Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective
- arxiv url: http://arxiv.org/abs/2106.08512v1
- Date: Wed, 16 Jun 2021 01:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:25:36.376500
- Title: Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective
- Title(参考訳): 分析分類学における視覚表現の再考:圧縮的視点
- Authors: Yueyu Hu, Wenhan Yang, Haofeng Huang, Jiaying Liu
- Abstract要約: 圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
- 参考スコア(独自算出の注目度): 69.99087941471882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual analytics have played an increasingly critical role in the Internet of
Things, where massive visual signals have to be compressed and fed into
machines. But facing such big data and constrained bandwidth capacity, existing
image/video compression methods lead to very low-quality representations, while
existing feature compression techniques fail to support diversified visual
analytics applications/tasks with low-bit-rate representations. In this paper,
we raise and study the novel problem of supporting multiple machine vision
analytics tasks with the compressed visual representation, namely, the
information compression problem in analytics taxonomy. By utilizing the
intrinsic transferability among different tasks, our framework successfully
constructs compact and expressive representations at low bit-rates to support a
diversified set of machine vision tasks, including both high-level
semantic-related tasks and mid-level geometry analytic tasks. In order to
impose compactness in the representations, we propose a codebook-based
hyperprior, which helps map the representation into a low-dimensional manifold.
As it well fits the signal structure of the deep visual feature, it facilitates
more accurate entropy estimation, and results in higher compression efficiency.
With the proposed framework and the codebook-based hyperprior, we further
investigate the relationship of different task features owning different levels
of abstraction granularity. Experimental results demonstrate that with the
proposed scheme, a set of diversified tasks can be supported at a significantly
lower bit-rate, compared with existing compression schemes.
- Abstract(参考訳): 視覚分析はモノのインターネット(Internet of Things)においてますます重要な役割を担っている。
しかし、そのようなビッグデータと帯域幅の制限に直面して、既存の画像/ビデオ圧縮手法は非常に低品質な表現をもたらす一方、既存の特徴圧縮技術は低ビットレートの表現を持つ多様な視覚分析アプリケーション/タスクをサポートしない。
本稿では,解析分類学における情報圧縮問題である圧縮視覚表現を用いて,複数のマシンビジョン分析タスクをサポートする新しい問題を提起し,検討する。
異なるタスク間の内在的な転送可能性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築し、高レベル意味関連タスクと中レベル幾何解析タスクの両方を含む、機械ビジョンタスクの多様化をサポートする。
表現にコンパクトさを課すために、低次元多様体への表現の写像を支援するコードブックベースのハイパープライアを提案する。
深い視覚特徴の信号構造によく適合するため、より正確なエントロピー推定を容易にし、より高い圧縮効率をもたらす。
提案フレームワークとコードブックベースのhyperpriorを用いて,異なる抽象化レベルの粒度を持つ異なるタスク特徴の関係をさらに調査する。
実験の結果,提案手法では,既存の圧縮方式に比べて,より低いビットレートで多様なタスクをサポートできることがわかった。
関連論文リスト
- Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Single Image Deraining via Scale-space Invariant Attention Neural
Network [58.5284246878277]
我々は,カメラに対するレインステーキの外観の視覚的変化に対処するスケールの概念に取り組む。
本稿では,画素領域よりもコンパクトでロバストな畳み込み特徴領域のマルチスケール相関を表現することを提案する。
このようにして、機能マップの最も活発な存在を、有能な特徴として要約する。
論文 参考訳(メタデータ) (2020-06-09T04:59:26Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。