論文の概要: Base Layer Efficiency in Scalable Human-Machine Coding
- arxiv url: http://arxiv.org/abs/2307.02430v1
- Date: Wed, 5 Jul 2023 16:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:57:42.395128
- Title: Base Layer Efficiency in Scalable Human-Machine Coding
- Title(参考訳): スケーラブルなヒューマンマシン符号化におけるベース層効率
- Authors: Yalda Foroutan, Alon Harell, Anderson de Andrade, Ivan V. Baji\'c
- Abstract要約: 我々は、最先端のスケーラブルなヒューマンマシン画像におけるベース層の符号化効率を解析する。
また,BD-Rateの20~40%のゲインが,オブジェクト検出やインスタンスのセグメンテーションにおいて現在最良であることを示す。
- 参考スコア(独自算出の注目度): 26.32381277880991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A basic premise in scalable human-machine coding is that the base layer is
intended for automated machine analysis and is therefore more compressible than
the same content would be for human viewing. Use cases for such coding include
video surveillance and traffic monitoring, where the majority of the content
will never be seen by humans. Therefore, base layer efficiency is of paramount
importance because the system would most frequently operate at the base-layer
rate. In this paper, we analyze the coding efficiency of the base layer in a
state-of-the-art scalable human-machine image codec, and show that it can be
improved. In particular, we demonstrate that gains of 20-40% in BD-Rate
compared to the currently best results on object detection and instance
segmentation are possible.
- Abstract(参考訳): スケーラブルなヒューマンマシンコーディングの基本的な前提は、ベース層が自動機械解析を意図しており、それゆえ同じコンテンツが人間が見ることよりも圧縮性が高いことである。
このようなコーディングのユースケースには、ビデオの監視とトラフィックの監視がある。
したがって、システムが最も頻繁にベース層レートで動作するため、ベース層効率が最重要となる。
本稿では,最先端のスケーラブルなヒューマンマシン画像コーデックにおいて,ベース層の符号化効率を解析し,改良が可能であることを示す。
特に,オブジェクト検出とインスタンスセグメンテーションの現在の最善の結果と比較して,bdレートが20~40%向上できることを実証する。
関連論文リスト
- Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Learned Scalable Video Coding For Humans and Machines [4.14360329494344]
ベース層にエンド・ツー・エンドの学習可能なビデオタスクを導入し,その拡張層はベース層とともに人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Feature-augmented Machine Reading Comprehension with Auxiliary Tasks [0.38073142980733]
本稿では,機械読解システムの性能を高めるために,符号化層に多粒度情報を注入することを提案する。
符号化層に多粒度情報を加えることで,機械読解システムの性能が向上することを示す実験を行った。
論文 参考訳(メタデータ) (2022-11-17T09:58:49Z) - Rate-Distortion in Image Coding for Machines [26.32381277880991]
監視などの多くのアプリケーションでは、画像は主として自動分析のために送信され、人間が見ることは滅多にない。
このシナリオの従来の圧縮はビットレートの点で非効率であることが示されている。
このようなスケーラブルなモデルのマシンサイドを作成する方法の1つは、マシンタスクを実行するディープニューラルネットワークにおいて、中間層の機能マッチングを実行することである。
論文 参考訳(メタデータ) (2022-09-21T20:24:14Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。