論文の概要: Object-Based Image Coding: A Learning-Driven Revisit
- arxiv url: http://arxiv.org/abs/2003.08033v1
- Date: Wed, 18 Mar 2020 04:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:09:42.660247
- Title: Object-Based Image Coding: A Learning-Driven Revisit
- Title(参考訳): オブジェクトベースの画像符号化: 学習駆動再訪
- Authors: Qi Xia, Haojie Liu and Zhan Ma
- Abstract要約: 根本的な問題は、任意の形状のオブジェクトを細かい粒度で効率的に処理する方法である。
我々は,画像層分解のためのオブジェクトセグメンテーションネットワークと,マスク付き前景オブジェクトと背景シーンを別々に処理するための並列畳み込みに基づくニューラルイメージ圧縮ネットワークを提案する。
すべてのコンポーネントは、視覚的に快適な再構築のための貢献をインテリジェントに評価するために、エンドツーエンドの学習フレームワークに最適化されています。
- 参考スコア(独自算出の注目度): 30.550019759674477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Object-Based Image Coding (OBIC) that was extensively studied about two
decades ago, promised a vast application perspective for both ultra-low bitrate
communication and high-level semantical content understanding, but it had
rarely been used due to the inefficient compact representation of object with
arbitrary shape. A fundamental issue behind is how to efficiently process the
arbitrary-shaped objects at a fine granularity (e.g., feature element or pixel
wise). To attack this, we have proposed to apply the element-wise masking and
compression by devising an object segmentation network for image layer
decomposition, and parallel convolution-based neural image compression networks
to process masked foreground objects and background scene separately. All
components are optimized in an end-to-end learning framework to intelligently
weigh their (e.g., object and background) contributions for visually pleasant
reconstruction. We have conducted comprehensive experiments to evaluate the
performance on PASCAL VOC dataset at a very low bitrate scenario (e.g.,
$\lesssim$0.1 bits per pixel - bpp) which have demonstrated noticeable
subjective quality improvement compared with JPEG2K, HEVC-based BPG and another
learned image compression method. All relevant materials are made publicly
accessible at https://njuvision.github.io/Neural-Object-Coding/.
- Abstract(参考訳): 20年ほど前に広く研究されたObject-Based Image Coding (OBIC)は、超低ビットレート通信と高レベルのセマンティックコンテンツ理解の両方に広大なアプリケーション視点を約束していたが、任意の形状のオブジェクトの非効率なコンパクト表現のために、ほとんど使われなかった。
根本的な問題は、任意の形のオブジェクトを細かい粒度で効率的に処理する方法である(フィーチャー要素やピクセルワイズなど)。
そこで本稿では,画像層分解のためのオブジェクトセグメンテーションネットワークと,マスク付き前景オブジェクトと背景シーンを別々に処理するための並列畳み込みに基づくニューラルイメージ圧縮ネットワークを考案して,要素ワイズマスキングと圧縮の適用を提案する。
すべてのコンポーネントはエンドツーエンドの学習フレームワークで最適化され、視覚的に快適なリコンストラクションのために、その(オブジェクトや背景といった)貢献をインテリジェントに重み付けます。
我々は, JPEG2K, HEVCベースのBPGおよび他の学習画像圧縮法と比較して, 主観的品質向上を顕著に示す, 非常に低ビットレートのシナリオ(例えば, $\lesssim$0.1 bits per pixel - bpp)において, PASCAL VOCデータセットの性能を評価するための総合的な実験を行った。
関連資料はすべてhttps://njuvision.github.io/Neural-Object-Coding/で公開されています。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Joint Perceptual Learning for Enhancement and Object Detection in
Underwater Scenarios [41.34564703212461]
水中物体検出と画像強調を共同で学習する二段階最適化法を提案する。
本手法は,視覚的に有利な画像と高い検出精度を出力する。
論文 参考訳(メタデータ) (2023-07-07T11:54:06Z) - Self-Supervised Learning from Images with a Joint-Embedding Predictive
Architecture [43.83887661156133]
本稿では,手作業によるデータ拡張に頼らずに,高度に意味のある画像表現を学習するためのアプローチを示す。
本稿では,画像からの自己教師型学習のための非生成的アプローチであるイメージベースジョイントエンベッドディング予測アーキテクチャ(I-JEPA)を紹介する。
論文 参考訳(メタデータ) (2023-01-19T18:59:01Z) - SemAug: Semantically Meaningful Image Augmentations for Object Detection
Through Language Grounding [5.715548995729382]
本研究では,シーンに文脈的に意味のある知識を注入することで,画像強調のための効果的な手法を提案する。
本手法は,意味的に適切な新しいオブジェクトを抽出することから,言語接地によるオブジェクト検出のための意味的意味的画像強調法であるSemAugを出発点とする。
論文 参考訳(メタデータ) (2022-08-15T19:00:56Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - ELLIPSDF: Joint Object Pose and Shape Optimization with a Bi-level
Ellipsoid and Signed Distance Function Description [9.734266860544663]
本稿では,関節オブジェクトのポーズと形状最適化のための表現的かつコンパクトなモデルを提案する。
多視点RGB-Dカメラ観測からオブジェクトレベルのマップを推論する。
提案手法は,大規模実世界のScanNetデータセットを用いて評価し,最先端の手法と比較する。
論文 参考訳(メタデータ) (2021-08-01T03:07:31Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。