論文の概要: Task-driven Compression for Collision Encoding based on Depth Images
- arxiv url: http://arxiv.org/abs/2309.05289v1
- Date: Mon, 11 Sep 2023 08:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 13:29:52.137835
- Title: Task-driven Compression for Collision Encoding based on Depth Images
- Title(参考訳): 深度画像に基づく衝突符号化のためのタスク駆動圧縮
- Authors: Mihir Kulkarni, Kostas Alexis
- Abstract要約: 本稿では,ロボットシステムの衝突予測に適した画像としての深度画像のアグレッシブ・タスク駆動圧縮のための新しい学習手法を提案する。
深度画像に表される障害物を適切に"膨らませる"ために,ロボットのサイズを考慮に入れた新しい3次元画像処理手法を提案する。
このようなDeep-and-collisionイメージペアは、変分オートエンコーダのアーキテクチャに従うニューラルネットワークのトレーニングに使用される。
- 参考スコア(独自算出の注目度): 14.107264978738542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper contributes a novel learning-based method for aggressive
task-driven compression of depth images and their encoding as images tailored
to collision prediction for robotic systems. A novel 3D image processing
methodology is proposed that accounts for the robot's size in order to
appropriately "inflate" the obstacles represented in the depth image and thus
obtain the distance that can be traversed by the robot in a collision-free
manner along any given ray within the camera frustum. Such depth-and-collision
image pairs are used to train a neural network that follows the architecture of
Variational Autoencoders to compress-and-transform the information in the
original depth image to derive a latent representation that encodes the
collision information for the given depth image. We compare our proposed
task-driven encoding method with classical task-agnostic methods and
demonstrate superior performance for the task of collision image prediction
from extremely low-dimensional latent spaces. A set of comparative studies show
that the proposed approach is capable of encoding depth image-and-collision
image tuples from complex scenes with thin obstacles at long distances better
than the classical methods at compression ratios as high as 4050:1.
- Abstract(参考訳): 本稿では,ロボットシステムの衝突予測に適した画像としての深度画像のアグレッシブ・タスク駆動圧縮のための新しい学習手法を提案する。
深度画像に表される障害物を適切に「膨らませる」ために、ロボットの大きさを考慮し、カメラフラストラム内の任意の光線に沿って衝突のない方法でロボットが通過できる距離を求める新しい3D画像処理手法を提案する。
このような奥行き画像ペアを用いて、変動オートエンコーダのアーキテクチャに従うニューラルネットワークを訓練し、元の奥行き画像内の情報を圧縮・変換し、与えられた奥行き画像の衝突情報をエンコードする潜在表現を導出する。
提案手法を従来のタスク非依存手法と比較し,超低次元潜在空間からの衝突画像予測において優れた性能を示す。
比較研究の結果,提案手法は,4050:1以上の圧縮比で従来の手法よりも遠くに細い障害物を持つ複雑なシーンから,深度画像と集束画像のタプルを符号化できることがわかった。
関連論文リスト
- Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach [44.03561901593423]
本稿では,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は拡散過程を通じて微細なテクスチャを符号化し,知覚品質を向上する。
画像再構成および下流マシンビジョンタスクにおいて,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-10-08T15:48:34Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - A Novel Upsampling and Context Convolution for Image Semantic
Segmentation [0.966840768820136]
最近のセマンティックセグメンテーションの方法は、しばしば深い畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を採用している。
ネットワーク内の画像の空間情報を効率的に保存するために,ガイドフィルタに基づく高密度アップサンプリング畳み込み法を提案する。
ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。
論文 参考訳(メタデータ) (2021-03-20T06:16:42Z) - Deep data compression for approximate ultrasonic image formation [1.0266286487433585]
超音波イメージングシステムでは、別のコンピュータ装置でデータ取得と画像形成を行う。
ディープニューラルネットワークは、特定の画像形成方法の画質を維持するために最適化されている。
論文 参考訳(メタデータ) (2020-09-04T16:43:12Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。