論文の概要: TODE-Trans: Transparent Object Depth Estimation with Transformer
- arxiv url: http://arxiv.org/abs/2209.08455v1
- Date: Sun, 18 Sep 2022 03:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:31:24.185850
- Title: TODE-Trans: Transparent Object Depth Estimation with Transformer
- Title(参考訳): TODE-Trans:トランスを用いた透明物体深度推定
- Authors: Kang Chen, Shaochen Wang, Beihao Xia, Dongxu Li, Zhen Kan, and Bin Li
- Abstract要約: トランスを用いた1つのRGB-D入力からの透明物体深度推定手法を提案する。
きめ細かい機能を強化するため、特徴融合モジュール(FFM)はコヒーレントな予測を支援するように設計されている。
- 参考スコア(独自算出の注目度): 16.928131778902564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transparent objects are widely used in industrial automation and daily life.
However, robust visual recognition and perception of transparent objects have
always been a major challenge. Currently, most commercial-grade depth cameras
are still not good at sensing the surfaces of transparent objects due to the
refraction and reflection of light. In this work, we present a
transformer-based transparent object depth estimation approach from a single
RGB-D input. We observe that the global characteristics of the transformer make
it easier to extract contextual information to perform depth estimation of
transparent areas. In addition, to better enhance the fine-grained features, a
feature fusion module (FFM) is designed to assist coherent prediction. Our
empirical evidence demonstrates that our model delivers significant
improvements in recent popular datasets, e.g., 25% gain on RMSE and 21% gain on
REL compared to previous state-of-the-art convolutional-based counterparts in
ClearGrasp dataset. Extensive results show that our transformer-based model
enables better aggregation of the object's RGB and inaccurate depth information
to obtain a better depth representation. Our code and the pre-trained model
will be available at https://github.com/yuchendoudou/TODE.
- Abstract(参考訳): 透明な物体は産業自動化や日常生活で広く使われている。
しかし、透明物体の堅牢な視覚認識と認識は、常に大きな課題であった。
現在、ほとんどの商業グレードの深度カメラは、光の屈折と反射のために透明な物体の表面を感知するのが得意ではない。
本研究では、1つのRGB-D入力からトランスフォーマーに基づく透明物体深度推定手法を提案する。
変換器のグローバルな特性は、コンテキスト情報を抽出し、透明領域の深度推定を容易にすることを観察する。
さらに、細かな機能を強化するため、機能融合モジュール(ffm)はコヒーレントな予測を支援するように設計されている。
私たちのモデルは最近の人気データセットにおいて、例えばRMSEで25%、RELで21%、ClearGraspで最先端の畳み込みベースのデータセットで21%、大幅な改善を実現していることを示す経験的証拠です。
その結果,変換器を用いたモデルにより,オブジェクトのRGBの集約性が向上し,不正確な深度情報が得られることがわかった。
私たちのコードと事前トレーニングされたモデルは、https://github.com/yuchendoudou/TODE.orgで公開されます。
関連論文リスト
- ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Transparent Object Tracking with Enhanced Fusion Module [56.403878717170784]
我々は,我々の融合技術を用いて,透明物体追跡のための優れた結果を得る新しいトラッカーアーキテクチャを提案する。
我々の結果とコードの実装はhttps://github.com/kalyan05TOTEM.comで公開されます。
論文 参考訳(メタデータ) (2023-09-13T03:52:09Z) - MVTrans: Multi-View Perception of Transparent Objects [29.851395075937255]
我々は、RGB-Dセンサから信頼できない深度マップを除外し、ステレオ法を拡張した。
提案手法であるMVTransは,複数の知覚能力を持つエンドツーエンドのマルチビューアーキテクチャである。
我々は、新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し、大規模透明なオブジェクト検出データセットを作成する。
論文 参考訳(メタデータ) (2023-02-22T22:45:28Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - TransCG: A Large-Scale Real-World Dataset for Transparent Object Depth
Completion and Grasping [46.6058840385155]
我々は、透明な物体深度を補完する大規模な実世界のデータセットをコントリビュートする。
データセットには、130の異なるシーンから57,715枚のRGB-D画像が含まれている。
本稿では,RGB画像と不正確な深度マップを入力とし,精細化された深度マップを出力するエンド・ツー・エンドの深度補完ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-17T06:50:20Z) - Seeing Glass: Joint Point Cloud and Depth Completion for Transparent
Objects [16.714074893209713]
TranspareNetはジョイントポイントクラウドとディープコンプリートコンプリート方式である。
透明な物体の深さを、散らかって複雑な場面で埋めることができます。
TranspareNetは、既存の最先端のディープコンプリートメソッドを複数のデータセットで上回っている。
論文 参考訳(メタデータ) (2021-09-30T21:09:09Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。