論文の概要: Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion
- arxiv url: http://arxiv.org/abs/2502.14616v2
- Date: Mon, 03 Mar 2025 12:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:09:18.353155
- Title: Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion
- Title(参考訳): 反復的意味的および幾何学的融合による透明物体の単眼深度推定とセグメンテーション
- Authors: Jiangyuan Liu, Hongxuan Ma, Yuxin Guo, Yuhao Zhao, Chi Zhang, Wei Sui, Wei Zou,
- Abstract要約: 本稿では,透明物体のセグメンテーションと深さ推定の両面において,初めて優れたモノクラーフレームワークを提案する。
具体的には,タスク間のマルチスケール情報を効果的に統合する,新しい意味的および幾何学的融合モジュールを考案する。
2つの挑戦的な合成および実世界のデータセットの実験により、我々のモデルは最先端のモノクル、ステレオ、マルチビューメソッドを大きなマージンで超越していることが示された。
- 参考スコア(独自算出の注目度): 9.391182087420926
- License:
- Abstract: Transparent object perception is indispensable for numerous robotic tasks. However, accurately segmenting and estimating the depth of transparent objects remain challenging due to complex optical properties. Existing methods primarily delve into only one task using extra inputs or specialized sensors, neglecting the valuable interactions among tasks and the subsequent refinement process, leading to suboptimal and blurry predictions. To address these issues, we propose a monocular framework, which is the first to excel in both segmentation and depth estimation of transparent objects, with only a single-image input. Specifically, we devise a novel semantic and geometric fusion module, effectively integrating the multi-scale information between tasks. In addition, drawing inspiration from human perception of objects, we further incorporate an iterative strategy, which progressively refines initial features for clearer results. Experiments on two challenging synthetic and real-world datasets demonstrate that our model surpasses state-of-the-art monocular, stereo, and multi-view methods by a large margin of about 38.8%-46.2% with only a single RGB input. Codes and models are publicly available at https://github.com/L-J-Yuan/MODEST.
- Abstract(参考訳): 透明物体認識は多くのロボット作業に不可欠である。
しかし、複雑な光学特性のため、透明な物体の深さを正確にセグメンテーションし、推定することは困難である。
既存の方法は、主に追加の入力や特殊なセンサーを使用して1つのタスクだけを探索し、タスク間の貴重な相互作用やその後の改善プロセスを無視し、最適でない予測とぼやけた予測をもたらす。
これらの問題に対処するため, 単一画像入力のみを用いて, 透明物体のセグメンテーションと深さ推定の両面において, 初めて優れたモノクラーフレームワークを提案する。
具体的には,タスク間のマルチスケール情報を効果的に統合する,新しい意味的および幾何学的融合モジュールを考案する。
さらに,物体の人間の知覚からインスピレーションを得た上で,より明確な結果を得るために,段階的に初期特徴を洗練させる反復的戦略を取り入れた。
2つの挑戦的な合成データセットと実世界のデータセットの実験により、我々のモデルは1つのRGB入力だけで38.8%-46.2%という大きなマージンで最先端のモノクリー、ステレオ、マルチビューメソッドを超えることを示した。
コードとモデルはhttps://github.com/L-J-Yuan/MODESTで公開されている。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - MVTrans: Multi-View Perception of Transparent Objects [29.851395075937255]
我々は、RGB-Dセンサから信頼できない深度マップを除外し、ステレオ法を拡張した。
提案手法であるMVTransは,複数の知覚能力を持つエンドツーエンドのマルチビューアーキテクチャである。
我々は、新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し、大規模透明なオブジェクト検出データセットを作成する。
論文 参考訳(メタデータ) (2023-02-22T22:45:28Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MonoGraspNet: 6-DoF Grasping with a Single RGB Image [73.96707595661867]
6-DoFロボットの把握は長続きするが未解決の問題だ。
近年の手法では3次元ネットワークを用いて深度センサから幾何的把握表現を抽出している。
我々はMonoGraspNetと呼ばれるRGBのみの6-DoFグルーピングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-09-26T21:29:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Exploring the Interactive Guidance for Unified and Effective Image
Matting [16.933897631478146]
そこで我々はUIMという名前のUnified Interactive Image Matting法を提案する。
具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避する。
UIMは,コンポジション1Kテストセットと合成統合データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-17T13:20:30Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。