論文の概要: MATT-GS: Masked Attention-based 3DGS for Robot Perception and Object Detection
- arxiv url: http://arxiv.org/abs/2503.19330v1
- Date: Tue, 25 Mar 2025 03:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:53:37.747584
- Title: MATT-GS: Masked Attention-based 3DGS for Robot Perception and Object Detection
- Title(参考訳): MATT-GS:masked Attention-based 3DGS for Robot Perception and Object Detection
- Authors: Jee Won Lee, Hansol Lim, SooYeun Yang, Jongseong Brad Choi,
- Abstract要約: U2-Netは、ターゲットオブジェクトを原画像から分離するために、バックグラウンド削除に使用される。
ソベルフィルタに基づくアテンション機構を3DGSフレームワークに統合し、細部を拡大する。
- 参考スコア(独自算出の注目度): 0.3749861135832072
- License:
- Abstract: This paper presents a novel masked attention-based 3D Gaussian Splatting (3DGS) approach to enhance robotic perception and object detection in industrial and smart factory environments. U2-Net is employed for background removal to isolate target objects from raw images, thereby minimizing clutter and ensuring that the model processes only relevant data. Additionally, a Sobel filter-based attention mechanism is integrated into the 3DGS framework to enhance fine details - capturing critical features such as screws, wires, and intricate textures essential for high-precision tasks. We validate our approach using quantitative metrics, including L1 loss, SSIM, PSNR, comparing the performance of the background-removed and attention-incorporated 3DGS model against the ground truth images and the original 3DGS training baseline. The results demonstrate significant improves in visual fidelity and detail preservation, highlighting the effectiveness of our method in enhancing robotic vision for object recognition and manipulation in complex industrial settings.
- Abstract(参考訳): 本稿では,産業やスマートな工場環境におけるロボットの知覚と物体検出を高めるために,マスマスキングによる3Dガウススプラッティング(3DGS)アプローチを提案する。
U2-Netは、原画像から対象オブジェクトを分離するためにバックグラウンド削除に使用されるため、クラッタを最小化し、モデルが関連するデータのみを処理することを保証する。
さらに、Sobelフィルタベースのアテンションメカニズムが3DGSフレームワークに統合され、細部が詳細になり、ネジやワイヤ、高精度タスクに不可欠な複雑なテクスチャなどの重要な特徴がキャプチャされる。
我々は,L1損失,SSIM,PSNRなどの定量的指標を用いて,背景から取り除かれた3DGSモデルの性能と,地上の真理画像とオリジナルの3DGSトレーニングベースラインとの比較を行った。
以上の結果から,複雑な産業環境下での物体認識・操作のためのロボットビジョンの強化に本手法の有効性が示された。
関連論文リスト
- Gaussian Splatting Under Attack: Investigating Adversarial Noise in 3D Objects [1.7205106391379021]
物体検出モデルに対する敵対的攻撃は2D画像に対して十分に研究されているが、3Dモデルへの影響は未解明のままである。
この研究は、CLIPビジョン言語モデルをターゲットにした対向ノイズを生成するために設計されたMasked Iterative Fast Gradient Sign Method (M-IFGSM)を導入している。
提案手法は,人間の観測者に対してほとんど知覚できない対向雑音を伴って,モデルの精度と信頼性を効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-12-03T20:11:21Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Optimizing 3D Gaussian Splatting for Sparse Viewpoint Scene Reconstruction [11.840097269724792]
3D Gaussian Splatting (3DGS)は3Dシーン表現の有望なアプローチとして登場し、Neural Radiance Fields (NeRF)と比較して計算オーバーヘッドの低減を実現している。
SVS-GSは,3次元ガウス平滑化フィルタを統合して人工物を抑制する,スパースビューポイントシーン再構築のための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-05T03:18:04Z) - Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection [59.33188668341604]
3次元物体検出は、自律運転知覚の基本的なタスクとして機能する。
ポイントクラウドデータのための高品質なアノテーションを得るためには、コストがかかる。
本稿では,適応型合成シーンを生成するために,ハードネス対応シーン合成(HASS)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:23Z) - Real-Time Object Detection in Occluded Environment with Background
Cluttering Effects Using Deep Learning [0.8192907805418583]
混在した環境下での車やタンクのリアルタイム検出のためのディープラーニングモデルに集中する。
開発した手法は、カスタムデータセットを作成し、ノイズの多いデータセットをきれいにするために前処理技術を使用する。
SSD-Mobilenet v2モデルの精度とフレームは、YOLO V3やYOLO V4よりも高い。
論文 参考訳(メタデータ) (2024-01-02T01:30:03Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。