論文の概要: ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics
- arxiv url: http://arxiv.org/abs/2512.09510v1
- Date: Wed, 10 Dec 2025 10:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.485283
- Title: ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics
- Title(参考訳): ViTA-Seg:ロボットにおけるアモーダルセグメンテーションのためのビジョントランス
- Authors: Donato Caramia, Florian T. Pokorny, Giuseppe Triggiani, Denis Ruffino, David Naso, Paolo Roberto Massenio,
- Abstract要約: リアルタイムアモーダルセグメンテーションのためのクラス非依存型ビジョントランスフォーマフレームワークViTA-Segを提案する。
また、産業用ビンピッキングシナリオに合わせた写真リアルな合成データセットであるViTA-SimDataを紹介した。
- 参考スコア(独自算出の注目度): 6.117506436557094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Occlusions in robotic bin picking compromise accurate and reliable grasp planning. We present ViTA-Seg, a class-agnostic Vision Transformer framework for real-time amodal segmentation that leverages global attention to recover complete object masks, including hidden regions. We proposte two architectures: a) Single-Head for amodal mask prediction; b) Dual-Head for amodal and occluded mask prediction. We also introduce ViTA-SimData, a photo-realistic synthetic dataset tailored to industrial bin-picking scenario. Extensive experiments on two amodal benchmarks, COOCA and KINS, demonstrate that ViTA-Seg Dual Head achieves strong amodal and occlusion segmentation accuracy with computational efficiency, enabling robust, real-time robotic manipulation.
- Abstract(参考訳): ロボット・ビンにおけるオクルージョンは、正確で信頼性の高い把握計画である。
隠れた領域を含む完全なオブジェクトマスクを復元するために,世界的注目を集めるリアルタイムアモーダルセグメンテーションのためのクラス非依存型ビジョントランスフォーマフレームワークであるViTA-Segを提案する。
私たちは2つのアーキテクチャを推進します。
a) 仮面予測用単頭
ロ 仮面予測及び隠蔽マスク予測のためのデュアルヘッド
また、産業用ビンピッキングシナリオに合わせた写真リアルな合成データセットであるViTA-SimDataを紹介した。
COOCAとKINSという2つのアモーダルベンチマークの大規模な実験により、ViTA-Seg Dual Headは強力なアモーダルとオクルージョンセグメンテーションの精度を計算効率で達成し、堅牢でリアルタイムなロボット操作を可能にすることを示した。
関連論文リスト
- Segment Anything, Even Occluded [35.150696061791805]
METHODOは、Segment Anything Model(SAM)を多目的マスクデコーダとして適応する新しいフレームワークである。
Amodal-LVISは,LVISデータセットとLVVISデータセットから得られた300K画像からなる大規模合成データセットである。
以上の結果から,COCOA-clsとD2SAベンチマークの両ベンチマークにおいて,新たに拡張されたデータセットでトレーニングした結果,ゼロショット性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-03-08T16:14:57Z) - MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments [49.45034796115852]
手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。
本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:00:52Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。