論文の概要: Fine-grained Object Categorization for Service Robots
- arxiv url: http://arxiv.org/abs/2210.04613v1
- Date: Mon, 3 Oct 2022 13:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 15:52:54.555097
- Title: Fine-grained Object Categorization for Service Robots
- Title(参考訳): サービスロボットの細粒度オブジェクト分類
- Authors: Songsong Xiong and Hamidreza Kasaei
- Abstract要約: きめ細かい視覚分類は依然として難しい問題である。
微粒なRGBデータセットでは、照明の影響や情報不足などの欠陥が持続する。
我々は、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)に基づく、新しい混合多モードアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A robot working in a human-centered environment is frequently confronted with
fine-grained objects that must be distinguished from one another. Fine-grained
visual classification (FGVC) still remains a challenging problem due to large
intra-category dissimilarity and small inter-category dissimilarity.
Furthermore, flaws such as the influence of illumination and information
inadequacy persist in fine-grained RGB datasets. We propose a novel deep mixed
multi-modality approach based on Vision Transformer (ViT) and Convolutional
Neural Network (CNN) to improve the performance of FGVC. Furthermore, we
generate two synthetic fine-grained RGB-D datasets consisting of 13 car objects
with 720 views and 120 shoes with 7200 sample views. Finally, to assess the
performance of the proposed approach, we conducted several experiments using
fine-grained RGB-D datasets. Experimental results show that our method
outperformed other baselines in terms of recognition accuracy, and achieved
93.40 $\%$ and 91.67 $\%$ recognition accuracy on shoe and car dataset
respectively. We made the fine-grained RGB-D datasets publicly available for
the benefit of research communities.
- Abstract(参考訳): 人間中心の環境で作業するロボットは、互いに区別されなければならないきめ細かい物体にしばしば直面する。
細粒度視覚分類(FGVC)はいまだに大きなカテゴリ内相同性と小さなカテゴリ間相同性のために難しい問題である。
さらに、微粒なRGBデータセットでは、照明の影響や情報不足などの欠陥が持続する。
本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)をベースとした,FGVCの性能向上のための多モード混合手法を提案する。
さらに、720ビューの13の車体と7200のサンプルビューの120の靴からなる合成rgb-dデータセットを生成する。
最後に,提案手法の性能を評価するために,細粒度rgb-dデータセットを用いた実験を行った。
実験の結果,本手法は認識精度において他のベースラインよりも優れており,靴と自動車のデータセットの認識精度は93.40$\%,91.67$\%であった。
きめ細かいrgb-dデータセットを研究コミュニティの利益のために公開しました。
関連論文リスト
- RAD: A Dataset and Benchmark for Real-Life Anomaly Detection with Robotic Observations [18.23500204496233]
Realistic Anomaly Detection データセット(RAD)は、実際のロボットアームを使用して特別に収集された最初のマルチビューRGBベースの異常検出データセットである。
RADは、13のカテゴリにわたる4765のイメージと、50以上の視点から収集された4つの欠陥タイプで構成されている。
ポーズ推定の精度を向上し、3次元点雲の再構成を容易にするためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-10-01T14:05:35Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasets [5.069884983892437]
本稿では,SurgDepth という,シンプルで効果的なマルチモーダル(RGBと深さ)トレーニングフレームワークを提案する。
このタスクに適用可能なすべての公開データセットに対して、最先端(SOTA)結果を示す。
ベンチマークデータセットには、EndoVis2022、AutoLapro、LapI2I、EndoVis 2017などの広範な実験を行っている。
論文 参考訳(メタデータ) (2024-07-29T05:35:51Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Pre-Training LiDAR-Based 3D Object Detectors Through Colorization [65.03659880456048]
我々は,データとラベルのギャップを埋めるために,革新的な事前学習手法であるグラウンドドポイントカラー化(GPC)を導入する。
GPCは、LiDAR点雲を色付けし、価値あるセマンティック・キューを装備するモデルを教えている。
KITTIとデータセットの実験結果は、GPCの顕著な効果を示している。
論文 参考訳(メタデータ) (2023-10-23T06:00:24Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - RGB-D Salient Object Detection: A Survey [195.83586883670358]
様々な観点からRGB-Dに基づくSODモデルを総合的に調査する。
また、このドメインからSODモデルと人気のあるベンチマークデータセットもレビューします。
今後の研究に向けたRGB-DベースのSODの課題と方向性について論じる。
論文 参考訳(メタデータ) (2020-08-01T10:01:32Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z) - Unsupervised Domain Adaptation through Inter-modal Rotation for RGB-D
Object Recognition [31.24587317555857]
本稿では,RGBと深度画像のモーダル間関係を利用して,合成領域から実領域へのシフトを低減する新しいRGB-D DA法を提案する。
提案手法は,主認識タスクに加えて,RGBと深度画像の相対的回転を予測するプリテキストタスクである畳み込みニューラルネットワークを訓練することで解決する。
論文 参考訳(メタデータ) (2020-04-21T13:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。