論文の概要: Object Detection for Understanding Assembly Instruction Using
Context-aware Data Augmentation and Cascade Mask R-CNN
- arxiv url: http://arxiv.org/abs/2101.02509v2
- Date: Fri, 8 Jan 2021 02:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:30:17.842613
- Title: Object Detection for Understanding Assembly Instruction Using
Context-aware Data Augmentation and Cascade Mask R-CNN
- Title(参考訳): コンテキスト認識データ拡張とカスケードマスクR-CNNを用いたアセンブリ命令理解のためのオブジェクト検出
- Authors: Joosoon Lee, Seongju Lee, Seunghyeok Back, Sungho Shin, Kyoobin Lee
- Abstract要約: 音声バブルセグメンテーションのための文脈認識型データ拡張手法を開発した。
また,深層学習は,命令中の重要なオブジェクトを検出することで,アセンブリ命令の理解に有用であることが示された。
- 参考スコア(独自算出の注目度): 4.3310896118860445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding assembly instruction has the potential to enhance the robot s
task planning ability and enables advanced robotic applications. To recognize
the key components from the 2D assembly instruction image, We mainly focus on
segmenting the speech bubble area, which contains lots of information about
instructions. For this, We applied Cascade Mask R-CNN and developed a
context-aware data augmentation scheme for speech bubble segmentation, which
randomly combines images cuts by considering the context of assembly
instructions. We showed that the proposed augmentation scheme achieves a better
segmentation performance compared to the existing augmentation algorithm by
increasing the diversity of trainable data while considering the distribution
of components locations. Also, we showed that deep learning can be useful to
understand assembly instruction by detecting the essential objects in the
assembly instruction, such as tools and parts.
- Abstract(参考訳): 組立指導を理解することは、ロボットのタスク計画能力を高め、高度なロボット応用を可能にする可能性がある。
2Dアセンブリ・インストラクション・イメージから鍵成分を認識するため、主に命令に関する情報を多く含む音声バブル領域のセグメンテーションに焦点を当てる。
そこで我々はCascade Mask R-CNNを応用し,組立命令のコンテキストを考慮した画像の切り取りをランダムに組み合わせた,音声バブルセグメンテーションのためのコンテキスト対応データ拡張スキームを開発した。
提案手法は, 学習可能データの多様性を高めつつ, 部品配置の分布を考慮しつつ, 既存の拡張アルゴリズムよりもセグメンテーション性能がよいことを示した。
また,深層学習は,ツールや部品など,アセンブリ命令の必須オブジェクトを検出することで,アセンブリ命令を理解するのに有用であることを示した。
関連論文リスト
- Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial
Images [62.36946925639107]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Depth-aware Object Segmentation and Grasp Detection for Robotic Picking
Tasks [13.337131101813934]
本稿では,ロボットピッキングタスクの協調型クラス非依存オブジェクト分割と把握検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
本稿では,ポイント提案に基づくオブジェクトインスタンスセグメンテーションの精度を高める手法であるDeep-Aware Coordinate Convolution(CoordConv)を紹介する。
我々は,Sil'eane と OCID_grasp という,難易度の高いロボットピッキングデータセットに対して,把握検出とインスタンスセグメンテーションの精度を評価する。
論文 参考訳(メタデータ) (2021-11-22T11:06:33Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - PalmTree: Learning an Assembly Language Model for Instruction Embedding [8.74990895782223]
汎用命令埋め込み生成のためのアセンブリ言語モデルであるPalmTreeの事前トレーニングを提案する。
PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。
論文 参考訳(メタデータ) (2021-01-21T22:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。