論文の概要: Multi-label affordance mapping from egocentric vision
- arxiv url: http://arxiv.org/abs/2309.02120v1
- Date: Tue, 5 Sep 2023 10:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:23:48.012891
- Title: Multi-label affordance mapping from egocentric vision
- Title(参考訳): エゴセントリックビジョンによるマルチラベルアフォーマンスマッピング
- Authors: Lorenzo Mur-Labadia, Jose J. Guerrero and Ruben Martinez-Cantin
- Abstract要約: 本稿では, 精度の高い多ラベルセグメンテーションを実現するために, 空き感に対する新しいアプローチを提案する。
我々の手法は、ファースト・パーソン・ビデオから空き地を自動的に抽出するために利用できる。
相互作用ホットスポットのマップを構築するために、メトリック表現をどのように活用できるかを示します。
- 参考スコア(独自算出の注目度): 3.683202928838613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate affordance detection and segmentation with pixel precision is an
important piece in many complex systems based on interactions, such as robots
and assitive devices. We present a new approach to affordance perception which
enables accurate multi-label segmentation. Our approach can be used to
automatically extract grounded affordances from first person videos of
interactions using a 3D map of the environment providing pixel level precision
for the affordance location. We use this method to build the largest and most
complete dataset on affordances based on the EPIC-Kitchen dataset, EPIC-Aff,
which provides interaction-grounded, multi-label, metric and spatial affordance
annotations. Then, we propose a new approach to affordance segmentation based
on multi-label detection which enables multiple affordances to co-exists in the
same space, for example if they are associated with the same object. We present
several strategies of multi-label detection using several segmentation
architectures. The experimental results highlight the importance of the
multi-label detection. Finally, we show how our metric representation can be
exploited for build a map of interaction hotspots in spatial action-centric
zones and use that representation to perform a task-oriented navigation.
- Abstract(参考訳): ピクセル精度による正確なアフォーマンス検出とセグメンテーションは、ロボットやアシエーションデバイスのような相互作用に基づく多くの複雑なシステムにおいて重要な要素である。
本稿では,高精度なマルチラベルセグメンテーションを実現するアフォーマンス知覚への新しいアプローチを提案する。
提案手法は,環境の3dマップを用いて,1人目のインタラクション映像から,アプライアンス位置のピクセルレベル精度を自動抽出する。
この手法を用いて,EPIC-Kitchen データセット EPIC-Aff に基づいて,対話型,多ラベル,メートル法,空間的アベイランスアノテーション を提供する。
そこで本稿では,例えば同一のオブジェクトに関連付けられている場合など,同一空間内で複数のアベイランスを共存させることができるマルチラベル検出に基づくアベイランスセグメンテーションの新たなアプローチを提案する。
本稿では,複数のセグメンテーションアーキテクチャを用いたマルチラベル検出手法を提案する。
実験結果は,マルチラベル検出の重要性を強調した。
最後に,空間的行動中心領域における相互作用ホットスポットのマップ構築に,我々のメトリック表現をどのように活用するかを示し,その表現を用いてタスク指向ナビゲーションを行う。
関連論文リスト
- GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。
本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。
実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文 参考訳(メタデータ) (2024-09-15T02:26:17Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection [22.60675416709486]
M$3$Netは、Salient Object Detectionのためのアテンションネットワークである。
マルチレベル特徴間の相互作用を実現するためのクロスアテンションアプローチ。
Mixed Attention Blockは、グローバルレベルとローカルレベルの両方でコンテキストをモデリングすることを目的としている。
集約された特徴をステージごとに最適化するためのマルチレベル監視戦略。
論文 参考訳(メタデータ) (2023-09-15T12:46:14Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Few-shot 3D Point Cloud Semantic Segmentation [138.80825169240302]
本稿では,新しい注意型マルチプロトタイプトランスダクティブ・ショットポイント・クラウドセマンティックセマンティック・セマンティクス法を提案する。
提案手法は,雲のセマンティックセマンティックセグメンテーション設定の違いによるベースラインに比べて,顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2020-06-22T08:05:25Z) - Pixel-Semantic Revise of Position Learning A One-Stage Object Detector
with A Shared Encoder-Decoder [5.371825910267909]
異なる手法がオブジェクトを適応的に検出することを分析する。
いくつかの最先端検出器は、異なる特徴ピラミッドと多レベルセマンティック情報を強化するための多くのメカニズムを組み合わせている。
この研究は、注意機構を持つ共有エンコーダデコーダを持つアンカーフリー検出器によって対処される。
論文 参考訳(メタデータ) (2020-01-04T08:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。