論文の概要: Affordance segmentation of hand-occluded containers from exocentric
images
- arxiv url: http://arxiv.org/abs/2308.11233v1
- Date: Tue, 22 Aug 2023 07:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:37:29.598508
- Title: Affordance segmentation of hand-occluded containers from exocentric
images
- Title(参考訳): 偏心画像を用いた手持ち容器の寸法分割
- Authors: Tommaso Apicella, Alessio Xompero, Edoardo Ragusa, Riccardo Berta,
Andrea Cavallaro, Paolo Gastaldo
- Abstract要約: 対象領域と手領域を別々に処理する割当分割モデルを提案する。
提案モデルでは,手作業による特徴マップの重み付けとオブジェクトセグメンテーションにより,手作業による可利用性の特徴を学習する。
実画像と混合現実画像の両方で実験した結果,既存のモデルよりも精度の高いセグメンテーションと一般化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 26.094451688265245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual affordance segmentation identifies the surfaces of an object an agent
can interact with. Common challenges for the identification of affordances are
the variety of the geometry and physical properties of these surfaces as well
as occlusions. In this paper, we focus on occlusions of an object that is
hand-held by a person manipulating it. To address this challenge, we propose an
affordance segmentation model that uses auxiliary branches to process the
object and hand regions separately. The proposed model learns affordance
features under hand-occlusion by weighting the feature map through hand and
object segmentation. To train the model, we annotated the visual affordances of
an existing dataset with mixed-reality images of hand-held containers in
third-person (exocentric) images. Experiments on both real and mixed-reality
images show that our model achieves better affordance segmentation and
generalisation than existing models.
- Abstract(参考訳): 視覚的アフォーダンスセグメンテーションは、エージェントが相互作用できるオブジェクトの表面を識別する。
可測性を特定するための一般的な課題は、これらの曲面の幾何学的および物理的性質の多様性と閉塞である。
本稿では,それを操作している人が手持ちする物体の閉塞に焦点をあてる。
この課題に対処するために,補助ブランチを用いてオブジェクトとハンド領域を別々に処理するアフォーダンスセグメンテーションモデルを提案する。
提案モデルは,手と対象のセグメンテーションを通して特徴地図を重み付けすることにより,手作業による特徴量学習を行う。
モデルをトレーニングするために,既存のデータセットの視覚的可視性に手持ち容器の混合現実像を3人称(外部中心)画像にアノテートした。
実画像と混合現実画像の両方で実験した結果,既存のモデルよりも精度の高いセグメンテーションと一般化が得られた。
関連論文リスト
- Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。
本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。
このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。
これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文 参考訳(メタデータ) (2024-05-09T14:17:26Z) - QIS : Interactive Segmentation via Quasi-Conformal Mappings [3.096214093393036]
ユーザ入力を正と負のクリックという形で組み込んだ準コンフォルマルな対話型セグメンテーション(QIS)モデルを提案する。
本稿では,QISが関心領域を含ませたり排除したりする能力の理論的支援を含む,提案モデルの徹底的な分析を行う。
論文 参考訳(メタデータ) (2024-02-22T16:49:58Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Learning Affordance Grounding from Exocentric Images [79.64064711636975]
Affordance Groundingは、オブジェクト内のアクション可能性領域をグラウンド(すなわちローカライズ)するタスクである。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変換する能力を持っている。
本稿では,外心的視点,すなわち,外心的対象の相互作用と自我的対象のイメージが与えられた場合の空白化課題を提案する。
論文 参考訳(メタデータ) (2022-03-18T12:29:06Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Object-Centric Image Generation with Factored Depths, Locations, and
Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-01T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。