論文の概要: ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation
- arxiv url: http://arxiv.org/abs/2407.05576v1
- Date: Mon, 8 Jul 2024 03:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:10:02.897255
- Title: ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation
- Title(参考訳): ORMNet:Egocentric Hand-Object Segmentationのためのオブジェクト中心関係モデリング
- Authors: Yuejiao Su, Yi Wang, Lap-Pui Chau,
- Abstract要約: エゴセントリック・ハンドオブジェクト・セグメンテーション(Egocent Hand-Object segmentation, EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、新しいタスクである。
本稿では,EgoHOSのための新しいオブジェクト中心関係モデリングネットワーク(ORMNet)を提案する。
- 参考スコア(独自算出の注目度): 14.765419467710812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric hand-object segmentation (EgoHOS) is a brand-new task aiming at segmenting the hands and interacting objects in the egocentric image. Although significant advancements have been achieved by current methods, establishing an end-to-end model with high accuracy remains an unresolved challenge. Moreover, existing methods lack explicit modeling of the relationships between hands and objects as well as objects and objects, thereby disregarding critical information on hand-object interaction and introducing confusion into algorithms, ultimately leading to a reduction in segmentation performance. To address the limitations of existing methods, this paper proposes a novel end-to-end Object-centric Relationship Modeling Network (ORMNet) for EgoHOS. Specifically, based on a single-encoder and multi-decoder framework, we design the Hand-Object Relation (HOR) module to leverage hand-guided attention to capture the correlation between hands and objects and facilitate their representations. Moreover, based on the observed interrelationships between diverse categories of objects, we introduce the Object Relation Decoupling (ORD) strategy. This strategy allows the decoupling of the two-hand object during training, thereby alleviating the ambiguity of the network. Experimental results on three datasets show that the proposed ORMNet has notably exceptional segmentation performance with robust generalization capabilities.
- Abstract(参考訳): エゴセントリック・ハンドオブジェクト・セグメンテーション(Egocent Hand-Object segmentation, EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、新しいタスクである。
現在の手法によって大きな進歩が達成されているが、高い精度でエンドツーエンドのモデルを確立することは未解決の課題である。
さらに、既存の手法では、オブジェクトやオブジェクトだけでなく、手とオブジェクトの関係の明確なモデリングが欠如しているため、手とオブジェクトの相互作用に関する重要な情報を無視し、アルゴリズムに混乱をもたらし、最終的にセグメンテーション性能が低下する。
本稿では,既存の手法の限界に対処するため,EgoHOSのためのORMNet(End-to-end Object-centric Relationship Modeling Network)を提案する。
具体的には,シングルエンコーダとマルチデコーダをベースとしたHORモジュールを設計し,手と物体の相関を把握し,その表現を容易にする。
さらに,オブジェクトの様々なカテゴリ間の相互関係を観測し,オブジェクト関係の疎結合(ORD)戦略を導入する。
この戦略により、トレーニング中の両手オブジェクトの分離が可能となり、ネットワークのあいまいさが軽減される。
3つのデータセットの実験結果から、提案されたORMNetは、強力な一般化機能を備えた例外的なセグメンテーション性能を持つことが明らかとなった。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。