論文の概要: ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation
- arxiv url: http://arxiv.org/abs/2407.05576v2
- Date: Wed, 4 Sep 2024 02:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:22:00.790206
- Title: ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation
- Title(参考訳): ORMNet:Egocentric Hand-Object Segmentationのためのオブジェクト中心関係モデリング
- Authors: Yuejiao Su, Yi Wang, Lap-Pui Chau,
- Abstract要約: エゴセントリック・ハンドオブジェクト・セグメンテーション(EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、有望な新しいタスクである。
本稿では,エンドツーエンドかつ効果的なEgoHOSを実現するために,ORMNet(Object-centric Relationship Modeling Network)を提案する。
- 参考スコア(独自算出の注目度): 14.765419467710812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric hand-object segmentation (EgoHOS) is a promising new task aiming at segmenting hands and interacting objects in egocentric images. Although EgoHOS has the potential to enable various applications, current methods struggle to achieve both high performance and end-to-end optimization simultaneously. Moreover, existing approaches fail to fully leverage hand cues to assist the interacting-object segmentation and overlook the coupled relationships between diverse interacting-object categories, resulting in performance deficiencies. To address these limitations, this paper proposes a novel Object-centric Relationship Modeling Network (ORMNet) to fulfill end-to-end and effective EgoHOS by modeling relationships between hands and objects as well as objects and objects. Specifically, a Hand-Object Relation (HOR) module is introduced to capture the correlation between hands and objects, which uses hand features to guide the network to extract more distinguishing interacting-object features. Besides, we find the coupling relations between diverse interacting-object categories and design the Object Relation Decoupling (ORD) strategy to disentangle them, emphasizing learning of the interaction between hands and objects and reducing the confusion of interacting-object classification. In-domain experiments show that ORMNet has notably exceptional segmentation performance compared with state-of-the-art methods, while out-of-domain experiments further exhibit its robust generalization capability. The project is available at https://github.com/yuggiehk/ORMNet/
- Abstract(参考訳): エゴセントリック・ハンドオブジェクト・セグメンテーション(EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、有望な新しいタスクである。
EgoHOSは様々なアプリケーションを実現する可能性を秘めているが、現在の手法は高性能とエンドツーエンドの最適化を同時に実現するのに苦労している。
さらに、既存のアプローチでは、相互作用対象のセグメンテーションを支援するために手技を完全に活用できず、様々な相互作用対象のカテゴリ間の結合関係を見落とし、結果としてパフォーマンスの欠陥が生じる。
これらの制約に対処するために,オブジェクトとオブジェクト間の関係をモデリングすることで,エンドツーエンドかつ効果的なEgoHOSを実現するための新しいオブジェクト中心関係モデリングネットワーク(ORMNet)を提案する。
具体的には、ハンドオブジェクト関係(HOR)モジュールを導入して、手とオブジェクトの相関関係を捉える。
さらに,多種多様な相互作用対象のカテゴリ間の結合関係と,それらを切り離すためのオブジェクト関係疎結合(ORD)戦略を設計し,手と物体の相互作用の学習を強調し,相互作用対象の分類の混乱を低減する。
ドメイン内実験では、ORMNetは最先端のメソッドと比較して特に例外的なセグメンテーション性能を示し、ドメイン外実験では、その堅牢な一般化能力を示している。
プロジェクトはhttps://github.com/yuggiehk/ORMNet/で入手できる。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。