Fugu-MT 論文翻訳(概要): ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation

論文の概要: ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation

arxiv url: http://arxiv.org/abs/2407.05576v1
Date: Mon, 8 Jul 2024 03:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 17:10:02.897255
Title: ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation
Title（参考訳）: ORMNet:Egocentric Hand-Object Segmentationのためのオブジェクト中心関係モデリング
Authors: Yuejiao Su, Yi Wang, Lap-Pui Chau,
Abstract要約: エゴセントリック・ハンドオブジェクト・セグメンテーション(Egocent Hand-Object segmentation, EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、新しいタスクである。本稿では,EgoHOSのための新しいオブジェクト中心関係モデリングネットワーク(ORMNet)を提案する。
参考スコア（独自算出の注目度）: 14.765419467710812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Egocentric hand-object segmentation (EgoHOS) is a brand-new task aiming at segmenting the hands and interacting objects in the egocentric image. Although significant advancements have been achieved by current methods, establishing an end-to-end model with high accuracy remains an unresolved challenge. Moreover, existing methods lack explicit modeling of the relationships between hands and objects as well as objects and objects, thereby disregarding critical information on hand-object interaction and introducing confusion into algorithms, ultimately leading to a reduction in segmentation performance. To address the limitations of existing methods, this paper proposes a novel end-to-end Object-centric Relationship Modeling Network (ORMNet) for EgoHOS. Specifically, based on a single-encoder and multi-decoder framework, we design the Hand-Object Relation (HOR) module to leverage hand-guided attention to capture the correlation between hands and objects and facilitate their representations. Moreover, based on the observed interrelationships between diverse categories of objects, we introduce the Object Relation Decoupling (ORD) strategy. This strategy allows the decoupling of the two-hand object during training, thereby alleviating the ambiguity of the network. Experimental results on three datasets show that the proposed ORMNet has notably exceptional segmentation performance with robust generalization capabilities.
Abstract（参考訳）: エゴセントリック・ハンドオブジェクト・セグメンテーション(Egocent Hand-Object segmentation, EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、新しいタスクである。現在の手法によって大きな進歩が達成されているが、高い精度でエンドツーエンドのモデルを確立することは未解決の課題である。さらに、既存の手法では、オブジェクトやオブジェクトだけでなく、手とオブジェクトの関係の明確なモデリングが欠如しているため、手とオブジェクトの相互作用に関する重要な情報を無視し、アルゴリズムに混乱をもたらし、最終的にセグメンテーション性能が低下する。本稿では,既存の手法の限界に対処するため,EgoHOSのためのORMNet(End-to-end Object-centric Relationship Modeling Network)を提案する。具体的には,シングルエンコーダとマルチデコーダをベースとしたHORモジュールを設計し,手と物体の相関を把握し,その表現を容易にする。さらに,オブジェクトの様々なカテゴリ間の相互関係を観測し,オブジェクト関係の疎結合(ORD)戦略を導入する。この戦略により、トレーニング中の両手オブジェクトの分離が可能となり、ネットワークのあいまいさが軽減される。 3つのデータセットの実験結果から、提案されたORMNetは、強力な一般化機能を備えた例外的なセグメンテーション性能を持つことが明らかとなった。

関連論文リスト

InterRVOS: Interaction-aware Referring Video Object Segmentation [37.53744746544299]
ビデオオブジェクトのセグメンテーションの参照は、与えられた自然言語表現に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。包括的なビデオ理解では、オブジェクトの役割は、他のエンティティとの相互作用によって定義されることが多い。本稿では,対話に係わるアクターと対象エンティティのセグメンテーションを必要とする新しいタスクである,ビデオオブジェクトの参照を参照することを提案する。
論文参考訳（メタデータ） (2025-06-03T01:16:13Z)
ObjectRelator: Enabling Cross-View Object Relation Understanding in Ego-Centric and Exo-Centric Videos [105.40690994956667]
Ego-Exoオブジェクト対応タスクは、オブジェクトをエゴ中心およびエゴ中心のビューにマップすることを目的としている。我々は,この課題に対処するための新しい手法であるObjectRelatorを紹介する。
論文参考訳（メタデータ） (2024-11-28T12:01:03Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文参考訳（メタデータ） (2024-04-09T12:44:34Z)
Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文参考訳（メタデータ） (2023-08-16T12:07:02Z)
InterTracker: Discovering and Tracking General Objects Interacting with Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。提案手法は最先端の手法よりも優れている。
論文参考訳（メタデータ） (2023-08-06T09:09:17Z)
Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文参考訳（メタデータ） (2022-11-16T10:01:33Z)
SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。 OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2022-04-10T23:27:19Z)
Bi-directional Object-context Prioritization Learning for Saliency Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文参考訳（メタデータ） (2022-03-17T16:16:03Z)
Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文参考訳（メタデータ） (2021-08-19T11:57:27Z)
ConsNet: Learning Consistency Graph for Zero-Shot Human-Object Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文参考訳（メタデータ） (2020-08-14T09:11:18Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)
Joint Hand-object 3D Reconstruction from a Single Image with Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文参考訳（メタデータ） (2020-06-28T09:50:25Z)
A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文参考訳（メタデータ） (2020-04-18T15:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。