論文の概要: HOIST-Former: Hand-held Objects Identification, Segmentation, and Tracking in the Wild
- arxiv url: http://arxiv.org/abs/2404.13819v1
- Date: Mon, 22 Apr 2024 01:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:36:05.689254
- Title: HOIST-Former: Hand-held Objects Identification, Segmentation, and Tracking in the Wild
- Title(参考訳): HOIST-Former: 野生におけるハンドヘルドオブジェクトの識別、セグメンテーション、追跡
- Authors: Supreeth Narasimhaswamy, Huy Anh Nguyen, Lihan Huang, Minh Hoai,
- Abstract要約: HOIST-Formerは、互いに特徴を反復的にプーリングすることで、空間的および時間的に手や物体を分割することができる。
HOISTは4,125本のビデオで,有界ボックス,セグメンテーションマスク,ハンドヘルドオブジェクトのIDを追跡する。
- 参考スコア(独自算出の注目度): 21.54235700930195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenging task of identifying, segmenting, and tracking hand-held objects, which is crucial for applications such as human action segmentation and performance evaluation. This task is particularly challenging due to heavy occlusion, rapid motion, and the transitory nature of objects being hand-held, where an object may be held, released, and subsequently picked up again. To tackle these challenges, we have developed a novel transformer-based architecture called HOIST-Former. HOIST-Former is adept at spatially and temporally segmenting hands and objects by iteratively pooling features from each other, ensuring that the processes of identification, segmentation, and tracking of hand-held objects depend on the hands' positions and their contextual appearance. We further refine HOIST-Former with a contact loss that focuses on areas where hands are in contact with objects. Moreover, we also contribute an in-the-wild video dataset called HOIST, which comprises 4,125 videos complete with bounding boxes, segmentation masks, and tracking IDs for hand-held objects. Through experiments on the HOIST dataset and two additional public datasets, we demonstrate the efficacy of HOIST-Former in segmenting and tracking hand-held objects.
- Abstract(参考訳): 動作のセグメンテーションや性能評価といったアプリケーションにおいて,ハンドヘルドオブジェクトの識別,セグメンテーション,追跡といった課題に対処する。
この作業は、重い閉塞、急速な動き、そして物体が保持され、解放され、そして再び拾い上げられる物体の過渡的な性質のため、特に困難である。
これらの課題に対処するため,HOIST-Formerと呼ばれる新しいトランスフォーマーアーキテクチャを開発した。
HOIST-Formerは,手と物体の空間的・時間的セグメンテーションに適しており,それぞれの特徴を反復的にプールすることで,手動物体の識別,セグメンテーション,追跡のプロセスが手の位置と文脈的外観に依存することを保証している。
さらに,物体との接触領域に焦点をあてた接触損失を伴ってHOIST-Formerを改良する。
さらに,本研究では,有界ボックス,セグメンテーションマスク,ハンドヘルドオブジェクトのID追跡などを備えた4,125本の動画を収録するHOISTという動画データセットも寄贈した。
HOISTデータセットと2つの公開データセットの実験を通じて、手持ちのオブジェクトのセグメンテーションと追跡におけるHOIST-Formerの有効性を実証する。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Team I2R-VI-FF Technical Report on EPIC-KITCHENS VISOR Hand Object
Segmentation Challenge 2023 [12.266684016563733]
本稿では,EPIC-KITCHENS VISOR Hand Object Challengeへのアプローチを提案する。
提案手法は,PointRend(Point-based Rendering)法とSAM(Seegment Anything Model)法を組み合わせたものである。
既存の手法の強みを効果的に組み合わせ,改良を施すことで,VISOR HOSチャレンジで第1位を獲得しました。
論文 参考訳(メタデータ) (2023-10-31T01:43:14Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - HMDO: Markerless Multi-view Hand Manipulation Capture with Deformable
Objects [8.711239906965893]
HMDOは、手と変形可能な物体の対話的な動きを記録する最初のマーカーレス変形可能な相互作用データセットである。
提案手法は,手と変形可能な物体の対話的動きを高品質に再現することができる。
論文 参考訳(メタデータ) (2023-01-18T16:55:15Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Learning to Track Object Position through Occlusion [32.458623495840904]
オクルージョンは、物体検出器やトラッカーが直面する最も重要な課題の1つである。
本稿では,領域ベースビデオオブジェクト検出装置の成功に基づくトラッキング・バイ・検出手法を提案する。
提案手法は,インターネットから収集した家具組立ビデオのデータセットにおいて,優れた結果が得られる。
論文 参考訳(メタデータ) (2021-06-20T22:29:46Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。