論文の概要: Team I2R-VI-FF Technical Report on EPIC-KITCHENS VISOR Hand Object
Segmentation Challenge 2023
- arxiv url: http://arxiv.org/abs/2310.20120v1
- Date: Tue, 31 Oct 2023 01:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:45:40.944908
- Title: Team I2R-VI-FF Technical Report on EPIC-KITCHENS VISOR Hand Object
Segmentation Challenge 2023
- Title(参考訳): チームI2R-VI-FFテクニカルレポート : EPIC-KITCHENS VISOR Hand Object Segmentation Challenge 2023
- Authors: Fen Fang, Yi Cheng, Ying Sun and Qianli Xu
- Abstract要約: 本稿では,EPIC-KITCHENS VISOR Hand Object Challengeへのアプローチを提案する。
提案手法は,PointRend(Point-based Rendering)法とSAM(Seegment Anything Model)法を組み合わせたものである。
既存の手法の強みを効果的に組み合わせ,改良を施すことで,VISOR HOSチャレンジで第1位を獲得しました。
- 参考スコア(独自算出の注目度): 12.266684016563733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our approach to the EPIC-KITCHENS VISOR Hand
Object Segmentation Challenge, which focuses on the estimation of the relation
between the hands and the objects given a single frame as input. The
EPIC-KITCHENS VISOR dataset provides pixel-wise annotations and serves as a
benchmark for hand and active object segmentation in egocentric video. Our
approach combines the baseline method, i.e., Point-based Rendering (PointRend)
and the Segment Anything Model (SAM), aiming to enhance the accuracy of hand
and object segmentation outcomes, while also minimizing instances of missed
detection. We leverage accurate hand segmentation maps obtained from the
baseline method to extract more precise hand and in-contact object segments. We
utilize the class-agnostic segmentation provided by SAM and apply specific
hand-crafted constraints to enhance the results. In cases where the baseline
model misses the detection of hands or objects, we re-train an object detector
on the training set to enhance the detection accuracy. The detected hand and
in-contact object bounding boxes are then used as prompts to extract their
respective segments from the output of SAM. By effectively combining the
strengths of existing methods and applying our refinements, our submission
achieved the 1st place in terms of evaluation criteria in the VISOR HOS
Challenge.
- Abstract(参考訳): 本稿では,手と物体の関係を入力として推定するEPIC-KITCHENS VISOR Hand Object Segmentation Challengeを提案する。
EPIC-KITCHENS VISORデータセットはピクセル単位のアノテーションを提供し、エゴセントリックビデオにおける手動およびアクティブなオブジェクトセグメンテーションのベンチマークとして機能する。
提案手法は,ポイントベースレンダリング (point-based rendering, pointrend) とセグメント・エッズ・モデル (sam) を組み合わせることで,手と対象のセグメンテーション結果の精度を向上させるとともに,ミス検出のインスタンスを最小化することを目的としている。
ベースライン法から得られた精度の高い手片分割マップを利用して,より正確な手片と非接触オブジェクトセグメントを抽出する。
SAMで提供されるクラス非依存のセグメンテーションを利用して、特定の手作り制約を適用して結果を強化する。
ベースラインモデルが手や物体の検出に失敗した場合、トレーニングセット上で物体検出器を再訓練し、検出精度を向上させる。
検出された手と非接触オブジェクト境界ボックスはSAMの出力からそれぞれのセグメントを抽出するプロンプトとして使用される。
既存の手法の強みを効果的に組み合わせ,改良を施すことで,VISOR HOSチャレンジにおける評価基準で第1位を獲得しました。
関連論文リスト
- HOIST-Former: Hand-held Objects Identification, Segmentation, and Tracking in the Wild [21.54235700930195]
HOIST-Formerは、互いに特徴を反復的にプーリングすることで、空間的および時間的に手や物体を分割することができる。
HOISTは4,125本のビデオで,有界ボックス,セグメンテーションマスク,ハンドヘルドオブジェクトのIDを追跡する。
論文 参考訳(メタデータ) (2024-04-22T01:42:45Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object
and Boundary Constraints [9.238103649037951]
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するフレームワークを提案する。
本稿では,SGOのコンテンツ特性を考慮し,セマンティックな情報を持たないセグメンテーション領域を活用するために,オブジェクト整合性の概念を導入する。
境界損失は、モデルが対象の境界情報に注意を向けることによって、SGBの特徴的な特徴に重きを置いている。
論文 参考訳(メタデータ) (2023-12-05T03:33:47Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - SegmentMeIfYouCan: A Benchmark for Anomaly Segmentation [111.61261419566908]
ディープニューラルネットワーク(DNN)は通常、閉集合のセマンティッククラスで訓練される。
未発見のオブジェクトを扱うには不備だ。
このような物体の検出と局在化は、自動運転の認識などの安全クリティカルなアプリケーションに不可欠です。
論文 参考訳(メタデータ) (2021-04-30T07:58:19Z) - Interpretable and Accurate Fine-grained Recognition via Region Grouping [14.28113520947247]
微粒な視覚認識のための解釈可能な深層モデルを提案する。
私たちの手法の中核は、ディープニューラルネットワーク内での領域ベースの部分発見と帰属の統合です。
本研究は,分類タスクの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-05-21T01:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。