論文の概要: SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition
- arxiv url: http://arxiv.org/abs/2204.04796v1
- Date: Sun, 10 Apr 2022 23:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 13:53:33.500502
- Title: SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition
- Title(参考訳): ソス!
エゴセントリック行動認識における処理対象の集合上の自己教師付き学習
- Authors: Victor Escorcia, Ricardo Guerrero, Xiatian Zhu, Brais Martinez
- Abstract要約: 本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 35.4163266882568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning an egocentric action recognition model from video data is
challenging due to distractors (e.g., irrelevant objects) in the background.
Further integrating object information into an action model is hence
beneficial. Existing methods often leverage a generic object detector to
identify and represent the objects in the scene. However, several important
issues remain. Object class annotations of good quality for the target domain
(dataset) are still required for learning good object representation. Besides,
previous methods deeply couple the existing action models and need to retrain
them jointly with object representation, leading to costly and inflexible
integration. To overcome both limitations, we introduce Self-Supervised
Learning Over Sets (SOS), an approach to pre-train a generic Objects In Contact
(OIC) representation model from video object regions detected by an
off-the-shelf hand-object contact detector. Instead of augmenting object
regions individually as in conventional self-supervised learning, we view the
action process as a means of natural data transformations with unique
spatio-temporal continuity and exploit the inherent relationships among
per-video object sets. Extensive experiments on two datasets, EPIC-KITCHENS-100
and EGTEA, show that our OIC significantly boosts the performance of multiple
state-of-the-art video classification models.
- Abstract(参考訳): ビデオデータからエゴセントリックなアクション認識モデルを学ぶことは、背景の邪魔者(例えば、無関係なオブジェクト)のために難しい。
したがって、オブジェクト情報をアクションモデルに統合することは有益である。
既存の方法は、しばしばシーン内のオブジェクトを識別し、表現するためにジェネリックオブジェクト検出器を利用する。
しかし、いくつかの重要な問題が残っている。
良いオブジェクト表現を学ぶには、ターゲットドメイン(データセット)に対して良い品質のオブジェクトクラスアノテーションが必要である。
さらに、以前のメソッドでは、既存のアクションモデルを深く結合し、オブジェクト表現と共同で再トレーニングする必要があります。
両制約を克服するために,既製の手対象接触検出器によって検出されたビデオオブジェクト領域から,汎用オブジェクトの接触(OIC)表現モデルを事前学習するためのSOS(Self-Supervised Learning Over Sets)を導入する。
従来の自己教師あり学習のように物体領域を個別に拡張するのではなく、行動過程を一意な時空間連続性を持つ自然データ変換の手段として捉え、ビデオ単位のオブジェクト集合に固有の関係性を利用する。
EPIC-KITCHENS-100とEGTEAの2つのデータセットに対する大規模な実験により、OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させることが示された。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene
Recognition [19.503027767462605]
本研究では,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。
OTSは、新たなストリームを使わずに、室内のシーン認識において、最先端の手法を2%以上上回っている。
論文 参考訳(メタデータ) (2021-08-01T08:37:08Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。