論文の概要: Feature-Supervised Action Modality Transfer
- arxiv url: http://arxiv.org/abs/2108.03329v1
- Date: Fri, 6 Aug 2021 22:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:33:07.240762
- Title: Feature-Supervised Action Modality Transfer
- Title(参考訳): 特徴教師付き動作モダリティ転送
- Authors: Fida Mohammad Thoker, Cees G. M. Snoek
- Abstract要約: 本稿では,ビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定のラベル付き例のみに限定して行おうとする。
RGBや派生した光フローでは、多数の大規模ラベル付きデータセットが利用可能である。
- 参考スコア(独自算出の注目度): 35.550525307238146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives for action recognition and detection in video modalities
like RGB, depth maps or 3D-skeleton sequences when only limited
modality-specific labeled examples are available. For the RGB, and derived
optical-flow, modality many large-scale labeled datasets have been made
available. They have become the de facto pre-training choice when recognizing
or detecting new actions from RGB datasets that have limited amounts of labeled
examples available. Unfortunately, large-scale labeled action datasets for
other modalities are unavailable for pre-training. In this paper, our goal is
to recognize actions from limited examples in non-RGB video modalities, by
learning from large-scale labeled RGB data. To this end, we propose a two-step
training process: (i) we extract action representation knowledge from an
RGB-trained teacher network and adapt it to a non-RGB student network. (ii) we
then fine-tune the transfer model with available labeled examples of the target
modality. For the knowledge transfer we introduce feature-supervision
strategies, which rely on unlabeled pairs of two modalities (the RGB and the
target modality) to transfer feature level representations from the teacher to
the student network. Ablations and generalizations with two RGB source datasets
and two non-RGB target datasets demonstrate that an optical-flow teacher
provides better action transfer features than RGB for both depth maps and
3D-skeletons, even when evaluated on a different target domain, or for a
different task. Compared to alternative cross-modal action transfer methods we
show a good improvement in performance especially when labeled non-RGB examples
to learn from are scarce
- Abstract(参考訳): 本稿では,RGBや深度マップ,あるいは3D-スケルトンシーケンスなどのビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定例のみが利用できる場合に行う。
rgbおよび派生光フローでは、多くの大規模ラベル付きデータセットが利用可能である。
ラベル付きサンプルが限られているRGBデータセットから新しいアクションを認識または検出する場合、これらは事実上事前トレーニング選択となっている。
残念ながら、他のモダリティのための大規模ラベル付きアクションデータセットは、事前トレーニングでは利用できない。
本稿では,大規模ラベル付きRGBデータから学習することで,RGB以外の動画モダリティの限られた例から行動を認識することを目的とする。
そこで本研究では,RGB学習者ネットワークから行動表現知識を抽出し,非RGB学習者ネットワークに適応させる2段階の学習プロセスを提案する。
(ii)次に、対象モダリティのラベル付き例を用いて転送モデルを微調整する。
知識伝達には,教師から学生ネットワークへ特徴レベルの表現を伝達するための2つのモダリティ(RGBとターゲットモダリティ)のラベル付けされていないペアに依存した特徴スーパービジョン戦略を導入する。
2つのRGBソースデータセットと2つのRGBターゲットデータセットによるアブレーションと一般化は、光学フロー教師が異なるターゲットドメインで評価された場合や、異なるタスクで評価されたとしても、深度マップと3D骨格の両方でRGBよりも優れたアクション転送機能を提供することを示す。
代替のクロスモーダル・アクション・トランスファー法と比較すると、特にラベル付き非RGBの学習例が乏しい場合、優れた性能向上を示す。
関連論文リスト
- TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for
RGB-D Scene Understanding [24.93545970229774]
本論文では, RGB-D 点の対を正に含み, 負が2つのモダリティのいずれかが乱れた対を含む, 対照的な「点-ピクセル対の対」を提案する。
これにより、ハードネガティブのさらなる柔軟性が提供され、ネットワークは両方のモダリティから機能を学ぶことができます。
論文 参考訳(メタデータ) (2020-12-24T04:00:52Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。