論文の概要: Ego-Vehicle Action Recognition based on Semi-Supervised Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2303.00977v1
- Date: Thu, 2 Mar 2023 05:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:02:45.075253
- Title: Ego-Vehicle Action Recognition based on Semi-Supervised Contrastive
Learning
- Title(参考訳): 半教師付きコントラスト学習に基づく車載行動認識
- Authors: Chihiro Noguchi, Toshihiro Tanizawa
- Abstract要約: 我々は,自走車行動に着目して,適切な映像間距離を定義することができることを示す。
教師付き学習に基づく既存の方法は、事前に定義されたクラスに該当しないビデオを扱うことができない。
半教師付きコントラスト学習に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, many automobiles have been equipped with cameras, which have
accumulated an enormous amount of video footage of driving scenes. Autonomous
driving demands the highest level of safety, for which even unimaginably rare
driving scenes have to be collected in training data to improve the recognition
accuracy for specific scenes. However, it is prohibitively costly to find very
few specific scenes from an enormous amount of videos. In this article, we show
that proper video-to-video distances can be defined by focusing on ego-vehicle
actions. It is well known that existing methods based on supervised learning
cannot handle videos that do not fall into predefined classes, though they work
well in defining video-to-video distances in the embedding space between
labeled videos. To tackle this problem, we propose a method based on
semi-supervised contrastive learning. We consider two related but distinct
contrastive learning: standard graph contrastive learning and our proposed
SOIA-based contrastive learning. We observe that the latter approach can
provide more sensible video-to-video distances between unlabeled videos. Next,
the effectiveness of our method is quantified by evaluating the classification
performance of the ego-vehicle action recognition using HDD dataset, which
shows that our method including unlabeled data in training significantly
outperforms the existing methods using only labeled data in training.
- Abstract(参考訳): 近年、多くの自動車にはカメラが搭載されており、運転シーンのビデオ映像が大量に蓄積されている。
自動運転は、特定のシーンの認識精度を向上させるために、トレーニングデータに想像できないほど稀な運転シーンを収集する必要がある。
しかし、膨大な数のビデオから特定のシーンを見つけるのは、非常にコストがかかる。
本稿では,自走車行動に着目して,適切な映像間距離を定義できることを示す。
教師あり学習に基づく既存の手法では,事前に定義されたクラスに収まらない動画は処理できないことが知られているが,ラベル付きビデオ間の埋め込み空間におけるビデオ間距離の定義には有効である。
そこで本研究では,半教師付きコントラスト学習に基づく手法を提案する。
我々は,標準グラフコントラスト学習とSOIAに基づくコントラスト学習という,関連するが明確なコントラスト学習について考察する。
後者の手法は、ラベルなしビデオ間のより高感度なビデオ間距離を提供する。
次に、hddデータセットを用いた車体行動認識の分類性能を評価することにより、トレーニング中のラベルなしデータを含む手法が、トレーニング中のラベル付きデータのみを使用して既存の手法を大幅に上回ることを示すことにより、本手法の有効性を定量化する。
関連論文リスト
- Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。