論文の概要: Efficient Action Recognition Using Confidence Distillation
- arxiv url: http://arxiv.org/abs/2109.02137v1
- Date: Sun, 5 Sep 2021 18:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:57:40.346243
- Title: Efficient Action Recognition Using Confidence Distillation
- Title(参考訳): 自信蒸留を用いた効率的な行動認識
- Authors: Shervin Manzuri Shalmani, Fei Chiang, Rong Zheng
- Abstract要約: 本研究では,教師の不確実性の表現を学生に教える信頼性蒸留フレームワークを提案する。
我々は3つの行動認識データセットに関する広範な実験を行い、我々のフレームワークが、行動認識精度(最大20%)と計算効率(40%以上)の大幅な改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 9.028144245738247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks are powerful predictive models. However, when it comes
to recognizing that they may be wrong about their predictions, they perform
poorly. For example, for one of the most common activation functions, the ReLU
and its variants, even a well-calibrated model can produce incorrect but high
confidence predictions. In the related task of action recognition, most current
classification methods are based on clip-level classifiers that densely sample
a given video for non-overlapping, same-sized clips and aggregate the results
using an aggregation function - typically averaging - to achieve video level
predictions. While this approach has shown to be effective, it is sub-optimal
in recognition accuracy and has a high computational overhead. To mitigate both
these issues, we propose the confidence distillation framework to teach a
representation of uncertainty of the teacher to the student sampler and divide
the task of full video prediction between the student and the teacher models.
We conduct extensive experiments on three action recognition datasets and
demonstrate that our framework achieves significant improvements in action
recognition accuracy (up to 20%) and computational efficiency (more than 40%).
- Abstract(参考訳): 現代のニューラルネットワークは強力な予測モデルです。
しかし、予測が間違っている可能性があると認識した場合は、パフォーマンスが悪くなります。
例えば、最も一般的なアクティベーション関数の1つであるReLUとその変種の場合、よく校正されたモデルでさえ、誤ったが高い信頼性の予測を生成することができる。
アクション認識のタスクでは、ほとんどの現行の分類法は、クリップレベルの分類器に基づいて、重複しない同じサイズのクリップに対して所定のビデオを密にサンプリングし、その結果を集約する(通常平均化)。
このアプローチは有効であることが示されているが、認識精度が最適であり、計算オーバーヘッドが高い。
これら2つの問題を緩和するために,教師の不確実性の表現を学生サンプルに教える信頼性蒸留フレームワークを提案し,学生と教師モデルの間で全映像予測のタスクを分割する。
3つの行動認識データセットについて広範な実験を行い,提案手法が行動認識精度(最大20%)と計算効率(40%以上)の大幅な改善を実現することを実証した。
関連論文リスト
- Next Best View For Point-Cloud Model Acquisition: Bayesian Approximation and Uncertainty Analysis [2.07180164747172]
この研究は、Next-Best-View(PC-NBV)にポイントネットベースのニューラルネットワークを適用する。
モデルアーキテクチャにドロップアウト層を組み込むことで、予測に関連する不確実性推定の計算を可能にする。
本研究の目的は,次の視点を正確に予測することで,ネットワークの精度を向上させることである。
論文 参考訳(メタデータ) (2024-11-04T01:32:09Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z) - Uncertainty-sensitive Activity Recognition: a Reliability Benchmark and
the CARING Models [37.60817779613977]
本稿では,現代の行動認識アーキテクチャの信頼度が,正しい結果の確率を反映していることを示す最初の研究を行う。
新たなキャリブレーションネットワークを通じて、モデル出力を現実的な信頼性推定に変換する新しいアプローチを紹介します。
論文 参考訳(メタデータ) (2021-01-02T15:41:21Z) - Modeling Score Distributions and Continuous Covariates: A Bayesian
Approach [8.772459063453285]
連続共変量に対するマッチングと非マッチスコア分布の生成モデルを構築した。
混合モデルを用いて任意の分布と局所基底関数をキャプチャする。
提案手法の精度と有効性を示す3つの実験を行った。
論文 参考訳(メタデータ) (2020-09-21T02:41:20Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。