論文の概要: Improving Accuracy of Zero-Shot Action Recognition with Handcrafted
Features
- arxiv url: http://arxiv.org/abs/2301.08874v1
- Date: Sat, 21 Jan 2023 03:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:58:43.264851
- Title: Improving Accuracy of Zero-Shot Action Recognition with Handcrafted
Features
- Title(参考訳): 手作り特徴を用いたゼロショット動作認識の精度向上
- Authors: Nan Wu, Hiroshi Kera, Kazuhiko Kawamoto
- Abstract要約: 本稿では,手作り機能から学習するビデオテキストマッチングモデルを提案する。
我々のモデルは単独でアクションクラスを予測することができ、その精度を向上させるために他のモデルに追加することもできる。
UCF101 と HMDB51 で得られた結果から,本モデルの精度は向上し,他のモデルの精度も向上した。
- 参考スコア(独自算出の注目度): 9.452121827324559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of machine learning, datasets for models are getting
increasingly larger. This leads to increased data annotation costs and training
time, which undoubtedly hinders the development of machine learning. To solve
this problem, zero-shot learning is gaining considerable attention. With
zero-shot learning, objects can be recognized or classified, even without
having been seen before. Nevertheless, the accuracy of this method is still
low, thus limiting its practical application. To solve this problem, we propose
a video-text matching model, which can learn from handcrafted features. Our
model can be used alone to predict the action classes and can also be added to
any other model to improve its accuracy. Moreover, our model can be
continuously optimized to improve its accuracy. We only need to manually
annotate some features, which incurs some labor costs; in many situations, the
costs are worth it. The results with UCF101 and HMDB51 show that our model
achieves the best accuracy and also improves the accuracies of other models.
- Abstract(参考訳): 機械学習の開発により、モデルのデータセットはますます大きくなっている。
これにより、データアノテーションのコストとトレーニング時間が増加し、機械学習の開発を妨げていることは間違いない。
この問題を解決するためにゼロショット学習が注目されている。
ゼロショット学習では、これまで見たことのないオブジェクトを認識または分類することができる。
それでも、この手法の精度は依然として低く、実用的な応用を制限している。
そこで本研究では,手作りの特徴から学ぶことのできるビデオテキストマッチングモデルを提案する。
我々のモデルは単独でアクションクラスを予測することができ、その精度を向上させるために他のモデルに追加することもできる。
さらに、このモデルは精度を向上させるために継続的に最適化することができる。
いくつかの機能を手動でアノテートするだけで、いくつかの労働コストが発生します。
UCF101 と HMDB51 で得られた結果から,本モデルの精度は向上し,他のモデルの精度も向上した。
関連論文リスト
- An Evaluation of Large Pre-Trained Models for Gesture Recognition using Synthetic Videos [32.257816070522885]
本研究では,大規模な事前学習モデルを用いた映像に基づくジェスチャー認識における合成データの利用の可能性を検討する。
我々は,k-nearest近辺分類に使用する特徴を抽出するために,最先端のビデオエンコーダを用いている。
その結果, 実検動画の分類精度は, 比較的少数の実検動画に比べて有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-03T02:31:14Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot
Video Understanding Tasks [3.832696393393788]
大規模な事前訓練された画像テキストモデルは、少数のタスクで驚くほどゼロショットのパフォーマンスを示している。
我々は、ゼロショット映像理解タスクのために、これらのモデルを洗練するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2022-03-24T22:35:00Z) - Learning Video Models from Text: Zero-Shot Anticipation for Procedural
Actions [30.88621433812347]
本稿では,大規模テキストコーパスから指導知識を一般化し,その知識をビデオに転送する階層モデルを提案する。
指導ビデオの一部が与えられた後、我々のモデルは、リッチな自然言語で、未来への複数のステップにおいて、一貫性のある、もっともらしい行動を認識し、予測する。
論文 参考訳(メタデータ) (2021-06-06T15:43:39Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。