論文の概要: Improving Zero-Shot Action Recognition using Human Instruction with Text
Description
- arxiv url: http://arxiv.org/abs/2301.08874v2
- Date: Mon, 12 Jun 2023 08:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 01:29:36.345066
- Title: Improving Zero-Shot Action Recognition using Human Instruction with Text
Description
- Title(参考訳): テキスト記述によるヒューマンインストラクションによるゼロショット動作認識の改善
- Authors: Nan Wu, Hiroshi Kera, Kazuhiko Kawamoto
- Abstract要約: 本研究では,テキスト記述による人間の指示によるゼロショット動作認識を改善する枠組みを提案する。
提案フレームワークは手動で映像コンテンツを記述し,作業コストの低減を図る。
アクションごとにテキストの特徴を手動でアノテートします。
- 参考スコア(独自算出の注目度): 9.452121827324559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot action recognition, which recognizes actions in videos without
having received any training examples, is gaining wide attention considering it
can save labor costs and training time. Nevertheless, the performance of
zero-shot learning is still unsatisfactory, which limits its practical
application. To solve this problem, this study proposes a framework to improve
zero-shot action recognition using human instructions with text descriptions.
The proposed framework manually describes video contents, which incurs some
labor costs; in many situations, the labor costs are worth it. We manually
annotate text features for each action, which can be a word, phrase, or
sentence. Then by computing the matching degrees between the video and all text
features, we can predict the class of the video. Furthermore, the proposed
model can also be combined with other models to improve its accuracy. In
addition, our model can be continuously optimized to improve the accuracy by
repeating human instructions. The results with UCF101 and HMDB51 showed that
our model achieved the best accuracy and improved the accuracies of other
models.
- Abstract(参考訳): ゼロショットアクション認識は、トレーニングサンプルを受けずに動画のアクションを認識するもので、労働コストとトレーニング時間を節約できるため、広く注目を集めている。
それでもゼロショット学習のパフォーマンスは依然として不十分であり、実用性は制限されている。
そこで本研究では,テキスト記述による人間の指示によるゼロショット動作認識を改善する枠組みを提案する。
提案手法では,ビデオコンテンツの記述を手作業で行い,作業コストを発生させる。
各アクションに対してテキストの特徴を手作業でアノテートします。
そして、ビデオとすべてのテキスト機能とのマッチング度を計算することで、ビデオのクラスを予測することができる。
さらに、提案モデルは他のモデルと組み合わせて精度を向上させることもできる。
さらに,人間の指示を繰り返すことで精度を向上させるために,モデルを継続的に最適化することができる。
UCF101 と HMDB51 で得られた結果から,本モデルの精度が向上し,他のモデルの精度が向上した。
関連論文リスト
- An Evaluation of Large Pre-Trained Models for Gesture Recognition using Synthetic Videos [32.257816070522885]
本研究では,大規模な事前学習モデルを用いた映像に基づくジェスチャー認識における合成データの利用の可能性を検討する。
我々は,k-nearest近辺分類に使用する特徴を抽出するために,最先端のビデオエンコーダを用いている。
その結果, 実検動画の分類精度は, 比較的少数の実検動画に比べて有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-03T02:31:14Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot
Video Understanding Tasks [3.832696393393788]
大規模な事前訓練された画像テキストモデルは、少数のタスクで驚くほどゼロショットのパフォーマンスを示している。
我々は、ゼロショット映像理解タスクのために、これらのモデルを洗練するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2022-03-24T22:35:00Z) - Learning Video Models from Text: Zero-Shot Anticipation for Procedural
Actions [30.88621433812347]
本稿では,大規模テキストコーパスから指導知識を一般化し,その知識をビデオに転送する階層モデルを提案する。
指導ビデオの一部が与えられた後、我々のモデルは、リッチな自然言語で、未来への複数のステップにおいて、一貫性のある、もっともらしい行動を認識し、予測する。
論文 参考訳(メタデータ) (2021-06-06T15:43:39Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。