論文の概要: Are Visual-Language Models Effective in Action Recognition? A Comparative Study
- arxiv url: http://arxiv.org/abs/2410.17149v1
- Date: Tue, 22 Oct 2024 16:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:38.537969
- Title: Are Visual-Language Models Effective in Action Recognition? A Comparative Study
- Title(参考訳): 視覚言語モデルは行動認識に有効か? : 比較研究
- Authors: Mahmoud Ali, Di Yang, François Brémond,
- Abstract要約: 本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
- 参考スコア(独自算出の注目度): 22.97135293252601
- License:
- Abstract: Current vision-language foundation models, such as CLIP, have recently shown significant improvement in performance across various downstream tasks. However, whether such foundation models significantly improve more complex fine-grained action recognition tasks is still an open question. To answer this question and better find out the future research direction on human behavior analysis in-the-wild, this paper provides a large-scale study and insight on current state-of-the-art vision foundation models by comparing their transfer ability onto zero-shot and frame-wise action recognition tasks. Extensive experiments are conducted on recent fine-grained, human-centric action recognition datasets (e.g., Toyota Smarthome, Penn Action, UAV-Human, TSU, Charades) including action classification and segmentation.
- Abstract(参考訳): 現在のビジョン言語基盤モデル、例えばCLIPは、最近、さまざまなダウンストリームタスクのパフォーマンスが大幅に改善された。
しかし、そのような基礎モデルがより複雑なアクション認識タスクを著しく改善するかどうかは、まだ未解決の問題である。
この疑問に答え,人間の行動分析における今後の研究の方向性を明らかにするために,ゼロショットおよびフレームワイドな行動認識タスクへの伝達能力を比較することで,現在最先端のビジョン基盤モデルに関する大規模研究と洞察を提供する。
アクション分類とセグメンテーションを含む,近年の詳細な人中心型行動認識データセット(Toyota Smarthome, Penn Action, UAV-Human, TSU, Charadesなど)について,広範囲にわたる実験を行った。
関連論文リスト
- From CNNs to Transformers in Multimodal Human Action Recognition: A Survey [23.674123304219822]
人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の1つである。
近年の研究では、マルチモーダルデータを用いてこの問題に対処することで性能が向上することが示されている。
視覚モデリングにおけるトランスフォーマーの最近の増加は、アクション認識タスクのパラダイムシフトを引き起こしている。
論文 参考訳(メタデータ) (2024-05-22T02:11:18Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Spatial-Temporal Alignment Network for Action Recognition and Detection [80.19235282200697]
本稿では,行動認識と検出を支援する視点不変の特徴表現を導入する方法について検討する。
本稿では,行動認識と行動検出のための幾何学的不変表現の学習を目的とした,空間時間アライメントネットワーク(STAN)を提案する。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
論文 参考訳(メタデータ) (2020-12-04T06:23:40Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z) - A Grid-based Representation for Human Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、コンピュータビジョンにおける基本的な研究課題である。
本稿では,行動の最も識別性の高い外観情報を効率的に符号化する行動認識手法を提案する。
提案手法は, モデルが人間の行動を正確に認識できることを示すために, いくつかのベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-17T18:25:00Z) - Sensor Data for Human Activity Recognition: Feature Representation and
Benchmarking [27.061240686613182]
HAR(Human Activity Recognition)の分野は、監視装置(センサなど)から取得したデータを取得し、分析することに焦点を当てている。
我々は、異なる機械学習(ML)技術を用いて、人間のアクティビティを正確に認識する問題に対処する。
論文 参考訳(メタデータ) (2020-05-15T00:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。