論文の概要: PLAR: Prompt Learning for Action Recognition
- arxiv url: http://arxiv.org/abs/2305.12437v2
- Date: Wed, 15 Nov 2023 02:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:39:25.256581
- Title: PLAR: Prompt Learning for Action Recognition
- Title(参考訳): PLAR:行動認識のためのプロンプト学習
- Authors: Xijun Wang, Ruiqi Xian, Tianrui Guan, Dinesh Manocha
- Abstract要約: 我々は,行動認識のためのプロンプト学習(PLAR)という新しい一般学習手法を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることで,アクションラベルを予測できるように設計されている。
我々は,空中マルチエージェントデータセットOkutamamの3.110-7.2%の精度向上と地上カメラ単一エージェントデータセットSomesome V2の1.0-3.6%の改善を観察した。
- 参考スコア(独自算出の注目度): 56.57236976757388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new general learning approach, Prompt Learning for Action
Recognition (PLAR), which leverages the strengths of prompt learning to guide
the learning process. Our approach is designed to predict the action label by
helping the models focus on the descriptions or instructions associated with
actions in the input videos. Our formulation uses various prompts, including
learnable prompts, auxiliary visual information, and large vision models to
improve the recognition performance. In particular, we design a learnable
prompt method that learns to dynamically generate prompts from a pool of prompt
experts under different inputs. By sharing the same objective with the task,
our proposed PLAR can optimize prompts that guide the model's predictions while
explicitly learning input-invariant (prompt experts pool) and input-specific
(data-dependent) prompt knowledge. We evaluate our approach on datasets
consisting of both ground camera videos and aerial videos, and scenes with
single-agent and multi-agent actions. In practice, we observe a 3.17-10.2%
accuracy improvement on the aerial multi-agent dataset Okutamam and a 1.0-3.6%
improvement on the ground camera single-agent dataset Something Something V2.
We plan to release our code on the WWW.
- Abstract(参考訳): 本稿では,学習プロセスの指導に即習学習の強みを活用した,行動認識のためのプロンプト学習(PLAR)を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることにより,アクションラベルを予測する。
提案方式では,学習可能なプロンプト,補助視覚情報,大視野モデルなど様々なプロンプトを用いて認識性能を向上させる。
特に、異なる入力条件下でプロンプトの専門家のプールからプロンプトを動的に生成する学習可能なプロンプト手法を設計する。
同じ目的をタスクと共有することにより,提案するPLARは,入力不変性(プロンプトエキスパートプール)と入力固有性(データ依存)を明示的に学習しながら,モデルの予測を導くプロンプトを最適化することができる。
地上カメラビデオと空中ビデオと,単エージェントと複数エージェントのアクションを持つシーンの両方からなるデータセットに対するアプローチを評価した。
実際、航空用マルチエージェントデータセットokutamamにおける3.17-10.2%の精度向上と、地上カメラ用シングルエージェントデータセットの1.0-3.6%の改善が観察されている。
WWWでコードをリリースする予定です。
関連論文リスト
- Understanding the Multi-modal Prompts of the Pre-trained Vision-Language
Model [15.828023370166411]
我々は、以下の質問をすることで、マルチモーダルプロンプトを直接分析する。
$(i)$ 学習したマルチモーダルはどのように認識性能を向上させるのか?
$(ii)$ マルチモーダルプロンプトは何を学習しますか?
論文 参考訳(メタデータ) (2023-12-18T04:49:03Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。