Fugu-MT 論文翻訳(概要): PLAR: Prompt Learning for Action Recognition

論文の概要: PLAR: Prompt Learning for Action Recognition

arxiv url: http://arxiv.org/abs/2305.12437v2
Date: Wed, 15 Nov 2023 02:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 20:39:25.256581
Title: PLAR: Prompt Learning for Action Recognition
Title（参考訳）: PLAR:行動認識のためのプロンプト学習
Authors: Xijun Wang, Ruiqi Xian, Tianrui Guan, Dinesh Manocha
Abstract要約: 我々は,行動認識のためのプロンプト学習(PLAR)という新しい一般学習手法を提案する。提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることで,アクションラベルを予測できるように設計されている。我々は,空中マルチエージェントデータセットOkutamamの3.110-7.2%の精度向上と地上カメラ単一エージェントデータセットSomesome V2の1.0-3.6%の改善を観察した。
参考スコア（独自算出の注目度）: 56.57236976757388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a new general learning approach, Prompt Learning for Action Recognition (PLAR), which leverages the strengths of prompt learning to guide the learning process. Our approach is designed to predict the action label by helping the models focus on the descriptions or instructions associated with actions in the input videos. Our formulation uses various prompts, including learnable prompts, auxiliary visual information, and large vision models to improve the recognition performance. In particular, we design a learnable prompt method that learns to dynamically generate prompts from a pool of prompt experts under different inputs. By sharing the same objective with the task, our proposed PLAR can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. We evaluate our approach on datasets consisting of both ground camera videos and aerial videos, and scenes with single-agent and multi-agent actions. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial multi-agent dataset Okutamam and a 1.0-3.6% improvement on the ground camera single-agent dataset Something Something V2. We plan to release our code on the WWW.
Abstract（参考訳）: 本稿では,学習プロセスの指導に即習学習の強みを活用した,行動認識のためのプロンプト学習(PLAR)を提案する。提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることにより,アクションラベルを予測する。提案方式では,学習可能なプロンプト,補助視覚情報,大視野モデルなど様々なプロンプトを用いて認識性能を向上させる。特に、異なる入力条件下でプロンプトの専門家のプールからプロンプトを動的に生成する学習可能なプロンプト手法を設計する。同じ目的をタスクと共有することにより,提案するPLARは,入力不変性(プロンプトエキスパートプール)と入力固有性(データ依存)を明示的に学習しながら,モデルの予測を導くプロンプトを最適化することができる。地上カメラビデオと空中ビデオと,単エージェントと複数エージェントのアクションを持つシーンの両方からなるデータセットに対するアプローチを評価した。実際、航空用マルチエージェントデータセットokutamamにおける3.17-10.2%の精度向上と、地上カメラ用シングルエージェントデータセットの1.0-3.6%の改善が観察されている。 WWWでコードをリリースする予定です。

関連論文リスト

PVChat: Personalized Video Chat with One-Shot Learning [15.328085576102106]
PVChatは単発の学習フレームワークで、被験者ごとに単一のビデオから回答できる。提案手法は、合成強化ビデオQAデータセット上で、Mixture-of-Heads(MoH)拡張ViLLMを最適化する。医療シナリオ,テレビシリーズ,アニメ,実世界の映像を対象とした多様なデータセットを用いてPVChatを評価した。
論文参考訳（メタデータ） (2025-03-21T11:50:06Z)
PreMind: Multi-Agent Video Understanding for Advanced Indexing of Presentation-style Videos [22.39414772037232]
PreMindは講義ビデオの理解とインデクシングのための新しいマルチエージェントマルチモーダルフレームワークである。スライドの視覚的内容の抽出、音声の物語の書き起こし、これらの視覚的内容と音声的内容の統合化という3つの重要なステップを通じて、マルチモーダルインデックスを生成する。 VLMを用いた音声書き起こし誤りの検出・訂正や、視覚分析における動的反復自己回帰のための批判エージェントの利用などである。
論文参考訳（メタデータ） (2025-02-28T20:17:48Z)
Text-Enhanced Zero-Shot Action Recognition: A training-free approach [13.074211474150914]
ゼロショット映像行動認識のためのテキスト強調行動認識(TEAR)を提案する。 TEARはトレーニングフリーであり、トレーニングデータや広範な計算資源の可用性を必要としない。
論文参考訳（メタデータ） (2024-08-29T10:20:05Z)
DVANet: Disentangling View and Action Features for Multi-View Action Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文参考訳（メタデータ） (2023-12-10T01:19:48Z)
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文参考訳（メタデータ） (2023-12-04T02:31:38Z)
Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文参考訳（メタデータ） (2023-03-31T07:02:26Z)
Self-Supervised Video Representation Learning with Motion-Contrastive Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet) MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文参考訳（メタデータ） (2022-04-10T05:34:46Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-27T16:42:50Z)
Memory-augmented Dense Predictive Coding for Video Representation Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2020-08-03T17:57:01Z)
Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文参考訳（メタデータ） (2020-06-28T02:46:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。