Fugu-MT 論文翻訳(概要): SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition

論文の概要: SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition

arxiv url: http://arxiv.org/abs/2305.12437v4
Date: Wed, 28 Aug 2024 16:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 21:40:54.913909
Title: SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition
Title（参考訳）: SCP:空中ビデオ行動認識のためのソフト・コンディショナル・プロンプト学習
Authors: Xijun Wang, Ruiqi Xian, Tianrui Guan, Fuxiao Liu, Dinesh Manocha,
Abstract要約: 本研究では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。
参考スコア（独自算出の注目度）: 48.456059482589495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a new learning approach, Soft Conditional Prompt Learning (SCP), which leverages the strengths of prompt learning for aerial video action recognition. Our approach is designed to predict the action of each agent by helping the models focus on the descriptions or instructions associated with actions in the input videos for aerial/robot visual perception. Our formulation supports various prompts, including learnable prompts, auxiliary visual information, and large vision models to improve the recognition performance. We present a soft conditional prompt method that learns to dynamically generate prompts from a pool of prompt experts under different video inputs. By sharing the same objective with the task, our proposed SCP can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial video datasets (Okutama, NECDrone), which consist of scenes with single-agent and multi-agent actions. We further evaluate our approach on ground camera videos to verify the effectiveness and generalization and achieve a 1.0-3.6% improvement on dataset SSV2. We integrate our method into the ROS2 as well.
Abstract（参考訳）: 本稿では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。我々の定式化は、学習可能なプロンプト、補助的な視覚情報、認識性能を改善するための大きな視覚モデルなど、様々なプロンプトをサポートする。本稿では,映像入力の異なるプロンプト専門家のプールからプロンプトを動的に生成するソフト条件プロンプト法を提案する。同じ目的をタスクと共有することにより、提案したSCPは、入力不変性(プロンプトエキスパートプール)と入力固有性(データ依存)のプロンプト知識を明示的に学習しながら、モデルの予測を導くプロンプトを最適化することができる。実際には、単エージェントと複数エージェントのアクションからなるシーンからなる空中ビデオデータセット(Okutama, NECDrone)の3.17-10.2%の精度向上が観察されている。さらに,地上カメラ映像に対するアプローチを評価し,その有効性と一般化を検証し,データセットSSV2の1.0～3.6%の改善を実現した。当社のメソッドもROS2に統合しています。

関連論文リスト

PVChat: Personalized Video Chat with One-Shot Learning [15.328085576102106]
PVChatは単発の学習フレームワークで、被験者ごとに単一のビデオから回答できる。提案手法は、合成強化ビデオQAデータセット上で、Mixture-of-Heads(MoH)拡張ViLLMを最適化する。医療シナリオ,テレビシリーズ,アニメ,実世界の映像を対象とした多様なデータセットを用いてPVChatを評価した。
論文参考訳（メタデータ） (2025-03-21T11:50:06Z)
PreMind: Multi-Agent Video Understanding for Advanced Indexing of Presentation-style Videos [22.39414772037232]
PreMindは講義ビデオの理解とインデクシングのための新しいマルチエージェントマルチモーダルフレームワークである。スライドの視覚的内容の抽出、音声の物語の書き起こし、これらの視覚的内容と音声的内容の統合化という3つの重要なステップを通じて、マルチモーダルインデックスを生成する。 VLMを用いた音声書き起こし誤りの検出・訂正や、視覚分析における動的反復自己回帰のための批判エージェントの利用などである。
論文参考訳（メタデータ） (2025-02-28T20:17:48Z)
Text-Enhanced Zero-Shot Action Recognition: A training-free approach [13.074211474150914]
ゼロショット映像行動認識のためのテキスト強調行動認識(TEAR)を提案する。 TEARはトレーニングフリーであり、トレーニングデータや広範な計算資源の可用性を必要としない。
論文参考訳（メタデータ） (2024-08-29T10:20:05Z)
DVANet: Disentangling View and Action Features for Multi-View Action Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文参考訳（メタデータ） (2023-12-10T01:19:48Z)
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文参考訳（メタデータ） (2023-12-04T02:31:38Z)
Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文参考訳（メタデータ） (2023-03-31T07:02:26Z)
Self-Supervised Video Representation Learning with Motion-Contrastive Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet) MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文参考訳（メタデータ） (2022-04-10T05:34:46Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-27T16:42:50Z)
Memory-augmented Dense Predictive Coding for Video Representation Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2020-08-03T17:57:01Z)
Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文参考訳（メタデータ） (2020-06-28T02:46:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。