論文の概要: POET: Prompt Offset Tuning for Continual Human Action Adaptation
- arxiv url: http://arxiv.org/abs/2504.18059v1
- Date: Fri, 25 Apr 2025 04:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.638009
- Title: POET: Prompt Offset Tuning for Continual Human Action Adaptation
- Title(参考訳): POET:人間行動適応のためのプロンプトオフセットチューニング
- Authors: Prachi Garg, Joseph K J, Vineeth N Balasubramanian, Necati Cihan Camgoz, Chengde Wan, Kenrick Kin, Weiguang Si, Shugao Ma, Fernando De La Torre,
- Abstract要約: ユーザと開発者に対して,デバイスモデルに新たなアクションクラスを継続的に追加することで,エクスペリエンスをパーソナライズする機能の提供を目標としています。
我々はこれをプライバシーに配慮した数発の連続的な行動認識として定式化する。
本稿では,新しい時間的学習可能なプロンプトチューニング手法を提案し,グラフニューラルネットワークにこのようなプロンプトチューニングを適用した。
- 参考スコア(独自算出の注目度): 61.63831623094721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As extended reality (XR) is redefining how users interact with computing devices, research in human action recognition is gaining prominence. Typically, models deployed on immersive computing devices are static and limited to their default set of classes. The goal of our research is to provide users and developers with the capability to personalize their experience by adding new action classes to their device models continually. Importantly, a user should be able to add new classes in a low-shot and efficient manner, while this process should not require storing or replaying any of user's sensitive training data. We formalize this problem as privacy-aware few-shot continual action recognition. Towards this end, we propose POET: Prompt-Offset Tuning. While existing prompt tuning approaches have shown great promise for continual learning of image, text, and video modalities; they demand access to extensively pretrained transformers. Breaking away from this assumption, POET demonstrates the efficacy of prompt tuning a significantly lightweight backbone, pretrained exclusively on the base class data. We propose a novel spatio-temporal learnable prompt offset tuning approach, and are the first to apply such prompt tuning to Graph Neural Networks. We contribute two new benchmarks for our new problem setting in human action recognition: (i) NTU RGB+D dataset for activity recognition, and (ii) SHREC-2017 dataset for hand gesture recognition. We find that POET consistently outperforms comprehensive benchmarks. Source code at https://github.com/humansensinglab/POET-continual-action-recognition.
- Abstract(参考訳): 拡張現実(XR)は、ユーザーがコンピュータデバイスとどのように相互作用するかを再定義するにつれ、人間の行動認識の研究が注目を集めている。
通常、没入型コンピューティングデバイスにデプロイされるモデルは静的であり、デフォルトのクラスセットに制限される。
本研究の目的は,デバイスモデルに新たなアクションクラスを継続的に追加することにより,ユーザと開発者に対して,自身のエクスペリエンスをパーソナライズする能力を提供することである。
重要なことは、ユーザーはローショットで効率的な方法で新しいクラスを追加できなければならないが、このプロセスはユーザーの敏感なトレーニングデータの保存や再生を必要としない。
我々はこの問題を、プライバシーに配慮した数発の連続的な行動認識として定式化する。
この目的に向けて、我々はPOET: Prompt-Offset Tuningを提案する。
既存のプロンプトチューニングアプローチは、画像、テキスト、ビデオのモダリティを継続的に学習する大きな可能性を示しているが、彼らは広範囲に事前訓練されたトランスフォーマーへのアクセスを要求する。
この前提から外れて、POETは、ベースクラスデータにのみ事前訓練された、非常に軽量なバックボーンを迅速にチューニングする効果を実証する。
本稿では,新しい時空間学習型プロンプトオフセットチューニング手法を提案し,グラフニューラルネットワークにこのようなプロンプトチューニングを適用した。
我々は、人間の行動認識における新しい問題設定に2つの新しいベンチマークを貢献する。
一 活動認識のためのNTU RGB+Dデータセット及び
(ii)手ジェスチャー認識のためのSHREC-2017データセット。
POETは包括的なベンチマークより一貫して優れています。
ソースコードはhttps://github.com/ Humansensinglab/POET-continual-action-recognitionにある。
関連論文リスト
- PEARL: Input-Agnostic Prompt Enhancement with Negative Feedback Regulation for Class-Incremental Learning [17.819582979803286]
クラスインクリメンタルラーニング(CIL)は,従来学習されていたクラスを忘れずに,新しいカテゴリを分類システムに継続的に導入することを目的としている。
CILでは、事前学習した知識に合わせてデータ分散を調整できるため、プロンプト学習が採用されている。
本稿では,素早い学習の観点から,既存の手法の限界を批判的に検討する。
論文 参考訳(メタデータ) (2024-12-14T17:13:30Z) - Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Remind of the Past: Incremental Learning with Analogical Prompts [30.333352182303038]
即時チューニングにより,新しいデータを古いクラスに再マップするアナロジー生成機構を設計する。
これは、新しいクラスのサンプルのみを使用して、古いモデルのターゲットの古いクラスのフィーチャ分布を模倣する。
学習プロンプトは、歴史的プロトタイプの微調整による表現シフトを推定し、対処するためにさらに使用される。
論文 参考訳(メタデータ) (2023-03-24T10:18:28Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - Incremental Real-Time Personalization in Human Activity Recognition
Using Domain Adaptive Batch Normalization [1.160208922584163]
スマートフォン加速度計などのデバイスからのヒューマンアクティビティ認識(HAR)はユビキタスコンピューティングの基本的な問題である。
従来の作業では、一般的な認識モデルを静的バッチ設定で新しいユーザのユニークな動作パターンにパーソナライズすることで、この問題に対処してきた。
我々の研究は、教師なしのオンラインドメイン適応アルゴリズムを提案することによって、これらの課題に対処する。
論文 参考訳(メタデータ) (2020-05-25T15:49:10Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。