論文の概要: Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning
- arxiv url: http://arxiv.org/abs/2312.03703v2
- Date: Sun, 2 Jun 2024 07:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:01:52.209807
- Title: Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning
- Title(参考訳): スケルトン・イン・コンテクスト:インコンテキスト学習を用いた統一スケルトンシーケンスモデリング
- Authors: Xinshun Wang, Zhongbin Fang, Xia Li, Xiangtai Li, Mengyuan Liu,
- Abstract要約: In-context Learningは、視覚とNLPのためのマルチタスクモデリングの新しい視点を提供する。
In-context skeleton sequence modeling のための効果的なフレームワークである Skeleton-in-Context を提案する。
我々のモデルは、最先端のマルチタスク性能を実現し、特定のタスクにおいてシングルタスクメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 23.846476546733406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning provides a new perspective for multi-task modeling for vision and NLP. Under this setting, the model can perceive tasks from prompts and accomplish them without any extra task-specific head predictions or model fine-tuning. However, Skeleton sequence modeling via in-context learning remains unexplored. Directly applying existing in-context models from other areas onto skeleton sequences fails due to the inter-frame and cross-task pose similarity that makes it outstandingly hard to perceive the task correctly from a subtle context. To address this challenge, we propose Skeleton-in-Context (SiC), an effective framework for in-context skeleton sequence modeling. Our SiC is able to handle multiple skeleton-based tasks simultaneously after a single training process and accomplish each task from context according to the given prompt. It can further generalize to new, unseen tasks according to customized prompts. To facilitate context perception, we additionally propose a task-unified prompt, which adaptively learns tasks of different natures, such as partial joint-level generation, sequence-level prediction, or 2D-to-3D motion prediction. We conduct extensive experiments to evaluate the effectiveness of our SiC on multiple tasks, including motion prediction, pose estimation, joint completion, and future pose estimation. We also evaluate its generalization capability on unseen tasks such as motion-in-between. These experiments show that our model achieves state-of-the-art multi-task performance and even outperforms single-task methods on certain tasks.
- Abstract(参考訳): In-context Learningは、視覚とNLPのためのマルチタスクモデリングの新しい視点を提供する。
この設定下では、モデルはプロンプトからタスクを知覚し、追加のタスク固有のヘッド予測やモデル微調整なしでそれらを達成することができる。
しかし、文脈内学習によるスケルトンシーケンスモデリングはいまだに未解明である。
他の領域から既存のインコンテキストモデルをスケルトンシーケンスに直接適用することは、フレーム間およびクロスタスクが類似しているため失敗し、微妙なコンテキストからタスクを正しく知覚することが著しく困難になる。
この課題に対処するために,テキスト内スケルトンシーケンスモデリングに有効なフレームワークであるSkeleton-in-Context(SiC)を提案する。
私たちのSiCは、単一のトレーニングプロセスの後に複数のスケルトンベースのタスクを同時に処理し、与えられたプロンプトに従ってコンテキストから各タスクを達成できます。
カスタマイズされたプロンプトに従って、新しい、目に見えないタスクにさらに一般化することができる。
文脈認識を容易にするために,部分的な関節レベル生成,シーケンスレベル予測,および2D-to-3D動作予測など,異なる性質のタスクを適応的に学習するタスク統一プロンプトを提案する。
我々は、動作予測、ポーズ推定、共同完了、将来のポーズ推定を含む複数のタスクにおけるSiCの有効性を評価するために、広範囲な実験を行った。
また,その一般化能力についても検討した。
これらの実験により、我々のモデルは最先端のマルチタスク性能を達成し、特定のタスクにおいて単一タスクの手法よりも優れることが示された。
関連論文リスト
- Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z) - Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。
我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。
このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文 参考訳(メタデータ) (2020-02-21T20:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。