論文の概要: SCALE: Semantic- and Confidence-Aware Conditional Variational Autoencoder for Zero-shot Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2604.02222v1
- Date: Thu, 02 Apr 2026 16:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.913152
- Title: SCALE: Semantic- and Confidence-Aware Conditional Variational Autoencoder for Zero-shot Skeleton-based Action Recognition
- Title(参考訳): SCALE:Zero-shot Skeleton-based Action Recognitionのためのセマンティックおよび信頼性を考慮した条件変分オートエンコーダ
- Authors: Soroush Oraki, Feng Ding, Jie Liang,
- Abstract要約: ゼロショットスケルトンに基づくアクション認識(ZSAR)は、これらのクラスからのトレーニングスケルトンなしでアクションクラスを認識することを目的としている。
本稿では,ZSARをクラス条件エネルギーランキングとして定式化する,軽量で決定論的セマンティックなセマンティック・アンド・信頼を意識したエネルギーベースフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.853241666510524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot skeleton-based action recognition (ZSAR) aims to recognize action classes without any training skeletons from those classes, relying instead on auxiliary semantics from text. Existing approaches frequently depend on explicit skeleton-text alignment, which can be brittle when action names underspecify fine-grained dynamics and when unseen classes are semantically confusable. We propose SCALE, a lightweight and deterministic Semantic- and Confidence-Aware Listwise Energy-based framework that formulates ZSAR as class-conditional energy ranking. SCALE builds a text-conditioned Conditional Variational Autoencoder where frozen text representations parameterize both the latent prior and the decoder, enabling likelihood-based evaluation for unseen classes without generating samples at test time. To separate competing hypotheses, we introduce a semantic- and confidence-aware listwise energy loss that emphasizes semantically similar hard negatives and incorporates posterior uncertainty to adapt decision margins and reweight ambiguous training instances. Additionally, we utilize a latent prototype contrast objective to align posterior means with text-derived latent prototypes, improving semantic organization and class separability without direct feature matching. Experiments on NTU-60 and NTU-120 datasets show that SCALE consistently improves over prior VAE- and alignment-based baselines while remaining competitive with diffusion-based methods.
- Abstract(参考訳): ゼロショットスケルトンに基づくアクション認識(ZSAR)は、テキストからの補助的なセマンティクスに頼るのではなく、これらのクラスからのトレーニングスケルトンなしでアクションクラスを認識することを目的としている。
既存のアプローチはしばしば明示的なスケルトン・テキストのアライメントに依存しており、アクション名が微粒なダイナミックスや、目に見えないクラスが意味的に不明瞭な場合に脆くすることができる。
そこで我々は,ZSARをクラス条件エネルギーランキングとして定式化した,軽量で決定論的セマンティックなセマンティック・アンド・信頼を意識したエネルギーベースフレームワークであるSCALEを提案する。
SCALEはテキスト条件付き条件付き変分自動エンコーダを構築しており、凍結したテキスト表現が潜伏前と復号前の両方をパラメータ化し、テスト時にサンプルを生成することなく、未確認のクラスに対する可能性に基づく評価を可能にする。
競合する仮説を分離するために、意味論的に類似した強みを強調し、後続の不確実性を取り入れたセマンティックおよび信頼性に配慮したエネルギー損失を導入する。
さらに、潜在プロトタイプのコントラスト目標を用いて、後進手段をテキスト由来の潜在プロトタイプと整列させ、直接特徴マッチングなしで意味的構造とクラス分離性を向上させる。
NTU-60とNTU-120データセットの実験は、SCALEが拡散ベースの手法と競合しながらも、以前のVAEおよびアライメントベースのベースラインよりも一貫して改善されていることを示している。
関連論文リスト
- CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Semantic-Aware Confidence Calibration for Automated Audio Captioning [0.0]
本稿では,信頼度予測を音声キャプションに統合し,意味的類似性を通じて正確性を再定義するフレームワークを提案する。
以上の結果から,従来のn-gram測定値よりも,音声キャプションの信頼性校正に意味のある基礎となるセマンティックな類似性が示唆された。
論文 参考訳(メタデータ) (2025-12-11T00:09:23Z) - Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-11-12T14:54:53Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Discriminative Language Model as Semantic Consistency Scorer for
Prompt-based Few-Shot Text Classification [10.685862129925727]
本稿では,テキスト分類のための新しいプロンプトベースファインタニング手法(DLM-SCS)を提案する。
根底にある考え方は、真のラベルでインスタンス化されたプロンプトは、偽ラベルを持つ他のプロンプトよりも高いセマンティック一貫性スコアを持つべきであるということである。
我々のモデルは、最先端のプロンプトベースの複数ショット法より優れています。
論文 参考訳(メタデータ) (2022-10-23T16:10:48Z) - Latent Embedding Feedback and Discriminative Features for Zero-Shot
Classification [139.44681304276]
ゼロショット学習は、トレーニング中にデータが利用できない、見えないカテゴリを分類することを目的としている。
Generative Adrial Networksは、クラス固有のセマンティック埋め込みを利用して、目に見えないクラス機能を合成する。
我々は,ゼロショット学習のすべての段階において,意味的一貫性を強制することを提案する。
論文 参考訳(メタデータ) (2020-03-17T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。