論文の概要: Distance-aware Soft Prompt Learning for Multimodal Valence-Arousal Estimation
- arxiv url: http://arxiv.org/abs/2603.13415v1
- Date: Thu, 12 Mar 2026 15:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.179731
- Title: Distance-aware Soft Prompt Learning for Multimodal Valence-Arousal Estimation
- Title(参考訳): マルチモーダル値推定のための距離認識型ソフトプロンプト学習
- Authors: Byeongjin Jung, Chanyeong Park, Sejoon Lim,
- Abstract要約: 本稿では,Valence-arousal (VA)推定のための新しいフレームワークを提案する。
VA空間を3X3グリッドに分割し、9つの感情領域を定義します。
我々は、基底真理座標と領域中心の間のユークリッド距離に基づいて、ソフトラベルを計算するためにガウス核を用いる。
- 参考スコア(独自算出の注目度): 2.8037951156321377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Valence-arousal (VA) estimation is crucial for capturing the nuanced nature of human emotions in naturalistic environments. While pre-trained Vision-Language models like CLIP have shown remarkable semantic alignment capabilities, their application in continuous regression tasks is often limited by the discrete nature of text prompts. In this paper, we propose a novel multimodal framework for VA estimation that introduces Distance-aware Soft Prompt Learning to bridge the gap between semantic space and continuous dimensions. Specifically, we partition the VA space into a 3X3 grid, defining nine emotional regions, each associated with distinct textual descriptions. Rather than a hard categorization, we employ a Gaussian kernel to compute soft labels based on the Euclidean distance between the ground truth coordinates and the region centers, allowing the model to learn fine-grained emotional transitions. For multimodal integration, our architecture utilizes a CLIP image encoder and an Audio Spectrogram Transformer (AST) to extract robust spatial and acoustic features. These features are temporally modeled via Gated Recurrent Units (GRUs) and integrated through a hierarchical fusion scheme that sequentially combines cross-modal attention for alignment and gated fusion for adaptive refinement. Experimental results on the Aff-Wild2 dataset demonstrate that our proposed semantic-guided approach significantly enhances the accuracy of VA estimation, achieving competitive performance in unconstrained ``in-the-wild'' scenarios.
- Abstract(参考訳): バレンス覚醒(VA)推定は、自然環境における人間の感情のニュアンスな性質を捉えるために重要である。
CLIPのようなトレーニング済みのVision-Languageモデルは、顕著なセマンティックアライメント機能を示しているが、連続回帰タスクにおけるそれらの適用は、テキストプロンプトの離散的な性質によって制限されることが多い。
本稿では,意味空間と連続次元のギャップを埋めるため,距離対応ソフトプロンプト学習を導入したVA推定のための新しいマルチモーダルフレームワークを提案する。
具体的には、VA空間を3X3グリッドに分割し、異なるテキスト記述に関連する9つの感情領域を定義する。
ハードな分類ではなく、基底真実座標と地域中心の間のユークリッド距離に基づいてソフトラベルを計算するためにガウスカーネルを使用し、モデルがきめ細かい感情遷移を学習できるようにする。
マルチモーダル統合では,CLIP画像エンコーダとAudio Spectrogram Transformer(AST)を用いて,ロバストな空間的特徴と音響的特徴を抽出する。
これらの特徴は Gated Recurrent Units (GRUs) を介して時間的にモデル化され、階層的な融合スキームを通じて統合される。
Aff-Wild2データセットの実験結果から,提案手法はVA推定の精度を大幅に向上し,制約のない 'in-the-wild'' シナリオにおける競合性能が向上することが示された。
関連論文リスト
- Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。
NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。
3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-27T12:04:07Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing [26.57698394898644]
マルチステート・パーセプション・パラダイムに基づく新しい脱ハージング・フレームワークを提案する。
Fourier-RWKVはさまざまなヘイズシナリオにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-12-09T01:35:56Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - From Points to Spheres: A Geometric Reinterpretation of Variational Autoencoders [0.0]
変分オートエンコーダは一般に確率的推論の観点から理解される。
本研究では,確率論的視点を補完し,その直感性を向上する新しい幾何学的解釈を提案する。
論文 参考訳(メタデータ) (2025-07-23T06:52:00Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。