論文の概要: Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation
- arxiv url: http://arxiv.org/abs/2603.11468v1
- Date: Thu, 12 Mar 2026 02:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.825896
- Title: Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation
- Title(参考訳): 連続妥当性推定のための段階適応信頼性モデリング
- Authors: Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil Park,
- Abstract要約: 本稿では,マルチモーダル統合におけるモダリティの信頼度を明示的に推定・校正する段階適応型信頼度モデリングフレームワークを提案する。
SAGEは、ステージ依存の情報量に応じて音声と視覚の表現を動的に再バランスする信頼性に配慮した融合機構を導入している。
Aff-Wild2ベンチマークの実験では、SAGEは既存のマルチモーダル融合法と比較して、一致相関係数のスコアを一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 11.761508894410182
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continuous valence-arousal estimation in real-world environments is challenging due to inconsistent modality reliability and interaction-dependent variability in audio-visual signals. Existing approaches primarily focus on modeling temporal dynamics, often overlooking the fact that modality reliability can vary substantially across interaction stages. To address this issue, we propose SAGE, a Stage-Adaptive reliability modeling framework that explicitly estimates and calibrates modality-wise confidence during multimodal integration. SAGE introduces a reliability-aware fusion mechanism that dynamically rebalances audio and visual representations according to their stage-dependent informativeness, preventing unreliable signals from dominating the prediction process. By separating reliability estimation from feature representation, the proposed framework enables more stable emotion estimation under cross-modal noise, occlusion, and varying interaction conditions. Extensive experiments on the Aff-Wild2 benchmark demonstrate that SAGE consistently improves concordance correlation coefficient scores compared with existing multimodal fusion approaches, highlighting the effectiveness of reliability-driven modeling for continuous affect prediction.
- Abstract(参考訳): 実環境における連続原子価-覚醒推定は、音響視覚信号における不整合のモダリティの信頼性と相互作用依存のばらつきにより困難である。
既存のアプローチは主に時間力学のモデリングに重点を置いており、しばしばモーダリティの信頼性が相互作用の段階によって大きく異なるという事実を見落としている。
この問題に対処するため、我々はSAGEを提案する。SAGEは段階適応型信頼性モデリングフレームワークで、マルチモーダル統合時のモダリティの信頼性を明示的に推定し、校正する。
SAGEは、ステージ依存の情報量に応じて音声と視覚の表現を動的に再バランスさせ、信頼できない信号が予測プロセスを支配するのを防ぐ信頼性の高い融合機構を導入している。
特徴表現から信頼性推定を分離することにより、クロスモーダルノイズ、閉塞、様々な相互作用条件下でのより安定した感情推定を可能にする。
Aff-Wild2ベンチマークの大規模な実験により、SAGEは既存のマルチモーダル融合法と比較してコンコータンス相関係数のスコアを一貫して改善し、信頼性駆動モデリングによる継続的影響予測の有効性を強調した。
関連論文リスト
- Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities [26.613566093134065]
マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚的手がかりを統合することで人間の感情を推測する。
既存のアプローチでは、すべてのモダリティが完全であるのに対して、現実のアプリケーションは、ノイズやハードウェアの障害、あるいはモダリティの欠如につながるプライバシー制限にしばしば遭遇する。
我々は、不確実なモダリティ条件下でMSA用に設計されたプログレッシブ表現学習フレームワークPRLFを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:45:02Z) - Uncertainty-Resilient Multimodal Learning via Consistency-Guided Cross-Modal Transfer [0.0]
この論文は、整合性誘導型クロスモーダルトランスファーによる不確実性と弾力性のあるマルチモーダル学習を探求する。
中心となる考え方は、堅牢な表現学習の基盤として、クロスモーダルなセマンティック一貫性を使用することである。
この基礎の上に構築された論文は、セマンティックロバスト性を高め、データ効率を向上し、ノイズや不完全な監視の影響を減らすための戦略を調査する。
論文 参考訳(メタデータ) (2025-11-18T15:26:42Z) - Contrastive Knowledge Transfer and Robust Optimization for Secure Alignment of Large Language Models [9.353236468990945]
本稿では,安全アライメントとロバストネスにおける大規模言語モデルの限界に対処する。
コントラスト蒸留とノイズロバストトレーニングを組み合わせた微調整法を提案する。
その結果,本手法は知識伝達,堅牢性,全体的な安全性において,既存のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-10-31T00:54:33Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning [26.369237406972577]
視覚中心のセマンティック占有予測は、自律運転において重要な役割を果たす。
カメラからのセマンティック占有率を予測するための信頼性を探求する研究は、まだ少ない。
本稿では,カメラによる占有ネットワークの信頼性向上を目的としたReliOccを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:33:16Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。