論文の概要: BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy
- arxiv url: http://arxiv.org/abs/2603.14361v1
- Date: Sun, 15 Mar 2026 12:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.769789
- Title: BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy
- Title(参考訳): BROTHER:不均質なアンサンブル規則化によって最適化された行動認識
- Authors: Alexandre Pereira, Bruno Fernandes, Pablo Barros,
- Abstract要約: 自然主義的なビデオ設定におけるA/H(Ambivalence and Hesitancy)は、感情コンピューティングにおいて重要な課題である。
ビデオレベルでのA/H予測のために,高度に正規化されたマルチモーダル融合パイプラインを提案する。
- 参考スコア(独自算出の注目度): 39.407739937584104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing complex behavioral states such as Ambivalence and Hesitancy (A/H) in naturalistic video settings remains a significant challenge in affective computing. Unlike basic facial expressions, A/H manifests as subtle, multimodal conflicts that require deep contextual and temporal understanding. In this paper, we propose a highly regularized, multimodal fusion pipeline to predict A/H at the video level. We extract robust unimodal features from visual, acoustic, and linguistic data, introducing a specialized statistical text modality explicitly designed to capture temporal speech variations and behavioral cues. To identify the most effective representations, we evaluate 15 distinct modality combinations across a committee of machine learning classifiers (MLP, Random Forest, and GBDT), selecting the most well-calibrated models based on validation Binary Cross-Entropy (BCE) loss. Furthermore, to optimally fuse these heterogeneous models without overfitting to the training distribution, we implement a Particle Swarm Optimization (PSO) hard-voting ensemble. The PSO fitness function dynamically incorporates a train-validation gap penalty (lambda) to actively suppress redundant or overfitted classifiers. Our comprehensive evaluation demonstrates that while linguistic features serve as the strongest independent predictor of A/H, our heavily regularized PSO ensemble (lambda = 0.2) effectively harnesses multimodal synergies, achieving a peak Macro F1-score of 0.7465 on the unseen test set. These results emphasize that treating ambivalence and hesitancy as a multimodal conflict, evaluated through an intelligently weighted committee, provides a robust framework for in-the-wild behavioral analysis.
- Abstract(参考訳): 自然主義的なビデオ設定において、AmbivalenceやHesitancy(A/H)のような複雑な行動状態を認識することは、感情コンピューティングにおいて重要な課題である。
基本的な表情とは異なり、A/Hは深い文脈的・時間的理解を必要とする微妙で多モーダルな対立である。
本稿では,ビデオレベルでのA/H予測のための高正規化マルチモーダル融合パイプラインを提案する。
視覚的,音響的,言語的データから頑健な一助的特徴を抽出し,時間的音声の変動や行動の手がかりを正確に把握するために設計された,特殊な統計的テキストモダリティを導入する。
最も効果的な表現を特定するために,機械学習分類器(MLP,ランダムフォレスト,GBDT)の委員会間で15の異なるモダリティの組み合わせを評価し,検証の2次クロスエントロピー(BCE)の損失に基づいて,最もよく校正されたモデルを選択する。
さらに,これらの異種モデルをトレーニング分布に過度に適合させることなく最適に融合させるため,PSO(Particle Swarm Optimization)のハード発声アンサンブルを実装した。
PSOフィットネス機能は、冗長または過度に適合した分類器を積極的に抑制するために、列車価ギャップペナルティ(ラムダ)を動的に組み込む。
我々の総合的な評価は、言語的特徴がA/Hの最も強い独立予測器として機能するのに対し、高度に正規化されたPSOアンサンブル(lambda = 0.2)はマルチモーダルなシナジーを効果的に利用し、未確認テストセットで最大0.7465のマクロF1スコアを達成していることを示している。
これらの結果は、知的な重み付け委員会を通じて評価されたマルチモーダル・コンフリクトとして、アンビバレンスとヘシタシーを扱い、知的な行動分析のための堅牢な枠組みを提供することを強調している。
関連論文リスト
- Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - A Generalized Adaptive Joint Learning Framework for High-Dimensional Time-Varying Models [0.8594140167290097]
本稿では,機能的変数選択と構造的変化点検出を同時に行うための正規化フレームワークであるAdaptive Joint Learning (AJL)を紹介する。
この分析は、疾患進行の同期相転移を明らかにし、時間変化の予測マーカーの相同的なセットを同定する。
論文 参考訳(メタデータ) (2026-01-08T02:07:49Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator [54.562217603802075]
帰納的バイアスを伴う最終層において,自然性(美容性)とアライメントを別々に投影するSONA(Sum of Naturalness and Alignment)を導入する。
クラス条件生成タスクの実験により、SONAは最先端の手法に比べて優れたサンプル品質と条件アライメントを達成することが示された。
論文 参考訳(メタデータ) (2025-10-06T08:26:06Z) - Towards Minimal Causal Representations for Human Multimodal Language Understanding [20.44307628909198]
従来の可能性よりも因果原理を活用する因果多様情報ボトルネック(CaMIB)モデルを導入する。
因果的特徴のグローバルな整合性を確保するため,器用変数制約を組み込む。
マルチモーダル感情分析、ユーモア検出、およびサルカズム検出の実験は、OODテストセットとともに、CaMIBの有効性を実証した。
論文 参考訳(メタデータ) (2025-09-26T03:04:23Z) - Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation [12.308473939796945]
画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに高密度なタスクを実現することを目的としている。
WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製の段階では、あいまいさに悩まされている。
統一された単一ステージWSSSフレームワークであるUniAを提案し、不確実性推論と親和性多様化の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-12T01:54:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。