論文の概要: Multimodal Fusion with Semi-Supervised Learning Minimizes Annotation Quantity for Modeling Videoconference Conversation Experience
- arxiv url: http://arxiv.org/abs/2506.13971v1
- Date: Sun, 01 Jun 2025 01:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.649645
- Title: Multimodal Fusion with Semi-Supervised Learning Minimizes Annotation Quantity for Modeling Videoconference Conversation Experience
- Title(参考訳): ビデオ会議会話体験のモデル化のためのアノテーション量最小化のための半教師付き学習によるマルチモーダルフュージョン
- Authors: Andrew Chang, Chenkai Hu, Ji Qi, Zhuojian Wei, Kexin Zhang, Viswadruth Akkaraju, David Poeppel, Dustin Freeman,
- Abstract要約: 準教師あり学習を用いて,ビデオ会議セッションにおける非流動的あるいは不快な瞬間を予測する。
モダリティを融合したコトレーニングSSLは、ROC-AUC0.9とF1スコア0.6を達成し、同じラベル付きデータで最大4%の差でSLモデルを上回った。
- 参考スコア(独自算出の注目度): 4.850721166179267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group conversations over videoconferencing are a complex social behavior. However, the subjective moments of negative experience, where the conversation loses fluidity or enjoyment remain understudied. These moments are infrequent in naturalistic data, and thus training a supervised learning (SL) model requires costly manual data annotation. We applied semi-supervised learning (SSL) to leverage targeted labeled and unlabeled clips for training multimodal (audio, facial, text) deep features to predict non-fluid or unenjoyable moments in holdout videoconference sessions. The modality-fused co-training SSL achieved an ROC-AUC of 0.9 and an F1 score of 0.6, outperforming SL models by up to 4% with the same amount of labeled data. Remarkably, the best SSL model with just 8% labeled data matched 96% of the SL model's full-data performance. This shows an annotation-efficient framework for modeling videoconference experience.
- Abstract(参考訳): ビデオ会議に関するグループ会話は複雑な社会的行動である。
しかし、会話が流動性や楽しさを失うネガティブな経験の主観的な瞬間はいまだ検討されていない。
これらのモーメントは自然科学的なデータではまれであり、教師付き学習(SL)モデルのトレーニングには手作業によるアノテーションが必要となる。
音声, 顔, テキスト) の深層特徴を学習するために, 準教師あり学習 (SSL) を適用し, ビデオ会議セッションにおける非流動的あるいは不快な瞬間を予測する。
モダリティを融合したコトレーニングSSLは、ROC-AUC0.9とF1スコア0.6を達成し、同じラベル付きデータで最大4%の差でSLモデルを上回った。
注目すべきは、8%のラベル付きデータで最高のSSLモデルは、SLモデルのフルデータパフォーマンスの96%と一致したことだ。
これはビデオ会議体験をモデル化するためのアノテーション効率のよいフレームワークを示している。
関連論文リスト
- If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Revisiting semi-supervised learning in the era of foundation models [28.414667991336067]
半教師付き学習(SSL)は、ラベル付きデータとともに豊富なラベル付きデータを活用して学習を強化する。
我々は,凍結視覚基盤モデル(VFM)が性能的に劣るSSLベンチマークデータセットを開発し,代表的なSSLメソッドを体系的に評価する。
ラベル付きデータのみを用いたパラメータ効率細調整(PEFT)は、ラベルなしデータを活用することなく、SSLのパフォーマンスとよく一致します。
ノイズの多い擬似ラベルの悪名高い問題を克服するため,より堅牢な擬似ラベルを生成するために,複数のPEFTアプローチとVFMバックボーンのアンサンブルを提案する。
論文 参考訳(メタデータ) (2025-03-12T18:01:10Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Task Aligned Generative Meta-learning for Zero-shot Learning [64.16125851588437]
ゼロショット学習のためのタスク整合型ジェネラティブメタラーニングモデル(TGMZ)の提案
TGMZはバイアスのあるトレーニングを緩和し、メタZSLが多様な分布を含む現実世界のデータセットに対応できるようにする。
最先端アルゴリズムとの比較により,awa1,awa2,cub,apyデータセット上でtgmzが達成した2.1%,3.0%,2.5%,7.6%の改善が示された。
論文 参考訳(メタデータ) (2021-03-03T05:18:36Z) - SplitFed: When Federated Learning Meets Split Learning [16.212941272007285]
フェデレートラーニング(FL)とスプリットラーニング(SL)は2つの人気のある分散機械学習アプローチである。
本稿では,2つのアプローチを両立させるスプリットフッドラーニング(SFL)という新しいアプローチを提案する。
SFLは、SLと同等のテスト精度と通信効率を提供すると同時に、複数のクライアントに対するSLよりも、グローバルエポックあたりの計算時間を著しく削減する。
論文 参考訳(メタデータ) (2020-04-25T08:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。