論文の概要: MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method
- arxiv url: http://arxiv.org/abs/2605.06309v1
- Date: Thu, 07 May 2026 14:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.878415
- Title: MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method
- Title(参考訳): MultiLinguahah : 新しい教師なしマルチリンガル音響ラウンダーセグメンテーション法
- Authors: Callejas Sofia, Gomez Nahuel, Pelachaud Catherine, Ravenet Brian, Barriere Valentin,
- Abstract要約: 本稿では,エネルギーベースセグメント化音声シーケンスの異常検出として,笑いセグメンテーションタスクを設定する教師なし多言語手法を提案する。
提案手法を,スタンドアップコメディ,シットコム,オーディオセットからの一般的な短い音声を含む4つのデータセットに対して,最先端の笑い検出アルゴリズムと比較した。
以上の結果から,最先端の手法は多言語文脈に最適化されていないが,本手法は非英語環境では性能が優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Laughter is a social non-vocalization that is universal across cultures and languages, and is crucial for human communication, including social bonding and communication signaling. However, detecting laughter in audio is a challenging task, and segmenting is even more difficult. Currently, Machine Learning methods generally rely on costly manual annotation, and their datasets are mostly based on English contexts. Thus, we propose an unsupervised multilingual method that sets up the laughter segmentation task as an anomaly detection of energy-based segmented audio sequences. Our method applies an Isolation Forest on audio representations learned from BYOL-A encoder. We compare our method with several state-of-the-art laughter detection algorithms on four datasets, including stand-up comedy, sitcoms, and general short audio from AudioSet. Our results show that state-of-the-art methods are not optimized for multilingual contexts, while our method outperforms them in non-English settings.
- Abstract(参考訳): ローター(Laughter)は、文化や言語にまたがる普遍的な社会的な非ボーカライゼーションであり、社会的結合やコミュニケーションシグナリングを含む人間のコミュニケーションに不可欠である。
しかし、音声における笑いの検出は難しい作業であり、セグメンテーションはさらに難しい。
現在、機械学習の手法は一般的にコストのかかる手作業によるアノテーションに依存しており、データセットは主に英語の文脈に基づいています。
そこで本稿では,エネルギベースセグメンテーション音声シーケンスの異常検出として,笑いセグメンテーションタスクを設定する教師なし多言語手法を提案する。
BYOL-Aエンコーダから学習した音声表現に分離フォレストを適用した。
提案手法を,スタンドアップコメディ,シットコム,オーディオセットからの一般的な短い音声を含む4つのデータセットに対して,最先端の笑い検出アルゴリズムと比較した。
以上の結果から,最先端の手法は多言語文脈に最適化されていないが,本手法は非英語環境では性能が優れていた。
関連論文リスト
- ATIR: Towards Audio-Text Interleaved Contextual Retrieval [63.68521448682396]
本稿では,Audio-Text Interleaved contextual Retrieval (ATIR)タスクを導入する。
このベンチマークは、意味検索における既存の音声検索データセットの限界を実質的に解決する。
論文 参考訳(メタデータ) (2026-04-22T07:11:58Z) - Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation [65.7990140284317]
対象の接地、すなわち、人間の言葉による指示に基づく視覚的シーンへの関心対象の定位に焦点を当てる。
この可能性を探るため、単一単語音声命令の接地に着目してタスクを簡素化する。
以上の結果から,音声からの直接的接地は実現可能であるだけでなく,場合によっては書き起こしに基づく手法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2025-11-27T02:00:28Z) - Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。
以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。
これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文 参考訳(メタデータ) (2025-11-20T19:17:35Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct
Speech Translation [14.151063458445826]
提案手法は,従来のVAD手法と最適手動分割のギャップを少なくとも30%減らし,他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-23T16:54:13Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。