論文の概要: Enabling Automatic Self-Talk Detection via Earables
- arxiv url: http://arxiv.org/abs/2511.07493v1
- Date: Wed, 12 Nov 2025 01:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.363269
- Title: Enabling Automatic Self-Talk Detection via Earables
- Title(参考訳): Earablesによる自己発話自動検出の実現
- Authors: Euihyeok Lee, Seonghyeon Kim, SangHun Im, Heung-Seon Oh, Seungwoo Kang,
- Abstract要約: MutterMeterは、実環境のマイクが捉えた音声から発声したセルフトークを自動的に検出するモバイルシステムだ。
我々は25人の参加者から収集された31.1時間分のオーディオからなる第一種データセットを用いて、MutterMeterを構築し評価する。
- 参考スコア(独自算出の注目度): 10.247881693416229
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-talk-an internal dialogue that can occur silently or be spoken aloud-plays a crucial role in emotional regulation, cognitive processing, and motivation, yet has remained largely invisible and unmeasurable in everyday life. In this paper, we present MutterMeter, a mobile system that automatically detects vocalized self-talk from audio captured by earable microphones in real-world settings. Detecting self-talk is technically challenging due to its diverse acoustic forms, semantic and grammatical incompleteness, and irregular occurrence patterns, which differ fundamentally from assumptions underlying conventional speech understanding models. To address these challenges, MutterMeter employs a hierarchical classification architecture that progressively integrates acoustic, linguistic, and contextual information through a sequential processing pipeline, adaptively balancing accuracy and computational efficiency. We build and evaluate MutterMeter using a first-of-its-kind dataset comprising 31.1 hours of audio collected from 25 participants. Experimental results demonstrate that MutterMeter achieves robust performance with a macro-averaged F1 score of 0.84, outperforming conventional approaches, including LLM-based and speech emotion recognition models.
- Abstract(参考訳): 内的対話(セルフトーク、英: self-talk、英: internal dialogue)とは、感情的調節、認知処理、モチベーションにおいて重要な役割を担っているが、日常生活においてほとんど見えず、計測不能である。
本稿では,実環境におけるマイクロホンが捉えた音声から発声したセルフトークを自動的に検出するモバイルシステムであるMutterMeterについて述べる。
従来の音声理解モデルに基づく仮定とは根本的に異なる、多種多様な音響形式、意味的および文法的不完全性、不規則な出現パターンにより、技術的には技術的に困難である。
これらの課題に対処するため、MutterMeterは階層的な分類アーキテクチャを採用し、逐次処理パイプラインを通じて音響、言語、文脈情報を段階的に統合し、精度と計算効率を適応的にバランスさせる。
我々は25人の参加者から収集された31.1時間分のオーディオからなる第一種データセットを用いて、MutterMeterを構築し評価する。
実験結果から,MutterMeterは平均F1スコア0.84でロバストな性能を実現し,LLMや音声の感情認識モデルなど従来の手法よりも優れていた。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM [9.84961079811343]
音声は、認知低下を評価するための非侵襲的で容易に収集可能なバイオマーカーとして注目されている。
従来の認知障害検出法は、音声から抽出された音響的特徴と言語的特徴に基づいて訓練された教師付きモデルに依存している。
音声入力とテキスト入力の両方を処理可能なモデルであるQwen2- Audio AudioLLMを用いた,最初のゼロショット音声ベースのCI検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T01:28:43Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。