論文の概要: Beyond Words: Interjection Classification for Improved Human-Computer Interaction
- arxiv url: http://arxiv.org/abs/2509.03181v1
- Date: Wed, 03 Sep 2025 10:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.482838
- Title: Beyond Words: Interjection Classification for Improved Human-Computer Interaction
- Title(参考訳): 単語を超えて:人間とコンピュータのインタラクションを改善するためのインタージェクション分類
- Authors: Yaniv Goren, Yuval Cohen, Alexander Apartsin, Yehudit Aperstein,
- Abstract要約: 我々は、干渉分類のために収集された干渉信号のデータセットを提示し、公開する。
性能向上のために,テンポやピッチ変換などの手法を用いてトレーニングデータセットを増強する。
データセットは、拡張パイプライン、ベースラインモデル、評価スクリプトのためのPythonライブラリである。
- 参考スコア(独自算出の注目度): 40.386408975769136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of human-computer interaction, fostering a natural dialogue between humans and machines is paramount. A key, often overlooked, component of this dialogue is the use of interjections such as "mmm" and "hmm". Despite their frequent use to express agreement, hesitation, or requests for information, these interjections are typically dismissed as "non-words" by Automatic Speech Recognition (ASR) engines. Addressing this gap, we introduce a novel task dedicated to interjection classification, a pioneer in the field to our knowledge. This task is challenging due to the short duration of interjection signals and significant inter- and intra-speaker variability. In this work, we present and publish a dataset of interjection signals collected specifically for interjection classification. We employ this dataset to train and evaluate a baseline deep learning model. To enhance performance, we augment the training dataset using techniques such as tempo and pitch transformation, which significantly improve classification accuracy, making models more robust. The interjection dataset, a Python library for the augmentation pipeline, baseline model, and evaluation scripts, are available to the research community.
- Abstract(参考訳): 人間とコンピュータの相互作用の領域では、人間と機械の自然な対話を育むことが最重要である。
この対話の重要な要素は、しばしば見落とされ、"mmm"や"hmm"のようなインタージェクションの使用である。
合意、ためらい、情報要求に頻繁に使用されるが、これらの干渉は通常、自動音声認識(ASR)エンジンによって「非単語」として取り除かれる。
このギャップに対処するために、我々は、我々の知識の分野のパイオニアである、干渉分類に特化した新しいタスクを導入する。
この課題は、インタージェクション信号の短い期間と、話者間および話者内における大きな変動のために困難である。
本研究は, 干渉分類に特化して収集した干渉信号のデータセットを提示し, 公開する。
このデータセットを使用して、ベースラインのディープラーニングモデルをトレーニングし、評価します。
性能を向上させるため,テンポやピッチ変換などの手法を用いてトレーニングデータセットを増強し,分類精度を大幅に向上させ,モデルをより堅牢にする。
インジェクションデータセット、拡張パイプライン、ベースラインモデル、評価スクリプト用のPythonライブラリは、リサーチコミュニティで利用可能である。
関連論文リスト
- Score Before You Speak: Improving Persona Consistency in Dialogue Generation using Response Quality Scores [2.150144047598779]
ペルソナに基づく対話生成は、対話型人工知能を構築するための重要なマイルストーンである。
本稿では,従来の手法よりも優れたSBS(Score-Before-Speaking)を提案する。
スコア条件付きトレーニングにより、既存のモデルにより、ペルソナと一貫性のある対話のスペクトルをよりよく捉えることができることを示す。
論文 参考訳(メタデータ) (2025-08-09T08:30:06Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches
for Automatic Speech Recognition Systems [0.0]
この研究は、ノイズの多いオーディオのデータセットを構築する過程を、干渉による劣化したオーディオの特定のケースで提示することを目的としている。
また、このようなデータを評価に利用する分類器の初期結果を示し、認識者の学習プロセスでこのデータセットを使用することの利点を示す。
論文 参考訳(メタデータ) (2021-10-04T13:08:53Z) - Data-Efficient Methods for Dialogue Systems [4.061135251278187]
会話型ユーザインタフェース(CUI)は、SiriやAlexaといったコンシューマにフォーカスした製品において、日常的に広く普及している。
ディープラーニングは、対話システムにおける最近のブレークスルーの根底にあるが、専門家によって注釈付けされることが多い、非常に大量のトレーニングデータを必要とする。
本稿では,最小限のデータから頑健な対話システムを訓練するための一連の手法を紹介する。
論文 参考訳(メタデータ) (2020-12-05T02:51:09Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。