論文の概要: Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots
- arxiv url: http://arxiv.org/abs/2501.03441v2
- Date: Sat, 19 Jul 2025 18:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:31.612779
- Title: Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots
- Title(参考訳): 音声を見つける: チャットボットにおけるアフリカ系アメリカ人の方言と音声生成の可能性を探る
- Authors: Sarah E. Finch, Ellie S. Paek, Ikseon Choi, Jinho D. Choi,
- Abstract要約: 本研究は、アフリカ系アメリカ人コミュニティに役立てるために、アフリカ系アメリカ人英語(AAE)を仮想エージェントに統合することに焦点を当てる。
我々は,大規模言語モデルと音声合成技術を用いて,テキストベースおよび音声チャットボットを開発した。
- 参考スコア(独自算出の注目度): 9.868899242620637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As chatbots become integral to daily life, personalizing systems is key for fostering trust, engagement, and inclusivity. This study examines how linguistic similarity affects chatbot performance, focusing on integrating African American English (AAE) into virtual agents to better serve the African American community. We develop text-based and spoken chatbots using large language models and text-to-speech technology, then evaluate them with AAE speakers against standard English chatbots. Our results show that while text-based AAE chatbots often underperform, spoken chatbots benefit from an African American voice and AAE elements, improving performance and preference. These findings underscore the complexities of linguistic personalization and the dynamics between text and speech modalities, highlighting technological limitations that affect chatbots' AA speech generation and pointing to promising future research directions.
- Abstract(参考訳): チャットボットが日常生活に不可欠なものとなるにつれ、個人化システムは信頼、エンゲージメント、傾倒を育むための鍵となる。
本研究は,言語的類似性がチャットボットのパフォーマンスにどのように影響するかを考察し,アフリカ系アメリカ人コミュニティに役立てるために,アフリカ系アメリカ人英語(AAE)を仮想エージェントに統合することに焦点を当てた。
我々は,大規模言語モデルと音声合成技術を用いて,テキストベースおよび音声チャットボットを開発し,標準英語チャットボットに対してAE話者を用いて評価する。
その結果、テキストベースのAAEチャットボットは性能が劣ることが多いが、音声チャットボットはアフリカ系アメリカ人の声とAAE要素の恩恵を受け、性能と嗜好が改善されていることがわかった。
これらの結果は、言語的パーソナライゼーションの複雑さと、テキストと音声のモダリティのダイナミクスを強調し、チャットボットのAA音声生成に影響を与える技術的な制限を強調し、将来的な研究方向性を示す。
関連論文リスト
- OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Designing and Evaluating Multi-Chatbot Interface for Human-AI Communication: Preliminary Findings from a Persuasion Task [1.360607903399872]
本研究では, 特定の説得環境におけるマルチチャットボットコミュニケーションの効果について検討した。
マルチチャットボット通信が可能なオンライン環境を開発し,パイロット実験を行った。
本稿では,マルチチャットボットインタフェースの開発プロセスとパイロット実験による予備的な結果について述べる。
論文 参考訳(メタデータ) (2024-06-28T04:33:41Z) - Enhancing LLM-Based Human-Robot Interaction with Nuances for Diversity Awareness [0.0]
本稿では,大規模言語モデル(LLM)の機能を活用した多様性を考慮した自律会話システムを提案する。
このシステムは、背景、性格、年齢、性別、文化といった要因を考慮して、多様な人口や個人に適応する。
システムの性能を評価するため,制御と実環境の両方の実験を行い,幅広い性能指標を測定した。
論文 参考訳(メタデータ) (2024-06-25T13:15:36Z) - Conversational Assistants in Knowledge-Intensive Contexts: An Evaluation of LLM- versus Intent-based Systems [8.88228247647452]
言語モデル(LLM)により、会話アシスタント(CA)はより柔軟で人間的な方法で会話できる。
LLMは、インテントベースのシステムよりも優れたユーザエクスペリエンス、タスク完了率、ユーザビリティ、認識パフォーマンスを示した。
論文 参考訳(メタデータ) (2024-02-07T15:39:07Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Multi-Purpose NLP Chatbot : Design, Methodology & Conclusion [0.0]
本研究は,現在あるチャットボット技術環境を網羅的に分析するものである。
ユーザインタラクションと会話体験を改善するために強化学習戦略を利用する、非常に柔軟なシステムを提供する。
チャットボット技術の発展の複雑さと、これらの開発を推進してきた要因と、それらが様々な分野に及ぼした影響についても検討する。
論文 参考訳(メタデータ) (2023-10-13T09:47:24Z) - Curriculum-Driven Edubot: A Framework for Developing Language Learning Chatbots Through Synthesizing Conversational Data [23.168347070904318]
本稿では,チャットボットの対話的特徴と英語教科書の体系的素材を組み合わせたチャットボットを開発するためのフレームワークであるCurriculum-Driven EduBotを紹介する。
まず、教科書から関連するトピックを抽出し、大きな言語モデルを用いてこれらのトピックに関連する対話を生成する。
論文 参考訳(メタデータ) (2023-09-28T19:14:18Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - A Multilingual African Embedding for FAQ Chatbots [0.0]
英語、フランス語、アラビア語、チュニジア語、igbo、yorub'a、hausaは言語や方言として使われている。
本稿では,質問応答タスクのためのアフリカ方言に適した改良されたStarSpace埋め込みについて述べる。
論文 参考訳(メタデータ) (2021-03-16T16:36:40Z) - FitChat: Conversational Artificial Intelligence Interventions for
Encouraging Physical Activity in Older Adults [1.8166478385879317]
高齢者と「FitChat」を共同で作成し,Think Aloud Sessions を用いた最初のプロトタイプの評価を行った。
我々のテーマ評価は、高齢者がテキスト通知や無料テキスト入力よりも音声ベースのチャットを好むことを示唆している。
論文 参考訳(メタデータ) (2020-04-29T10:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。