Fugu-MT 論文翻訳(概要): Finding A Voice: Evaluating African American Dialect Generation for Chatbot Technology

論文の概要: Finding A Voice: Evaluating African American Dialect Generation for Chatbot Technology

arxiv url: http://arxiv.org/abs/2501.03441v1
Date: Tue, 07 Jan 2025 00:07:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.911679
Title: Finding A Voice: Evaluating African American Dialect Generation for Chatbot Technology
Title（参考訳）: 声を見つける: チャットボット技術のためのアフリカ系アメリカ人の方言生成の評価
Authors: Sarah E. Finch, Ellie S. Paek, Sejung Kwon, Ikseon Choi, Jessica Wells, Rasheeta Chandler, Jinho D. Choi,
Abstract要約: 本研究では,アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の生成能力について検討する。異なる方言強度でAAVEのような発話を生成する3つのLLMファミリーの性能を解析した。 AAVE 話者は標準アメリカ英語 (SAE) のチャットボットを好んでおり、AAVE のレベルは様々な特徴の低評価と関連している。
参考スコア（独自算出の注目度）: 10.286802424882842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As chatbots become increasingly integrated into everyday tasks, designing systems that accommodate diverse user populations is crucial for fostering trust, engagement, and inclusivity. This study investigates the ability of contemporary Large Language Models (LLMs) to generate African American Vernacular English (AAVE) and evaluates the impact of AAVE usage on user experiences in chatbot applications. We analyze the performance of three LLM families (Llama, GPT, and Claude) in producing AAVE-like utterances at varying dialect intensities and assess user preferences across multiple domains, including healthcare and education. Despite LLMs' proficiency in generating AAVE-like language, findings indicate that AAVE-speaking users prefer Standard American English (SAE) chatbots, with higher levels of AAVE correlating with lower ratings for a variety of characteristics, including chatbot trustworthiness and role appropriateness. These results highlight the complexities of creating inclusive AI systems and underscore the need for further exploration of diversity to enhance human-computer interactions.
Abstract（参考訳）: チャットボットが日常のタスクに統合されるにつれて、多様なユーザ数に対応するシステムを設計することは、信頼、エンゲージメント、インクリビティの促進に不可欠である。本研究では,現代のLarge Language Models (LLMs) によるアフリカン・アメリカン・バーナクラ・イングリッシュ (AAVE) の生成能力について検討し,チャットボットアプリケーションにおけるAAVEの利用がユーザエクスペリエンスに与える影響を評価する。本研究では,3つのLLMファミリー(Llama,GPT,Claude)の方言強度の異なるAAVE的発話における性能を分析し,医療・教育を含む複数の領域におけるユーザの嗜好を評価する。 LLMがAAVEライクな言語を生成する能力があるにもかかわらず、AAVE話者は標準アメリカ英語(SAE)チャットボットを好んでおり、チャットボットの信頼性や役割の適切性など、様々な特徴に対する低いレーティングと関連している。これらの結果は、包括的AIシステムの構築の複雑さを強調し、人間とコンピュータの相互作用を強化するための多様性のさらなる探索の必要性を浮き彫りにしている。

関連論文リスト

One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文参考訳（メタデータ） (2024-08-30T21:33:58Z)
LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文参考訳（メタデータ） (2024-07-04T14:49:46Z)
Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳（メタデータ） (2024-07-02T14:02:53Z)
Designing and Evaluating Multi-Chatbot Interface for Human-AI Communication: Preliminary Findings from a Persuasion Task [1.360607903399872]
本研究では, 特定の説得環境におけるマルチチャットボットコミュニケーションの効果について検討した。マルチチャットボット通信が可能なオンライン環境を開発し,パイロット実験を行った。本稿では,マルチチャットボットインタフェースの開発プロセスとパイロット実験による予備的な結果について述べる。
論文参考訳（メタデータ） (2024-06-28T04:33:41Z)
Enhancing LLM-Based Human-Robot Interaction with Nuances for Diversity Awareness [0.0]
本稿では,大規模言語モデル(LLM)の機能を活用した多様性を考慮した自律会話システムを提案する。このシステムは、背景、性格、年齢、性別、文化といった要因を考慮して、多様な人口や個人に適応する。システムの性能を評価するため,制御と実環境の両方の実験を行い,幅広い性能指標を測定した。
論文参考訳（メタデータ） (2024-06-25T13:15:36Z)
Conversational Assistants in Knowledge-Intensive Contexts: An Evaluation of LLM- versus Intent-based Systems [8.88228247647452]
言語モデル(LLM)により、会話アシスタント(CA)はより柔軟で人間的な方法で会話できる。 LLMは、インテントベースのシステムよりも優れたユーザエクスペリエンス、タスク完了率、ユーザビリティ、認識パフォーマンスを示した。
論文参考訳（メタデータ） (2024-02-07T15:39:07Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Multi-Purpose NLP Chatbot : Design, Methodology & Conclusion [0.0]
本研究は,現在あるチャットボット技術環境を網羅的に分析するものである。ユーザインタラクションと会話体験を改善するために強化学習戦略を利用する、非常に柔軟なシステムを提供する。チャットボット技術の発展の複雑さと、これらの開発を推進してきた要因と、それらが様々な分野に及ぼした影響についても検討する。
論文参考訳（メタデータ） (2023-10-13T09:47:24Z)
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (2023-04-12T05:08:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。