論文の概要: Human Latency Conversational Turns for Spoken Avatar Systems
- arxiv url: http://arxiv.org/abs/2404.16053v1
- Date: Thu, 11 Apr 2024 20:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 10:36:53.697289
- Title: Human Latency Conversational Turns for Spoken Avatar Systems
- Title(参考訳): 音声アバターシステムのための人間の遅延会話変換
- Authors: Derek Jacoby, Tianyi Zhang, Aanchan Mohan, Yvonne Coady,
- Abstract要約: 本稿では,発話をリアルタイムに理解し,人間レベルの会話の発声遅延に対応するために応答を生成する手法について論じる。
Google NaturalQuestionsデータベースを用いて、GPT-4は、質問の60%以上を最後に、削除された単語から欠落したコンテキストを効果的に埋めることができることを示す。
- 参考スコア(独自算出の注目度): 5.713053302240483
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A problem with many current Large Language Model (LLM) driven spoken dialogues is the response time. Some efforts such as Groq address this issue by lightning fast processing of the LLM, but we know from the cognitive psychology literature that in human-to-human dialogue often responses occur prior to the speaker completing their utterance. No amount of delay for LLM processing is acceptable if we wish to maintain human dialogue latencies. In this paper, we discuss methods for understanding an utterance in close to real time and generating a response so that the system can comply with human-level conversational turn delays. This means that the information content of the final part of the speaker's utterance is lost to the LLM. Using the Google NaturalQuestions (NQ) database, our results show GPT-4 can effectively fill in missing context from a dropped word at the end of a question over 60% of the time. We also provide some examples of utterances and the impacts of this information loss on the quality of LLM response in the context of an avatar that is currently under development. These results indicate that a simple classifier could be used to determine whether a question is semantically complete, or requires a filler phrase to allow a response to be generated within human dialogue time constraints.
- Abstract(参考訳): 現在多くのLarge Language Model (LLM) による音声対話の問題は応答時間である。
グロークのようないくつかの取り組みは、LLMの高速な処理によってこの問題に対処するが、認知心理学の文献からは、人間と人間の対話において、話者が発話を完了する前に、しばしば応答が生じることがわかっている。
人間の対話待ち時間を維持したい場合,LLM処理の遅延は認められない。
本稿では, 発話をリアルタイムに理解し, 応答を生成する手法について論じる。
これは、話者の発話の最終部分の情報内容がLLMに失われることを意味する。
Google NaturalQuestions (NQ) データベースを用いて、GPT-4 は、質問の60%以上を最後に、削除された単語から欠落したコンテキストを効果的に埋めることができることを示した。
また,現在開発中のアバターの文脈におけるLLM応答の品質に対する発話の例と,この情報損失の影響について述べる。
これらの結果は、質問が意味論的に完全かどうかを判断するために単純な分類器を用いるか、人間の対話時間制約内で応答を生成できるようにするために、フィラーフレーズを必要とすることを示唆している。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。