Fugu-MT 論文翻訳(概要): Human Latency Conversational Turns for Spoken Avatar Systems

論文の概要: Human Latency Conversational Turns for Spoken Avatar Systems

arxiv url: http://arxiv.org/abs/2404.16053v1
Date: Thu, 11 Apr 2024 20:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-28 10:36:53.697289
Title: Human Latency Conversational Turns for Spoken Avatar Systems
Title（参考訳）: 音声アバターシステムのための人間の遅延会話変換
Authors: Derek Jacoby, Tianyi Zhang, Aanchan Mohan, Yvonne Coady,
Abstract要約: 本稿では,発話をリアルタイムに理解し,人間レベルの会話の発声遅延に対応するために応答を生成する手法について論じる。 Google NaturalQuestionsデータベースを用いて、GPT-4は、質問の60%以上を最後に、削除された単語から欠落したコンテキストを効果的に埋めることができることを示す。
参考スコア（独自算出の注目度）: 5.713053302240483
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A problem with many current Large Language Model (LLM) driven spoken dialogues is the response time. Some efforts such as Groq address this issue by lightning fast processing of the LLM, but we know from the cognitive psychology literature that in human-to-human dialogue often responses occur prior to the speaker completing their utterance. No amount of delay for LLM processing is acceptable if we wish to maintain human dialogue latencies. In this paper, we discuss methods for understanding an utterance in close to real time and generating a response so that the system can comply with human-level conversational turn delays. This means that the information content of the final part of the speaker's utterance is lost to the LLM. Using the Google NaturalQuestions (NQ) database, our results show GPT-4 can effectively fill in missing context from a dropped word at the end of a question over 60% of the time. We also provide some examples of utterances and the impacts of this information loss on the quality of LLM response in the context of an avatar that is currently under development. These results indicate that a simple classifier could be used to determine whether a question is semantically complete, or requires a filler phrase to allow a response to be generated within human dialogue time constraints.
Abstract（参考訳）: 現在多くのLarge Language Model (LLM) による音声対話の問題は応答時間である。グロークのようないくつかの取り組みは、LLMの高速な処理によってこの問題に対処するが、認知心理学の文献からは、人間と人間の対話において、話者が発話を完了する前に、しばしば応答が生じることがわかっている。人間の対話待ち時間を維持したい場合,LLM処理の遅延は認められない。本稿では, 発話をリアルタイムに理解し, 応答を生成する手法について論じる。これは、話者の発話の最終部分の情報内容がLLMに失われることを意味する。 Google NaturalQuestions (NQ) データベースを用いて、GPT-4 は、質問の60%以上を最後に、削除された単語から欠落したコンテキストを効果的に埋めることができることを示した。また,現在開発中のアバターの文脈におけるLLM応答の品質に対する発話の例と,この情報損失の影響について述べる。これらの結果は、質問が意味論的に完全かどうかを判断するために単純な分類器を用いるか、人間の対話時間制約内で応答を生成できるようにするために、フィラーフレーズを必要とすることを示唆している。

関連論文リスト

Beyond Words: Multimodal LLM Knows When to Speak [25.374878759869333]
我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。 MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
論文参考訳（メタデータ） (2025-05-20T17:42:34Z)
Conversational User-AI Intervention: A Study on Prompt Rewriting for Improved LLM Response Generation [16.8514748768591]
本稿では,ユーザクエリが情報要求の表現に欠ける側面と,LLMを用いてサブ最適ユーザプロンプトを書き換える可能性について検討する。本研究は, ユーザの本来の意図を保ちながら, 会話システムからより優れた応答を導き出すことができることを示す。
論文参考訳（メタデータ） (2025-03-21T02:01:02Z)
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-19T04:10:53Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。我々は、各エージェントに画像の共有と反応の能力を持たせる。生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文参考訳（メタデータ） (2024-02-27T18:42:31Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文参考訳（メタデータ） (2020-10-04T19:06:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。