論文の概要: Are LLMs All You Need for Task-Oriented Dialogue?
- arxiv url: http://arxiv.org/abs/2304.06556v2
- Date: Thu, 3 Aug 2023 15:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 16:55:00.557648
- Title: Are LLMs All You Need for Task-Oriented Dialogue?
- Title(参考訳): LLMはタスク指向対話に必要なすべてか?
- Authors: Vojt\v{e}ch Hude\v{c}ek and Ond\v{r}ej Du\v{s}ek
- Abstract要約: インストラクションをチューニングしたLarge Language Models (LLMs) は,会話を通じてユーザと対話する機能によって,最近大きな人気を集めている。
本研究では,マルチターンタスクを完了し,既存のタスク指向対話ベンチマークの文脈で外部データベースと対話する能力を評価することを目的とする。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instructions-tuned Large Language Models (LLMs) gained recently huge
popularity thanks to their ability to interact with users through conversation.
In this work we aim to evaluate their ability to complete multi-turn tasks and
interact with external databases in the context of established task-oriented
dialogue benchmarks. We show that for explicit belief state tracking, LLMs
underperform compared to specialized task-specific models. Nevertheless, they
show ability to guide the dialogue to successful ending if given correct slot
values. Furthermore this ability improves with access to true belief state
distribution or in-domain examples.
- Abstract(参考訳): インストラクション調整された大規模言語モデル(llms)は最近、会話を通じてユーザと対話できることで大きな人気を得た。
本研究では,マルチターンタスクを完了し,既存のタスク指向対話ベンチマークの文脈で外部データベースと対話する能力を評価することを目的とする。
明示的な信念状態追跡では、LLMは特定のタスク固有モデルに比べて性能が劣ることを示す。
それでも、正しいスロット値が与えられた場合、対話を成功まで導く能力を示す。
さらに、この能力は真の信念状態分布やドメイン内例へのアクセスによって改善される。
関連論文リスト
- Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。