論文の概要: Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations
- arxiv url: http://arxiv.org/abs/2311.05584v1
- Date: Thu, 9 Nov 2023 18:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:16:57.344653
- Title: Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations
- Title(参考訳): 仮想会話におけるRLによるゼロショットゴール指向対話
- Authors: Joey Hong and Sergey Levine and Anca Dragan
- Abstract要約: 大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
- 参考スコア(独自算出の注目度): 70.7884839812069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as powerful and general solutions
to many natural language tasks. However, many of the most important
applications of language generation are interactive, where an agent has to talk
to a person to reach a desired outcome. For example, a teacher might try to
understand their student's current comprehension level to tailor their
instruction accordingly, and a travel agent might ask questions of their
customer to understand their preferences in order to recommend activities they
might enjoy. LLMs trained with supervised fine-tuning or "single-step" RL, as
with standard RLHF, might struggle which tasks that require such goal-directed
behavior, since they are not trained to optimize for overall conversational
outcomes after multiple turns of interaction. In this work, we explore a new
method for adapting LLMs with RL for such goal-directed dialogue. Our key
insight is that, though LLMs might not effectively solve goal-directed dialogue
tasks out of the box, they can provide useful data for solving such tasks by
simulating suboptimal but human-like behaviors. Given a textual description of
a goal-directed dialogue task, we leverage LLMs to sample diverse synthetic
rollouts of hypothetical in-domain human-human interactions. Our algorithm then
utilizes this dataset with offline reinforcement learning to train an
interactive conversational agent that can optimize goal-directed objectives
over multiple turns. In effect, the LLM produces examples of possible
interactions, and RL then processes these examples to learn to perform more
optimal interactions. Empirically, we show that our proposed approach achieves
state-of-the-art performance in various goal-directed dialogue tasks that
include teaching and preference elicitation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
例えば、教師は生徒の現在の理解レベルを理解して、それに応じて指導を調整し、旅行代理店は客の好みを尋ねて、彼らが楽しむかもしれない活動を推奨する。
教師付き微調整や「シングルステップ」のRLで訓練されたLLMは、通常のRLHFと同様に、対話の複数のターン後に全体的な会話結果に最適化するように訓練されていないため、そのような目標指向の振る舞いを必要とするタスクに苦労する可能性がある。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法を提案する。
我々の重要な洞察は、LLMはゴール指向の対話タスクを最初から効果的に解決するわけではないが、準最適だが人間的な振る舞いをシミュレートすることで、そのようなタスクを解くのに有用なデータを提供することができるということである。
目標指向対話タスクのテキスト記述を前提として,LLMを用いて仮説的ドメイン内人間間相互作用の多様な合成ロールアウトをサンプリングする。
このアルゴリズムはこのデータセットをオフラインで強化学習し、対話型会話エージェントを訓練し、複数のターンで目標指向の目標を最適化する。
事実上、LLMは相互作用の可能な例を生成し、RLはこれらの例を処理してより最適な相互作用を実行することを学ぶ。
実験により,提案手法が目標指向の対話タスクにおいて,教示や選好誘発を含む最先端のパフォーマンスを実現することを示す。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Goal Inference from Open-Ended Dialog [6.21910767424247]
本稿では,多様なユーザ目標を学習し,達成するためのエンボディエージェントのオンライン手法を提案する。
大規模言語モデルとの対話から自然言語目標表現を抽出する。
その結果,制約のない対話に基づいて,複雑な目標に対する不確実性を表現できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T18:30:52Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文 参考訳(メタデータ) (2024-01-10T09:49:10Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。
即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。
この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文 参考訳(メタデータ) (2023-05-24T09:06:49Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。