論文の概要: Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
- arxiv url: http://arxiv.org/abs/2401.05033v1
- Date: Wed, 10 Jan 2024 09:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:09:16.313532
- Title: Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
- Title(参考訳): セルフトークによるLDMに基づくタスク指向対話エージェントのブートストラップ
- Authors: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi
Zhang
- Abstract要約: 大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
- 参考スコア(独自算出の注目度): 11.706292228586332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
人間によって生成された命令とサンプル応答のチューニング(ouyang et al., 2022)は、チューニングを効果的に行う方法として証明されているが、多くのデータサンプルを必要とする。
a) 利用できないか、または
b) 生成に費用がかかる。
さらに、LLMが単一の命令ではなく、対話内で特定のワークフローに従うようにすることで、このコストが増大する。
強化学習における自己演奏技術や,人間エージェントを模擬するLLMの利用に着想を得て,様々な役割で会話を行うLLMを通してのデータ収集を行う方法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
対話の(部分的な)成功を測定する自動的な方法を導入する。
このメトリクスは、トレーニングのためにLLMに返される生成された会話データをフィルタリングするために使用される。
会話品質の自動化と人的評価に基づいて,このような自己語データによって結果が向上することを示す。
また,生成した対話の品質を示す様々な特徴と,それらと学習データとしての潜在的有用性との関連性について検討する。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Automated test generation to evaluate tool-augmented LLMs as conversational AI agents [0.27309692684728615]
対話型AIエージェントを評価するテスト生成パイプラインを提案する。
当社のフレームワークでは,ユーザ定義の手順に基づく多種多様なテストを生成するためにLLMを使用している。
ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。
論文 参考訳(メタデータ) (2024-09-24T09:57:43Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs [12.615896145500393]
自己プロンプトチューニングされたLLMは、任意の質問に対して専門家の役割プロンプトを自動的に生成することができる。
我々は、広く使われているNLPベンチマークとオープンエンド質問テストに基づいて、自己プロンプト調整LPMを広範囲に評価した。
論文 参考訳(メタデータ) (2024-07-12T05:26:24Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Let the LLMs Talk: Simulating Human-to-Human Conversational QA via
Zero-Shot LLM-to-LLM Interactions [19.365615476223635]
対話型質問応答システムの目的は,ユーザとの対話によって情報を取得する対話型検索システムを作ることである。
既存の作業では、人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。
教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LLMを用いたシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:38:02Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。