論文の概要: Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
- arxiv url: http://arxiv.org/abs/2401.05033v1
- Date: Wed, 10 Jan 2024 09:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:09:16.313532
- Title: Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
- Title(参考訳): セルフトークによるLDMに基づくタスク指向対話エージェントのブートストラップ
- Authors: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi
Zhang
- Abstract要約: 大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
- 参考スコア(独自算出の注目度): 11.706292228586332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
人間によって生成された命令とサンプル応答のチューニング(ouyang et al., 2022)は、チューニングを効果的に行う方法として証明されているが、多くのデータサンプルを必要とする。
a) 利用できないか、または
b) 生成に費用がかかる。
さらに、LLMが単一の命令ではなく、対話内で特定のワークフローに従うようにすることで、このコストが増大する。
強化学習における自己演奏技術や,人間エージェントを模擬するLLMの利用に着想を得て,様々な役割で会話を行うLLMを通してのデータ収集を行う方法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
対話の(部分的な)成功を測定する自動的な方法を導入する。
このメトリクスは、トレーニングのためにLLMに返される生成された会話データをフィルタリングするために使用される。
会話品質の自動化と人的評価に基づいて,このような自己語データによって結果が向上することを示す。
また,生成した対話の品質を示す様々な特徴と,それらと学習データとしての潜在的有用性との関連性について検討する。
関連論文リスト
- LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Automated test generation to evaluate tool-augmented LLMs as conversational AI agents [0.27309692684728615]
対話型AIエージェントを評価するテスト生成パイプラインを提案する。
当社のフレームワークでは,ユーザ定義の手順に基づく多種多様なテストを生成するためにLLMを使用している。
ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。
論文 参考訳(メタデータ) (2024-09-24T09:57:43Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs [12.615896145500393]
自己プロンプトチューニングされたLLMは、任意の質問に対して専門家の役割プロンプトを自動的に生成することができる。
我々は、広く使われているNLPベンチマークとオープンエンド質問テストに基づいて、自己プロンプト調整LPMを広範囲に評価した。
論文 参考訳(メタデータ) (2024-07-12T05:26:24Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Let the LLMs Talk: Simulating Human-to-Human Conversational QA via
Zero-Shot LLM-to-LLM Interactions [19.365615476223635]
対話型質問応答システムの目的は,ユーザとの対話によって情報を取得する対話型検索システムを作ることである。
既存の作業では、人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。
教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LLMを用いたシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:38:02Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。