論文の概要: Synthetic Dialogue Dataset Generation using LLM Agents
- arxiv url: http://arxiv.org/abs/2401.17461v1
- Date: Tue, 30 Jan 2024 21:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:16:21.485621
- Title: Synthetic Dialogue Dataset Generation using LLM Agents
- Title(参考訳): LLMエージェントを用いた合成対話データセット生成
- Authors: Yelaman Abdullin, Diego Molla-Aliod, Bahadorreza Ofoghi, John
Yearwood, Qingyang Li
- Abstract要約: 我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
- 参考スコア(独自算出の注目度): 7.933485970511388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear programming (LP) problems are pervasive in real-life applications.
However, despite their apparent simplicity, an untrained user may find it
difficult to determine the linear model of their specific problem. We envisage
the creation of a goal-oriented conversational agent that will engage in
conversation with the user to elicit all information required so that a
subsequent agent can generate the linear model. In this paper, we present an
approach for the generation of sample dialogues that can be used to develop and
train such a conversational agent. Using prompt engineering, we develop two
agents that "talk" to each other, one acting as the conversational agent, and
the other acting as the user. Using a set of text descriptions of linear
problems from NL4Opt available to the user only, the agent and the user engage
in conversation until the agent has retrieved all key information from the
original problem description. We also propose an extrinsic evaluation of the
dialogues by assessing how well the summaries generated by the dialogues match
the original problem descriptions. We conduct human and automatic evaluations,
including an evaluation approach that uses GPT-4 to mimic the human evaluation
metrics. The evaluation results show an overall good quality of the dialogues,
though research is still needed to improve the quality of the GPT-4 evaluation
metrics. The resulting dialogues, including the human annotations of a subset,
are available to the research community. The conversational agent used for the
generation of the dialogues can be used as a baseline.
- Abstract(参考訳): リニアプログラミング(LP)の問題は、現実のアプリケーションで広く使われている。
しかし、その明らかな単純さにもかかわらず、訓練されていないユーザーは、特定の問題の線形モデルを決定するのが困難である。
我々は,ユーザとの会話に係わる目標指向の会話エージェントの作成と,それに続くエージェントが線形モデルを生成するために必要なすべての情報を導出することを提案する。
本稿では,このような対話エージェントの開発・訓練に使用可能なサンプル対話生成手法を提案する。
本研究では,対話エージェントとして機能する2つのエージェントと,ユーザとして機能する2つのエージェントを開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
また,対話が生成する要約が本来の問題記述にどの程度合致しているかを評価することにより,対話の外部的評価を提案する。
我々は,gpt-4を用いて評価指標を模倣した評価手法を含む,人間および自動評価を行う。
評価結果は, GPT-4評価指標の品質向上には依然として研究が必要であるが, 対話の全体的な品質向上を示すものである。
サブセットの人間のアノテーションを含む結果の対話は、研究コミュニティで利用可能である。
対話生成に使用される会話エージェントをベースラインとして使用することができる。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Actionable Conversational Quality Indicators for Improving Task-Oriented
Dialog Systems [2.6094079735487994]
本稿では、ACQI(Actionable Conversational Quality Indicator)の使用について紹介し、解説する。
ACQIは、改善可能なダイアログの一部を認識し、改善する方法を推奨するために使用される。
本稿では、商用顧客サービスアプリケーションで使用されるLivePersonの内部ダイアログシステムにおけるACQIの使用の有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T22:41:42Z) - Commonsense-Focused Dialogues for Response Generation: An Empirical
Study [39.49727190159279]
対話応答生成におけるコモンセンスの実証的研究について述べる。
まず、ConceptNetを利用して既存の対話データセットから共通感覚対話を自動的に抽出する。
次に、対話的な環境での社会的常識を示すことを目的とした、25K対話を備えた対話データセットを新たに収集する。
論文 参考訳(メタデータ) (2021-09-14T04:32:09Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。