論文の概要: Self-Directed Synthetic Dialogues and Revisions Technical Report
- arxiv url: http://arxiv.org/abs/2407.18421v1
- Date: Thu, 25 Jul 2024 22:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:49:32.084587
- Title: Self-Directed Synthetic Dialogues and Revisions Technical Report
- Title(参考訳): 自己指示型合成対話と技術報告
- Authors: Nathan Lambert, Hailey Schoelkopf, Aaron Gokaslan, Luca Soldaini, Valentina Pyatkin, Louis Castricato,
- Abstract要約: 自己指向型合成対話(Self Directed Synthetic Dialogues, SDSD)は, 言語モデル同士の対話をガイドした実験データセットである。
SDSDは、DBRX、Llama 2 70B、Mistral Largeで生成されたマルチターン会話で構成され、会話の前に生成された会話計画に従うように指示される。
- 参考スコア(独自算出の注目度): 16.587350874099638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has become an important tool in the fine-tuning of language models to follow instructions and solve complex problems. Nevertheless, the majority of open data to date is often lacking multi-turn data and collected on closed models, limiting progress on advancing open fine-tuning methods. We introduce Self Directed Synthetic Dialogues (SDSD), an experimental dataset consisting of guided conversations of language models talking to themselves. The dataset consists of multi-turn conversations generated with DBRX, Llama 2 70B, and Mistral Large, all instructed to follow a conversation plan generated prior to the conversation. We also explore including principles from Constitutional AI and other related works to create synthetic preference data via revisions to the final conversation turn. We hope this work encourages further exploration in multi-turn data and the use of open models for expanding the impact of synthetic data.
- Abstract(参考訳): 合成データは、命令に従って複雑な問題を解くための言語モデルの微調整において重要なツールとなっている。
それでも、これまでのオープンデータの大部分は、マルチターンデータを欠くことが多く、クローズドモデルで収集されており、オープンな微調整手法の進歩を制限している。
自己指向型合成対話(Self Directed Synthetic Dialogues, SDSD)は, 言語モデル同士の対話をガイドした実験データセットである。
データセットは、DBRX、Llama 2 70B、Mistral Largeで生成されたマルチターン会話から成り、会話の前に生成された会話計画に従うように指示される。
また、コンスティチューショナルAIやその他の関連研究の原則を取り入れて、最終会話のターンのリビジョンを通じて、合成嗜好データを作成することも検討する。
この研究により、マルチターンデータのさらなる探索と、合成データの影響拡大にオープンモデルの利用が促進されることを願っている。
関連論文リスト
- ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications [18.378069426713]
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。
本稿では,高品質で文脈的にリッチな対話を生成可能な合成対話生成フレームワークであるDia Synthを紹介する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
論文 参考訳(メタデータ) (2024-09-25T07:03:31Z) - Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis [21.210982054134686]
テキストからの音声音声と音声による3Dジェスチャーの同時合成手法は,新しい,新たな分野である。
既存の手法は、すべての構成モダリティからの並列データに基づいて訓練される。
学生-教員法に着想を得て,追加の教材を簡易に合成することで,データ不足に対する直接的な解決法を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:22:19Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。