論文の概要: DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities
- arxiv url: http://arxiv.org/abs/2507.05750v1
- Date: Tue, 08 Jul 2025 07:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.734224
- Title: DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities
- Title(参考訳): DocTalk: LLM会話機能向上のためのスケーラブルなグラフベース対話合成
- Authors: Jing Yang Lee, Hamed Bonab, Nasser Zalmout, Ming Zeng, Sanket Lokegaonkar, Colin Lockard, Binxuan Huang, Ritesh Sarkhel, Haodong Wang,
- Abstract要約: 本稿では,既存のテキストコーパスから会話データを合成することで,この相違に対処する新しいアプローチを提案する。
パイプラインをWikipediaの記事に適用し、730万以上の会話からなる多ターン事前学習対話コーパスであるDocTalkをキュレートします。
事前学習中にDocTalkを組み込むことで、ベースパフォーマンスを損なうことなく、コンテキスト記憶と理解が最大40%向上することを示す。
- 参考スコア(独自算出の注目度): 13.615473441588009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly employed in multi-turn conversational tasks, yet their pre-training data predominantly consists of continuous prose, creating a potential mismatch between required capabilities and training paradigms. We introduce a novel approach to address this discrepancy by synthesizing conversational data from existing text corpora. We present a pipeline that transforms a cluster of multiple related documents into an extended multi-turn, multi-topic information-seeking dialogue. Applying our pipeline to Wikipedia articles, we curate DocTalk, a multi-turn pre-training dialogue corpus consisting of over 730k long conversations. We hypothesize that exposure to such synthesized conversational structures during pre-training can enhance the fundamental multi-turn capabilities of LLMs, such as context memory and understanding. Empirically, we show that incorporating DocTalk during pre-training results in up to 40% gain in context memory and understanding, without compromising base performance. DocTalk is available at https://huggingface.co/datasets/AmazonScience/DocTalk.
- Abstract(参考訳): 大規模言語モデル(LLM)は多ターン会話タスクにますます採用されているが、事前学習データは主に連続的な散文で構成されており、必要な能力と訓練パラダイムの間の潜在的なミスマッチを生み出している。
本稿では,既存のテキストコーパスから会話データを合成することで,この相違に対処する新しいアプローチを提案する。
本稿では,複数の関連文書のクラスタを拡張マルチターン・マルチトピック情報検索対話に変換するパイプラインを提案する。
パイプラインをWikipediaの記事に適用し、730万以上の会話からなる多ターン事前学習対話コーパスであるDocTalkをキュレートします。
我々は、事前学習中に合成された会話構造に曝露することで、文脈記憶や理解などのLLMの基本的マルチターン能力を高めることができると仮定する。
実験により,事前学習中にDocTalkを組み込むことで,基礎性能を損なうことなく,文脈記憶と理解が最大40%向上することを示す。
DocTalkはhttps://huggingface.co/datasets/AmazonScience/DocTalkで入手できる。
関連論文リスト
- Toward Multi-Session Personalized Conversation: A Large-Scale Dataset and Hierarchical Tree Framework for Implicit Reasoning [30.54506564763053]
2500のサンプルを持つ大規模長期データセットであるImplexConvを紹介し、それぞれに約100の会話セッションを含む。
また,会話履歴を複数のレベルの要約に構造化する新しい階層木フレームワークであるTaciTreeを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:59:41Z) - Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model [25.459787361454353]
本稿では,対話論理のCoD-Chainを利用して,多言語モデル(LLM)を指導指導のための知識集約型多元対話を生成する新しいフレームワークR2Sを提案する。
オープンソースデータセットとドメイン固有のWebcrawledドキュメントの両方の生文書をベンチマークK-BENCHに統合することにより、Wikipedia(英語)、Science(中国語)、Artifacts(中国語)などのさまざまな領域をカバーする。
論文 参考訳(メタデータ) (2024-07-03T12:04:10Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - OPAL: Ontology-Aware Pretrained Language Model for End-to-End
Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。
チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文 参考訳(メタデータ) (2022-09-10T04:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。