論文の概要: Call2Instruct: Automated Pipeline for Generating Q&A Datasets from Call Center Recordings for LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.14263v1
- Date: Mon, 01 Dec 2025 13:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.811806
- Title: Call2Instruct: Automated Pipeline for Generating Q&A Datasets from Call Center Recordings for LLM Fine-Tuning
- Title(参考訳): Call2Instruct: LLMファインチューニングのためのコールセンター記録からQ&Aデータセットを生成する自動パイプライン
- Authors: Alex Echeverria, Sávio Salvarino Teles de Oliveira, Fernando Marques Federson,
- Abstract要約: 本稿では,コールセンター音声記録からQ&A指導データセットを生成するエンドツーエンドの自動パイプラインを提案する。
パイプラインはうまく実装され、Instruct Fine Tuning用に特別にフォーマットされたデータセットを生成する。
この開発は、カスタマサービス領域におけるQ&Aタスクのためのより効果的なAIシステムを構築するための道を開く可能性がある。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adaptation of Large-Scale Language Models (LLMs) to specific domains depends on high-quality fine-tuning datasets, particularly in instructional format (e.g., Question-Answer - Q&A). However, generating these datasets, particularly from unstructured sources such as call center audio recordings, poses a significant challenge due to the noisy and disorganized nature of the data. This paper presents a solution to this challenge by offering an end-to-end automated pipeline for generating Q&A instructional datasets from such recordings. The methodology developed comprises sequential steps of audio processing (including diarization, noise removal and automatic transcription), textual processing (cleaning, normalization, and anonymization), semantic extraction of customer demands and attendant responses using vector embeddings, and matching via semantic search to form the final Q&A pairs. As a result, the complete pipeline was successfully implemented, generating a dataset specifically formatted for Instruct Fine Tuning. The practical value and feasibility of the generated dataset were substantiated and functionally demonstrated through the successful fine-tuning of an LLM model (based on Llama 2 7B). The conclusion of the paper states that the proposed approach is viable for converting unstructured conversational data from call centers into valuable resources for training LLMs. This development has the potential to open up avenues for creating more effective AI systems for Q&A tasks in the customer service domain. The developed codes have been made publicly available to promote reproducibility and future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の特定の領域への適応は、高品質な微調整データセット、特に命令形式(Q&Aなど)に依存している。
しかし、特にコールセンターの音声記録のような構造化されていないソースからこれらのデータセットを生成することは、データのノイズと非組織性のために大きな課題となる。
本稿では,これらの記録からQ&A学習データセットを生成するエンドツーエンドの自動パイプラインを提供することにより,この問題に対する解決策を提案する。
本手法は, 音声処理(ダイアリゼーション, ノイズ除去, 自動転写を含む), テキスト処理(クリーニング, 正規化, 匿名化), ベクター埋め込みを用いた顧客要求とアテンダント応答のセマンティック抽出, セマンティックサーチによるマッチングにより最終Q&Aペアを形成する。
その結果、完全なパイプラインがうまく実装され、インストラクションファインチューニング用に特別にフォーマットされたデータセットが生成される。
LLMモデル(Llama 2 7Bをベースとした)の微調整に成功したことにより、生成されたデータセットの実用的価値と実現可能性を確認し、機能的に実証した。
本稿の結論は、コールセンタから非構造化の会話データをLDMのトレーニングに有用なリソースに変換するために、提案手法が有効であることを示している。
この開発は、カスタマサービス領域におけるQ&Aタスクのためのより効果的なAIシステムを構築するための道を開く可能性がある。
開発済みのコードは、再現性と将来の研究を促進するために公開されている。
関連論文リスト
- Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications [0.0]
本稿では、構造化ドメイン知識に基づく合成質問応答対を生成するための探索拡張パイプラインを提案する。
我々のフレームワークは、検索器、ベースジェネレータ、精製モデルを統合して、QAペアを合成し、拡張する。
我々は,無線アクセスネットワーク(RAN)のトラブルシューティングに着目した実世界の通信シナリオにおいて,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2025-09-30T03:49:57Z) - SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data [0.0]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。
ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。
ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文 参考訳(メタデータ) (2024-08-12T03:52:11Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。