論文の概要: Data Augmentation Supporting a Conversational Agent Designed for Smoking Cessation Support Groups
- arxiv url: http://arxiv.org/abs/2512.17092v1
- Date: Thu, 18 Dec 2025 21:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.184847
- Title: Data Augmentation Supporting a Conversational Agent Designed for Smoking Cessation Support Groups
- Title(参考訳): 禁煙支援グループを対象とした会話エージェントのためのデータ強化
- Authors: Salar Hashemitaheri, Ian Harris,
- Abstract要約: 禁煙支援団体は、ユーザエンゲージメントや汚職の少ない課題に直面していることが多い。
我々は,合成データ拡張と実データ拡張という2段階のデータ拡張戦略を採用している。
総合的に、合成増補プロセスの結果、元のポストの43%が増補のために選ばれ、その後140%の合成増補が行われた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online support groups for smoking cessation are economical and accessible, yet they often face challenges with low user engagement and stigma. The use of an automatic conversational agent would improve engagement by ensuring that all user comments receive a timely response.). We address the challenge of insufficient high-quality data by employing a two-level data augmentation strategy: synthetic data augmentation and real data augmentation. First, we fine-tuned an open source LLM to classify posts from our existing smoking cessation support groups and identify intents with low F1 (precision+recall) scores. Then, for these intents, we generate additional synthetic data using prompt engineering with the GPT model, with an average of 87\% of the generated synthetic posts deemed high quality by human annotators. Overall, the synthetic augmentation process resulted in 43\% of the original posts being selected for augmentation, followed by 140\% synthetic expansion of these posts. Additionally, we scraped more than 10,000 real posts from a related online support context, of which 73\% were validated as good quality by human annotators. Each synthetic or scraped post underwent rigorous validation involving human reviewers to ensure quality and relevance. The validated new data, combined with the original support group posts, formed an augmented dataset used to retrain the intent classifier. Performance evaluation of the retrained model demonstrated a 32\% improvement in F1, confirming the effectiveness of our data augmentation approach. Synthetic and real post augmentation led to similar performance improvements. This study provides a replicable framework for enhancing conversational agent performance in domains where data scarcity is a critical issue.
- Abstract(参考訳): 禁煙のためのオンライン支援団体は経済的かつアクセスしやすいが、ユーザーエンゲージメントや汚職の少ない課題に直面していることが多い。
自動会話エージェントを使用することで、すべてのユーザコメントがタイムリーな応答を受け取ることを保証することで、エンゲージメントが向上する。
)。
本稿では,合成データ拡張と実データ拡張という2段階のデータ拡張戦略を活用することで,高品質なデータ不足の課題に対処する。
まず,既存の喫煙禁煙支援グループからの投稿を分類し,低F1(precision+recall)スコアで意図を特定するために,オープンソースのLCMを微調整した。
そして,これらの目的のために,GPTモデルを用いて,人間のアノテータによって高品質と見なされる合成ポストの平均87.5%の即時エンジニアリングを用いて,追加の合成データを生成する。
総合的に, 合成増補工程の結果, 原位置の43 % が増補用として選択され, 次いで140 % が合成増補用された。
さらに、関連するオンラインサポートコンテキストから1万以上の実際の投稿を抽出し、そのうち73%が人間のアノテータによる優れた品質として検証された。
合成またはスクラップされたポストは、品質と関連性を保証するために、人間のレビュアーによる厳格な検証が行われた。
検証された新しいデータは、元のサポートグループポストと組み合わせて、インテント分類器を再トレーニングするために使用される拡張データセットを形成した。
再学習モデルの性能評価ではF1が32倍改善し,データ拡張手法の有効性が確認された。
合成および実際のポスト拡張は、同様のパフォーマンス改善につながった。
本研究は,データ不足が問題となる領域において,対話エージェントのパフォーマンスを向上させるための複製可能なフレームワークを提供する。
関連論文リスト
- Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records [0.4666493857924357]
学習コーパスを10万レコードに拡張するためのスケーラブルな合成データ拡張戦略を提案する。
元のデータセットの構造を基盤とした,コンテキスト的に関連性があり,医療的に整合性のある合成質問応答ペアを8万個生成した。
論文 参考訳(メタデータ) (2025-09-12T09:58:11Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE [0.5156484100374059]
本稿では,合成要求データを生成するための改良された製品ラインアプローチを提案する。
提案する4つの研究課題は,データ品質にどのような影響を及ぼすか,また,自動的なプロンプト最適化,およびポストジェネレーションのキュレーションについて検討する。
以上の結果から, 人工的な要件は, 特定のタスクにおいて, 人為的な要件と一致し, より優れる可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-26T10:52:07Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Explicit and Implicit Semantic Ranking Framework [13.356884800150457]
自己学習型セマンティック・クロスアテンションランキング(sRank)を導入した汎用的なセマンティック・ラーニング・ツー・ランク・フレームワークを提案する。
このフレームワークは、可変トレーニングバッチサイズで線形ペアワイズロスを使用し、品質向上と高い効率を達成する。
これは、現実世界の大規模データセットよりも、Microsoftの2つの業界タスクの利益を示すために、効果的に適用されている。
論文 参考訳(メタデータ) (2023-04-11T01:10:49Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。