論文の概要: From Intent Discovery to Recognition with Topic Modeling and Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.11176v1
- Date: Fri, 16 May 2025 12:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.960425
- Title: From Intent Discovery to Recognition with Topic Modeling and Synthetic Data
- Title(参考訳): インテント発見からトピックモデリングと合成データによる認識へ
- Authors: Aaron Rodrigues, Mahmood Hegazy, Azzam Naeem,
- Abstract要約: 顧客の発話は、頻繁な単語の共起と、長期間の変動によって特徴付けられる。
トピックモデリングと合成クエリ生成のためのエージェントLLMフレームワークを提案する。
LLMの生成した意図記述やキーワードは、効果的に人為的なバージョンに代用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding and recognizing customer intents in AI systems is crucial, particularly in domains characterized by short utterances and the cold start problem, where recommender systems must include new products or services without sufficient real user data. Customer utterances are characterized by infrequent word co-occurences and high term variability, which poses significant challenges for traditional methods in specifying distinct user needs and preparing synthetic queries. To address this, we propose an agentic LLM framework for topic modeling and synthetic query generation, which accelerates the discovery and recognition of customer intents. We first apply hierarchical topic modeling and intent discovery to expand a human-curated taxonomy from 36 generic user intents to 278 granular intents, demonstrating the potential of LLMs to significantly enhance topic specificity and diversity. Next, to support newly discovered intents and address the cold start problem, we generate synthetic user query data, which augments real utterances and reduces dependency on human annotation, especially in low-resource settings. Topic model experiments show substantial improvements in coherence and relevance after topic expansion, while synthetic data experiments indicate that in-class few-shot prompting significantly improves the quality and utility of synthetic queries without compromising diversity. We also show that LLM-generated intent descriptions and keywords can effectively substitute for human-curated versions when used as context for synthetic query generation. Our research underscores the scalability and utility of LLM agents in topic modeling and highlights the strategic use of synthetic utterances to enhance dataset variability and coverage for intent recognition. We present a comprehensive and robust framework for online discovery and recognition of new customer intents in dynamic domains.
- Abstract(参考訳): AIシステムにおける顧客意図の理解と認識は、特に短い発話とコールドスタートの問題によって特徴づけられる領域において重要である。
顧客発話は、単語共起の頻度が低いことと、長期間の変動性が特徴であり、これは、異なるユーザニーズを特定し、合成クエリを作成する際に、従来の手法に重大な課題をもたらす。
そこで本研究では,顧客意図の発見と認識を促進させる,トピックモデリングと合成クエリ生成のためのエージェントLLMフレームワークを提案する。
まず,36の汎用ユーザ意図から278のきめ細かい意図まで,階層的なトピックモデリングと意図発見を適用し,トピックの特異性と多様性を著しく向上させるLLMの可能性を示す。
次に、新たに発見された意図をサポートし、コールドスタート問題に対処するため、特に低リソース環境において、実際の発話を増大させ、人間のアノテーションへの依存を減らす合成ユーザクエリデータを生成する。
トピックモデル実験はトピック拡張後のコヒーレンスと関連性を大幅に改善する一方、合成データ実験は、クラス内のいくつかのショットが、多様性を損なうことなく、合成クエリの品質と有用性を著しく改善することを示している。
また,LLMが生成した意図記述やキーワードは,合成クエリ生成のコンテキストとして使用する場合,効果的に人為的なバージョンに代用できることを示す。
本研究は、トピックモデリングにおけるLLMエージェントのスケーラビリティと有用性を強調し、データセットの多様性と意図認識のカバレッジを高めるために合成発話の戦略的利用を強調した。
動的ドメインにおける新規顧客意図のオンライン発見と認識のための包括的で堅牢なフレームワークを提案する。
関連論文リスト
- RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。
現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。
能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T23:05:47Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - Exploring Augmentation and Cognitive Strategies for AI based Synthetic Personae [1.0742675209112622]
本稿では、ゼロショットジェネレータではなく、データ拡張システムとして大規模言語モデル(LLM)を使用することを提唱する。
LLM応答をガイドする堅牢な認知・記憶フレームワークの開発を提案する。
初期の調査では、データの豊かさ、エピソード記憶、自己回帰技術が合成人格の信頼性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T20:22:12Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。