論文の概要: Leveraging LLMs to Create Content Corpora for Niche Domains
- arxiv url: http://arxiv.org/abs/2505.02851v2
- Date: Thu, 31 Jul 2025 00:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.041791
- Title: Leveraging LLMs to Create Content Corpora for Niche Domains
- Title(参考訳): ニッチドメインのコンテンツコーパス作成にLLMを活用する
- Authors: Franklin Zhang, Sonya Zhang, Alon Halevy,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なデータキュレーションを大規模に扱うために利用することができる。
行動教育領域における我々のアプローチは、30日間に一体化して検証する。
利用者調査では5点中4.3点の満足度が報告されており、回答者の91%が習慣形成目標にキュレートされたコンテンツを使いたいと回答している。
- 参考スコア(独自算出の注目度): 1.33134751838052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing specialized content corpora from vast, unstructured web sources for domain-specific applications poses substantial data curation challenges. In this paper, we introduce a streamlined approach for generating high-quality, domain-specific corpora by efficiently acquiring, filtering, structuring, and cleaning web-based data. We showcase how Large Language Models (LLMs) can be leveraged to address complex data curation at scale, and propose a strategical framework incorporating LLM-enhanced techniques for structured content extraction and semantic deduplication. We validate our approach in the behavior education domain through its integration into 30 Day Me, a habit formation application. Our data pipeline, named 30DayGen, enabled the extraction and synthesis of 3,531 unique 30-day challenges from over 15K webpages. A user survey reports a satisfaction score of 4.3 out of 5, with 91% of respondents indicating willingness to use the curated content for their habit-formation goals.
- Abstract(参考訳): ドメイン固有のアプリケーションのために、巨大で構造化されていないWebソースから専門的なコンテンツコーパスを構築することは、データキュレーションの重大な課題を引き起こす。
本稿では,Web ベースデータの効率的な取得,フィルタリング,構造化,クリーニングにより,高品質なドメイン固有コーパスを生成するための合理化アプローチを提案する。
本稿では,大規模言語モデル(LLM)を用いて複雑なデータキュレーションを大規模に処理する方法を示し,構造化コンテンツ抽出とセマンティックデデューズのためのLLM強化手法を取り入れた戦略的枠組みを提案する。
行動教育領域における私たちのアプローチを,習慣形成アプリケーションである30 Day Meに統合することで検証する。
私たちのデータパイプラインは30DayGenと呼ばれ、15K以上のWebページから3,531のユニークな30日間の課題の抽出と合成を可能にしました。
利用者調査では5点中4.3点の満足度が報告されており、回答者の91%が習慣形成目標にキュレートされたコンテンツを使いたいと回答している。
関連論文リスト
- Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。