論文の概要: Leveraging LLMs to Create Content Corpora for Niche Domains
- arxiv url: http://arxiv.org/abs/2505.02851v2
- Date: Thu, 31 Jul 2025 00:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.041791
- Title: Leveraging LLMs to Create Content Corpora for Niche Domains
- Title(参考訳): ニッチドメインのコンテンツコーパス作成にLLMを活用する
- Authors: Franklin Zhang, Sonya Zhang, Alon Halevy,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なデータキュレーションを大規模に扱うために利用することができる。
行動教育領域における我々のアプローチは、30日間に一体化して検証する。
利用者調査では5点中4.3点の満足度が報告されており、回答者の91%が習慣形成目標にキュレートされたコンテンツを使いたいと回答している。
- 参考スコア(独自算出の注目度): 1.33134751838052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing specialized content corpora from vast, unstructured web sources for domain-specific applications poses substantial data curation challenges. In this paper, we introduce a streamlined approach for generating high-quality, domain-specific corpora by efficiently acquiring, filtering, structuring, and cleaning web-based data. We showcase how Large Language Models (LLMs) can be leveraged to address complex data curation at scale, and propose a strategical framework incorporating LLM-enhanced techniques for structured content extraction and semantic deduplication. We validate our approach in the behavior education domain through its integration into 30 Day Me, a habit formation application. Our data pipeline, named 30DayGen, enabled the extraction and synthesis of 3,531 unique 30-day challenges from over 15K webpages. A user survey reports a satisfaction score of 4.3 out of 5, with 91% of respondents indicating willingness to use the curated content for their habit-formation goals.
- Abstract(参考訳): ドメイン固有のアプリケーションのために、巨大で構造化されていないWebソースから専門的なコンテンツコーパスを構築することは、データキュレーションの重大な課題を引き起こす。
本稿では,Web ベースデータの効率的な取得,フィルタリング,構造化,クリーニングにより,高品質なドメイン固有コーパスを生成するための合理化アプローチを提案する。
本稿では,大規模言語モデル(LLM)を用いて複雑なデータキュレーションを大規模に処理する方法を示し,構造化コンテンツ抽出とセマンティックデデューズのためのLLM強化手法を取り入れた戦略的枠組みを提案する。
行動教育領域における私たちのアプローチを,習慣形成アプリケーションである30 Day Meに統合することで検証する。
私たちのデータパイプラインは30DayGenと呼ばれ、15K以上のWebページから3,531のユニークな30日間の課題の抽出と合成を可能にしました。
利用者調査では5点中4.3点の満足度が報告されており、回答者の91%が習慣形成目標にキュレートされたコンテンツを使いたいと回答している。
関連論文リスト
- Real-time Ad retrieval via LLM-generative Commercial Intention for Sponsored Search Advertising [4.16793449447122]
本稿ではリアルタイム広告検索(RARE)フレームワークを提案する。
RAREは、クエリの広告を直接リアルタイムで検索するために、中間的なセマンティック表現として商用意図(CI)を使用する。
オンライン実装は、消費の5.04%増加、Gross Merchandise Volume(GMV)の6.37%増加、クリックスルーレート(CTR)の1.28%向上、浅い変換の5.29%増加といった大きな利益をもたらした。
論文 参考訳(メタデータ) (2025-04-02T02:26:31Z) - Organize the Web: Constructing Domains Enhances Pre-Training Data Curation [129.27104172458363]
トピックとフォーマットの両面からWebページを整理するフレームワークを開発する。
我々は,大規模な言語モデルからアノテーションを抽出して,事前学習データを自動的にアノテートし,効率的なキュレーションを行う。
我々の研究は、ドメインの構築と混合が、品質ベースのデータキュレーション手法の貴重な補完となることを実証している。
論文 参考訳(メタデータ) (2025-02-14T18:02:37Z) - RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.49774529790693]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。
私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文 参考訳(メタデータ) (2024-12-04T15:27:39Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。
我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。
実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。
ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。
ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文 参考訳(メタデータ) (2024-08-12T03:52:11Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。
FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文 参考訳(メタデータ) (2024-06-25T13:50:56Z) - Leveraging Large Language Models for Web Scraping [0.0]
本研究では,言語生成用に設計したRAGモデルに対して,汎用的な高精度なデータスクレイピング手法について検討する。
よりモジュール的で解釈可能な方法で知識をキャプチャするために、私たちは、潜在的な知識検索機能を備えた事前訓練された言語モデルを使用します。
論文 参考訳(メタデータ) (2024-06-12T14:15:15Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Web Content Filtering through knowledge distillation of Large Language
Models [1.7446104539598901]
LLM(Large Language Models)のパワーを活用したURL分類のための最先端のアプローチを提案する。
提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, ウェブコンテンツフィルタリングに適した, より小型で専門的な学生モデルを作成する。
我々の学生モデルは教師のLLMのパフォーマンスを175倍のパラメータで比較し、大量のURLのインラインスキャンに使用することができる。
論文 参考訳(メタデータ) (2023-05-08T20:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。