Fugu-MT 論文翻訳(概要): 30DayGen: Leveraging LLMs to Create a Content Corpus for Habit Formation

論文の概要: 30DayGen: Leveraging LLMs to Create a Content Corpus for Habit Formation

arxiv url: http://arxiv.org/abs/2505.02851v1
Date: Fri, 02 May 2025 08:53:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.034347
Title: 30DayGen: Leveraging LLMs to Create a Content Corpus for Habit Formation
Title（参考訳）: 30DayGen: LLMを活用してハビット形成のためのコンテンツコーパスを作る
Authors: Franklin Zhang, Sonya Zhang, Alon Halevy,
Abstract要約: 30 Day Meは、大規模言語モデル(LLM)を活用して、ユーザが目標を管理可能な実行可能なステップに分割し、進捗を追跡するための習慣形成アプリケーションである。 30DAYGENは15K以上のWebページから得られた3,531のユニークな30日間のチャレンジを生成し、ユーザ定義の目標に沿ったチャレンジアイデアのランタイム検索を可能にする。
参考スコア（独自算出の注目度）: 1.33134751838052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present 30 Day Me, a habit formation application that leverages Large Language Models (LLMs) to help users break down their goals into manageable, actionable steps and track their progress. Central to the app is the 30DAYGEN system, which generates 3,531 unique 30-day challenges sourced from over 15K webpages, and enables runtime search of challenge ideas aligned with user-defined goals. We showcase how LLMs can be harnessed to rapidly construct domain specific content corpora for behavioral and educational purposes, and propose a practical pipeline that incorporates effective LLM enhanced approaches for content generation and semantic deduplication.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)を活用する習慣形成アプリケーションである30 Day Meを紹介する。アプリの中心は30DAYGENシステムで、15K以上のWebページから3,531のユニークな30日間のチャレンジを生成し、ユーザ定義の目標に沿ったチャレンジアイデアのランタイム検索を可能にする。本稿では,LLMの動作と教育目的のために,ドメイン固有のコンテンツコーパスを迅速に構築する方法について紹介し,コンテンツ生成とセマンティックデデューズのための効果的なLLM拡張アプローチを取り入れた実用的なパイプラインを提案する。

関連論文リスト

Real-time Ad retrieval via LLM-generative Commercial Intention for Sponsored Search Advertising [4.16793449447122]
本稿ではリアルタイム広告検索(RARE)フレームワークを提案する。 RAREは、クエリの広告を直接リアルタイムで検索するために、中間的なセマンティック表現として商用意図(CI)を使用する。オンライン実装は、消費の5.04%増加、Gross Merchandise Volume(GMV)の6.37%増加、クリックスルーレート(CTR)の1.28%向上、浅い変換の5.29%増加といった大きな利益をもたらした。
論文参考訳（メタデータ） (2025-04-02T02:26:31Z)
Organize the Web: Constructing Domains Enhances Pre-Training Data Curation [129.27104172458363]
トピックとフォーマットの両面からWebページを整理するフレームワークを開発する。我々は,大規模な言語モデルからアノテーションを抽出して,事前学習データを自動的にアノテートし,効率的なキュレーションを行う。我々の研究は、ドメインの構築と混合が、品質ベースのデータキュレーション手法の貴重な補完となることを実証している。
論文参考訳（メタデータ） (2025-02-14T18:02:37Z)
RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.49774529790693]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文参考訳（メタデータ） (2024-12-04T15:27:39Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。 LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文参考訳（メタデータ） (2024-10-11T08:54:45Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文参考訳（メタデータ） (2024-08-12T03:52:11Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。 FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文参考訳（メタデータ） (2024-06-25T13:50:56Z)
Leveraging Large Language Models for Web Scraping [0.0]
本研究では,言語生成用に設計したRAGモデルに対して,汎用的な高精度なデータスクレイピング手法について検討する。よりモジュール的で解釈可能な方法で知識をキャプチャするために、私たちは、潜在的な知識検索機能を備えた事前訓練された言語モデルを使用します。
論文参考訳（メタデータ） (2024-06-12T14:15:15Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。このアプローチをRetrieve-from-CCと呼ぶ。ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文参考訳（メタデータ） (2024-01-26T03:38:23Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Web Content Filtering through knowledge distillation of Large Language Models [1.7446104539598901]
LLM(Large Language Models)のパワーを活用したURL分類のための最先端のアプローチを提案する。提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, ウェブコンテンツフィルタリングに適した, より小型で専門的な学生モデルを作成する。我々の学生モデルは教師のLLMのパフォーマンスを175倍のパラメータで比較し、大量のURLのインラインスキャンに使用することができる。
論文参考訳（メタデータ） (2023-05-08T20:09:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。