論文の概要: Scaling Synthetic Data Creation with 1,000,000,000 Personas
- arxiv url: http://arxiv.org/abs/2406.20094v1
- Date: Fri, 28 Jun 2024 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:01:13.047168
- Title: Scaling Synthetic Data Creation with 1,000,000,000 Personas
- Title(参考訳): 1000,000,000人のペルソナによる合成データ生成のスケールアップ
- Authors: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu,
- Abstract要約: 私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。
この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。
ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。
- 参考スコア(独自算出の注目度): 31.51777274755674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) における様々な視点を活用して,多様な合成データを生成する新しいペルソナ駆動型データ合成手法を提案する。
この方法論を大規模に活用するために、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。
この10億のペルソナ(世界の人口の約13%)は、世界知識の分散キャリアとして機能し、LLMにカプセル化されたほぼ全ての視点に到達し、様々なシナリオにおいて多様な合成データの作成を容易にする。
高品質な数学的および論理的推論問題、命令(ユーザプロンプト)、知識豊富なテキスト、ゲームNPC、ツール(機能)を大規模に合成するペルソナハブのユースケースを例示することにより、ペルソナ駆動型データ合成は汎用的で、スケーラブルで、柔軟性があり、使いやすく、実際は、合成データ作成と応用のパラダイムシフトを推進し、LLMの研究と開発に大きな影響を与える可能性があることを実証する。
関連論文リスト
- ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - Synthetically Generating Human-like Data for Sequential Decision Making
Tasks via Reward-Shaped Imitation Learning [0.5801044612920815]
我々は,コンピュータゲームのような対話型人間AIシステムにおいて,人間の判断と密接に類似するデータを合成的に生成する問題を考える。
そこで本研究では,人間から収集した意思決定データのごく小さなセットから始まりながら,人間的な意思決定データを生成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-14T17:48:57Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - SynBody: Synthetic Dataset with Layered Human Models for 3D Human
Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。
データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文 参考訳(メタデータ) (2023-03-30T13:30:12Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - FedSyn: Synthetic Data Generation using Federated Learning [0.0]
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
論文 参考訳(メタデータ) (2022-03-11T14:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。