論文の概要: Parameterized Synthetic Text Generation with SimpleStories
- arxiv url: http://arxiv.org/abs/2504.09184v1
- Date: Sat, 12 Apr 2025 11:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:24.214003
- Title: Parameterized Synthetic Text Generation with SimpleStories
- Title(参考訳): SimpleStories を用いたパラメタライズド合成テキスト生成
- Authors: Lennart Finke, Thomas Dooms, Mat Allen, Juan Diego Rodriguez, Noa Nabeshima, Dan Braun,
- Abstract要約: 本稿では,英語と日本語のそれぞれに200万の物語からなる,単純な言語による大規模な合成物語データセットを提案する。
提案手法では,複数の抽象化レベルの特徴を持つプロンプトのパラメトリゼーションを用いて,物語の特徴を体系的に制御することができる。
- 参考スコア(独自算出の注目度): 1.1160256362224616
- License:
- Abstract: We present SimpleStories, a large synthetic story dataset in simple language, consisting of 2 million stories each in English and Japanese. Our method employs parametrization of prompts with features at multiple levels of abstraction, allowing for systematic control over story characteristics to ensure broad syntactic and semantic diversity. Building on and addressing limitations in the TinyStories dataset, our approach demonstrates that simplicity and variety can be achieved simultaneously in synthetic text generation at scale.
- Abstract(参考訳): 英語と日本語のそれぞれに200万のストーリーからなる,シンプルな言語による大規模な合成物語データセットであるSimpleStoriesを提示する。
提案手法では,複数レベルの抽象的な特徴を持つプロンプトのパラメトリゼーションを用いて,物語の特徴を体系的に制御することで,幅広い構文的・意味的多様性を確保できる。
提案手法は,TinyStoriesデータセットの制約の構築と対処を目的として,大規模に合成テキスト生成を行う場合に,シンプルさと多様性を同時に実現できることを実証する。
関連論文リスト
- Instruction Data Generation and Unsupervised Adaptation for Speech Language Models [21.56355461403427]
本稿では,多モーダル大規模言語モデルの訓練と評価を行うために,合成サンプルを生成する3つの方法を提案する。
このようなシステムの性能を高めるための重要な戦略として、合成データ生成が出現する。
我々は、未ラベルの音声データを用いて、利用可能な書き起こしに匹敵する品質の合成サンプルを生成する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-18T08:27:00Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - German Text Simplification: Finetuning Large Language Models with
Semi-Synthetic Data [0.7059555559002345]
本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルを訓練する手法である。
このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。
論文 参考訳(メタデータ) (2024-02-16T13:28:44Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - Outline to Story: Fine-grained Controllable Story Generation from
Cascaded Events [39.577220559911055]
長文のきめ細かい制御が可能な生成のためのテストベッドとして,"Outline to Story" (O2S) という新しいタスクを提案する。
次に、最新のキーワード抽出技術で構築された将来のベンチマーク用のデータセットを作成します。
論文 参考訳(メタデータ) (2021-01-04T08:16:21Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。