論文の概要: Parameterized Synthetic Text Generation with SimpleStories
- arxiv url: http://arxiv.org/abs/2504.09184v2
- Date: Fri, 16 May 2025 11:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.769592
- Title: Parameterized Synthetic Text Generation with SimpleStories
- Title(参考訳): SimpleStories を用いたパラメタライズド合成テキスト生成
- Authors: Lennart Finke, Chandan Sreedhara, Thomas Dooms, Mat Allen, Emerald Zhang, Juan Diego Rodriguez, Noa Nabeshima, Thomas Marshall, Dan Braun,
- Abstract要約: 本稿では,英語と日本語のそれぞれ200万のサンプルからなる,シンプルな言語による大規模な合成物語データセットを提案する。
複数の抽象化レベルにおけるパラメータ化プロンプトにより,大規模にストーリー特性を制御できる。
私たちは、エンド・ツー・エンドのトレーニングプロセスを研究する新しい方法を実現するために、モデル作成のすべての構成要素をオープンソースにしています。
- 参考スコア(独自算出の注目度): 0.9503060186757711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SimpleStories, a large synthetic story dataset in simple language, consisting of 2 million samples each in English and Japanese. Through parameterizing prompts at multiple levels of abstraction, we achieve control over story characteristics at scale, inducing syntactic and semantic diversity. Ablations on a newly trained model suite show improved sample efficiency and model interpretability compared to the TinyStories dataset. We open-source all constituent parts of model creation, hoping to enable novel ways to study the end-to-end training process. As a byproduct, we move the frontier regarding the fewest-parameter language model that outputs grammatical natural language.
- Abstract(参考訳): 本稿では,英語と日本語のそれぞれ200万のサンプルからなる,シンプルな言語による大規模合成物語データセットSimpleStoriesを提案する。
複数の抽象化レベルにおけるパラメータ化プロンプトを通じて、大規模にストーリー特性を制御し、構文的・意味的多様性を誘導する。
新たにトレーニングされたモデルスイートのアブレーションは、TinyStoriesデータセットと比較して、サンプル効率とモデル解釈性が改善されている。
私たちは、エンド・ツー・エンドのトレーニングプロセスを研究する新しい方法を実現するために、モデル作成のすべての構成要素をオープンソースにしています。
副産物として、文法自然言語を出力する最少パラメータ言語モデルに関するフロンティアを移動させる。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Instruction Data Generation and Unsupervised Adaptation for Speech Language Models [21.56355461403427]
本稿では,多モーダル大規模言語モデルの訓練と評価を行うために,合成サンプルを生成する3つの方法を提案する。
このようなシステムの性能を高めるための重要な戦略として、合成データ生成が出現する。
我々は、未ラベルの音声データを用いて、利用可能な書き起こしに匹敵する品質の合成サンプルを生成する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-18T08:27:00Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - German Text Simplification: Finetuning Large Language Models with
Semi-Synthetic Data [0.7059555559002345]
本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルを訓練する手法である。
このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。
論文 参考訳(メタデータ) (2024-02-16T13:28:44Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - Outline to Story: Fine-grained Controllable Story Generation from
Cascaded Events [39.577220559911055]
長文のきめ細かい制御が可能な生成のためのテストベッドとして,"Outline to Story" (O2S) という新しいタスクを提案する。
次に、最新のキーワード抽出技術で構築された将来のベンチマーク用のデータセットを作成します。
論文 参考訳(メタデータ) (2021-01-04T08:16:21Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。