論文の概要: COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
- arxiv url: http://arxiv.org/abs/2510.14763v1
- Date: Thu, 16 Oct 2025 15:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.914224
- Title: COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
- Title(参考訳): COIG-Writer: 思考プロセスによる中国の創造的著作のための高品質データセット
- Authors: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang,
- Abstract要約: 大規模な言語モデルは、創造的な文章、特に非英語の文脈において体系的な欠陥を示す。
提案するCOIG-Writerは,多種多様なアウトプットと,その基盤となる思考プロセスの両方をキャプチャする,中国のクリエイティブな文章データセットである。
- 参考スコア(独自算出の注目度): 83.84578306665976
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.
- Abstract(参考訳): 大規模言語モデルは、特に訓練データが不足し、プロセスレベルの監督が欠如している非英語の文脈において、創造的な文章の体系的な欠陥を示す。
高品質なテキストを体系的にリバースエンジニアリングすることで、多様なアウトプットと基礎となる思考プロセスの両方をキャプチャする、新しい中国のクリエイティブな文章データセットであるCOIG-Writerを提示する。
入力出力ペアのみを提供する既存のデータセットとは異なり、COIG-Writerは51のジャンルにまたがる1,665個の厳密にキュレートされた三つ子で構成され、それぞれが(1)リバースエンジニアリングプロンプト、(2)詳細な創造的推論による意思決定プロセスの文書化、(3)最終テキストを含む。
包括的実験により,ナラティブ論理(プロセスの監督による)と言語表現(汎用データによる管理)という,創造的記述の2成分モデルが同定される。
1) プロセスの監督は極めて効果的であるが, 一般データによる安定化が必要である。
この閾値以下では、勝利率は徐々に低下する(62.75%から35.78%まで)。
, 2) 創造能力は, 言語間移動を伴わずに文化的に束縛され(中国語と英語のパフォーマンスの89.26pp差), (3) 語彙的多様性は創造的品質(TTRパラドックス)と逆相関し, 論理的欠陥に対する高い多様性信号補償行動を示す。
これらの結果から,論理的足場と言語的基盤の相互作用から創造的卓越性が生じることが確認された。
関連論文リスト
- CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs [71.01843542502438]
我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。
CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。
CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
論文 参考訳(メタデータ) (2025-10-07T15:33:52Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。
我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文 参考訳(メタデータ) (2024-06-08T22:14:51Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Automatic Assessment of Divergent Thinking in Chinese Language with
TransDis: A Transformer-Based Language Model Approach [4.389212459491442]
TransDisシステムは、中国語の代替利用タスク(AUT)応答に対して、有効な独創性(品質)と柔軟性(多様性)のスコアを提供することができる。
私たちは、中国語や他の50以上の言語でAUT応答の独創性と柔軟性を計算するためのオープンなプラットフォームを提供しています。
論文 参考訳(メタデータ) (2023-06-26T15:48:05Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。