論文の概要: Classic4Children: Adapting Chinese Literary Classics for Children with Large Language Model
- arxiv url: http://arxiv.org/abs/2502.01090v1
- Date: Mon, 03 Feb 2025 06:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:36.096645
- Title: Classic4Children: Adapting Chinese Literary Classics for Children with Large Language Model
- Title(参考訳): Classic4Children:大きな言語モデルを持つ子どもたちに中国語の文学古典を適応させる
- Authors: Jiali Chen, Xusen Hei, Yuqi Xue, Zihan Wu, Jiayuan Xie, Yi Cai,
- Abstract要約: 中国文学の古典は、文化的、教育的な価値を持っている。
これらの作品には古典中国語や複雑な物語が含まれており、子供には読みにくい。
本研究では,中国文学古典を子ども向けのエンゲージメント・アクセシビリティ・テキストに適応させるために,子どもに親しみやすい文芸適応タスクを導入する。
- 参考スコア(独自算出の注目度): 9.814667586928246
- License:
- Abstract: Chinese literary classics hold significant cultural and educational value, offering deep insights into morality, history, and human nature. These works often include classical Chinese and complex narratives, making them difficult for children to read. To bridge this gap, we introduce a child-friendly literary adaptation (CLA) task to adapt the Chinese literary classic into engaging and accessible text for children. However, recent large language models (LLMs) overlook children's reading preferences (\ie, vivid character portrayals, concise narrative structures, and appropriate readability), which poses challenges in CLA. In this paper, we propose a method called InstructChild, which augments the LLM with these preferences for adaptation. Specifically, we first obtain the characters' personalities and narrative structure as additional information for fine-grained instruction tuning. Then, we devise a readability metric as the reward to align the LLM with the children's reading level. Finally, a lookahead decoding strategy is applied to improve the readability of the generated text during inference. To support the evaluation of CLA task, we construct the Classic4Children dataset, which comprises both the original and child-friendly versions of the Four Great Classical Novels of Chinese literature. Experimental results show that our InstructChild significantly improves automatic and human evaluation performance.
- Abstract(参考訳): 中国の古典は、道徳、歴史、人間性に関する深い洞察を提供する、文化的、教育的な価値を持っている。
これらの作品には古典中国語や複雑な物語が含まれており、子供には読みにくい。
このギャップを埋めるために、中国文学古典を子ども向けのエンゲージメントでアクセシブルなテキストに適応させるための児童親しみやすい文学適応(CLA)タスクを導入する。
しかし,近年の大型言語モデル (LLM) は,CLAの課題を提起する,子どもの読書嗜好(鮮明な人物描写,簡潔な物語構造,適切な可読性)を軽視している。
本稿では,LLM を適応に好適に拡張する InstructChild という手法を提案する。
具体的には、まずキャラクタの性格と物語構造を、きめ細かい指導チューニングのための追加情報として取得する。
そこで我々は,LLMを子どもの読書レベルに合わせるための報酬として,可読性尺度を考案した。
最後に、推論中に生成されたテキストの可読性を改善するために、ルックアヘッド復号方式を適用する。
CLAタスクの評価を支援するために,中国文学四大古典小説のオリジナル版と子供フレンドリー版の両方からなるClassic4Childrenデータセットを構築した。
実験結果から,InstructChildは自動評価性能と人的評価性能を大幅に向上させることがわかった。
関連論文リスト
- KidLM: Advancing Language Models for Children -- Early Insights and Future Directions [7.839083566878183]
本研究では,子供用,時には子供用のコーパスを収集し,検証する,ユーザ中心のデータ収集パイプラインを提案する。
本研究では,ドメイン固有の児童言語データに基づいてマスキング確率を動的に調整する新たな学習目標であるStratified Maskingを提案する。
実験により,本モデルは下級テキストの理解に優れ,ステレオタイプを避けて安全性を維持し,子どもの独特な嗜好を捉えていることが示された。
論文 参考訳(メタデータ) (2024-10-04T19:35:44Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - On the Automatic Generation and Simplification of Children's Stories [14.465545222216749]
まず,語彙と可読性を適切に調整したストーリを生成するために,いくつかの人気言語モデルの能力について検討する。
第2の実験として、子どもの物語の領域に一般化する最先端の語彙的単純化モデルについて検討する。
その結果,過去最強の語彙単純化モデルは,背景にある大きな言語モデルに依存しているため,子ども向けの素材としてはあまり機能しないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T21:31:34Z) - Trustworthiness of Children Stories Generated by Large Language Models [0.0]
本研究では,大規模言語モデルによる子どもの物語の信頼性を評価する。
以上の結果から, LLMは, 実際の物語に見られる品質やニュアンスレベルにおいて, 子どもの物語を生み出すのに苦慮していることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T22:55:51Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Educational Question Generation of Children Storybooks via Question Type Distribution Learning and Event-Centric Summarization [67.1483219601714]
本稿では,まず,入力記事段落の質問型分布を学習する新しい質問生成手法を提案する。
学習用問合せペアで構成された銀のサンプルを用いて,事前学習したトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを構築する。
本研究は,質問型分布学習とイベント中心の要約生成の分離の必要性を示唆するものである。
論文 参考訳(メタデータ) (2022-03-27T02:21:19Z) - Application of Lexical Features Towards Improvement of Filipino
Readability Identification of Children's Literature [0.0]
フィリピン語で書かれた児童書の読みやすさの向上に向けた語彙的特徴の利用を検討する。
その結果,タイプトケン比,語彙密度,語彙変動,異語数と従来の特徴(TRAD)を組み合わせた語彙特徴(LEX)を組み合わせることで,可読性モデルの性能を約5%向上した。
論文 参考訳(メタデータ) (2021-01-22T19:54:37Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z) - A Comparative Study of Feature Types for Age-Based Text Classification [3.867363075280544]
年齢によるフィクションテキストの分類作業における言語的特徴の多種多様性の比較を行った。
その結果,文書レベルでテキストを記述する特徴は,機械学習モデルの品質を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-09-24T18:41:10Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。