論文の概要: Evaluating LLMs on Generating Age-Appropriate Child-Like Conversations
- arxiv url: http://arxiv.org/abs/2510.24250v1
- Date: Tue, 28 Oct 2025 10:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.007919
- Title: Evaluating LLMs on Generating Age-Appropriate Child-Like Conversations
- Title(参考訳): 年齢適応型子型会話におけるLLMの評価
- Authors: Syed Zohaib Hassan, Pål Halvorsen, Miriam S. Johnson, Pierre Lison,
- Abstract要約: 大規模言語モデル(LLM)は、主に成人の会話データに基づいて訓練され、特定のアプリケーションのための真正な子供のような対話を生成する際の課題に直面している。
5歳,9歳児を対象に,5種類のLDMを比較検討し,年齢に合ったノルウェー語会話を生成させた。
- 参考スコア(独自算出の注目度): 3.660458463669403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs), predominantly trained on adult conversational data, face significant challenges when generating authentic, child-like dialogue for specialized applications. We present a comparative study evaluating five different LLMs (GPT-4, RUTER-LLAMA-2-13b, GPTSW, NorMistral-7b, and NorBloom-7b) to generate age-appropriate Norwegian conversations for children aged 5 and 9 years. Through a blind evaluation by eleven education professionals using both real child interview data and LLM-generated text samples, we assessed authenticity and developmental appropriateness. Our results show that evaluators achieved strong inter-rater reliability (ICC=0.75) and demonstrated higher accuracy in age prediction for younger children (5-year-olds) compared to older children (9-year-olds). While GPT-4 and NorBloom-7b performed relatively well, most models generated language perceived as more linguistically advanced than the target age groups. These findings highlight critical data-related challenges in developing LLM systems for specialized applications involving children, particularly in low-resource languages where comprehensive age-appropriate lexical resources are scarce.
- Abstract(参考訳): 大言語モデル(LLMs)は、主に成人の会話データに基づいて訓練され、特定のアプリケーションのための真正な子供のような対話を生成する際に、重大な課題に直面します。
5歳児と9歳児を対象に,5種類のLDM (GPT-4, RUTER-LLAMA-2-13b, GPTSW, NorMistral-7b, NorBloom-7b) を比較した。
実子インタビューデータとLCM生成テキストサンプルを用いて,11人の教育専門家による盲目評価を行い,信頼性と発達的適切性を評価した。
以上の結果より,小学生(5歳児)の年齢予測は,9歳児(9歳児)と比較して高い信頼性を示した。
GPT-4とNorBloom-7bは比較的よく機能したが、ほとんどのモデルではターゲット年齢群よりも言語的に進んだ言語が生成される。
これらの知見は、特に年齢に適した語彙資源が乏しい低リソース言語において、子どもを対象とする特殊なアプリケーションのためのLLMシステムの開発における重要なデータ関連課題を浮き彫りにした。
関連論文リスト
- Benchmarking LLMs for Mimicking Child-Caregiver Language in Interaction [6.152274140650429]
LLMは人間のような対話を生成できるが、初期の子どもと大人の交流をシミュレートする能力はほとんど解明されていない。
現状のLSMは、単語と発話レベルにおいて、子どもと介護者の対話を近似することができるが、子どもと介護者の分散パターンの再現に苦慮し、アライメントを誇張し、人間によって示される多様性のレベルに到達できなかった。
論文 参考訳(メタデータ) (2024-12-12T14:43:03Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity
and Infant Care [14.326936563564171]
大規模言語モデル(LLM)における誤情報評価のためのベンチマークCARE-MIを提案する。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
ベンチマークの結果,母子関係や乳幼児ケアの分野では,現在の中国のLSMは完璧とは程遠いことが判明した。
論文 参考訳(メタデータ) (2023-07-04T03:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。