論文の概要: Evaluating LLMs on Generating Age-Appropriate Child-Like Conversations
- arxiv url: http://arxiv.org/abs/2510.24250v1
- Date: Tue, 28 Oct 2025 10:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.007919
- Title: Evaluating LLMs on Generating Age-Appropriate Child-Like Conversations
- Title(参考訳): 年齢適応型子型会話におけるLLMの評価
- Authors: Syed Zohaib Hassan, Pål Halvorsen, Miriam S. Johnson, Pierre Lison,
- Abstract要約: 大規模言語モデル(LLM)は、主に成人の会話データに基づいて訓練され、特定のアプリケーションのための真正な子供のような対話を生成する際の課題に直面している。
5歳,9歳児を対象に,5種類のLDMを比較検討し,年齢に合ったノルウェー語会話を生成させた。
- 参考スコア(独自算出の注目度): 3.660458463669403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs), predominantly trained on adult conversational data, face significant challenges when generating authentic, child-like dialogue for specialized applications. We present a comparative study evaluating five different LLMs (GPT-4, RUTER-LLAMA-2-13b, GPTSW, NorMistral-7b, and NorBloom-7b) to generate age-appropriate Norwegian conversations for children aged 5 and 9 years. Through a blind evaluation by eleven education professionals using both real child interview data and LLM-generated text samples, we assessed authenticity and developmental appropriateness. Our results show that evaluators achieved strong inter-rater reliability (ICC=0.75) and demonstrated higher accuracy in age prediction for younger children (5-year-olds) compared to older children (9-year-olds). While GPT-4 and NorBloom-7b performed relatively well, most models generated language perceived as more linguistically advanced than the target age groups. These findings highlight critical data-related challenges in developing LLM systems for specialized applications involving children, particularly in low-resource languages where comprehensive age-appropriate lexical resources are scarce.
- Abstract(参考訳): 大言語モデル(LLMs)は、主に成人の会話データに基づいて訓練され、特定のアプリケーションのための真正な子供のような対話を生成する際に、重大な課題に直面します。
5歳児と9歳児を対象に,5種類のLDM (GPT-4, RUTER-LLAMA-2-13b, GPTSW, NorMistral-7b, NorBloom-7b) を比較した。
実子インタビューデータとLCM生成テキストサンプルを用いて,11人の教育専門家による盲目評価を行い,信頼性と発達的適切性を評価した。
以上の結果より,小学生(5歳児)の年齢予測は,9歳児(9歳児)と比較して高い信頼性を示した。
GPT-4とNorBloom-7bは比較的よく機能したが、ほとんどのモデルではターゲット年齢群よりも言語的に進んだ言語が生成される。
これらの知見は、特に年齢に適した語彙資源が乏しい低リソース言語において、子どもを対象とする特殊なアプリケーションのためのLLMシステムの開発における重要なデータ関連課題を浮き彫りにした。
関連論文リスト
- FEANEL: A Benchmark for Fine-Grained Error Analysis in K-12 English Writing [68.23874413455594]
本稿では,英語学習者のための細粒度誤り解析(FEANEL)ベンチマークを提案する。
ベンチマークは、小学生と中学生が書いた1000のエッセイから成っている。
各エラーは言語教育の専門家によって注釈付けされ、彼らが共同開発した音声に基づく分類法を用いて、タイプ、重大度、説明的フィードバックによって分類される。
論文 参考訳(メタデータ) (2025-11-28T05:17:45Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - MENLO: From Preferences to Proficiency - Evaluating and Modeling Native-like Quality Across 47 Languages [18.278876042011383]
オーディエンスにインスパイアされたメカニズムに基づいた,ネイティブな応答品質の評価を運用するフレームワークであるMENLOを紹介する。
我々は,47種類の言語において,高いアノテータ間一致を伴う4つの品質次元をカバーする6,423個の人称アノテート・レスポンス・プライオリティ・ペアのデータセットを作成する。
論文 参考訳(メタデータ) (2025-09-30T17:48:58Z) - Benchmarking LLMs for Mimicking Child-Caregiver Language in Interaction [6.152274140650429]
LLMは人間のような対話を生成できるが、初期の子どもと大人の交流をシミュレートする能力はほとんど解明されていない。
現状のLSMは、単語と発話レベルにおいて、子どもと介護者の対話を近似することができるが、子どもと介護者の分散パターンの再現に苦慮し、アライメントを誇張し、人間によって示される多様性のレベルに到達できなかった。
論文 参考訳(メタデータ) (2024-12-12T14:43:03Z) - Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education [0.0]
本稿では, 大規模言語モデルを用いて, 短時間の回答に対するオープンテキスト応答の精度を評価できるような, 新たなデータセットによる一連の実験について報告する。
GPT-4は, 基本的数発のプロンプト(Kappa, 0.70)が良好に動作し, 人体レベルのパフォーマンス(0.75)に非常に近いことが判明した。
この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
論文 参考訳(メタデータ) (2024-05-05T16:11:06Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity
and Infant Care [14.326936563564171]
大規模言語モデル(LLM)における誤情報評価のためのベンチマークCARE-MIを提案する。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
ベンチマークの結果,母子関係や乳幼児ケアの分野では,現在の中国のLSMは完璧とは程遠いことが判明した。
論文 参考訳(メタデータ) (2023-07-04T03:34:19Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。