論文の概要: Beyond Length: Context-Aware Expansion and Independence as Developmentally Sensitive Evaluation in Child Utterances
- arxiv url: http://arxiv.org/abs/2602.05392v1
- Date: Thu, 05 Feb 2026 07:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.81311
- Title: Beyond Length: Context-Aware Expansion and Independence as Developmentally Sensitive Evaluation in Child Utterances
- Title(参考訳): 子どもの発話における発達的感性評価としての文脈認識の伸長と独立性
- Authors: Jiyun Chun, Eric Fosler-Lussier, Michael White, Andrew Perrault,
- Abstract要約: 成人の対話における子どもの発話の質を評価することは,文脈に敏感な指標が不足しているため,依然として困難である。
MLU(Mean Length of Utterance)、語彙多様性(vocd-D)、可読性指標(Flesch-Kincaid Grade Level, Gunning Fog Index)などの一般的なプロキシは、長さと会話のコンテキストを無視している。
LLM-as-a-judge フレームワークを導入し,まず先行する成人の発話型を分類し,幼児の反応を2つの軸に沿って評価する。
- 参考スコア(独自算出の注目度): 17.781201178950973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of children's utterances in adult-child dialogue remains challenging due to insufficient context-sensitive metrics. Common proxies such as Mean Length of Utterance (MLU), lexical diversity (vocd-D), and readability indices (Flesch-Kincaid Grade Level, Gunning Fog Index) are dominated by length and ignore conversational context, missing aspects of response quality such as reasoning depth, topic maintenance, and discourse planning. We introduce an LLM-as-a-judge framework that first classifies the Previous Adult Utterance Type and then scores the child's response along two axes: Expansion (contextual elaboration and inferential depth) and Independence (the child's contribution to advancing the discourse). These axes reflect fundamental dimensions in child language development, where Expansion captures elaboration, clause combining, and causal and contrastive connectives. Independence captures initiative, topic control, decreasing reliance on adult scaffolding through growing self-regulation, and audience design. We establish developmental validity by showing age-related patterns and demonstrate predictive value by improving age estimation over common baselines. We further confirm semantic sensitivity by detecting differences tied to discourse relations. Our metrics align with human judgments, enabling large-scale evaluation. This shifts child utterance assessment from simply measuring length to evaluating how meaningfully the child's speech contributes to and advances the conversation within its context.
- Abstract(参考訳): 成人の対話における子どもの発話の質を評価することは、文脈に敏感な指標が不足しているため、依然として困難である。
MLU(Mean Length of Utterance)、語彙多様性(vocd-D)、可読性指標(Flesch-Kincaid Grade Level, Gunning Fog Index)といった一般的なプロキシは、長さと会話の文脈を無視し、推論深度、トピック保守、談話計画といった応答品質の欠如が支配されている。
本稿では,先進的な成人の発話タイプをまず分類し,幼児の反応を2つの軸に沿って評価する LLM-as-a-judge フレームワークを提案する。
これらの軸は、子言語の発達における基本的な次元を反映しており、拡大は共同作業、節の組み合わせ、因果的およびコントラスト的結合を捉えている。
インデペンデンスは、イニシアチブ、トピックコントロール、自己規制の増大による成人の足場への依存の減少、そしてオーディエンスデザインを捉えている。
我々は,年齢関連パターンを示すことによって発達の妥当性を確立し,共通基準値よりも年齢推定を改善することによって予測価値を示す。
さらに、談話関係の相違を検知し、意味感受性を確認する。
私たちのメトリクスは人間の判断と一致し、大規模な評価を可能にします。
これにより、幼児の発話評価は、単に長さを計測することから、子どもの発話がどれだけ意味のある意味を持つかを評価すること、そして会話を文脈内で進行させることへと移行する。
関連論文リスト
- Evaluating the Sensitivity of LLMs to Harmful Contents in Long Input [53.19281984086319]
大規模言語モデル (LLM) は、文書処理から検索拡張生成まで、拡張コンテキストに依存したアプリケーションをサポートするようになった。
我々は,LLMの有害な内容に対する感受性を,拡張されたコンテキスト,異なるタイプ(明示的対暗黙的),位置(傾向,中間,端),有病率(プロンプトの0.01~0.50),文脈長(600~6000トークン)で評価した。
我々は同様のパターンを観察する: 適度な有害な有病率(0.25)でパフォーマンスピークがピークに達するが、内容が非常に疎い場合や支配的な場合の減少、文脈長の増大に伴うリコールの減少、初期有害な文は一般的により確実に検出され、明示的な内容は暗黙よりも一貫して認識される。
論文 参考訳(メタデータ) (2025-10-07T12:33:21Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文 参考訳(メタデータ) (2025-06-07T23:19:27Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - How Adults Understand What Young Children Say [1.416276307599112]
子供の初期のスピーチは、形や内容において大人のスピーチとほとんど似ていないことが多いが、介護者は幼児の発話で意味を見出すことが多い。
早期コミュニケーションの成功は,子どもの言語知識の増大だけでなく,大人の高度な推論にも依存すると考えられる。
論文 参考訳(メタデータ) (2022-06-15T20:37:32Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z) - Child-directed Listening: How Caregiver Inference Enables Children's
Early Verbal Communication [2.9331097393290837]
我々は、大人が子どもの言葉のうるささを克服する方法を理解するために、ベイズ語モデルを用いています。
音声でアノテートしたコーパス上での競合モデルの評価により, 子どもの言語環境に特化して適合する事前の期待により, 成人の回復した意味を最もよく予測できることを示す。
論文 参考訳(メタデータ) (2021-02-06T00:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。