論文の概要: BabyReasoningBench: Generating Developmentally-Inspired Reasoning Tasks for Evaluating Baby Language Models
- arxiv url: http://arxiv.org/abs/2601.18933v1
- Date: Mon, 26 Jan 2026 20:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.054267
- Title: BabyReasoningBench: Generating Developmentally-Inspired Reasoning Tasks for Evaluating Baby Language Models
- Title(参考訳): BabyReasoningBench: ベイビー言語モデルの評価のための発達にインスパイアされた推論タスクの生成
- Authors: Kaustubh D. Dhole,
- Abstract要約: BabyReasoningBenchは、発達心理学の古典的パラダイムに根ざした19の推論タスクのベンチマークである。
GPT-2をベースとした2つのベビーランゲージモデル(10M,100Mの児童指向音声テキストで事前訓練)は、全体として低いが不均一な性能を示す。
- 参考スコア(独自算出の注目度): 5.337363940727556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional evaluations of reasoning capabilities of language models are dominated by adult-centric benchmarks that presuppose broad world knowledge, complex instruction following, and mature pragmatic competence. These assumptions are mismatched to baby language models trained on developmentally plausible input such as child-directed speech and early-childhood narratives, and they obscure which reasoning abilities (if any) emerge under such constraints. We introduce BabyReasoningBench, a GPT-5.2 generated benchmark of 19 reasoning tasks grounded in classic paradigms from developmental psychology, spanning theory of mind, analogical and relational reasoning, causal inference and intervention selection, and core reasoning primitives that are known to be confounded by memory and pragmatics. We find that two GPT-2 based baby language models (pretrained on 10M and 100M of child-directed speech text) show overall low but uneven performance, with dissociations across task families: scaling improves several causal and physical reasoning tasks, while belief attribution and pragmatics-sensitive tasks remain challenging. BabyReasoningBench provides a developmentally grounded lens for analyzing what kinds of reasoning are supported by child-like training distributions, and for testing mechanistic hypotheses about how such abilities emerge.
- Abstract(参考訳): 言語モデルの推論能力の従来の評価は、幅広い世界の知識を前提としたアダルト中心のベンチマーク、複雑な指導、そして成熟した実用的能力によって支配されている。
これらの仮定は、幼児指向のスピーチや幼児期の物語のような発達的に妥当なインプットに基づいて訓練されたベビーランゲージモデルと一致せず、そのような制約の下でどの推論能力(もしあれば)が出現するかを曖昧にしている。
BabyReasoningBenchは、発達心理学、心の理論、類推的・関係的推論、因果推論と介入の選択、そして記憶とプラグマティクスによって構築されたことが知られている中核的推論プリミティブなど、古典的パラダイムに根ざした19の推論タスクのベンチマークである。
GPT-2をベースとした2つのベビーランゲージモデル(10Mと100Mの児童指向音声テキスト)は、全体として低いが不均一なパフォーマンスを示し、タスクファミリー間での解離、スケーリングはいくつかの因果的および身体的推論タスクを改善する一方で、信念の帰属と実用性に敏感なタスクは難しいままである。
BabyReasoningBenchは、子どものようなトレーニングディストリビューションでどのような推論がサポートされているかを分析し、そのような能力がどのように出現するかの機械論的仮説をテストするための、発達段階のレンズを提供する。
関連論文リスト
- PediaMind-R1: A Temperament-Aware Language Model for Personalized Early Childhood Care Reasoning via Cognitive Modeling and Preference Alignment [4.77515468696011]
PediaMind-R1は、知的育児シナリオにおけるアクティブなパーソナライゼーションを実現するために設計されたドメイン特化大型言語モデルである。
トーマス・チェスの枠組みからテンペラメント理論を導入し、幼児と幼児(0-3歳)のためのテンペラメント知識グラフを構築した。
論文 参考訳(メタデータ) (2025-12-22T13:30:48Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Probing the Moral Development of Large Language Models through Defining
Issues Test [21.108525674360898]
我々の研究は、初期のLSMは、ランダムなベースラインよりも道徳的推論能力があることを示している。
実際、GPT-4は、典型的な大学院生に匹敵する、伝統的な道徳的推論スコアが最も高い。
論文 参考訳(メタデータ) (2023-09-23T12:17:10Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical
Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。
NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - Solving the Baby Intuitions Benchmark with a Hierarchically Bayesian
Theory of Mind [40.973571562607226]
本稿では,最近提案されたBaby Intuitions Benchmarkに対するベイズ解について述べる。
エージェントの目標と配置に関する階層的な優先順位を含めることで、HBToMモデルに対する推論はエージェントの効率性と嗜好をほとんど学習することができない。
このアプローチは、ほとんどのベンチマークタスクにおいてほぼ完璧な精度を実現し、ディープラーニングと模倣学習のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-08-04T22:27:11Z) - How Adults Understand What Young Children Say [1.416276307599112]
子供の初期のスピーチは、形や内容において大人のスピーチとほとんど似ていないことが多いが、介護者は幼児の発話で意味を見出すことが多い。
早期コミュニケーションの成功は,子どもの言語知識の増大だけでなく,大人の高度な推論にも依存すると考えられる。
論文 参考訳(メタデータ) (2022-06-15T20:37:32Z) - Critical Thinking for Language Models [6.963299759354333]
本稿では,ニューラル自動回帰言語モデルの批判的思考カリキュラムに向けて第一歩を踏み出す。
我々は、GPT-2を訓練し、評価するために、人工的な議論文を生成する。
NLUベンチマークに対して一貫した有望な結果が得られる。
論文 参考訳(メタデータ) (2020-09-15T15:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。