論文の概要: Generating novel experimental hypotheses from language models: A case study on cross-dative generalization
- arxiv url: http://arxiv.org/abs/2408.05086v1
- Date: Fri, 9 Aug 2024 14:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:37:31.447697
- Title: Generating novel experimental hypotheses from language models: A case study on cross-dative generalization
- Title(参考訳): 言語モデルから新しい実験仮説を生成する:クロスダプティブ一般化のケーススタディ
- Authors: Kanishka Misra, Najoung Kim,
- Abstract要約: 我々は、シミュレーション学習者としてLMを用いて、人間と実験するための新しい実験仮説を導出する。
子ども指向の音声で訓練されたLMを用いて,クロスダクティブ・ジェネリゼーション(CDG)について検討した。
被曝条件の最初の言語的議論が固有であり, 明確で, 短く, かつ, 被曝条件の原型的アニマシー期待に適合している場合, CDGは促進される。
- 参考スコア(独自算出の注目度): 15.705978435313996
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural network language models (LMs) have been shown to successfully capture complex linguistic knowledge. However, their utility for understanding language acquisition is still debated. We contribute to this debate by presenting a case study where we use LMs as simulated learners to derive novel experimental hypotheses to be tested with humans. We apply this paradigm to study cross-dative generalization (CDG): productive generalization of novel verbs across dative constructions (she pilked me the ball/she pilked the ball to me) -- acquisition of which is known to involve a large space of contextual features -- using LMs trained on child-directed speech. We specifically ask: "what properties of the training exposure facilitate a novel verb's generalization to the (unmodeled) alternate construction?" To answer this, we systematically vary the exposure context in which a novel dative verb occurs in terms of the properties of the theme and recipient, and then analyze the LMs' usage of the novel verb in the unmodeled dative construction. We find LMs to replicate known patterns of children's CDG, as a precondition to exploring novel hypotheses. Subsequent simulations reveal a nuanced role of the features of the novel verbs' exposure context on the LMs' CDG. We find CDG to be facilitated when the first postverbal argument of the exposure context is pronominal, definite, short, and conforms to the prototypical animacy expectations of the exposure dative. These patterns are characteristic of harmonic alignment in datives, where the argument with features ranking higher on the discourse prominence scale tends to precede the other. This gives rise to a novel hypothesis that CDG is facilitated insofar as the features of the exposure context -- in particular, its first postverbal argument -- are harmonically aligned. We conclude by proposing future experiments that can test this hypothesis in children.
- Abstract(参考訳): ニューラルネットワーク言語モデル(LM)は複雑な言語知識を捉えるのに成功している。
しかしながら、言語習得を理解するための彼らのユーティリティはまだ議論されている。
本研究は,人間と実験する新たな実験仮説を導出するために,シミュレーション学習者としてLMを用いたケーススタディを提示することによって,この議論に貢献する。
このパラダイムを横断的一般化(CDG: Cross-dative generalization)の研究に応用する: 子指向の音声で訓練されたLMを用いて、新しい動詞を生産的に一般化する(彼女は、私にボールをひっ掛けた)。
トレーニング露光の特性は、新しい動詞の(モデル化されていない)代替構文への一般化を促進するのか?
そこで,本論文では,主題と受取人の特性の観点から,新約動詞が出現する露呈状況を体系的に変化させ,未モデル化約動詞構成における新約動詞の使用状況を分析した。
子どものCDGの既知のパターンを再現するLMは、新しい仮説を探求するための前提条件である。
その後のシミュレーションでは、LMのCDG上での新規動詞の露出コンテキストの特徴のニュアンスな役割が明らかにされた。
被曝条件の最初の言語的議論が固有であり, 明確で, 短く, かつ, 被曝条件の原型的アニマシー期待に適合している場合, CDGは促進される。
これらのパターンは、ディベートにおける調和的アライメントの特徴であり、談話の卓越度で上位にランクされた特徴を持つ議論は、他方に先行する傾向にある。
このことは、CDGが露出コンテキストの特徴、特に最初の言葉による議論が調和的に一致していることから、内部でCDGが促進されるという新たな仮説を生み出している。
我々は、この仮説を子どもにテストできる将来の実験を提案して結論付ける。
関連論文リスト
- Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Do Pre-Trained Language Models Detect and Understand Semantic Underspecification? Ask the DUST! [4.1970767174840455]
本研究では,事前訓練された言語モデル(LM)が不特定文を正しく識別し,解釈するかどうかを検討する。
実験の結果,不特定文の解釈においては,不特定文の理論的説明が予測する内容とは対照的に,不確実性はほとんど認められなかった。
論文 参考訳(メタデータ) (2024-02-19T19:49:29Z) - Large Language Models Are Partially Primed in Pronoun Interpretation [6.024776891570197]
大規模言語モデル (LLM) は, 刺激や実際の心理言語実験の手順を用いて, 人間のような参照バイアスを呈するかどうかを検討する。
最近の精神言語学的研究は、人間が参照パターンに最近露出することで参照バイアスに適応することを示唆している。
InstructGPTは,局所談話における参照パターンの頻度に応じて,その韻律的解釈に適応することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:30:48Z) - SciMON: Scientific Inspiration Machines Optimized for Novelty [68.46036589035539]
文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。
モデルが入力背景コンテキストとして使用される新しい設定で、劇的な出発をとっています。
本稿では,過去の科学的論文から「吸入」を抽出するモデリングフレームワークであるSciMONを紹介する。
論文 参考訳(メタデータ) (2023-05-23T17:12:08Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Schr\"odinger's Tree -- On Syntax and Neural Language Models [10.296219074343785]
言語モデルは、NLPのワークホースとして登場し、ますます流動的な生成能力を示している。
我々は、多くの次元にまたがる明瞭さの欠如を観察し、研究者が形成する仮説に影響を及ぼす。
本稿では,構文研究における様々な研究課題の意義について概説する。
論文 参考訳(メタデータ) (2021-10-17T18:25:23Z) - NOPE: A Corpus of Naturally-Occurring Presuppositions in English [33.69537711677911]
英語におけるNaturally-Occurring Presuppositions(NOPE)を紹介する。
本研究は,10種類のプレポーズトリガーの文脈感度について検討した。
我々は、人間の推論を予測する機械学習モデルの能力を評価する。
論文 参考訳(メタデータ) (2021-09-14T22:03:23Z) - Explaining Question Answering Models through Text Generation [42.36596190720944]
大規模な事前学習言語モデル(LM)は、常識と世界知識を必要とするタスクを微調整するときに驚くほどうまく機能することが示されている。
エンドツーエンドのアーキテクチャで正しい予測ができるような、LMの知識が何であるかを説明するのは難しい。
エンド・ツー・エンドのアーキテクチャに匹敵するパフォーマンスに達するタスクをいくつか示します。
論文 参考訳(メタデータ) (2020-04-12T09:06:46Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。