論文の概要: Constructions are Revealed in Word Distributions
- arxiv url: http://arxiv.org/abs/2503.06048v1
- Date: Sat, 08 Mar 2025 04:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:06.894548
- Title: Constructions are Revealed in Word Distributions
- Title(参考訳): 構築物は単語分布で明らかにされる
- Authors: Joshua Rozner, Leonie Weissweiler, Kyle Mahowald, Cory Shain,
- Abstract要約: 構築文法は、構築が言語の経験を通して獲得されるという仮定である。
この分布には、実際にどの程度の情報が含まれていますか?
この分布のプロキシとしてRoBERTaモデルを使用し、統計親和性のパターンとして構造が明らかになるという仮説を立てる。
- 参考スコア(独自算出の注目度): 18.215932573792255
- License:
- Abstract: Construction grammar posits that constructions (form-meaning pairings) are acquired through experience with language (the distributional learning hypothesis). But how much information about constructions does this distribution actually contain? Corpus-based analyses provide some answers, but text alone cannot answer counterfactual questions about what caused a particular word to occur. For that, we need computable models of the distribution over strings -- namely, pretrained language models (PLMs). Here we treat a RoBERTa model as a proxy for this distribution and hypothesize that constructions will be revealed within it as patterns of statistical affinity. We support this hypothesis experimentally: many constructions are robustly distinguished, including (i) hard cases where semantically distinct constructions are superficially similar, as well as (ii) schematic constructions, whose "slots" can be filled by abstract word classes. Despite this success, we also provide qualitative evidence that statistical affinity alone may be insufficient to identify all constructions from text. Thus, statistical affinity is likely an important, but partial, signal available to learners.
- Abstract(参考訳): 構成文法は、構成(形式的な意味のペアリング)が言語の経験(分布学習仮説)によって獲得されるという仮定である。
しかし、この分布には実際にどれだけの情報が含まれていますか?
コーパスに基づく分析は、いくつかの答えを提供するが、テキストだけでは、特定の単語が発生した原因について反現実的な質問に答えることはできない。
そのためには、文字列上の分布の計算可能なモデル、すなわち事前訓練された言語モデル(PLM)が必要です。
ここでは、RoBERTaモデルをこの分布のプロキシとして扱い、その構造を統計的親和性のパターンとして明らかにする仮説を立てる。
我々はこの仮説を実験的に支持する。
一 意味的に異なる構成が表面上類似している硬い場合
(ii)「スロット」を抽象語クラスで埋めるスキーマ構成。
この成功にもかかわらず、統計的親和性だけではテキストからすべての構成を識別できないという定性的な証拠も提示する。
したがって、統計的親和性は、学習者にとって重要なが部分的な信号である可能性が高い。
関連論文リスト
- QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios [15.193544498311603]
本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオのデータセットであるQUITEを提案する。
我々は幅広い実験を行い、論理ベースのモデルが全ての推論型において、アウト・オブ・ボックスの大規模言語モデルより優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
論文 参考訳(メタデータ) (2024-10-14T12:44:59Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - False perspectives on human language: why statistics needs linguistics [0.8699677835130408]
統計的測度は, 構造的モデルと非構造的モデルのいずれかに基づいて定義できることを示す。
構文構造を反映した仮定モデルのみが、言語の規則性を考慮できる。
論文 参考訳(メタデータ) (2023-02-17T11:40:32Z) - A Measure-Theoretic Characterization of Tight Language Models [105.16477132329416]
病理学的には「確率質量」が無限列の集合に漏れることがある。
本稿では,言語モデリングの尺度論的扱いについて述べる。
多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。
論文 参考訳(メタデータ) (2022-12-20T18:17:11Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - When Hearst Is not Enough: Improving Hypernymy Detection from Corpus
with Distributional Models [59.46552488974247]
本稿では,大きなテキストコーパスの助けを借りて,単語 (x, y) 間のis-a関係が存在するかどうかを論じる。
近年の研究では、大規模なハーストペアを抽出して給餌し、目に見えない(x, y)ペアの親和性が緩和された場合、パターンベースのペアの方が優れていることが示唆されている。
本稿では,これらの特定の事例の非無視的存在を初めて定量化し,その場合の分布法がパターンベースの事例を補うのに最適であることを示す。
論文 参考訳(メタデータ) (2020-10-10T08:34:19Z) - Language Modeling with Reduced Densities [0.0]
テキストのコーパスに見られるような有限アルファベットからの記号列が確率に富んだカテゴリを形成することを示す。
次に、第2の根本的な疑問に対処する。 この情報は、どのようにしてカテゴリ構造を保存する方法で保存され、モデル化されるのか?
論文 参考訳(メタデータ) (2020-07-08T00:41:53Z) - Learning Probabilistic Sentence Representations from Paraphrases [47.528336088976744]
文の分布を生成する確率モデルを定義する。
パラフレーズでモデルをトレーニングし、それらが自然に文の特異性を捉えていることを示す。
本モデルでは,各単語の明瞭度と正確度を抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-16T21:10:28Z) - INFOTABS: Inference on Tables as Semi-structured Data [39.84930221015755]
我々は,ウィキペディアのインフォボックスから抽出されたテーブルである前提に基づいて,人間によるテキスト仮説からなるINFOTABSという新しいデータセットを導入する。
解析の結果,半構造的,多領域的,異種的の性質は複雑で多面的推論を許容していることがわかった。
実験の結果、人間アノテータはテーブル-仮説のペア間の関係について合意する一方で、いくつかの標準的なモデリング戦略はそのタスクにおいて失敗していることがわかった。
論文 参考訳(メタデータ) (2020-05-13T02:07:54Z) - A Complete Characterization of Projectivity for Statistical Relational
Models [20.833623839057097]
本稿では,射影関係モデルのクラスを正確に対応付ける,有向潜在変数モデルのクラスを導入する。
また、与えられた大きさ-$k$構造上の分布が、より大きい大きさ-$n$構造における大きさ-$k$部分構造の統計周波数分布であるときの特性も得られる。
論文 参考訳(メタデータ) (2020-04-23T05:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。