論文の概要: Linguistic Structure from a Bottleneck on Sequential Information Processing
- arxiv url: http://arxiv.org/abs/2405.12109v2
- Date: Wed, 09 Oct 2024 15:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:26:52.422056
- Title: Linguistic Structure from a Bottleneck on Sequential Information Processing
- Title(参考訳): 逐次情報処理におけるボットネックからの言語構造
- Authors: Richard Futrell, Michael Hahn,
- Abstract要約: 予測情報によって制約されたコードに自然言語のような体系性が生じることを示す。
人間の言語は、音韻学、形態学、構文学、意味論のレベルにおいて、低い予測情報を持つように構成されている。
- 参考スコア(独自算出の注目度): 5.850665541267672
- License:
- Abstract: Human language is a unique form of communication in the natural world, distinguished by its structured nature. Most fundamentally, it is systematic, meaning that signals can be broken down into component parts that are individually meaningful -- roughly, words -- which are combined in a regular way to form sentences. Furthermore, the way in which these parts are combined maintains a kind of locality: words are usually concatenated together, and they form contiguous phrases, keeping related parts of sentences close to each other. We address the challenge of understanding how these basic properties of language arise from broader principles of efficient communication under information processing constraints. Here we show that natural-language-like systematicity arises in codes that are constrained by predictive information, a measure of the amount of information that must be extracted from the past of a sequence in order to predict its future. In simulations, we show that such codes approximately factorize their source distributions, and then express the resulting factors systematically and locally. Next, in a series of cross-linguistic corpus studies, we show that human languages are structured to have low predictive information at the levels of phonology, morphology, syntax, and semantics. Our result suggests that human language performs a sequential, discrete form of Independent Components Analysis on the statistical distribution over meanings that need to be expressed. It establishes a link between the statistical and algebraic structure of human language, and reinforces the idea that the structure of human language is shaped by communication under cognitive constraints.
- Abstract(参考訳): 人間の言語は自然界におけるユニークなコミュニケーション形態であり、その構造的な性質によって区別される。
基本的にはシステマティックであり、信号は個々の意味のある部分(大まかに言えば単語)に分解され、文を形成するために通常の方法で結合される。
さらに、これらの部分を組み合わせる方法は、通常、単語が結合され、連続した句を形成し、文の関連部分が互いに近接しているような、ある種の局所性を維持している。
我々は,これらの言語の基本的特性が,情報処理制約の下での効率的なコミュニケーションのより広い原理からどのように生じるかを理解することの課題に対処する。
ここでは, 予測情報によって制約される符号において, 自然言語のような体系性が出現することを示し, 将来を予測するために, シーケンスの過去から抽出しなければならない情報の量を測定する。
シミュレーションでは、これらの符号がソース分布を大まかに分解し、結果の因子を系統的かつ局所的に表現することを示す。
次に,音韻学,形態学,構文学,意味論のレベルにおいて,人間の言語が低い予測情報を持つように構成されていることを示す。
この結果から, 人間の言語は, 表現すべき意味に関する統計的分布について, 逐次的かつ離散的な独立成分分析を行うことが明らかとなった。
これは、人間の言語の統計的構造と代数的構造とのリンクを確立し、人間の言語の構造は認知的制約の下でのコミュニケーションによって形成されるという考え方を強化する。
関連論文リスト
- Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Crosslinguistic word order variation reflects evolutionary pressures of
dependency and information locality [4.869029215261254]
世界の言語の約40%は主目的語順であり、約40%は主目的語順である。
単語順の変動は、依存関係の局所性と情報局所性の競合する圧力のバランスの異なる方法を反映していることを示す。
本研究は,言語間の統語構造と使用法が,限られた認知資源下での効率的なコミュニケーションを支援するのに相応しいことを示唆している。
論文 参考訳(メタデータ) (2022-06-09T02:56:53Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Generalized Optimal Linear Orders [9.010643838773477]
言語の逐次構造、特に文中の単語の順序は、人間の言語処理において中心的な役割を果たす。
言語の計算モデルの設計において、デファクトのアプローチは、原文と同じ順序で命令された単語を機械に提示することである。
この研究の本質は、これが望ましいという暗黙の仮定を疑問視し、自然言語処理における語順の考慮に理論的健全性を注入することである。
論文 参考訳(メタデータ) (2021-08-13T13:10:15Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。