論文の概要: Disjoint Processing Mechanisms of Hierarchical and Linear Grammars in Large Language Models
- arxiv url: http://arxiv.org/abs/2501.08618v1
- Date: Wed, 15 Jan 2025 06:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:28.376230
- Title: Disjoint Processing Mechanisms of Hierarchical and Linear Grammars in Large Language Models
- Title(参考訳): 大規模言語モデルにおける階層文法と線形文法の解処理機構
- Authors: Aruna Sankaranarayanan, Dylan Hadfield-Menell, Aaron Mueller,
- Abstract要約: 我々は英語、イタリア語、日本語、あるいはナンス語を用いて入力を生成する。
我々は,言語モデルが階層的,線形的に構造化された入力に対して異なる振る舞いを示すことを観察した。
- 参考スコア(独自算出の注目度): 16.129038982673432
- License:
- Abstract: All natural languages are structured hierarchically. In humans, this structural restriction is neurologically coded: when two grammars are presented with identical vocabularies, brain areas responsible for language processing are only sensitive to hierarchical grammars. Using large language models (LLMs), we investigate whether such functionally distinct hierarchical processing regions can arise solely from exposure to large-scale language distributions. We generate inputs using English, Italian, Japanese, or nonce words, varying the underlying grammars to conform to either hierarchical or linear/positional rules. Using these grammars, we first observe that language models show distinct behaviors on hierarchical versus linearly structured inputs. Then, we find that the components responsible for processing hierarchical grammars are distinct from those that process linear grammars; we causally verify this in ablation experiments. Finally, we observe that hierarchy-selective components are also active on nonce grammars; this suggests that hierarchy sensitivity is not tied to meaning, nor in-distribution inputs.
- Abstract(参考訳): すべての自然言語は階層的に構造化されている。
ヒトでは、この構造的制限は神経学的にコード化され、2つの文法が同一の語彙で表されるとき、言語処理に責任を持つ脳領域は階層文法にのみ敏感である。
大規模言語モデル(LLM)を用いて,このような機能的に異なる階層的処理領域が,大規模言語分布への露出からのみ生じうるかどうかを検討する。
我々は、英語、イタリア語、日本語、あるいはナンス語を用いて入力を生成し、基礎となる文法を階層的または線形的/位置的規則に適合させる。
これらの文法を用いて、まず言語モデルが階層的および線形に構造化された入力に対して異なる振る舞いを示すことを観察する。
そして,階層文法の処理に責任を負う成分が線形文法の処理と異なることが判明し,アブレーション実験で慎重に検証した。
最後に, 階層選択成分は名詞文法上でも有効であり, これは階層感が意味や分布内入力と結びついていないことを示唆している。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks [6.390468088226495]
本研究では,木バンクから重要な粒度の文法パターンを抽出し,探索する手法を提案する。
我々は,異なる言語にまたがる記述や規則を抽出し,合意と語順の2つの言語現象について考察する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
論文 参考訳(メタデータ) (2024-03-26T09:39:53Z) - Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。
言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文 参考訳(メタデータ) (2024-03-26T00:56:06Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - How poor is the stimulus? Evaluating hierarchical generalization in
neural networks trained on child-directed speech [25.02822854434971]
我々は、LSTMとトランスフォーマーを、子どもの言語入力に類似した量と内容、すなわちChiLDESコーパスからのテキストに基づいて訓練する。
どちらのモデル型も、正しい階層規則よりも誤った線形規則と整合性のある方法で一般化されることが分かる。
これらの結果は、標準的なニューラルネットワークアーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-01-26T23:24:17Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - Seeing Both the Forest and the Trees: Multi-head Attention for Joint
Classification on Different Compositional Levels [15.453888735879525]
自然言語では、単語は関連して文を構成するために使用される。
より低い言語的コンポーネントと高い言語的コンポーネントを明確に結び付けるディープニューラルネットワークアーキテクチャを設計する。
我々のモデルであるMHALは、異なるレベルの粒度でそれらを同時に解くことを学習していることを示す。
論文 参考訳(メタデータ) (2020-11-01T10:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。