Fugu-MT 論文翻訳(概要): Analysis of Argument Structure Constructions in a Deep Recurrent Language Model

論文の概要: Analysis of Argument Structure Constructions in a Deep Recurrent Language Model

arxiv url: http://arxiv.org/abs/2408.03062v1
Date: Tue, 6 Aug 2024 09:27:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 14:27:34.478616
Title: Analysis of Argument Structure Constructions in a Deep Recurrent Language Model
Title（参考訳）: ディープ・リカレント言語モデルにおける引数構造の解析
Authors: Pegah Ramezani, Achim Schilling, Patrick Krauss,
Abstract要約: 本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding how language and linguistic constructions are processed in the brain is a fundamental question in cognitive computational neuroscience. In this study, we explore the representation and processing of Argument Structure Constructions (ASCs) in a recurrent neural language model. We trained a Long Short-Term Memory (LSTM) network on a custom-made dataset consisting of 2000 sentences, generated using GPT-4, representing four distinct ASCs: transitive, ditransitive, caused-motion, and resultative constructions. We analyzed the internal activations of the LSTM model's hidden layers using Multidimensional Scaling (MDS) and t-Distributed Stochastic Neighbor Embedding (t-SNE) to visualize the sentence representations. The Generalized Discrimination Value (GDV) was calculated to quantify the degree of clustering within these representations. Our results show that sentence representations form distinct clusters corresponding to the four ASCs across all hidden layers, with the most pronounced clustering observed in the last hidden layer before the output layer. This indicates that even a relatively simple, brain-constrained recurrent neural network can effectively differentiate between various construction types. These findings are consistent with previous studies demonstrating the emergence of word class and syntax rule representations in recurrent language models trained on next word prediction tasks. In future work, we aim to validate these results using larger language models and compare them with neuroimaging data obtained during continuous speech perception. This study highlights the potential of recurrent neural language models to mirror linguistic processing in the human brain, providing valuable insights into the computational and neural mechanisms underlying language understanding.
Abstract（参考訳）: 言語構造と言語構造が脳内でどのように処理されるかを理解することは、認知計算神経科学の基本的な問題である。本研究では,再帰型ニューラルランゲージモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。 GPT-4を用いて生成した2000の文からなるカスタムメイドデータセットを用いてLSTM(Long Short-Term Memory)ネットワークをトレーニングした。多次元スケーリング (MDS) と t-Distributed Stochastic Neighbor Embedding (t-SNE) を用いてLSTMモデルの隠れ層の内部活性化を分析し, 文表現を可視化した。一般化識別値(GDV)を計算し、これらの表現内でのクラスタリングの度合いを定量化した。その結果, 文表現は全層にまたがる4つのASCに対応する異なるクラスタを形成しており, 出力層の前に隠された最後の層で最も顕著なクラスタリングが観測された。これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。これらの結果は、次の単語予測タスクで訓練された反復言語モデルにおける単語クラスと構文規則表現の出現を示す以前の研究と一致している。今後の研究では、より大きな言語モデルを用いてこれらの結果を検証し、連続音声認識で得られたニューロイメージングデータと比較することを目的としている。この研究は、人間の脳における言語処理を反映するリカレントニューラルネットワークモデルの可能性を強調し、言語理解の基礎となる計算的および神経メカニズムに関する貴重な洞察を提供する。

関連論文リスト

Do Large Language Models Think Like the Brain? Sentence-Level Evidence from fMRI and Hierarchical Embeddings [28.210559128941593]
本研究では,大規模言語モデルにおける階層的表現が,人文理解時の動的神経応答とどのように一致しているかを検討する。その結果、モデル性能の改善は、表現アーキテクチャを脳に似た階層へと進化させることを示した。
論文参考訳（メタデータ） (2025-05-28T16:40:06Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文参考訳（メタデータ） (2025-02-03T20:30:46Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Investigating the Timescales of Language Processing with EEG and Language Models [0.0]
本研究では,事前学習した言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。テンポラル・レスポンス・ファンクション(TRF)モデルを用いて、神経活動が異なる層にまたがるモデル表現とどのように対応するかを検討する。分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。
論文参考訳（メタデータ） (2024-06-28T12:49:27Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
Neural Language Models are not Born Equal to Fit Brain Data, but Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文参考訳（メタデータ） (2022-07-07T15:37:17Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-06-09T22:59:12Z)
Does injecting linguistic structure into language models lead to better alignment with brain recordings? [13.880819301385854]
言語モデルと脳記録との整合性は,構文的あるいは意味論的フォーマリズムからのアノテーションに偏りがある場合と評価する。提案手法は,脳内の意味の組成について,より標的となる仮説の評価を可能にする。
論文参考訳（メタデータ） (2021-01-29T14:42:02Z)
Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models [47.42249565529833]
人間は最小限の経験から単語に関する構造的特性を学ぶことができる。我々は、現代のニューラル言語モデルがこの行動を英語で再現する能力を評価する。
論文参考訳（メタデータ） (2020-10-12T14:12:37Z)
Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文参考訳（メタデータ） (2020-10-06T13:17:38Z)
Syntax Role for Neural Semantic Role Labeling [77.5166510071142]
意味的役割ラベリング(SRL)は、文の意味的述語・代名詞構造を認識することを目的としている。従来のモデルでは、構文情報はSRLのパフォーマンスに顕著な貢献をする可能性がある。最近の神経SRL研究は、構文情報は神経意味的役割のラベル付けにおいてはるかに重要でないことを示している。
論文参考訳（メタデータ） (2020-09-12T07:01:12Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)
Emergence of Separable Manifolds in Deep Language Representations [26.002842878797765]
ディープニューラルネットワーク(DNN)は、様々な認知的モダリティをまたいだ知覚的タスクの解決において、非常に経験的な成功を示している。最近の研究では、タスク最適化DNNから抽出された表現と脳内の神経集団の間にかなりの類似性が報告されている。 DNNは後に、複雑な認知機能の基礎となる計算原理を推論する一般的なモデルクラスとなった。
論文参考訳（メタデータ） (2020-06-01T17:23:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。