Fugu-MT 論文翻訳(概要): Influence Paths for Characterizing Subject-Verb Number Agreement in LSTM Language Models

論文の概要: Influence Paths for Characterizing Subject-Verb Number Agreement in LSTM Language Models

arxiv url: http://arxiv.org/abs/2005.01190v1
Date: Sun, 3 May 2020 21:10:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 06:42:27.045057
Title: Influence Paths for Characterizing Subject-Verb Number Agreement in LSTM Language Models
Title（参考訳）: lstm言語モデルにおけるサブジェクト・バーブ数合意を特徴付ける影響パス
Authors: Kaiji Lu, Piotr Mardziel, Klas Leino, Matt Fedrikson, Anupam Datta
Abstract要約: LSTMベースのリカレントニューラルネットワークは、多くの自然言語処理(NLP)タスクの最先端技術である。この理解の欠如として、このタスクにおけるLSTM性能の一般性と、関連するタスクに対するそれらの適合性は不確かである。本稿では, 繰り返し神経回路のゲートとニューロンを横断する経路として, 構造特性の因果的説明である*影響経路*を紹介する。
参考スコア（独自算出の注目度）: 22.826154706036995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LSTM-based recurrent neural networks are the state-of-the-art for many natural language processing (NLP) tasks. Despite their performance, it is unclear whether, or how, LSTMs learn structural features of natural languages such as subject-verb number agreement in English. Lacking this understanding, the generality of LSTM performance on this task and their suitability for related tasks remains uncertain. Further, errors cannot be properly attributed to a lack of structural capability, training data omissions, or other exceptional faults. We introduce *influence paths*, a causal account of structural properties as carried by paths across gates and neurons of a recurrent neural network. The approach refines the notion of influence (the subject's grammatical number has influence on the grammatical number of the subsequent verb) into a set of gate or neuron-level paths. The set localizes and segments the concept (e.g., subject-verb agreement), its constituent elements (e.g., the subject), and related or interfering elements (e.g., attractors). We exemplify the methodology on a widely-studied multi-layer LSTM language model, demonstrating its accounting for subject-verb number agreement. The results offer both a finer and a more complete view of an LSTM's handling of this structural aspect of the English language than prior results based on diagnostic classifiers and ablation.
Abstract（参考訳）: LSTMベースのリカレントニューラルネットワークは、多くの自然言語処理(NLP)タスクの最先端技術である。その性能にもかかわらず、LSTMが英語における主語数合意のような自然言語の構造的特徴を学習するかどうかは不明である。この理解の欠如として、このタスクにおけるLSTM性能の一般性と、関連するタスクに対するそれらの適合性は不確かである。さらに、エラーは、構造的能力の欠如、トレーニングデータの欠落、その他の例外的な障害に起因するものではない。本稿では, 繰り返し神経回路のゲートとニューロンを横断する経路として, 構造特性の因果的説明である*影響経路*を紹介する。このアプローチは、影響の概念(対象の文法的数はその後の動詞の文法的数に影響を与える)をゲートまたはニューロンレベルの経路に洗練させる。この集合は、概念(例えば、主題と動詞の合意)、その構成要素(例えば、主題)、および関連するまたは干渉する要素(例えば、誘惑者)をローカライズし、セグメント化する。本稿では,多層多層lstm言語モデルに関する方法論を例示し,主語-動詞数合意の経理を実証する。その結果、LSTMによる英語の構造的側面の扱いについては、診断分類器やアブレーションに基づく以前の結果よりも、より細部とより完全なビューが提供される。

関連論文リスト

Analysis of LLM as a grammatical feature tagger for African American English [0.6927055673104935]
アフリカ系アメリカ人英語(AAE)は自然言語処理(NLP)に固有の課題を提示している本研究では,利用可能なNLPモデルの性能を体系的に比較する。本研究は,AAEの固有の言語特性をよりよく適合させるために,モデルトレーニングとアーキテクチャ調整の改善の必要性を強調した。
論文参考訳（メタデータ） (2025-02-09T19:46:33Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer [50.572974726351504]
クラスベースのLMをFNTに組み込んだ新しいE2EモデルであるC-FNTを提案する。 C-FNTでは、名前付きエンティティのLMスコアは、その表面形式の代わりに名前クラスに関連付けることができる。実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減することがわかった。
論文参考訳（メタデータ） (2023-09-14T12:14:49Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
The Better Your Syntax, the Better Your Semantics? Probing Pretrained Language Models for the English Comparative Correlative [7.03497683558609]
Construction Grammar (CxG) は、文法と意味論の関連性を強調する認知言語学のパラダイムである。我々は、最もよく研究されている構成のうちの1つ、英語比較相関(CC)を分類し、理解する能力について調査する。以上の結果から,PLMは3つともCCの構造を認識することができるが,その意味は用いていないことが明らかとなった。
論文参考訳（メタデータ） (2022-10-24T13:01:24Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文参考訳（メタデータ） (2021-07-29T13:34:20Z)
SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文参考訳（メタデータ） (2021-03-17T13:23:53Z)
LSTMs Compose (and Learn) Bottom-Up [18.34617849764921]
NLPにおける最近の研究は、LSTM言語モデルが言語データの階層構造を捉えていることを示している。既存の研究とは対照的に,その構成行動に繋がるテキスト学習のプロセスを考える。本稿では,LSTMにおける単語の意味間の分解的相互依存性を,ゲート間の相互作用に基づいて測定する。
論文参考訳（メタデータ） (2020-10-06T13:00:32Z)
How much complexity does an RNN architecture need to learn syntax-sensitive dependencies? [9.248882589228089]
長期記憶(LSTM)ネットワークは、長距離依存をカプセル化することができる。単純なリカレントネットワーク(SRN)は一般的に、長距離依存関係の取得にはあまり成功していない。本稿では,ニューロン活性化の減衰特性を取り入れた新しいアーキテクチャであるDecay RNNを提案する。
論文参考訳（メタデータ） (2020-05-17T09:13:28Z)
Attribution Analysis of Grammatical Dependencies in LSTMs [0.043512163406551986]
LSTM言語モデルは、構文に敏感な文法的依存関係を高い精度で捉えることが示されている。本研究は, モデルが他の名詞と区別する能力と, 数値一致におけるLSTM性能が直接相関していることを示す。この結果から,LSTM言語モデルが構文依存の頑健な表現を推論できることが示唆された。
論文参考訳（メタデータ） (2020-04-30T19:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。