論文の概要: Multilingual Nonce Dependency Treebanks: Understanding how Language Models represent and process syntactic structure
- arxiv url: http://arxiv.org/abs/2311.07497v2
- Date: Wed, 12 Jun 2024 13:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:33:02.599967
- Title: Multilingual Nonce Dependency Treebanks: Understanding how Language Models represent and process syntactic structure
- Title(参考訳): 多言語名詞依存木バンク:言語モデルが構文構造をどのように表現し処理するかを理解する
- Authors: David Arps, Laura Kallmeyer, Younes Samih, Hassan Sajjad,
- Abstract要約: SPUD (Semantically Perturbed Universal Dependencies) は、Universal Dependencies (UD) コーパスのためのナンスツリーバンクを作成するためのフレームワークである。
我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを実証する。
- 参考スコア(独自算出の注目度): 15.564927804136852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SPUD (Semantically Perturbed Universal Dependencies), a framework for creating nonce treebanks for the multilingual Universal Dependencies (UD) corpora. SPUD data satisfies syntactic argument structure, provides syntactic annotations, and ensures grammaticality via language-specific rules. We create nonce data in Arabic, English, French, German, and Russian, and demonstrate two use cases of SPUD treebanks. First, we investigate the effect of nonce data on word co-occurrence statistics, as measured by perplexity scores of autoregressive (ALM) and masked language models (MLM). We find that ALM scores are significantly more affected by nonce data than MLM scores. Second, we show how nonce data affects the performance of syntactic dependency probes. We replicate the findings of M\"uller-Eberstein et al. (2022) on nonce test data and show that the performance declines on both MLMs and ALMs wrt. original test data. However, a majority of the performance is kept, suggesting that the probe indeed learns syntax independently from semantics.
- Abstract(参考訳): 我々はSPUD(Semantically Perturbed Universal Dependencies)を導入した。これは多言語ユニバーサル依存(UD)コーパスのためのナンスツリーバンクを作成するためのフレームワークである。
SPUDデータは構文的引数構造を満足し、構文的アノテーションを提供し、言語固有の規則を通じて文法性を保証する。
我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを実証する。
まず,自動回帰(ALM)とマスキング言語モデル(MLM)のパープレキシティスコアを用いて,名詞データが単語共起統計に与える影響について検討した。
その結果, ALM スコアは MLM スコアよりも, ナンスデータの影響が大きいことがわかった。
第二に、ナンスデータが構文依存プローブの性能にどのように影響するかを示す。
実測データに基づくM\"uller-Eberstein et al (2022) の結果を再現し, MLMとALMの両方の性能低下を示す。
オリジナルのテストデータだ
しかし、ほとんどのパフォーマンスは保たれており、プローブは意味論から独立して構文を学習していることを示唆している。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Measuring Reliability of Large Language Models through Semantic
Consistency [3.4990427823966828]
我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。
我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
論文 参考訳(メタデータ) (2022-11-10T20:21:07Z) - Multilingual Syntax-aware Language Modeling through Dependency Tree
Conversion [12.758523394180695]
本研究では,9つの変換法と5つの言語にまたがるニューラル言語モデル(LM)の性能への影響について検討する。
平均して、私たちの最高のモデルのパフォーマンスは、すべての言語で最悪の選択に対して、19パーセントの精度向上を示しています。
我々の実験は、正しい木形式を選ぶことの重要性を強調し、情報的な決定を下すための洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T03:56:28Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Cross-Lingual Adaptation Using Universal Dependencies [1.027974860479791]
複雑なNLPタスクのためのUD構文解析木を用いて訓練されたモデルは、非常に異なる言語を特徴付けることができることを示す。
UD解析木に基づいて,木カーネルを用いた複数のモデルを開発し,これらのモデルが英語データセットでトレーニングされた場合,他の言語のデータを正しく分類できることを示す。
論文 参考訳(メタデータ) (2020-03-24T13:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。