論文の概要: Probing BERT for German Compound Semantics
- arxiv url: http://arxiv.org/abs/2505.14130v1
- Date: Tue, 20 May 2025 09:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.975263
- Title: Probing BERT for German Compound Semantics
- Title(参考訳): ドイツの複合セマンティックスのためのBERTの探索
- Authors: Filip Miletić, Aaron Schmid, Sabine Schulte im Walde,
- Abstract要約: 本稿では,事前学習したドイツ語 BERT が名詞複合意味論の知識をエンコードする範囲について検討する。
我々は、初期の層で最も容易に回復可能な構成性情報を持つ、英語における同等の先行研究に匹敵する傾向を観察する。
私たちの最強の成果は、英語で報告されたものよりも明らかに遅れており、ドイツ語で本来よりも難しいタスクであることを示唆しています。
- 参考スコア(独自算出の注目度): 5.78009645672281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the extent to which pretrained German BERT encodes knowledge of noun compound semantics. We comprehensively vary combinations of target tokens, layers, and cased vs. uncased models, and evaluate them by predicting the compositionality of 868 gold standard compounds. Looking at representational patterns within the transformer architecture, we observe trends comparable to equivalent prior work on English, with compositionality information most easily recoverable in the early layers. However, our strongest results clearly lag behind those reported for English, suggesting an inherently more difficult task in German. This may be due to the higher productivity of compounding in German than in English and the associated increase in constituent-level ambiguity, including in our target compound set.
- Abstract(参考訳): 本稿では,事前学習したドイツ語 BERT が名詞複合意味論の知識をエンコードする範囲について検討する。
ターゲットトークン, 層, ケースドモデルとケースドモデルの組み合わせを包括的に変化させ, 868金標準化合物の構成性を予測して評価した。
トランスフォーマーアーキテクチャ内の表現パターンを考察し、初期層で最も容易に回復可能な構成性情報を用いて、英語における同等の先行作業に匹敵する傾向を観察する。
しかし、我々の最強の結果は明らかに英語で報告されたものよりも遅れており、ドイツ語では本質的により難しい課題であることが示唆されている。
これは、ドイツ語における合成の生産性が英語よりも高いことや、対象の化合物集合を含む構成レベルの曖昧さの増加に起因する可能性がある。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Subject Verb Agreement Error Patterns in Meaningless Sentences: Humans
vs. BERT [64.40111510974957]
英語における主語数合意に意味が干渉するかどうかを検証する。
意味的によく形づくられた、意味のないアイテムを生成します。
BERTと人間はどちらも、セマンティックな操作に敏感である。
論文 参考訳(メタデータ) (2022-09-21T17:57:23Z) - Automatic Readability Assessment of German Sentences with Transformer
Ensembles [0.0]
GBERTとGPT-2-Wechselモデルのアンサンブルによるドイツ語文の可読性を確実に予測する能力について検討した。
GBERT と GPT-2-Wechsel の混合アンサンブルは、GBERT と GPT-2-Wechsel のみからなる同じ大きさのアンサンブルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-09T13:47:55Z) - Cross-Language Learning for Entity Matching [2.9697051524971743]
本稿では、異なるe-Shopsから提供される商品のマッチングのユースケースについて検討する。
対象言語における少数のトレーニングペアを補完することにより,Transformerベースのエンティティマーカの性能を向上させることが可能である。
論文 参考訳(メタデータ) (2021-10-07T11:08:31Z) - Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations [2.041108289731398]
近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
論文 参考訳(メタデータ) (2021-09-28T20:15:29Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Detecting Fine-Grained Cross-Lingual Semantic Divergences without
Supervision by Learning to Rank [28.910206570036593]
この研究は、細粒度のセマンティックな違いの予測とアノテーションを改善する。
本稿では,多言語BERTモデルの学習方法として,様々な粒度の合成発散例をランク付けする手法を提案する。
ランク付けの学習は、強い文レベルの類似性モデルよりも正確に、きめ細かい文レベルの発散を検出するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T21:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。