論文の概要: Attention on Multiword Expressions: A Multilingual Study of BERT-based Models with Regard to Idiomaticity and Microsyntax
- arxiv url: http://arxiv.org/abs/2505.06062v1
- Date: Fri, 09 May 2025 13:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.286802
- Title: Attention on Multiword Expressions: A Multilingual Study of BERT-based Models with Regard to Idiomaticity and Microsyntax
- Title(参考訳): マルチワード表現の注意:慣用性とマイクロシンタクスを考慮したBERTモデルの検討
- Authors: Iuliia Zaitova, Vitalii Hirak, Badr M. Abdullah, Dietrich Klakow, Bernd Möbius, Tania Avgustinova,
- Abstract要約: 本研究では,BERTアーキテクチャ(BERTモデル)に基づく細調整エンコーダ専用モデルの2種類のマルチワード表現(MWE)に対する注意パターンを解析する。
我々は、英語、ドイツ語、オランダ語、ポーランド語、ロシア語、ウクライナ語の6つのインド・ヨーロッパ語でモノリンガルモデルとデータセットを利用する。
特に, 意味的タスクに微調整されたモデルでは, より均等な層にわたって, 慣用的な表現に注意を分散させる傾向にある。
- 参考スコア(独自算出の注目度): 19.70973050513681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study analyzes the attention patterns of fine-tuned encoder-only models based on the BERT architecture (BERT-based models) towards two distinct types of Multiword Expressions (MWEs): idioms and microsyntactic units (MSUs). Idioms present challenges in semantic non-compositionality, whereas MSUs demonstrate unconventional syntactic behavior that does not conform to standard grammatical categorizations. We aim to understand whether fine-tuning BERT-based models on specific tasks influences their attention to MWEs, and how this attention differs between semantic and syntactic tasks. We examine attention scores to MWEs in both pre-trained and fine-tuned BERT-based models. We utilize monolingual models and datasets in six Indo-European languages - English, German, Dutch, Polish, Russian, and Ukrainian. Our results show that fine-tuning significantly influences how models allocate attention to MWEs. Specifically, models fine-tuned on semantic tasks tend to distribute attention to idiomatic expressions more evenly across layers. Models fine-tuned on syntactic tasks show an increase in attention to MSUs in the lower layers, corresponding with syntactic processing requirements.
- Abstract(参考訳): 本研究では,BERTアーキテクチャ(BERT-ベースモデル)に基づく細調整エンコーダのみのモデルに対する注意パターンを,イディオムとマイクロシンタクティックユニット(MSU)の2種類のマルチワード表現(MWE)に対して解析する。
慣用句は意味的非合成性の課題を示すが、MSUは標準的な文法的分類に従わない非伝統的な統語的行動を示す。
本研究の目的は,特定のタスクに対する細調整BERTベースのモデルがMWEに対する注意に影響を及ぼすか,また,この注意が意味的タスクと統語的タスクにどのように異なるかを理解することである。
トレーニング済みと微調整されたBERTモデルの両方において、MWEに対する注意点について検討する。
我々は、英語、ドイツ語、オランダ語、ポーランド語、ロシア語、ウクライナ語の6つのインド・ヨーロッパ語でモノリンガルモデルとデータセットを利用する。
その結果, 微調整はモデルがMWEにどのように注意を向けるかに大きな影響を及ぼすことがわかった。
具体的には、セマンティックなタスクに微調整されたモデルは、階層にわたってより均等に慣用的な表現に注意を向ける傾向がある。
構文的タスクを微調整したモデルは、構文的処理の要求に応じて下位層におけるMSUへの注意が増すことを示している。
関連論文リスト
- SemEval-2025 Task 1: AdMIRe -- Advancing Multimodal Idiomaticity Representation [4.9231093174636404]
本稿では,SemEval-2025 Task 1: AdReMiancing Multimodality Representationのデータセットとタスクについて述べる。
この課題は、マルチモーダルな文脈や複数の言語で慣用的な表現を解釈するモデルの能力を評価し改善することである。
参加者は2つのサブタスクに出場した: 画像が慣用的またはリテラル的な意味と整合性に基づいてランク付けされ、シーケンス内の次のイメージを意味付け、予測する。
論文 参考訳(メタデータ) (2025-03-19T15:58:46Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Assessing Linguistic Generalisation in Language Models: A Dataset for
Brazilian Portuguese [4.941630596191806]
ブラジルポルトガル語で開発されたモデルで符号化された言語情報を検査する本質的な評価課題を提案する。
これらのタスクは、異なる言語モデルが文法構造やマルチワード表現に関連する情報を一般化する方法を評価するために設計されている。
論文 参考訳(メタデータ) (2023-05-23T13:49:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Enriched Pre-trained Transformers for Joint Slot Filling and Intent
Detection [22.883725214057286]
本稿では,意図に基づく言語モデル学習のための新しいアーキテクチャを提案する。
そこで本研究では,意図分布,単語特徴,トークン表現を融合させることで,スロット充足作業の強化を図る。
標準データセットによる実験結果から,我々のモデルは現在の非BERT状態と,より強力なBERTベースラインの両方に優れることがわかった。
論文 参考訳(メタデータ) (2020-04-30T15:00:21Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。