Fugu-MT 論文翻訳(概要): Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers

論文の概要: Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers

arxiv url: http://arxiv.org/abs/2205.11456v1
Date: Mon, 23 May 2022 16:47:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 17:02:25.410971
Title: Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers
Title（参考訳）: グラフ認識トランスフォーマーを用いた語彙コロケーションの多言語抽出と分類
Authors: Luis Espinosa-Anke and Alexander Shvets and Alireza Mohammadshahi and James Henderson and Leo Wanner
Abstract要約: 我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
参考スコア（独自算出の注目度）: 86.64972552583941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognizing and categorizing lexical collocations in context is useful for language learning, dictionary compilation and downstream NLP. However, it is a challenging task due to the varying degrees of frozenness lexical collocations exhibit. In this paper, we put forward a sequence tagging BERT-based model enhanced with a graph-aware transformer architecture, which we evaluate on the task of collocation recognition in context. Our results suggest that explicitly encoding syntactic dependencies in the model architecture is helpful, and provide insights on differences in collocation typification in English, Spanish and French.
Abstract（参考訳）: 文脈における語彙的コロケーションの認識と分類は,言語学習,辞書編集,下流NLPに有用である。しかし,凍った語彙のコロケーションが多種多様であることから,困難な課題である。本稿では,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価する。その結果,モデルアーキテクチャにおける構文依存を明示的にエンコードすることは有用であり,英語,スペイン語,フランス語のコロケーション型化の違いについての知見が得られる。

関連論文リスト

Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages [5.338837380875301]
word2vec、BERT、GPTといったトークン化とサブトークン化に基づくモデルは、自然言語処理における最先端のモデルである。本稿では,文字列から直接単語ベクトルを計算し,意味情報と構文情報を統合することを提案する。 BERTのようなコンテキストベースの大規模言語モデルと、低リソースおよび形態学的にリッチな言語のための word2vec のような小さなモデルの両方のパフォーマンスを改善する可能性がある。
論文参考訳（メタデータ） (2026-02-24T21:16:08Z)
LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages [39.08623113730563]
技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
論文参考訳（メタデータ） (2024-07-08T18:50:13Z)
Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-11-07T12:08:21Z)
Graph Adaptive Semantic Transfer for Cross-domain Sentiment Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文参考訳（メタデータ） (2022-05-18T07:47:01Z)
To Augment or Not to Augment? A Comparative Study on Text Augmentation Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文参考訳（メタデータ） (2021-11-18T10:52:48Z)
Transferring Semantic Knowledge Into Language Encoders [6.85316573653194]
意味的意味表現から言語エンコーダへ意味的知識を伝達する手法である意味型ミッドチューニングを導入する。このアライメントは分類や三重項の損失によって暗黙的に学習できることを示す。提案手法は, 推論, 理解, テキストの類似性, その他の意味的タスクにおいて, 予測性能の向上を示す言語エンコーダを生成する。
論文参考訳（メタデータ） (2021-10-14T14:11:12Z)
Cross-lingual Text Classification with Heterogeneous Graph Neural Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2021-05-24T12:45:42Z)
Unsupervised Word Translation Pairing using Refinement based Point Set Registration [8.568050813210823]
単語埋め込みの言語間アライメントは、言語間の知識伝達において重要な役割を果たす。現在の教師なしのアプローチは、言語にまたがる単語埋め込み空間の幾何学的構造における類似性に依存している。本稿では,バイリンガル単語の共有ベクトル空間への埋め込みを教師なしでマッピングするBioSpereを提案する。
論文参考訳（メタデータ） (2020-11-26T09:51:29Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文参考訳（メタデータ） (2020-10-11T15:13:18Z)
GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。 GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文参考訳（メタデータ） (2020-10-06T20:30:35Z)
Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文参考訳（メタデータ） (2020-04-17T09:17:40Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。