論文の概要: Unsupervised Paraphrasing of Multiword Expressions
- arxiv url: http://arxiv.org/abs/2306.01443v1
- Date: Fri, 2 Jun 2023 11:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:36:20.896126
- Title: Unsupervised Paraphrasing of Multiword Expressions
- Title(参考訳): 多語表現の教師なしパラフレージング
- Authors: Takashi Wada, Yuji Matsumoto, Timothy Baldwin, Jey Han Lau
- Abstract要約: そこで本稿では,MWEを文脈で表現するための教師なしアプローチを提案する。
我々のモデルは、単言語コーパスデータと事前訓練された言語モデルのみを用いる(微調整なしで)。
本手法はSemEval 2022のセマンティックテキスト類似性タスクにおいて評価し,非教師付きシステムや競合型教師付きシステムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.009297698058816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an unsupervised approach to paraphrasing multiword expressions
(MWEs) in context. Our model employs only monolingual corpus data and
pre-trained language models (without fine-tuning), and does not make use of any
external resources such as dictionaries. We evaluate our method on the SemEval
2022 idiomatic semantic text similarity task, and show that it outperforms all
unsupervised systems and rivals supervised systems.
- Abstract(参考訳): そこで本稿では,MWEを文脈で表現するための教師なしアプローチを提案する。
我々のモデルは単言語コーパスデータと事前訓練された言語モデルのみを使用し(微調整なしで)、辞書などの外部リソースは利用しない。
提案手法は2022年度の慣用的意味テキスト類似性課題において評価し,非教師なしシステムや競合システムよりも優れていることを示す。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Unsupervised Lexical Simplification with Context Augmentation [55.318201742039]
対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。
我々は、TSAR-2022共有タスクにおいて、英語、ポルトガル語、スペイン語で実験を行い、我々のモデルは、すべての言語で、他の教師なしシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T05:48:05Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Paraphrase Generation as Unsupervised Machine Translation [30.99150547499427]
タスクを教師なし機械翻訳(UMT)として扱うことで、新しいパラフレーズ生成パラダイムを提案する。
提案したパラダイムは,まず大きなラベルのないコーパスを複数のクラスタに分割し,これらのクラスタのペアを用いて複数のUTTモデルを訓練する。
すると、これらのUTTモデルによって生成されたパラフレーズペアに基づいて、統一的なサロゲートモデルが最後のSeq2Seqモデルとして機能してパラフレーズを生成するように訓練することができる。
論文 参考訳(メタデータ) (2021-09-07T09:08:58Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - A Call for More Rigor in Unsupervised Cross-lingual Learning [76.6545568416577]
このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
論文 参考訳(メタデータ) (2020-04-30T17:06:23Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。