論文の概要: Idiomatic Expression Paraphrasing without Strong Supervision
- arxiv url: http://arxiv.org/abs/2112.08592v1
- Date: Thu, 16 Dec 2021 03:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:10:48.158231
- Title: Idiomatic Expression Paraphrasing without Strong Supervision
- Title(参考訳): 強いスーパービジョンを伴わない慣用的表現表現
- Authors: Jianing Zhou, Ziheng Zeng, Hongyu Gong, Suma Bhat
- Abstract要約: Idiomatic sentence paraphrasing (ISP) は、IEをリテラルパラフレーズに置き換えることで、IEで文を言い換えることを目的としている。
この課題には, 慣用的-文字並行文による大規模コーパスの欠如が大きな課題である。
本稿では,IEの文脈情報と定義を活用するISPに対する教師なしアプローチを提案する。
第2に,文のパラフレーズ化と生成をIEと共同で行うために,バックトランスレーションを用いた弱教師付きアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.921034899925646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Idiomatic expressions (IEs) play an essential role in natural language. In
this paper, we study the task of idiomatic sentence paraphrasing (ISP), which
aims to paraphrase a sentence with an IE by replacing the IE with its literal
paraphrase. The lack of large-scale corpora with idiomatic-literal parallel
sentences is a primary challenge for this task, for which we consider two
separate solutions. First, we propose an unsupervised approach to ISP, which
leverages an IE's contextual information and definition and does not require a
parallel sentence training set. Second, we propose a weakly supervised approach
using back-translation to jointly perform paraphrasing and generation of
sentences with IEs to enlarge the small-scale parallel sentence training
dataset. Other significant derivatives of the study include a model that
replaces a literal phrase in a sentence with an IE to generate an idiomatic
expression and a large scale parallel dataset with idiomatic/literal sentence
pairs. The effectiveness of the proposed solutions compared to competitive
baselines is seen in the relative gains of over 5.16 points in BLEU, over 8.75
points in METEOR, and over 19.57 points in SARI when the generated sentences
are empirically validated on a parallel dataset using automatic and manual
evaluations. We demonstrate the practical utility of ISP as a preprocessing
step in En-De machine translation.
- Abstract(参考訳): 慣用表現(IE)は自然言語において重要な役割を果たす。
本稿では,IEをリテラルパラフレーズに置き換えることにより,IEで文をパラフレーズ化することを目的とした,慣用文パラフレーズ化(ISP)の課題について検討する。
慣用-文字並列文による大規模コーパスの欠如は、この課題の第一の課題であり、ここでは2つの異なる解を考える。
まず,IEの文脈情報と定義を活用し,並列文学習セットを必要としないISPに対する教師なしアプローチを提案する。
第2に,下位翻訳による文の表現と生成をIEと共同で行い,小規模な並列文学習データセットを拡大する弱い教師付きアプローチを提案する。
この研究の他の重要なデリバティブには、文中のリテラルフレーズをIEに置き換えて慣用的な表現を生成するモデルと、慣用/文のペアによる大規模並列データセットが含まれる。
提案手法の有効性は, BLEUの5.16点以上, METEORの8.75点以上, SARIの19.57点以上において, 自動的および手動的評価を用いて, パラレルデータセット上で生成した文が実証的に検証された場合に, 比較した。
本稿では,En-De機械翻訳における前処理ステップとして,ISPの実用性を実証する。
関連論文リスト
- AlignXIE: Improving Multilingual Information Extraction by Cross-Lingual Alignment [62.69772800910482]
AlignXIEは、様々な言語、特に非英語のIEをコード生成タスクとして定式化している。
翻訳されたインスタンス予測タスクを通じてIEの言語間アライメントフェーズを組み込む。
ChatGPTを$30.17%、SoTAを$20.03%上回ることで、言語横断IEの優れた機能を実現している。
論文 参考訳(メタデータ) (2024-11-07T15:36:05Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Identifying Context-Dependent Translations for Evaluation Set Production [11.543673351369183]
文脈対応機械翻訳への移行に対する大きな障害は、優れた評価指標とテストセットがないことである。
我々は,5つの現象を翻訳するために文脈を必要とする文を含む並列文書のサブセットを識別するツールであるCTXPROを開発した。
パイプラインへの入力は、文脈的な文ペアを選択する手作り、言語ごと、言語的にインフォームドされたルールのセットである。
論文 参考訳(メタデータ) (2023-11-04T04:29:08Z) - JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its
Applications [4.482886054198201]
JCSEは、文を生成し、それらをターゲットドメインで利用可能な文で合成することで、トレーニングデータを生成する。
次に、日本語モデルを対象領域の特定のタスクに適応させるために、対照的な学習に使用される矛盾した文対を生成する。
論文 参考訳(メタデータ) (2023-01-19T17:41:46Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。