論文の概要: On Using Distribution-Based Compositionality Assessment to Evaluate
Compositional Generalisation in Machine Translation
- arxiv url: http://arxiv.org/abs/2311.08249v1
- Date: Tue, 14 Nov 2023 15:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:40:56.003229
- Title: On Using Distribution-Based Compositionality Assessment to Evaluate
Compositional Generalisation in Machine Translation
- Title(参考訳): 分布に基づく構成性評価を用いた機械翻訳における構成一般化の評価について
- Authors: Anssi Moisio, Mathias Creutz, Mikko Kurimo
- Abstract要約: 実世界の自然言語タスクにおける合成一般化を評価するためのベンチマークを開発することが重要である。
これは、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成的一般化能力を必要とするようにすることで行われる。
これは、自然言語合成性ベンチマークを作成するための、完全に自動化された手順である。
- 参考スコア(独自算出の注目度): 10.840893953881652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalisation (CG), in NLP and in machine learning more
generally, has been assessed mostly using artificial datasets. It is important
to develop benchmarks to assess CG also in real-world natural language tasks in
order to understand the abilities and limitations of systems deployed in the
wild. To this end, our GenBench Collaborative Benchmarking Task submission
utilises the distribution-based compositionality assessment (DBCA) framework to
split the Europarl translation corpus into a training and a test set in such a
way that the test set requires compositional generalisation capacity.
Specifically, the training and test sets have divergent distributions of
dependency relations, testing NMT systems' capability of translating
dependencies that they have not been trained on. This is a fully-automated
procedure to create natural language compositionality benchmarks, making it
simple and inexpensive to apply it further to other datasets and languages. The
code and data for the experiments is available at
https://github.com/aalto-speech/dbca.
- Abstract(参考訳): 合成一般化(CG)は、NLPや機械学習において、主に人工データセットを用いて評価されている。
実世界の自然言語タスクでもCGを評価するためのベンチマークを開発することが重要であり、野生に配備されるシステムの能力と限界を理解することが重要である。
この目的のために、我々のGenBench Collaborative Benchmarking Taskは、分散に基づく構成性評価(DBCA)フレームワークを利用して、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成一般化能力を必要とするようにする。
具体的には、トレーニングセットとテストセットは依存関係関係の異なる分布を持ち、トレーニングされていない依存関係を翻訳するNMTシステムの能力をテストする。
これは、自然言語合成性ベンチマークを作成するための完全に自動化された手順であり、他のデータセットや言語にさらに適用するのが簡単で安価である。
実験のコードとデータは、https://github.com/aalto-speech/dbcaで入手できる。
関連論文リスト
- NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - On Evaluating Multilingual Compositional Generalization with Translated
Datasets [34.51457321680049]
構成一般化能力は言語によって異なることを示す。
我々は、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。
MCWQ-Rとよばれるロバストなベンチマークが得られたとしても、構成の分布は言語的な相違によって依然として苦しんでいることが示される。
論文 参考訳(メタデータ) (2023-06-20T10:03:57Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - TransQuest: Translation Quality Estimation with Cross-lingual
Transformers [14.403165053223395]
言語間変換に基づく簡単なQEフレームワークを提案する。
2つの異なるニューラルアーキテクチャの実装と評価に使用しています。
評価の結果,提案手法は最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-01T16:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。