論文の概要: Multilingual CheckList: Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2203.12865v1
- Date: Thu, 24 Mar 2022 06:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:03:49.898452
- Title: Multilingual CheckList: Generation and Evaluation
- Title(参考訳): 多言語チェックリスト:生成と評価
- Authors: Karthikeyan K, Shaily Bhatt, Pankaj Singh, Somak Aditya, Sandipan
Dandapat, Sunayana Sitaram, Monojit Choudhary
- Abstract要約: 本研究では,多言語チェックListの品質を生成・評価するための複数のアプローチについて検討する。
ソースからターゲット言語にチェックリストを自動的に転送するアルゴリズム -- 自動多言語チェックリスト生成(AMCG)。
自動的なアプローチは、機能にわたってモデルの失敗率を正確に見積もることができることを示す。
- 参考スコア(独自算出の注目度): 12.875739094571568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed CheckList (Riberio et al,. 2020) approach to evaluation
of NLP systems has revealed high failure rates for basic capabilities for
multiple state-of-the-art and commercial models. However, the CheckList
creation process is manual which creates a bottleneck towards creation of
multilingual CheckLists catering 100s of languages. In this work, we explore
multiple approaches to generate and evaluate the quality of Multilingual
CheckList. We device an algorithm -- Automated Multilingual Checklist
Generation (AMCG) for automatically transferring a CheckList from a source to a
target language that relies on a reasonable machine translation system. We then
compare the CheckList generated by AMCG with CheckLists generated with
different levels of human intervention. Through in-depth crosslingual
experiments between English and Hindi, and broad multilingual experiments
spanning 11 languages, we show that the automatic approach can provide accurate
estimates of failure rates of a model across capabilities, as would a
human-verified CheckList, and better than CheckLists generated by humans from
scratch.
- Abstract(参考訳): 最近提案されたCheckList (Riberio et al,. 2020) によるNLPシステムの評価は、複数の最先端および商用モデルの基本的な機能に対する高い失敗率を示している。
しかし、CheckList作成プロセスはマニュアルであり、100の言語に対応する多言語CheckListの作成にボトルネックをもたらす。
本研究では,多言語チェックリストの品質を生成・評価するための複数の手法を検討する。
私たちは、CheckListをソースから適切な機械翻訳システムに依存するターゲット言語に自動的に転送するアルゴリズム -- AMCG(Automated Multilingual Checklist Generation)を作成しました。
次に,amcgが生成するチェックリストと,ヒトの介入レベルが異なるチェックリストを比較した。
英語とヒンディー語間の詳細なクロスリンガル実験と11言語にまたがる広範囲な多言語実験を通して、自動的なアプローチは、人間の検証したCheckListのように、能力にわたってモデルの失敗率を正確に推定し、人間のゼロから生成されたCheckListよりも優れていることを示す。
関連論文リスト
- Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。
ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。
最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文 参考訳(メタデータ) (2024-09-10T03:08:33Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文 参考訳(メタデータ) (2023-10-20T15:57:17Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。