Fugu-MT 論文翻訳(概要): MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG Evaluation

論文の概要: MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG Evaluation

arxiv url: http://arxiv.org/abs/2107.11534v1
Date: Sat, 24 Jul 2021 05:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-28 09:24:45.011797
Title: MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG Evaluation
Title（参考訳）: MIPE: 効果的なコード混合NLG評価のためのメトリクス独立パイプライン
Authors: Ayush Garg, Sammed S Kagi, Vivek Srivastava, Mayank Singh
Abstract要約: コードミキシング(Code-mixing)は、2つ以上の言語からの単語とフレーズを1つの発話で混合する現象である。様々な一般的なメトリクスは、コードミキシングされたNLGタスクではうまく機能しない。評価指標と人的判断の相関性を大幅に改善する指標独立評価パイプラインMIPEを提案する。
参考スコア（独自算出の注目度）: 1.2559148369195197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code-mixing is a phenomenon of mixing words and phrases from two or more languages in a single utterance of speech and text. Due to the high linguistic diversity, code-mixing presents several challenges in evaluating standard natural language generation (NLG) tasks. Various widely popular metrics perform poorly with the code-mixed NLG tasks. To address this challenge, we present a metric independent evaluation pipeline MIPE that significantly improves the correlation between evaluation metrics and human judgments on the generated code-mixed text. As a use case, we demonstrate the performance of MIPE on the machine-generated Hinglish (code-mixing of Hindi and English languages) sentences from the HinGE corpus. We can extend the proposed evaluation strategy to other code-mixed language pairs, NLG tasks, and evaluation metrics with minimal to no effort.
Abstract（参考訳）: コードミキシング(Code-mixing)は、2つ以上の言語の単語とフレーズを1つの発話で混合する現象である。言語的多様性が高いため、コードミキシングは標準自然言語生成(NLG)タスクを評価する上でいくつかの課題をもたらす。広く普及しているメトリクスは、コード混合nlgタスクでパフォーマンスが悪い。この課題に対処するために、生成したコードミックステキストにおける評価指標と人的判断との相関性を大幅に改善するメトリクス独立評価パイプラインMIPEを提案する。ユースケースとして,HinGEコーパスから生成したHinglish文(ヒンディー語と英語のコードミキシング)におけるMIPEの性能を示す。提案した評価戦略を、他のコード混合言語ペア、NLGタスク、および評価指標に最小限の労力で拡張することができる。

関連論文リスト

HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳（メタデータ） (2025-08-03T15:53:01Z)
Evaluating Code-Mixing in LLMs Across 18 Languages [9.241002681667378]
会話の中で言語を切り替えるコードミキシングは、自然言語処理に特有の課題を提示している。 LinCEやGLUECoSといった既存のベンチマークは、狭い言語ペアリングとタスクによって制限されている。 7つの言語ファミリーから18言語にまたがるコード混合データに対して,大規模言語モデルの性能を包括的に評価する。
論文参考訳（メタデータ） (2025-07-24T20:24:33Z)
Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences [3.359458926468223]
GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed文を紹介する。ゲームは、評価のためにゴールドスタンダードのコード混合文を必要としないため、人間のアノテータは不要である。 4つの言語対にまたがるゴールドスタンダードのコード混合文を含むデータセットをリリースする。
論文参考訳（メタデータ） (2024-10-14T14:54:05Z)
From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。 Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
論文参考訳（メタデータ） (2024-05-09T06:40:39Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Marathi-English Code-mixed Text Generation [0.0]
コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
論文参考訳（メタデータ） (2023-09-28T06:51:26Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。 BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文参考訳（メタデータ） (2023-03-23T18:16:30Z)
Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。 SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文参考訳（メタデータ） (2022-10-10T22:30:26Z)
MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文参考訳（メタデータ） (2022-03-16T04:21:50Z)
HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish Text [1.6675267471157407]
我々は、広く普及しているHinglish(ヒンディー語と英語のコードミキシング)のためのコーパス(HinGE)を提示する。 HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。さらに,コード混合データ上で広く利用されている評価指標の有効性を実証した。
論文参考訳（メタデータ） (2021-07-08T11:11:37Z)
Challenges and Limitations with the Metrics Measuring the Complexity of Code-Mixed Text [1.6675267471157407]
コードミキシング(Code-mixing)は、多言語話者の間で頻繁に行われるコミュニケーションスタイルであり、テキストや音声の同じ発話で2つの異なる言語からの単語とフレーズを混ぜる。本稿では、様々な実験で広く使われている既存のデータセットの例とともに、コード混合メトリクスのいくつかの固有の制限を示す。
論文参考訳（メタデータ） (2021-06-18T13:26:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。