論文の概要: SUT: Active Defects Probing for Transcompiler Models
- arxiv url: http://arxiv.org/abs/2310.14209v1
- Date: Sun, 22 Oct 2023 07:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:13:26.995780
- Title: SUT: Active Defects Probing for Transcompiler Models
- Title(参考訳): SUT: トランスコンパイラモデルのアクティブな欠陥調査
- Authors: Mengnan Qi, Yufan Huang, Maoquan Wang, Yongqiang Yao, Zihan Liu, Bin
Gu, Colin Clement, Neel Sundaresan
- Abstract要約: 我々は、プログラミング言語翻訳のための新しいメトリクスを導入し、これらのメトリクスは基本的な構文エラーに対処する。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的な単体テストで間違いを犯している。
- 参考スコア(独自算出の注目度): 24.01532199512389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Program translation has enormous application value and hence has
been attracting significant interest from AI researchers. However, we observe
that current program translation models still make elementary syntax errors,
particularly, when the target language does not have syntax elements in the
source language. Metrics like BLUE, CodeBLUE and computation accuracy may not
expose these issues. In this paper we introduce a new metrics for programming
language translation and these metrics address these basic syntax errors. We
develop a novel active defects probing suite called Syntactic Unit Tests (SUT)
which includes a highly interpretable evaluation harness for accuracy and test
scoring. Experiments have shown that even powerful models like ChatGPT still
make mistakes on these basic unit tests. Specifically, compared to previous
program translation task evaluation dataset, its pass rate on our unit tests
has decreased by 26.15%. Further our evaluation harness reveal syntactic
element errors in which these models exhibit deficiencies.
- Abstract(参考訳): 自動プログラム翻訳は膨大なアプリケーション価値を持ち、ai研究者から大きな関心を集めている。
しかし、現在のプログラム翻訳モデルは、特に対象言語がソース言語に構文要素を持っていない場合に、基本的な構文エラーを生じさせる。
BLUE、CodeBLUE、計算精度などのメトリクスはこれらの問題を露呈しない可能性がある。
本稿では、プログラミング言語翻訳のための新しいメトリクスを導入し、これらの基本的な構文エラーに対処する。
本稿では,sut(syntactic unit tests)と呼ばれる新しい能動欠陥探索スイートを開発した。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的なユニットテストで間違いを犯している。
具体的には,従来のプログラム翻訳タスク評価データセットと比較して,ユニットテストの合格率は26.15%減少した。
さらに,これらのモデルが欠陥を示す構文的要素誤差を明らかにする。
関連論文リスト
- xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Toward Human-Like Evaluation for Natural Language Generation with Error
Analysis [93.34894810865364]
最近の研究では、大きなエラー(例えば、誤訳されたトークン)と小さなエラーの両方を考慮すると、高品質な人間の判断が得られることが示されている。
これにより、自動エラー解析によって評価指標(人間のような評価)の最終目標にアプローチするインスピレーションがもたらされる。
BARTScoreは人為的なエラー解析戦略、すなわちBARTScore++を取り入れることでBARTScoreを強化します。
論文 参考訳(メタデータ) (2022-12-20T11:36:22Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Probing for targeted syntactic knowledge through grammatical error
detection [13.653209309144593]
本稿では,事前学習した英語モデルを評価するために,文法的誤り検出を診断プローブとして提案する。
我々は、英語の第二言語学習者とウィキペディアの編集の両方から、公的な注釈付きトレーニングデータを活用する。
マスク付き言語モデルでは,SVAエラー検出に関連する情報を線形に符号化し,自動回帰モデルはベースラインと同等に動作することがわかった。
論文 参考訳(メタデータ) (2022-10-28T16:01:25Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。