論文の概要: Reproducibility is Nothing without Correctness: The Importance of
Testing Code in NLP
- arxiv url: http://arxiv.org/abs/2303.16166v1
- Date: Tue, 28 Mar 2023 17:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:03:05.353689
- Title: Reproducibility is Nothing without Correctness: The Importance of
Testing Code in NLP
- Title(参考訳): 再現性は正確さなしでは何もない - NLPにおけるテストコードの重要性
- Authors: Sara Papi, Marco Gaido, Matteo Negri, Andrea Pilzer
- Abstract要約: コードの正確性はしばしば、結果の知覚された品質に基づいてのみ推定される。
これは誤った結果のリスクと、潜在的に誤解を招く可能性のある発見が伴う。
本研究は,開発ソフトウェアの品質向上と正確性向上を目的としたコーディングベストプラクティスの導入を訴えるものである。
- 参考スコア(独自算出の注目度): 12.496915372531813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite its pivotal role in research experiments, code correctness is often
presumed only on the basis of the perceived quality of the results. This comes
with the risk of erroneous outcomes and potentially misleading findings. To
address this issue, we posit that the current focus on result reproducibility
should go hand in hand with the emphasis on coding best practices. We bolster
our call to the NLP community by presenting a case study, in which we identify
(and correct) three bugs in widely used open-source implementations of the
state-of-the-art Conformer architecture. Through comparative experiments on
automatic speech recognition and translation in various language settings, we
demonstrate that the existence of bugs does not prevent the achievement of good
and reproducible results and can lead to incorrect conclusions that potentially
misguide future research. In response to this, this study is a call to action
toward the adoption of coding best practices aimed at fostering correctness and
improving the quality of the developed software.
- Abstract(参考訳): 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の認識された品質に基づいてのみ推測されることが多い。
これは誤った結果と潜在的に誤解を招く結果のリスクを伴う。
この問題に対処するため、私たちは、結果の再現性に現在焦点を合わせ、ベストプラクティスのコーディングに重点を置くべきであると仮定します。
我々は,最先端のコンフォーメータアーキテクチャのオープンソース実装で広く使用されている3つのバグを識別(かつ正しい)するケーススタディを提供することで,nlpコミュニティへの呼びかけを強化した。
各種言語における自動音声認識と翻訳の比較実験を通じて,バグの存在は善良かつ再現可能な結果の達成を妨げず,将来研究を誤った結果に導く可能性があることを実証する。
これに対応するため,本研究は,開発ソフトウェアの品質向上と正確性向上を目的としたコーディングベストプラクティスの採用に向けた取り組みである。
関連論文リスト
- Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。
種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-22T04:23:51Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Uncertainty Awareness of Large Language Models Under Code Distribution
Shifts: A Benchmark Study [14.507068647009602]
大規模言語モデル(LLM)は、人間の生産性を高めるために、プログラム言語分析に広く用いられている。
その信頼性は、さまざまなコード分散シフトによって損なわれ、一貫性のない出力につながる。
確率法は不確実性キャリブレーションと推定によってそのような影響を軽減することが知られている。
論文 参考訳(メタデータ) (2024-01-12T00:00:32Z) - Applying Bayesian Data Analysis for Causal Inference about Requirements Quality: A Controlled Experiment [4.6068376339651635]
要求仕様の品質がその後のソフトウェアエンジニアリング活動に影響を与えることは一般的に受け入れられている。
要求品質の欠陥がソフトウェアエンジニアリング活動に与える影響について実証的な証拠を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-02T11:08:39Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Information-Theoretic Testing and Debugging of Fairness Defects in Deep
Neural Networks [13.425444923812586]
ディープフィードフォワードニューラルネットワーク(DNN)は、社会経済的決定支援ソフトウェアシステムにますます導入されている。
本稿では,DNNにおける公平性欠陥の検出とローカライズを行う情報理論テストおよびデバッグフレームワークDICEを提案する。
DICEは識別の量を効率よく特徴付けし、識別インスタンスを効果的に生成し、大きなバイアスを伴うレイヤ/ニューロンをローカライズする。
論文 参考訳(メタデータ) (2023-04-09T09:16:27Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - DeepZensols: Deep Natural Language Processing Framework [23.56171046067646]
この作業は、一貫した結果を再現できるフレームワークです。
自然言語処理(NLP)ディープラーニング(DL)モデルの作成、トレーニング、評価を行う手段を提供する。
論文 参考訳(メタデータ) (2021-09-08T01:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。