論文の概要: When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP
- arxiv url: http://arxiv.org/abs/2303.16166v5
- Date: Thu, 4 Jul 2024 09:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 03:12:39.064783
- Title: When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP
- Title(参考訳): NLPにおけるソフトウェア品質の重要性
- Authors: Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri,
- Abstract要約: 本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。
我々は、ニューラルネットワークのテスト専用のライブラリである、コード品質チェックリストとリリースパンゴリNNを提案する。
- 参考スコア(独自算出の注目度): 23.30735117217225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite its crucial role in research experiments, code correctness is often presumed only on the basis of the perceived quality of results. This assumption comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on reproducibility should go hand in hand with the emphasis on software quality. We present a case study in which we identify and fix three bugs in widely used implementations of the state-of-the-art Conformer architecture. Through experiments on speech recognition and translation in various languages, we demonstrate that the presence of bugs does not prevent the achievement of good and reproducible results, which however can lead to incorrect conclusions that potentially misguide future research. As a countermeasure, we propose a Code-quality Checklist and release pangoliNN, a library dedicated to testing neural models, with the goal of promoting coding best practices and improving research software quality within the NLP community.
- Abstract(参考訳): 研究実験において重要な役割を担っているにもかかわらず、コード正当性はしばしば、知覚された結果の品質に基づいてのみ推定される。
この仮定は、誤った結果のリスクと、潜在的に誤解を招く発見が伴う。
この問題に対処するため、我々は、再現性に焦点を合わせ、ソフトウェアの品質に重点を置くべきであると仮定する。
本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。
様々な言語における音声認識と翻訳の実験を通して、バグの存在は良い結果や再現可能な結果の達成を妨げないことを示した。
この対策として,ニューラルモデルテスト専用のライブラリであるコード品質チェックリストとリリースパンゴリNNを提案し,コーディングベストプラクティスの促進とNLPコミュニティにおける研究ソフトウェア品質の向上を目標としている。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Confronting the Reproducibility Crisis: A Case Study in Validating Certified Robustness [0.0]
本稿では,VeriGauge ツールキットを用いた "SoK: Certified Robustness for Deep Neural Networks" における検証結果の検証を試みる。
ドキュメント化された方法論に従えば、古い依存関係や利用できない依存関係、バージョンコンフリクト、ドライバの不互換性など、多くのソフトウェアとハードウェアの互換性の問題が発生した。
本稿では,コンテナ化やソフトウェア保存,包括的なドキュメントプラクティスといった潜在的なソリューションを提案する。
論文 参考訳(メタデータ) (2024-05-29T04:37:19Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Uncertainty Awareness of Large Language Models Under Code Distribution
Shifts: A Benchmark Study [14.507068647009602]
大規模言語モデル(LLM)は、人間の生産性を高めるために、プログラム言語分析に広く用いられている。
その信頼性は、さまざまなコード分散シフトによって損なわれ、一貫性のない出力につながる。
確率法は不確実性キャリブレーションと推定によってそのような影響を軽減することが知られている。
論文 参考訳(メタデータ) (2024-01-12T00:00:32Z) - Applying Bayesian Data Analysis for Causal Inference about Requirements Quality: A Controlled Experiment [4.6068376339651635]
要求仕様の品質がその後のソフトウェアエンジニアリング活動に影響を与えることは一般的に受け入れられている。
要求品質の欠陥がソフトウェアエンジニアリング活動に与える影響について実証的な証拠を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-02T11:08:39Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Information-Theoretic Testing and Debugging of Fairness Defects in Deep
Neural Networks [13.425444923812586]
ディープフィードフォワードニューラルネットワーク(DNN)は、社会経済的決定支援ソフトウェアシステムにますます導入されている。
本稿では,DNNにおける公平性欠陥の検出とローカライズを行う情報理論テストおよびデバッグフレームワークDICEを提案する。
DICEは識別の量を効率よく特徴付けし、識別インスタンスを効果的に生成し、大きなバイアスを伴うレイヤ/ニューロンをローカライズする。
論文 参考訳(メタデータ) (2023-04-09T09:16:27Z) - DeepZensols: Deep Natural Language Processing Framework [23.56171046067646]
この作業は、一貫した結果を再現できるフレームワークです。
自然言語処理(NLP)ディープラーニング(DL)モデルの作成、トレーニング、評価を行う手段を提供する。
論文 参考訳(メタデータ) (2021-09-08T01:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。