論文の概要: When Good and Reproducible Results are a Giant with Feet of Clay: The
Importance of Software Quality in NLP
- arxiv url: http://arxiv.org/abs/2303.16166v4
- Date: Tue, 15 Aug 2023 21:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:11:35.854639
- Title: When Good and Reproducible Results are a Giant with Feet of Clay: The
Importance of Software Quality in NLP
- Title(参考訳): 善良で再現可能な結果が粘土の足を持つ巨人である場合: nlpにおけるソフトウェア品質の重要性
- Authors: Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri
- Abstract要約: 本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。
我々は、ニューラルネットワークのテスト専用のライブラリである、コード品質チェックリストとリリースパンゴリNNを提案する。
- 参考スコア(独自算出の注目度): 25.461606766906336
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite its crucial role in research experiments, code correctness is often
presumed only on the basis of the perceived quality of results. This assumption
comes with the risk of erroneous outcomes and potentially misleading findings.
To address this issue, we posit that the current focus on reproducibility
should go hand in hand with the emphasis on software quality. We present a case
study in which we identify and fix three bugs in widely used implementations of
the state-of-the-art Conformer architecture. Through experiments on speech
recognition and translation in various languages, we demonstrate that the
presence of bugs does not prevent the achievement of good and reproducible
results, which however can lead to incorrect conclusions that potentially
misguide future research. As a countermeasure, we propose a Code-quality
Checklist and release pangoliNN, a library dedicated to testing neural models,
with the goal of promoting coding best practices and improving research
software quality within the NLP community.
- Abstract(参考訳): 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の質に基づいてのみ推測される。
この仮定は誤った結果と潜在的に誤解を招く結果のリスクを伴う。
この問題に対処するため、我々は、再現性に焦点を合わせ、ソフトウェアの品質に重点を置くべきであると仮定する。
本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。
様々な言語における音声認識と翻訳の実験を通じて、バグの存在は、善良かつ再現可能な結果の達成を妨げないが、将来の研究を誤った結果に導く可能性があることを実証する。
この対策として,ニューラルモデルテスト専用のライブラリであるコード品質チェックリストとリリースパンゴリNNを提案し,コーディングベストプラクティスの促進とNLPコミュニティにおける研究ソフトウェア品質の向上を目標としている。
関連論文リスト
- Improving Machine Translation with Human Feedback: An Exploration of
Quality Estimation as a Reward Model [79.45416224840135]
報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
実験結果から,提案したQEに基づくフィードバックトレーニングは,様々な設定において一貫した,重要な改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Uncertainty Awareness of Large Language Models Under Code Distribution
Shifts: A Benchmark Study [14.507068647009602]
大規模言語モデル(LLM)は、人間の生産性を高めるために、プログラム言語分析に広く用いられている。
その信頼性は、さまざまなコード分散シフトによって損なわれ、一貫性のない出力につながる。
確率法は不確実性キャリブレーションと推定によってそのような影響を軽減することが知られている。
論文 参考訳(メタデータ) (2024-01-12T00:00:32Z) - Applying Bayesian Data Analysis for Causal Inference about Requirements
Quality: A Replicated Experiment [4.8378508270172675]
25人の参加者が異なる品質欠陥を含む4つの自然言語要求からドメインモデルを生成する制御された実験を再現する。
ベイジアンデータの頻度分析とベイジアンデータ解析の両方を用いて,得られたモデルを評価する。
しかし、あいまいな代名詞の使用は、結果として生じるドメインモデルの様々な性質に強い影響を示す。
論文 参考訳(メタデータ) (2024-01-02T11:08:39Z) - Quality-Aware Translation Models: Efficient Generation and Quality
Estimation in a Single Model [80.52182596068464]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Information-Theoretic Testing and Debugging of Fairness Defects in Deep
Neural Networks [13.425444923812586]
ディープフィードフォワードニューラルネットワーク(DNN)は、社会経済的決定支援ソフトウェアシステムにますます導入されている。
本稿では,DNNにおける公平性欠陥の検出とローカライズを行う情報理論テストおよびデバッグフレームワークDICEを提案する。
DICEは識別の量を効率よく特徴付けし、識別インスタンスを効果的に生成し、大きなバイアスを伴うレイヤ/ニューロンをローカライズする。
論文 参考訳(メタデータ) (2023-04-09T09:16:27Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - Investigating the Use of One-Class Support Vector Machine for Software
Defect Prediction [8.066214414156562]
一つのクラスからのみ学習することが、効果的な欠陥予測モデルを生成するのに十分かどうかを検討する。
その結果,OCSVMはプロジェクト内欠陥予測よりもクロスバージョンやクロスプロジェクトに適していることがわかった。
論文 参考訳(メタデータ) (2022-02-24T12:57:14Z) - DeepZensols: Deep Natural Language Processing Framework [23.56171046067646]
この作業は、一貫した結果を再現できるフレームワークです。
自然言語処理(NLP)ディープラーニング(DL)モデルの作成、トレーニング、評価を行う手段を提供する。
論文 参考訳(メタデータ) (2021-09-08T01:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。