Fugu-MT 論文翻訳(概要): When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP

論文の概要: When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP

arxiv url: http://arxiv.org/abs/2303.16166v4
Date: Tue, 15 Aug 2023 21:53:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 17:11:35.854639
Title: When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP
Title（参考訳）: 善良で再現可能な結果が粘土の足を持つ巨人である場合: nlpにおけるソフトウェア品質の重要性
Authors: Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri
Abstract要約: 本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。我々は、ニューラルネットワークのテスト専用のライブラリである、コード品質チェックリストとリリースパンゴリNNを提案する。
参考スコア（独自算出の注目度）: 25.461606766906336
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite its crucial role in research experiments, code correctness is often presumed only on the basis of the perceived quality of results. This assumption comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on reproducibility should go hand in hand with the emphasis on software quality. We present a case study in which we identify and fix three bugs in widely used implementations of the state-of-the-art Conformer architecture. Through experiments on speech recognition and translation in various languages, we demonstrate that the presence of bugs does not prevent the achievement of good and reproducible results, which however can lead to incorrect conclusions that potentially misguide future research. As a countermeasure, we propose a Code-quality Checklist and release pangoliNN, a library dedicated to testing neural models, with the goal of promoting coding best practices and improving research software quality within the NLP community.
Abstract（参考訳）: 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の質に基づいてのみ推測される。この仮定は誤った結果と潜在的に誤解を招く結果のリスクを伴う。この問題に対処するため、我々は、再現性に焦点を合わせ、ソフトウェアの品質に重点を置くべきであると仮定する。本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。様々な言語における音声認識と翻訳の実験を通じて、バグの存在は、善良かつ再現可能な結果の達成を妨げないが、将来の研究を誤った結果に導く可能性があることを実証する。この対策として,ニューラルモデルテスト専用のライブラリであるコード品質チェックリストとリリースパンゴリNNを提案し,コーディングベストプラクティスの促進とNLPコミュニティにおける研究ソフトウェア品質の向上を目標としている。

関連論文リスト

On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文参考訳（メタデータ） (2026-02-14T01:07:45Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
In-Context Learning as an Effective Estimator of Functional Correctness of LLM-Generated Code [8.40207342119367]
コード品質評価のためのテキスト内学習(ICL)手法を提案する。トレーニングセットから,機能的正当性のサンプルを少数提供することにより,既存のQPPアプローチの性能が向上することを示す。
論文参考訳（メタデータ） (2025-07-07T17:01:17Z)
CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval [31.817325318218003]
CoQuIRは、品質を意識したコード検索を評価するために設計された、最初の大規模多言語ベンチマークである。 CoQuIRは、11のプログラミング言語で42,725のクエリと134,907のコードスニペットに対して、きめ細かい品質のアノテーションを提供する。
論文参考訳（メタデータ） (2025-05-31T13:00:17Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
Automated Unit Test Case Generation: A Systematic Literature Review [2.273531916003657]
このレビューは、進化的アプローチとそれらの改善と結果として生じる限界に関して、既存の知識を統合することを目的としている。これらのアルゴリズムで使用される主要なテスト基準と、可読性やモックなどに関わる分野で現在直面している課題について検討する。
論文参考訳（メタデータ） (2025-04-29T01:50:06Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文参考訳（メタデータ） (2024-08-22T04:23:51Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文参考訳（メタデータ） (2024-01-23T16:07:43Z)
Uncertainty Awareness of Large Language Models Under Code Distribution Shifts: A Benchmark Study [14.507068647009602]
大規模言語モデル(LLM)は、人間の生産性を高めるために、プログラム言語分析に広く用いられている。その信頼性は、さまざまなコード分散シフトによって損なわれ、一貫性のない出力につながる。確率法は不確実性キャリブレーションと推定によってそのような影響を軽減することが知られている。
論文参考訳（メタデータ） (2024-01-12T00:00:32Z)
Applying Bayesian Data Analysis for Causal Inference about Requirements Quality: A Controlled Experiment [4.6068376339651635]
要求仕様の品質がその後のソフトウェアエンジニアリング活動に影響を与えることは一般的に受け入れられている。要求品質の欠陥がソフトウェアエンジニアリング活動に与える影響について実証的な証拠を提供することを目的としている。
論文参考訳（メタデータ） (2024-01-02T11:08:39Z)
Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文参考訳（メタデータ） (2023-10-10T15:33:51Z)
Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文参考訳（メタデータ） (2023-05-02T17:46:12Z)
Information-Theoretic Testing and Debugging of Fairness Defects in Deep Neural Networks [13.425444923812586]
ディープフィードフォワードニューラルネットワーク(DNN)は、社会経済的決定支援ソフトウェアシステムにますます導入されている。本稿では,DNNにおける公平性欠陥の検出とローカライズを行う情報理論テストおよびデバッグフレームワークDICEを提案する。 DICEは識別の量を効率よく特徴付けし、識別インスタンスを効果的に生成し、大きなバイアスを伴うレイヤ/ニューロンをローカライズする。
論文参考訳（メタデータ） (2023-04-09T09:16:27Z)
Benchopt: Reproducible, efficient and collaborative optimization benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文参考訳（メタデータ） (2022-06-27T16:19:24Z)
DeepZensols: Deep Natural Language Processing Framework [23.56171046067646]
この作業は、一貫した結果を再現できるフレームワークです。自然言語処理(NLP)ディープラーニング(DL)モデルの作成、トレーニング、評価を行う手段を提供する。
論文参考訳（メタデータ） (2021-09-08T01:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。