論文の概要: BioDefect: The First Dataset for Defect Detection in Bioinformatics Software
- arxiv url: http://arxiv.org/abs/2605.20788v1
- Date: Wed, 20 May 2026 06:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.527613
- Title: BioDefect: The First Dataset for Defect Detection in Bioinformatics Software
- Title(参考訳): Bio Defect: バイオインフォマティクスソフトウェアにおける欠陥検出のための最初のデータセット
- Authors: Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Xin Lian, Hangyu Cheng, Jiayin Wang,
- Abstract要約: バイオインフォマティクスソフトウェアにおける欠陥検出に特化した最初のデータセットであるBioDefectを紹介する。
以前のデータセットとは異なり、BioDefectには完全なソースコードリポジトリが含まれており、欠陥のあるコードの実際のコンテキスト情報を保存している。
その結果,BioDefectはバイオインフォマティクスソフトウェアにおける欠陥検出性能を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 10.217196945724973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software defect detection is a critical task in software engineering. However, no prior studies have specifically addressed defect detection in bioinformatics software. Given that the performance of defect detection tasks is primarily influenced by both models and datasets, our experiments controlled for model-related factors and confirmed the limitations of existing datasets in bioinformatics software. To address this issue, we introduce BioDefect, the first dataset specifically designed for defect detection in bioinformatics software, aiming to overcome the limitations of existing datasets in this context. Unlike prior datasets, BioDefect includes complete source code repositories, preserving the actual contextual information of defective code, thereby more accurately reflecting real-world defect scenarios in bioinformatics software. Additionally, BioDefect mitigates issues related to label inconsistency and data leakage, ensuring high data quality and experimental reliability. To evaluate the effectiveness of BioDefect, we conduct a systematic assessment on nine language models (LMs), including DeepSeek-R1. The results demonstrate that BioDefect significantly enhances defect detection performance for bioinformatics software. Compared to existing datasets, BioDefect achieves an average F1-score improvement of 29.61% to 38.04% across all models, highlighting its superior advantages. This study fills a critical research gap in bioinformatics software defect detection, laying a foundation for future studies in this field and offering new insights for improving bioinformatics software quality assurance.
- Abstract(参考訳): ソフトウェア欠陥検出は、ソフトウェア工学における重要なタスクである。
しかしながら、バイオインフォマティクスソフトウェアにおける欠陥検出に特に対処する以前の研究はない。
欠陥検出タスクの性能は,主にモデルとデータセットの影響を受けており,本実験はモデル関連因子を制御し,バイオインフォマティクスソフトウェアにおける既存のデータセットの限界を確認した。
この問題に対処するために,バイオインフォマティクスソフトウェアにおける欠陥検出に特化した最初のデータセットであるBioDefectを紹介した。
以前のデータセットとは異なり、BioDefectには完全なソースコードリポジトリが含まれており、欠陥コードの実際のコンテキスト情報を保存しているため、バイオインフォマティクスソフトウェアにおける現実の欠陥シナリオをより正確に反映している。
さらに、BioDefectはラベルの不整合やデータの漏洩に関連する問題を軽減し、高いデータ品質と実験的な信頼性を確保する。
バイオ欠陥の有効性を評価するため,DeepSeek-R1を含む9つの言語モデル(LM)を体系的に評価する。
その結果,BioDefectはバイオインフォマティクスソフトウェアにおける欠陥検出性能を大幅に向上させることがわかった。
既存のデータセットと比較すると、BioDefectはすべてのモデルで29.61%から38.04%のF1スコアの改善を実現しており、その優位性を強調している。
本研究は,バイオインフォマティクスソフトウェア欠陥検出における重要な研究ギャップを埋め,今後の研究基盤を築き,バイオインフォマティクスソフトウェアの品質保証を改善するための新たな洞察を提供する。
関連論文リスト
- Data and Context Matter: Towards Generalizing AI-based Software Vulnerability Detection [0.6905053769416639]
VulGateは、先行データセットの欠点を緩和するアートデータセットの高品質な状態である。
また、複数のエンコーダのみおよびデコーダのみのモデルを導入し、ベンチマークする。
我々のモデルは、ベンチマークBigVulデータセットでのリコールの改善を textbf6.8% で達成し、目に見えないプロジェクトでは他よりも優れています。
論文 参考訳(メタデータ) (2025-08-14T15:30:22Z) - Data Augmentation of Time-Series Data in Human Movement Biomechanics: A Scoping Review [6.160486151724121]
機械学習は、広範なウェアラブルセンサーデータによって実現された、バイオメカニクスにおけるデータ分析を変革した。
この分野は、限られた大規模データセットや高いデータ取得コストといった課題に直面している。
データ拡張技術はこれらの問題に対処する上で有望であることを示すが、バイオメカニカルな時系列データへの適用には包括的な評価が必要である。
論文 参考訳(メタデータ) (2025-04-04T10:31:44Z) - Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.17302533571231]
ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。
既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。
本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文 参考訳(メタデータ) (2024-11-19T00:28:20Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。