論文の概要: Do Papers Match Code? A Benchmark and Framework for Paper-Code Consistency Detection in Bioinformatics Software
- arxiv url: http://arxiv.org/abs/2603.22018v1
- Date: Mon, 23 Mar 2026 14:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.712193
- Title: Do Papers Match Code? A Benchmark and Framework for Paper-Code Consistency Detection in Bioinformatics Software
- Title(参考訳): 紙はコードと一致しているか? バイオインフォマティクスソフトウェアにおける紙コード一貫性検出のためのベンチマークとフレームワーク
- Authors: Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Sizhe Dang, Xin Lian, Hangyu Cheng, Jiayin Wang,
- Abstract要約: 本稿では,48件のバイオインフォマティクスソフトウェアプロジェクトの集合を整理し,紙コード整合性検出という新たなタスクを提案する。
本稿では,自然言語記述とコード実装のセマンティックな関係をモデル化するクロスモーダル一貫性検出フレームワークを提案する。
実験の結果,本フレームワークはバイオインフォマティクスにおける論文とコード間の整合性を効果的に同定し,精度0.9056,F1スコア0.8011を実現していることがわかった。
- 参考スコア(独自算出の注目度): 10.771688688626801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring consistency between research papers and their corresponding software implementations is fundamental to software reliability and scientific reproducibility. However, this problem remains underexplored, particularly in the domain of bioinformatics, where discrepancies between methodological descriptions in papers and their actual code implementations are prevalent. To address this gap, this paper introduces a new task, namely paper-code consistency detection, and curates a collection of 48 bioinformatics software projects along with their associated publications. We systematically align sentence-level algorithmic descriptions from papers with function-level code snippets. Combined with expert annotations and a hybrid negative sampling strategy, we construct the first benchmark dataset in the bioinformatics domain tailored to this task, termed BioCon. Based on this benchmark, we further propose a cross-modal consistency detection framework designed to model the semantic relationships between natural language descriptions and code implementations. The framework adopts a unified input representation and leverages pre-trained models to capture deep semantic alignment between papers and code. To mitigate the effects of class imbalance and hard samples, we incorporate a weighted focal loss to enhance model robustness. Experimental results demonstrate that our framework effectively identifies consistency between papers and code in bioinformatics, achieving an accuracy of 0.9056 and an F1 score of 0.8011. Overall, this study opens a new research direction for paper-code consistency analysis and lays the foundation for automated reproducibility assessment and cross-modal understanding in scientific software.
- Abstract(参考訳): 研究論文とそれに対応するソフトウェア実装の整合性を確保することは、ソフトウェアの信頼性と科学的再現性に不可欠である。
しかし、この問題は、特にバイオインフォマティクスの分野において、論文の方法論的記述と実際のコード実装との相違が一般的である場合において、未解明のままである。
そこで本研究では,48のバイオインフォマティクスソフトウェアプロジェクトと関連する出版物をキュレートし,紙コード整合性検出という新たな課題を提案する。
文書からの文レベルのアルゴリズム記述を関数レベルのコードスニペットで体系的に整列する。
専門家のアノテーションとハイブリッドなネガティブサンプリング戦略を組み合わせることで,バイオインフォマティクス分野における最初のベンチマークデータセットを構築した。
このベンチマークに基づいて,自然言語記述とコード実装間の意味的関係をモデル化するクロスモーダル一貫性検出フレームワークを提案する。
このフレームワークは、統一された入力表現を採用し、事前訓練されたモデルを利用して、論文とコード間の深いセマンティックアライメントをキャプチャする。
クラス不均衡とハードサンプルの影響を軽減するため,重み付けされた焦点損失をモデルロバスト性を高めるために組み込んだ。
実験の結果,本フレームワークはバイオインフォマティクスにおける論文とコード間の整合性を効果的に同定し,精度0.9056,F1スコア0.8011を実現していることがわかった。
本研究は,紙コード整合性解析のための新たな研究指針を公開し,学術ソフトウェアにおける自動再現性評価と相互理解の基礎を定めている。
関連論文リスト
- SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - SciFig: Towards Automating Scientific Figure Generation [41.73701976318102]
SciFigは研究論文のテキストから直接出版可能なパイプライン図を生成するエンドツーエンドのAIエージェントシステムである。
本稿では,2,219個の実科学図を解析し,評価ルーブを抽出するルーブリックに基づく評価フレームワークを提案する。
SciFigは、データセットレベルの評価で70.1$%、紙固有の評価で66.2$%の全体的な品質を達成した。
論文 参考訳(メタデータ) (2026-01-07T20:56:58Z) - Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents [8.185402940269794]
本稿では,コード生成の品質を自動的に向上する,プロンプトフリーな協調エージェントフレームワークを提案する。
提案手法では,各ステップの出力が対応するシステムプロンプトに規定された要求を満たすかどうかを検証する検証エージェントと,識別された問題に基づいて出力を更新する精査エージェントの2つを用いている。
論文 参考訳(メタデータ) (2025-12-02T14:24:23Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - Reflective Paper-to-Code Reproduction Enabled by Fine-Grained Verification [46.845133190560375]
複雑なコードを効率的にデバッグするために、人間が体系的なチェックリストを使う方法に触発されて、textbfReflective Paper-to-Code textbfReproductionフレームワークである textbfReProを提案する。
紙の指紋を自動的に抽出し、高品質な監視信号として機能する、正確で原子的な基準の包括的なセットを参照する。
ベースラインよりも13.0%のパフォーマンスギャップを達成し、反射の複雑な論理的および数学的基準を正しく修正する。
論文 参考訳(メタデータ) (2025-08-21T06:57:44Z) - An Evaluation Study of Generative Adversarial Networks for Collaborative
Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。
この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文 参考訳(メタデータ) (2022-01-05T20:53:27Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z) - CORAL: COde RepresentAtion Learning with Weakly-Supervised Transformers
for Analyzing Data Analysis [33.190021245507445]
ソースコード、特に科学的なソースコードの大規模解析は、データサイエンスのプロセスをよりよく理解する約束を持っている。
本稿では,抽象構文木と周辺自然言語コメントからコードの共同表現を計算するための,弱い教師付きトランスフォーマーベースのアーキテクチャを提案する。
本モデルでは,手軽に手軽に管理できる弱さを生かし,専門家による供給よりも38%の精度向上を実現し,ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-08-28T19:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。