Fugu-MT 論文翻訳(概要): SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

論文の概要: SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

arxiv url: http://arxiv.org/abs/2601.12910v1
Date: Mon, 19 Jan 2026 10:04:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.850573
Title: SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
Title（参考訳）: SciCoQA:科学論文の品質保証-コードアライメント
Authors: Tim Baumgärtner, Iryna Gurevych,
Abstract要約: SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
参考スコア（独自算出の注目度）: 53.70401063640645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.
Abstract（参考訳）: 本稿では,学術出版物とそれらのコードベースの相違を検知し,忠実な実装を保証するデータセットであるSciCoQAを提案する。我々はGitHubのイシューと再現性論文からSciCoQAを構築し、データセットをスケールするために、紙コード不一致を構築するための合成データ生成方法を提案する。筆者らは,紙コードの相違点を詳細に分析し,発生したミスマッチをよりよく理解するために,相違点の種類とカテゴリを提案する。私たちのデータセットは、AI、物理、量生物学など、さまざまな計算科学分野にまたがる611の紙コード不一致(81のリアル、530の合成)で構成されています。我々は,SciCoQAの難易度,特に省略紙の詳細,長文入力,モデルの事前学習コーパス外のデータなどについて,21 LLMの評価を行った。評価における最高の性能モデルである GPT-5 は、実世界の紙コード誤りの45.7 %しか検出できない。

関連論文リスト

SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers [16.80818230868491]
本研究では,最近のNLP論文におけるアルゴリズム記述からコードを生成する際の言語モデル (LLM) を評価する。厳密な評価を容易にするため、2024年に発行された36のNLP論文から100のタスクのベンチマークであるSciReplicate-Benchを紹介する。 SciReplicate-Bench上に構築されたSci-Reproducerは,論文からアルゴリズムの概念を解釈するPaper Agentと,リポジトリから依存関係を検索してソリューションを実装するCode Agentで構成された,デュアルエージェントフレームワークである。
論文参考訳（メタデータ） (2025-03-31T22:02:24Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。 SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
CORAL: COde RepresentAtion Learning with Weakly-Supervised Transformers for Analyzing Data Analysis [33.190021245507445]
ソースコード、特に科学的なソースコードの大規模解析は、データサイエンスのプロセスをよりよく理解する約束を持っている。本稿では,抽象構文木と周辺自然言語コメントからコードの共同表現を計算するための,弱い教師付きトランスフォーマーベースのアーキテクチャを提案する。本モデルでは,手軽に手軽に管理できる弱さを生かし,専門家による供給よりも38%の精度向上を実現し,ベースラインを上回ります。
論文参考訳（メタデータ） (2020-08-28T19:57:49Z)
Cascade Neural Ensemble for Identifying Scientifically Sound Articles [0.0]
体系的なレビューとメタ分析を行うための障壁は、科学的に健全な関連項目を効率的に見つけることである。我々は、MEDLINEから約50万記事のデータセットを用いて、SciBERTのアンサンブルアーキテクチャをトレーニングし、テストした。カスケードアンサンブルのアーキテクチャは0.7505Fを達成し、49.1%のエラー率削減を実現した。
論文参考訳（メタデータ） (2020-04-13T22:23:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。