論文の概要: Auditing Reproducibility in Non-Targeted Analysis: 103 LC/GC--HRMS Tools Reveal Temporal Divergence Between Openness and Operability
- arxiv url: http://arxiv.org/abs/2512.20279v1
- Date: Tue, 23 Dec 2025 11:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.851918
- Title: Auditing Reproducibility in Non-Targeted Analysis: 103 LC/GC--HRMS Tools Reveal Temporal Divergence Between Openness and Operability
- Title(参考訳): 非ターゲット分析における再現性の評価:103 LC/GC--HRMSツールによる開度と操作性の時間的差異の検証
- Authors: Sarah Alsubaie, Sakhaa Alsaedi, Xin Gao,
- Abstract要約: 2008年、乳児の公式のメラミンは、3大陸の研究所に、これまで監視したことのない化合物を検証するよう強制した。
LC/GC-HRMSを用いた非ターゲット分析はこれらのケースを扱う。
独立した研究室は分析を繰り返すことができ、同じ結論に達することができるのか?
FAIRとBP4NTAの原則から引き出された6つの柱に対して103のツールを評価した。
- 参考スコア(独自算出の注目度): 8.19572039857658
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In 2008, melamine in infant formula forced laboratories across three continents to verify a compound they had never monitored. Non-targeted analysis using LC/GC-HRMS handles these cases. But when findings trigger regulatory action, reproducibility becomes operational: can an independent laboratory repeat the analysis and reach the same conclusion? We assessed 103 tools (2004-2025) against six pillars drawn from FAIR and BP4NTA principles: laboratory validation (C1), data availability (C2), code availability (C3), standardised formats (C4), knowledge integration (C5), and portable implementation (C6). Health contributed 51 tools, Pharma 31, and Chemistry 21. Nine in ten tools shared data (C2, 90/103, 87%). Fewer than four in ten supported portable implementations (C6, 40/103, 39%). Validation and portability rarely appeared together (C1+C6, 18/103, 17%). Over twenty-one years, openness climbed from 56% to 86% while operability dropped from 55% to 43%. No tool addressed food safety. Journal data-sharing policies increased what authors share but not what reviewers can run. Tools became easier to find but harder to execute. Strengthening C1, C4, and C6 would turn documented artifacts into workflows that external laboratories can replay.
- Abstract(参考訳): 2008年、乳児の公式のメラミンは、3大陸の研究所に、これまで監視したことのない化合物を検証するよう強制した。
LC/GC-HRMSを用いた非ターゲット分析はこれらのケースを扱う。
しかし、発見が規制行動を引き起こすと、再現性は機能し、独立した研究所は分析を繰り返すことができ、同じ結論に達することができるのか?
実験室検証(C1)、データアベイラビリティ(C2)、コードアベイラビリティ(C3)、標準化フォーマット(C4)、知識統合(C5)、ポータブル実装(C6)である。
健康は51のツール、Pharma 31、Science 21に寄与した。
10のツールのうち9つはデータを共有している(C2, 90/103, 87%)。
10に4つ以上のポータブル実装(C6, 40/103, 39%)がサポートされた。
C1+C6, 18/103, 17%) では, 有効性と可搬性はほとんど認められなかった。
21年間でオープンネスは56%から86%に上昇し、オペラビリティは55%から43%に低下した。
食品の安全性に対処する道具はない。
ジャーナルのデータ共有ポリシーは、著者が共有するものを増やしたが、レビュアーが実行できるものではなかった。
ツールは見つけやすくなったが、実行は難しくなった。
C1、C4、C6の強化は、文書化されたアーティファクトを外部研究所が再生できるワークフローに変換する。
関連論文リスト
- Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains [0.0]
本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T03:33:04Z) - A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool [5.585587545595609]
本研究の目的は,複数のLDMエージェントのアンサンブルを用いて,画素ベースのAIトリアージツールの信頼性を高めることであった。
論文 参考訳(メタデータ) (2025-10-30T13:50:19Z) - Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。
サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。
スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文 参考訳(メタデータ) (2025-10-22T05:18:28Z) - InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents [60.89180545430896]
InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。
汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。
この設計は信頼性と非自明性の両方を保証する。
論文 参考訳(メタデータ) (2025-10-02T17:48:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment [13.707244322057834]
本研究では,モデルライフサイクル全体で4つの調整モードで構成されるバイオセキュリティエージェントについて述べる。
データセットの衛生化(Mode 1)については、新型コロナウイルス関連記事のオープンリサーチデータセットであるCORD-19で評価を行う。
優先調整(Mode 2)では、LoRAアダプタを使用したDPOは拒絶や安全な完了を内部化し、エンドツーエンドの攻撃成功率(ASR)を59.7%から3.0%に下げる。
推論(Mode 3)では、L1-L3のランタイムガードレールは、期待されるセキュリティとユーザビリティのトレードオフを示している。
論文 参考訳(メタデータ) (2025-09-13T23:54:54Z) - Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models [3.0569643495382173]
The Provider Summarization Quality Instrument (PDSQI-9) was developed to evaluate LLM- generated clinical summaries。
検証には、実体的妥当性のためのピアソン相関、因子分析、構造的妥当性のためのクロンバッハのαが含まれていた。
PDSQI-9は強い内部整合性と信頼性を示した。
論文 参考訳(メタデータ) (2025-01-15T17:47:57Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation [15.461189659020187]
コード大言語モデル(LLM)は、リポジトリレベルの依存関係に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面します。
ToolGenは、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するアプローチです。
ToolGenは、Trigger InsertionとModel Fine-tuning(Offline)とツール統合コード生成(Online)の2つの主要なフェーズで構成されている。
論文 参考訳(メタデータ) (2024-01-12T06:03:56Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。