論文の概要: Use as Directed? A Comparison of Software Tools Intended to Check Rigor and Transparency of Published Work
- arxiv url: http://arxiv.org/abs/2507.17991v1
- Date: Wed, 23 Jul 2025 23:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.712427
- Title: Use as Directed? A Comparison of Software Tools Intended to Check Rigor and Transparency of Published Work
- Title(参考訳): 方向性としての活用? 出版作業の厳密さと透明性を確認するためのソフトウェアツールの比較
- Authors: Peter Eckmann, Adrian Barnett, Alexandra Bannach-Brown, Elisa Pilar Bascunan Atria, Guillaume Cabanac, Louise Delwen Owen Franzen, Małgorzata Anna Gazda, Kaitlyn Hair, James Howison, Halil Kilicoglu, Cyril Labbe, Sarah McCann, Vladislav Nachev, Martijn Roelandse, Maia Salholz-Hillel, Robert Schulz, Gerben ter Riet, Colby Vorland, Anita Bandrowski, Tracey Weissgerber,
- Abstract要約: 科学的報告における標準化と透明性の欠如が大きな問題である。
さまざまな厳格な基準をチェックするように設計された自動化ツールがいくつかある。
われわれはScreenITグループと異なる9つの厳格な基準に対して,11の自動化ツールを広範囲に比較した。
- 参考スコア(独自算出の注目度): 28.252424517077557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The causes of the reproducibility crisis include lack of standardization and transparency in scientific reporting. Checklists such as ARRIVE and CONSORT seek to improve transparency, but they are not always followed by authors and peer review often fails to identify missing items. To address these issues, there are several automated tools that have been designed to check different rigor criteria. We have conducted a broad comparison of 11 automated tools across 9 different rigor criteria from the ScreenIT group. We found some criteria, including detecting open data, where the combination of tools showed a clear winner, a tool which performed much better than other tools. In other cases, including detection of inclusion and exclusion criteria, the combination of tools exceeded the performance of any one tool. We also identified key areas where tool developers should focus their effort to make their tool maximally useful. We conclude with a set of insights and recommendations for stakeholders in the development of rigor and transparency detection tools. The code and data for the study is available at https://github.com/PeterEckmann1/tool-comparison.
- Abstract(参考訳): 再現性危機の原因は、科学的報告における標準化と透明性の欠如である。
ARRIVEやCONSORTといったチェックリストは透明性の向上を目指しているが、著者が常にフォローしているわけではない。
これらの問題を解決するために、さまざまな厳格な基準をチェックするように設計された自動化ツールがいくつかある。
われわれはScreenITグループと異なる9つの厳格な基準に対して,11の自動化ツールを広範囲に比較した。
オープンデータの検出など,ツールの組み合わせが明確で,他のツールよりもはるかに優れたツールであることを示す,いくつかの基準を見つけました。
他の例では、包含と排除基準の検出を含む、ツールの組み合わせは、どのツールのパフォーマンスよりも優れていた。
また、ツール開発者がツールを最大限に有効にするために努力するべき重要な領域を特定しました。
我々は、厳密さと透明性検出ツールの開発における利害関係者に対する一連の洞察とレコメンデーションで締めくくります。
この研究のコードとデータはhttps://github.com/PeterEckmann1/tool-comparison.comで公開されている。
関連論文リスト
- Tool Graph Retriever: Exploring Dependency Graph-based Tool Retrieval for Large Language Models [43.50789219459378]
ツール間の依存関係を利用して、検索のためのより良いツール表現を学習するツールグラフ検索(TGR)を提案する。
まず、TDI300Kと呼ばれるデータセットを構築し、ツール依存を識別するための識別器を訓練する。
そして、すべての候補ツールをツール依存グラフとして表現し、グラフ畳み込みを使って依存関係を表現に統合します。
論文 参考訳(メタデータ) (2025-08-07T08:36:26Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Vexed by VEX tools: Consistency evaluation of container vulnerability scanners [0.0]
本稿では,コンテナに適用された最先端の脆弱性スキャンツールについて検討する。
Vulnerability Exploitability eXchange (VEX) フォーマットに従うツールの開発に注力しています。
論文 参考訳(メタデータ) (2025-03-18T16:22:43Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - On the Limitations of Combining Sentiment Analysis Tools in a Cross-Platform Setting [2.3818760805173342]
投票分類器における3つの感情分析ツールの組み合わせを信頼性と性能に応じて分析する。
結果として、この種のツールの組み合わせは、プラットフォーム内設定において良い選択であることが示された。
しかし、多数決は必ずしもクロスプラットフォームのドメインに適用する場合により良い結果をもたらすとは限らない。
論文 参考訳(メタデータ) (2025-02-10T16:51:51Z) - Does the Tool Matter? Exploring Some Causes of Threats to Validity in Mining Software Repositories [9.539825294372786]
10の大規模なソフトウェアプロジェクトを抽出し分析するために、2つのツールを使用します。
同様の傾向にもかかわらず、コミット数や開発者の数のような単純なメトリクスでさえ、最大500%の違いがある。
このような大きな違いは、しばしば小さな技術的な詳細によって引き起こされる。
論文 参考訳(メタデータ) (2025-01-25T07:42:56Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark [8.573278807410507]
本稿では,新しいツール学習データセットSeal-Toolsを提案する。
Seal-Toolsには、セルフインストラクトAPIのようなツールが含まれている。
また、ツールの実践的応用を示すインスタンスも含まれている。
論文 参考訳(メタデータ) (2024-05-14T06:50:19Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。
ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文 参考訳(メタデータ) (2024-02-21T22:41:38Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - A Comprehensive Study on Quality Assurance Tools for Java [15.255117038871337]
品質保証(QA)ツールはますます注目を集めており、開発者に広く利用されている。
既存の研究は以下の方法で制限されている。
彼らは、スキャニングルール分析を考慮せずにツールを比較します。
研究方法論とベンチマークデータセットのため、ツールの有効性については意見が一致していない。
時間性能の分析に関する大規模な研究は行われていない。
論文 参考訳(メタデータ) (2023-05-26T10:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。