論文の概要: Measuring Risk of Bias in Biomedical Reports: The RoBBR Benchmark
- arxiv url: http://arxiv.org/abs/2411.18831v1
- Date: Thu, 28 Nov 2024 00:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:58.371687
- Title: Measuring Risk of Bias in Biomedical Reports: The RoBBR Benchmark
- Title(参考訳): バイオメディカルレポートにおけるバイアスのリスク測定:RoBBRベンチマーク
- Authors: Jianyou Wang, Weili Cao, Longtian Bao, Youze Zheng, Gil Pasternak, Kaicheng Wang, Xiaoyue Wang, Ramamohan Paturi, Leon Bergen,
- Abstract要約: 本稿では,バイオメディカルペーパーの方法論的強度を測定するためのベンチマークを提案する。
500以上の論文から得られたベンチマークタスクは、研究手法の分析と、バイアスのリスクの評価をカバーしている。
ベンチマークの結果,これらのモデルが専門家レベルの性能にかなり劣っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.0605929006983454
- License:
- Abstract: Systems that answer questions by reviewing the scientific literature are becoming increasingly feasible. To draw reliable conclusions, these systems should take into account the quality of available evidence, placing more weight on studies that use a valid methodology. We present a benchmark for measuring the methodological strength of biomedical papers, drawing on the risk-of-bias framework used for systematic reviews. The four benchmark tasks, drawn from more than 500 papers, cover the analysis of research study methodology, followed by evaluation of risk of bias in these studies. The benchmark contains 2000 expert-generated bias annotations, and a human-validated pipeline for fine-grained alignment with research paper content. We evaluate a range of large language models on the benchmark, and find that these models fall significantly short of expert-level performance. By providing a standardized tool for measuring judgments of study quality, the benchmark can help to guide systems that perform large-scale aggregation of scientific data. The dataset is available at https://github.com/RoBBR-Benchmark/RoBBR.
- Abstract(参考訳): 科学文献を見直して質問に答えるシステムは、ますます実現可能になっている。
信頼できる結論を得るためには、これらのシステムは利用可能な証拠の質を考慮に入れ、有効な方法論を用いた研究に重みを置く必要がある。
本稿では, バイオメディカルペーパーの方法論的強度を指標として, リスク・オブ・バイアス(リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス(リスク・オブ・バイアス
500以上の論文から得られた4つのベンチマークタスクは、研究手法の分析と、これらの研究におけるバイアスのリスクの評価をカバーしている。
このベンチマークには、2000人の専門家が作成したバイアスアノテーションと、研究論文の内容ときめ細かいアライメントのための人間検証パイプラインが含まれている。
ベンチマークの結果,これらのモデルが専門家レベルの性能にかなり劣っていることが明らかとなった。
研究品質の判定を行うための標準化されたツールを提供することで、このベンチマークは科学データの大規模な集計を行うシステムのガイドに役立つ。
データセットはhttps://github.com/RoBBR-Benchmark/RoBBRで公開されている。
関連論文リスト
- exHarmony: Authorship and Citations for Benchmarking the Reviewer Assignment Problem [11.763640675057076]
明示的なラベルを必要とせずにレビュアー代入問題を評価するためのベンチマークデータセットを開発した。
従来の語彙マッチング、静的なニューラル埋め込み、文脈化されたニューラル埋め込みなど、さまざまな手法をベンチマークする。
本研究は,従来の手法が合理的に良好に機能する一方で,学術文献で訓練された文脈的埋め込みが最高の性能を示すことを示すものである。
論文 参考訳(メタデータ) (2025-02-11T16:35:04Z) - Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation [0.0]
本研究では,Large Language Models (LLMs) を用いた科学文献における動的に進化するトピックの自動評価のための枠組みを提案する。
提案手法は,専門家のアノテータや狭義の統計指標に大きく依存することなく,コヒーレンス,反復性,多様性,トピック文書のアライメントといった重要な品質次元を測定するためにLLMを利用する。
論文 参考訳(メタデータ) (2025-02-11T08:23:56Z) - Time Series Embedding Methods for Classification Tasks: A Review [2.8084422332394428]
本稿では,機械学習およびディープラーニングモデルにおける効率的な表現のための時系列埋め込み手法の総合的なレビューと評価を行う。
埋め込み技術の分類を導入し,それらの理論的基礎と応用状況に基づいて分類する。
実験の結果,組込み手法の性能は,使用するデータセットや分類アルゴリズムによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-01-23T05:24:45Z) - Benchmark for Evaluation and Analysis of Citation Recommendation Models [0.0]
我々は、引用推薦モデルの解析と比較を専門とするベンチマークを開発する。
このベンチマークは、引用コンテキストの異なる特徴に基づいてモデルの性能を評価する。
これは有意義な比較を可能にし、この分野におけるさらなる研究と開発のための有望なアプローチを特定するのに役立つだろう。
論文 参考訳(メタデータ) (2024-12-10T18:01:33Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Best Practices and Scoring System on Reviewing A.I. based Medical
Imaging Papers: Part 1 Classification [0.9428556282541211]
SIIMの機械学習教育サブミッションは、これらの研究をレビューするためのガイドラインを確立するための知識ギャップと深刻な必要性を特定している。
このシリーズの最初のエントリは、画像分類のタスクに焦点を当てている。
このシリーズの目的は、A.I.をベースとした医療画像のレビュープロセスを改善するためのリソースを提供することである。
論文 参考訳(メタデータ) (2022-02-03T21:46:59Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - A Survey on Causal Inference [64.45536158710014]
因果推論は統計学、コンピュータ科学、教育、公共政策、経済学など、多くの分野において重要な研究トピックである。
観測データに対する様々な因果効果推定法が誕生した。
論文 参考訳(メタデータ) (2020-02-05T21:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。