論文の概要: Measuring Risk of Bias in Biomedical Reports: The RoBBR Benchmark
- arxiv url: http://arxiv.org/abs/2411.18831v1
- Date: Thu, 28 Nov 2024 00:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:58.371687
- Title: Measuring Risk of Bias in Biomedical Reports: The RoBBR Benchmark
- Title(参考訳): バイオメディカルレポートにおけるバイアスのリスク測定:RoBBRベンチマーク
- Authors: Jianyou Wang, Weili Cao, Longtian Bao, Youze Zheng, Gil Pasternak, Kaicheng Wang, Xiaoyue Wang, Ramamohan Paturi, Leon Bergen,
- Abstract要約: 本稿では,バイオメディカルペーパーの方法論的強度を測定するためのベンチマークを提案する。
500以上の論文から得られたベンチマークタスクは、研究手法の分析と、バイアスのリスクの評価をカバーしている。
ベンチマークの結果,これらのモデルが専門家レベルの性能にかなり劣っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.0605929006983454
- License:
- Abstract: Systems that answer questions by reviewing the scientific literature are becoming increasingly feasible. To draw reliable conclusions, these systems should take into account the quality of available evidence, placing more weight on studies that use a valid methodology. We present a benchmark for measuring the methodological strength of biomedical papers, drawing on the risk-of-bias framework used for systematic reviews. The four benchmark tasks, drawn from more than 500 papers, cover the analysis of research study methodology, followed by evaluation of risk of bias in these studies. The benchmark contains 2000 expert-generated bias annotations, and a human-validated pipeline for fine-grained alignment with research paper content. We evaluate a range of large language models on the benchmark, and find that these models fall significantly short of expert-level performance. By providing a standardized tool for measuring judgments of study quality, the benchmark can help to guide systems that perform large-scale aggregation of scientific data. The dataset is available at https://github.com/RoBBR-Benchmark/RoBBR.
- Abstract(参考訳): 科学文献を見直して質問に答えるシステムは、ますます実現可能になっている。
信頼できる結論を得るためには、これらのシステムは利用可能な証拠の質を考慮に入れ、有効な方法論を用いた研究に重みを置く必要がある。
本稿では, バイオメディカルペーパーの方法論的強度を指標として, リスク・オブ・バイアス(リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス, リスク・オブ・バイアス(リスク・オブ・バイアス
500以上の論文から得られた4つのベンチマークタスクは、研究手法の分析と、これらの研究におけるバイアスのリスクの評価をカバーしている。
このベンチマークには、2000人の専門家が作成したバイアスアノテーションと、研究論文の内容ときめ細かいアライメントのための人間検証パイプラインが含まれている。
ベンチマークの結果,これらのモデルが専門家レベルの性能にかなり劣っていることが明らかとなった。
研究品質の判定を行うための標準化されたツールを提供することで、このベンチマークは科学データの大規模な集計を行うシステムのガイドに役立つ。
データセットはhttps://github.com/RoBBR-Benchmark/RoBBRで公開されている。
関連論文リスト
- A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Dyport: Dynamic Importance-based Hypothesis Generation Benchmarking
Technique [2.0077755400451855]
本稿では,バイオメディカル仮説生成システムを評価するためのベンチマークフレームワークDyportを提案する。
我々は、キュレートされたデータベースからの知識を動的グラフに統合し、発見の重要性を定量化する手法を伴っている。
フレキシブルなベンチマークシステムは,仮説生成の品質検証に広く適用するために設計されている。
論文 参考訳(メタデータ) (2023-12-06T06:07:50Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - A Comparative Study on Unsupervised Anomaly Detection for Time Series:
Experiments and Analysis [28.79393419730138]
時系列異常検出は、信頼性と安全性を実現するためにしばしば不可欠である。
近年,時系列データの異常検出が盛んに行われている。
データ、メソッド、評価戦略について紹介する。
我々は,最先端技術とディープラーニング技術とを体系的に評価し,比較した。
論文 参考訳(メタデータ) (2022-09-10T10:44:25Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - Best Practices and Scoring System on Reviewing A.I. based Medical
Imaging Papers: Part 1 Classification [0.9428556282541211]
SIIMの機械学習教育サブミッションは、これらの研究をレビューするためのガイドラインを確立するための知識ギャップと深刻な必要性を特定している。
このシリーズの最初のエントリは、画像分類のタスクに焦点を当てている。
このシリーズの目的は、A.I.をベースとした医療画像のレビュープロセスを改善するためのリソースを提供することである。
論文 参考訳(メタデータ) (2022-02-03T21:46:59Z) - Quantitative Evaluations on Saliency Methods: An Experimental Study [6.290238942982972]
我々は, 忠実性, 局在性, 偽陽性, 感度チェック, 安定性など, 指標の現状を簡単に要約する。
比較したすべての手法の中で、すべての指標において1つの説明法が他を圧倒することはないと結論づける。
論文 参考訳(メタデータ) (2020-12-31T14:13:30Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。