Fugu-MT 論文翻訳(概要): Agreement Between Large Language Models, Human Reviewers, and Authors in Evaluating STROBE Checklists for Observational Studies in Rheumatology

論文の概要: Agreement Between Large Language Models, Human Reviewers, and Authors in Evaluating STROBE Checklists for Observational Studies in Rheumatology

arxiv url: http://arxiv.org/abs/2603.19303v1
Date: Thu, 12 Mar 2026 19:56:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:12.870563
Title: Agreement Between Large Language Models, Human Reviewers, and Authors in Evaluating STROBE Checklists for Observational Studies in Rheumatology
Title（参考訳）: 関節リウマチ研究における大規模言語モデルと人間レビュアーとSTROBEチェックリストの評価における著者の合意
Authors: Emre Bilgin, Ebru Ozturk, Meera Shah, Lisa Traboco, Rebecca Everitt, Ai Lyn Tan, Marwan Bukhari, Vincenzo Venerito, Latika Gupta,
Abstract要約: 本研究では,ヒトレビュアーパネルである大規模言語モデル(LLMs)と,観察リウマチ研究における原本作成者によるSTROBE評価を比較した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Introduction: Evaluating compliance with the Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement can be time-consuming and subjective. This study compares STROBE assessments from large language models (LLMs), a human reviewer panel, and the original manuscript authors in observational rheumatology research. Methods: Guided by the GRRAS and DEAL Pathway B frameworks, 17 rheumatology articles were independently assessed. Evaluations used the 22-item STROBE checklist, completed by the authors, a five-person human panel (ranging from junior to senior professionals), and two LLMs (ChatGPT-5.2, Gemini-3Pro). Items were grouped into Methodological Rigor and Presentation and Context domains. Inter-rater reliability was calculated using Gwet's Agreement Coefficient (AC1). Results: Overall agreement across all reviewers was 85.0% (AC1=0.826). Domain stratification showed almost perfect agreement for Presentation and Context (AC1=0.841) and substantial agreement for Methodological Rigor (AC1=0.803). Although LLMs achieved complete agreement (AC1=1.000) with all human reviewers on standard formatting elements, their agreement with human reviewers and authors declined on complex items. For example, regarding the item on loss to follow-up, the agreement between Gemini 3 Pro and the senior reviewer was AC1=-0.252, while the agreement with the authors was only fair. Additionally, ChatGPT-5.2 generally demonstrated higher agreement with human reviewers than Gemini-3Pro on specific methodological items. Conclusion: While LLMs show potential for basic STROBE screening, their lower agreement with human experts on complex methodological items likely reflects a reliance on surface-level information. Currently, these models appear more reliable for standardizing straightforward checks than for replacing expert human judgment in evaluating observational research.
Abstract（参考訳）: 紹介: 疫学における観察研究報告の強化に関するコンプライアンスを評価することは、時間と主観的である。本研究では,ヒトレビュアーパネルである大規模言語モデル(LLMs)と,観察リウマチ研究における原本作成者によるSTROBE評価を比較した。方法: GRRAS および DEAL Pathway B フレームワークでガイドされた17のリウマチ項目を独立に評価した。評価では、著者らが完成させた22項目のSTROBEチェックリストと、5人の人間パネル(中年から上級のプロ)と2つのLSM(ChatGPT-5.2, Gemini-3Pro)を使用した。項目はメソジカル・リゴール・プレゼンテーション・コンテキストドメインに分類された。レータ間信頼性はGwet's Agreement Coefficient (AC1) を用いて算出した。結果:全レビュアーの合意は85.0%(AC1=0.826)であった。ドメイン階層化はプレゼンテーションとコンテキスト(AC1=0.841)とメソジカルリゴール(AC1=0.803)にほぼ完全な一致を示した。 LLMは標準フォーマット要素に関するすべての人間レビュアーと完全な合意(AC1=1.000)を達成したが、人間レビュアーや著者との合意は複雑な項目で否決された。例えば、フォローアップの損失に関する項目について、ジェミニ3 Proとシニアレビュアーの合意はAC1=-0.252であり、著者との合意は公正であった。加えて、ChatGPT-5.2は、特定の方法論上の項目について、Gemini-3Proよりも人間レビュアーとの合意が高かった。結論: LLMはSTROBEスクリーニングの可能性を示唆するが, 複雑な方法論的項目に関する人間専門家との合意の低さは, 表面情報への依存を反映している可能性が高い。現在、これらのモデルは、観察研究の評価において、専門家の判断を置き換えるよりも、簡単なチェックを標準化する方が信頼性が高いように見える。

関連論文リスト

Evaluating Large Language Models for Abstract Evaluation Tasks: An Empirical Study [1.412242138378466]
大規模言語モデル(LLM)は、要求を処理し、テキストを生成することができるが、学術的コンテンツを評価する可能性にはさらなる調査が必要である。本研究では,ChatGPT-5,Gemini-3-Pro,Claude-Sonnet-4.5の相互比較およびヒトレビュアーに対する抽象概念の整合性と信頼性について検討した。
論文参考訳（メタデータ） (2026-01-09T15:21:17Z)
Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis [4.086449731896867]
自動エッセイスコアリング(AES)における大規模言語モデル(LLM)と人間レーダの一致について検討した。調査全体を通じて、LSM-人的合意は概して中程度から良好であり、合意の指標は0.30から0.80の範囲であった。合意水準の実質的変動は, 研究固有の要因の違いや, 標準化された報告慣行の欠如を反映して, 研究全体で観察された。
論文参考訳（メタデータ） (2025-12-16T16:33:07Z)
No-Human in the Loop: Agentic Evaluation at Scale for Recommendation [11.764010898952677]
大規模言語モデル(LLM)を判断として評価することは、スケーラブルで信頼性の高い評価パイプラインを構築する上でますます重要になっている。我々は、GPT、Gemini、Claude、Llamaを含む36のLLMを体系的に比較する大規模なベンチマーク研究であるScalingEvalを紹介する。当社のマルチエージェントフレームワークは、パターン監査を集約し、スケーラブルな多数決投票を通じて、地味なラベルにコードを発行します。
論文参考訳（メタデータ） (2025-11-04T22:49:39Z)
Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement [1.5191981795942073]
本研究では,Large Language Models (LLMs) を応答精度評価タスクの判定対象として,新たな2段階評価手法を提案する。 RAG(Retrieval-Augmented Generation)やAgentic Pipelines(Agentic Pipelines)からの応答を、地上の真実の答えに対して評価すると、54個のLLMが人間の判断をいかにうまく再現できるかを評価する。
論文参考訳（メタデータ） (2025-10-10T17:27:33Z)
Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文参考訳（メタデータ） (2025-08-14T16:18:37Z)
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文参考訳（メタデータ） (2024-03-11T21:51:39Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。