論文の概要: Automated Risk-of-Bias Assessment of Randomized Controlled Trials: A First Look at a GEPA-trained Programmatic Prompting Framework
- arxiv url: http://arxiv.org/abs/2512.01452v1
- Date: Mon, 01 Dec 2025 09:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.782224
- Title: Automated Risk-of-Bias Assessment of Randomized Controlled Trials: A First Look at a GEPA-trained Programmatic Prompting Framework
- Title(参考訳): ランダム化制御試験のリスク自動評価: GEPA訓練プログラム・プロンプティング・フレームワークについて
- Authors: Lingbo Li, Anuradha Mathrani, Teo Susnjak,
- Abstract要約: 本研究では、アドホックなプロンプト設計を構造化されたコードベース最適化に置き換えるプログラム可能なRoBアセスメントパイプラインを提案する。
7つのRoBドメインにまたがるメタアナリシスから100個のRTTについて評価を行った。
GEPAは、Random Sequence GenerationとSelective Reportingで、全体的な精度と性能を30%から40%向上させた。
- 参考スコア(独自算出の注目度): 2.2475456930413418
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Assessing risk of bias (RoB) in randomized controlled trials is essential for trustworthy evidence synthesis, but the process is resource-intensive and prone to variability across reviewers. Large language models (LLMs) offer a route to automation, but existing methods rely on manually engineered prompts that are difficult to reproduce, generalize, or evaluate. This study introduces a programmable RoB assessment pipeline that replaces ad-hoc prompt design with structured, code-based optimization using DSPy and its GEPA module. GEPA refines LLM reasoning through Pareto-guided search and produces inspectable execution traces, enabling transparent replication of every step in the optimization process. We evaluated the method on 100 RCTs from published meta-analyses across seven RoB domains. GEPA-generated prompts were applied to both open-weight models (Mistral Small 3.1 with GPT-oss-20b) and commercial models (GPT-5 Nano and GPT-5 Mini). In domains with clearer methodological reporting, such as Random Sequence Generation, GEPA-generated prompts performed best, with similar results for Allocation Concealment and Blinding of Participants, while the commercial model performed slightly better overall. We also compared GEPA with three manually designed prompts using Claude 3.5 Sonnet. GEPA achieved the highest overall accuracy and improved performance by 30%-40% in Random Sequence Generation and Selective Reporting, and showed generally comparable, competitively aligned performance in the other domains relative to manual prompts. These findings suggest that GEPA can produce consistent and reproducible prompts for RoB assessment, supporting the structured and principled use of LLMs in evidence synthesis.
- Abstract(参考訳): ランダム化試験におけるバイアス(RoB)のリスクを評価することは、信頼できる証拠合成には不可欠であるが、このプロセスは資源集約であり、レビュアー間でのばらつきが生じる。
大規模言語モデル(LLM)は、自動化への道筋を提供するが、既存の手法は、再現、一般化、評価が難しい手作業によるプロンプトに依存している。
本研究では,アドホックなプロンプト設計をDSPyとそのGEPAモジュールを用いた構造化コードベース最適化に置き換えるプログラム可能なRoBアセスメントパイプラインを提案する。
GEPAは、パレート誘導探索によるLCM推論を洗練し、検査可能な実行トレースを生成し、最適化プロセスにおける各ステップの透過的な複製を可能にする。
7つのRoBドメインにまたがるメタアナリシスから100RCTの手法を評価した。
GEPA生成プロンプトは、オープンウェイトモデル(Mistral Small 3.1 with GPT-oss-20b)と商用モデル(GPT-5 NanoとGPT-5 Mini)の両方に適用された。
ランダムシーケンス生成のような明確な方法論的報告を持つドメインでは、GEPA生成プロンプトが最適であり、Allocation ConcealmentやBlinding of Participantsも同様の結果が得られた。
また、GEPAをClaude 3.5 Sonnetを使って手動で設計した3つのプロンプトと比較した。
GEPAはRandom Sequence GenerationとSelective Reportingで最高精度を達成し、パフォーマンスを30%から40%向上させた。
これらの結果から, GEPAはRoB評価のための一貫した再現可能なプロンプトを生成でき, 証拠合成におけるLCMの構造的, 原則的利用を支援することが示唆された。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - The Bidirectional Process Reward Model [9.082060895625958]
双方向プロセスリワードモデル(BiPRM)と呼ばれる新しい双方向評価パラダイムを提案する。
BiPRMは、従来のL2Rフローと並行して、並列右から左へ(R2L)評価ストリームをシームレスに組み込む。
3つの異なるポリシーモデルから生成されたサンプルを用いて、2つの数学的推論ベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2025-08-03T09:23:49Z) - Open-Source Agentic Hybrid RAG Framework for Scientific Literature Review [2.092154729589438]
本稿では,ハイブリッドRAGパイプラインを自律エージェント内にカプセル化するエージェントアプローチを提案する。
当社のパイプラインでは,PubMedやarXiv,Google Scholar APIから,バイオロジカルなオープンアクセスデータを収集しています。
Llama-3.3-70B エージェントが GraphRAG (クエリを Cypher for KG に変換する) または VectorRAG (スパースと高密度検索を組み合わせて再ランク付けする) を選択する
論文 参考訳(メタデータ) (2025-07-30T18:54:15Z) - GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。
GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。
ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文 参考訳(メタデータ) (2025-07-25T17:42:32Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。