論文の概要: An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment
- arxiv url: http://arxiv.org/abs/2508.15822v1
- Date: Sun, 17 Aug 2025 17:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.090421
- Title: An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment
- Title(参考訳): システムレビューにおけるファジィフルテキストスクリーニングのための可聴パイプライン:コントラスト的セマンティックハイライトとLCM判断の統合
- Authors: Pouria Mortezaagha, Arya Rahgozar,
- Abstract要約: フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-text screening is the major bottleneck of systematic reviews (SRs), as decisive evidence is dispersed across long, heterogeneous documents and rarely admits static, binary rules. We present a scalable, auditable pipeline that reframes inclusion/exclusion as a fuzzy decision problem and benchmark it against statistical and crisp baselines in the context of the Population Health Modelling Consensus Reporting Network for noncommunicable diseases (POPCORN). Articles are parsed into overlapping chunks and embedded with a domain-adapted model; for each criterion (Population, Intervention, Outcome, Study Approach), we compute contrastive similarity (inclusion-exclusion cosine) and a vagueness margin, which a Mamdani fuzzy controller maps into graded inclusion degrees with dynamic thresholds in a multi-label setting. A large language model (LLM) judge adjudicates highlighted spans with tertiary labels, confidence scores, and criterion-referenced rationales; when evidence is insufficient, fuzzy membership is attenuated rather than excluded. In a pilot on an all-positive gold set (16 full texts; 3,208 chunks), the fuzzy system achieved recall of 81.3% (Population), 87.5% (Intervention), 87.5% (Outcome), and 75.0% (Study Approach), surpassing statistical (56.3-75.0%) and crisp baselines (43.8-81.3%). Strict "all-criteria" inclusion was reached for 50.0% of articles, compared to 25.0% and 12.5% under the baselines. Cross-model agreement on justifications was 98.3%, human-machine agreement 96.1%, and a pilot review showed 91% inter-rater agreement (kappa = 0.82), with screening time reduced from about 20 minutes to under 1 minute per article at significantly lower cost. These results show that fuzzy logic with contrastive highlighting and LLM adjudication yields high recall, stable rationale, and end-to-end traceability.
- Abstract(参考訳): 決定的な証拠は長く異質な文書に分散し、静的でバイナリなルールをほとんど認めないため、フルテキストのスクリーニングは体系的レビュー(SR)の大きなボトルネックとなっている。
本稿では,包摂/排除をファジィな決定問題として再編成するスケーラブルで監査可能なパイプラインについて,POPCORN(Population Health Modelling Consensus Reporting Network for Noncommunicable Disease)の文脈で,統計的およびクリップなベースラインに対してベンチマークする。
各基準(Population, Intervention, Outcome, Study Approach)に対して,Mamdaniファジィ制御器が,動的しきい値のグレード付き包摂度にマッピングする,対照的な類似性(包含コサイン)とあいまいさマージンを計算した。
大規模言語モデル (LLM) の判断は、三次ラベル、信頼度スコア、基準参照の有理性によって強調され、証拠が不十分な場合、ファジィなメンバーシップは除外されるよりも減じられる。
全陽性の金セット(16全文3,208チャンク)のパイロットでは、ファジィ系は81.3%(ポピュレーション)、87.5%(インターベンション)、87.5%(アウトカム)、75.0%(スタディ・アプローチ)のリコールを達成し、統計的(56.3-75.0%)、クリップベースライン(43.8-81.3%)を上回った。
厳格な「全基準」の含意は50.0%で、ベースラインでは25.0%、12.5%だった。
正当性に関するクロスモデル協定は98.3%、人間機械協定96.1%、パイロットレビューでは91%のラッター間協定(カッパ=0.82)が示され、スクリーニング時間は1記事あたり約20分から1分未満に大幅に短縮された。
これらの結果から, コントラスト強調処理とLLM近似によるファジィ論理は, 高いリコール, 安定な論理, エンドツーエンドのトレーサビリティをもたらすことがわかった。
関連論文リスト
- GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition [0.0]
GANDiff FRは、人口動態や環境要因を正確に制御し、再現可能な厳密さで偏見を計測し、説明し、低減する最初の合成フレームワークである。
我々は5つのコホートにまたがる1万の人種的バランスのとれた顔を、自動検出と人的レビューによって合成する。
一致する操作ポイントの下でArcFace、CosFace、AdaFaceをベンチマークすると、AdaFaceはグループ間のTPR格差を60%削減する。
GANDiff FR は、純粋な GAN と比較して約20%の計算オーバーヘッドがあるにもかかわらず、3倍の属性条件付き変種が得られる。
論文 参考訳(メタデータ) (2025-08-15T09:05:57Z) - GenFair: Systematic Test Generation for Fairness Fault Detection in Large Language Models [0.12891210250935142]
大規模言語モデル(LLM)は、ますます重要なドメインにデプロイされるようになっているが、トレーニングデータから受け継がれたバイアスがしばしば現れ、公平性に関する懸念がもたらされる。
この研究は、フェアネス違反を効果的に検出する問題、特に既存のテンプレートベースおよび文法ベースのテスト手法でしばしば見逃される交叉バイアスに焦点をあてる。
我々は、同値分割、突然変異演算子、境界値解析を用いて、ソーステストケースを生成する変成フェアネステストフレームワークGenFairを提案する。
論文 参考訳(メタデータ) (2025-06-03T16:00:30Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - Streamlining Systematic Reviews: A Novel Application of Large Language Models [1.921297555859566]
体系的レビュー(SR)はエビデンスに基づくガイドラインに不可欠であるが、しばしば文学スクリーニングの時間的な性質によって制限される。
そこで本研究では,大言語モデル(LLM)をベースとした社内システムを提案し,その性能評価を行った。
論文 参考訳(メタデータ) (2024-12-14T17:08:34Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。