論文の概要: An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment
- arxiv url: http://arxiv.org/abs/2508.15822v1
- Date: Sun, 17 Aug 2025 17:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.090421
- Title: An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment
- Title(参考訳): システムレビューにおけるファジィフルテキストスクリーニングのための可聴パイプライン:コントラスト的セマンティックハイライトとLCM判断の統合
- Authors: Pouria Mortezaagha, Arya Rahgozar,
- Abstract要約: フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-text screening is the major bottleneck of systematic reviews (SRs), as decisive evidence is dispersed across long, heterogeneous documents and rarely admits static, binary rules. We present a scalable, auditable pipeline that reframes inclusion/exclusion as a fuzzy decision problem and benchmark it against statistical and crisp baselines in the context of the Population Health Modelling Consensus Reporting Network for noncommunicable diseases (POPCORN). Articles are parsed into overlapping chunks and embedded with a domain-adapted model; for each criterion (Population, Intervention, Outcome, Study Approach), we compute contrastive similarity (inclusion-exclusion cosine) and a vagueness margin, which a Mamdani fuzzy controller maps into graded inclusion degrees with dynamic thresholds in a multi-label setting. A large language model (LLM) judge adjudicates highlighted spans with tertiary labels, confidence scores, and criterion-referenced rationales; when evidence is insufficient, fuzzy membership is attenuated rather than excluded. In a pilot on an all-positive gold set (16 full texts; 3,208 chunks), the fuzzy system achieved recall of 81.3% (Population), 87.5% (Intervention), 87.5% (Outcome), and 75.0% (Study Approach), surpassing statistical (56.3-75.0%) and crisp baselines (43.8-81.3%). Strict "all-criteria" inclusion was reached for 50.0% of articles, compared to 25.0% and 12.5% under the baselines. Cross-model agreement on justifications was 98.3%, human-machine agreement 96.1%, and a pilot review showed 91% inter-rater agreement (kappa = 0.82), with screening time reduced from about 20 minutes to under 1 minute per article at significantly lower cost. These results show that fuzzy logic with contrastive highlighting and LLM adjudication yields high recall, stable rationale, and end-to-end traceability.
- Abstract(参考訳): 決定的な証拠は長く異質な文書に分散し、静的でバイナリなルールをほとんど認めないため、フルテキストのスクリーニングは体系的レビュー(SR)の大きなボトルネックとなっている。
本稿では,包摂/排除をファジィな決定問題として再編成するスケーラブルで監査可能なパイプラインについて,POPCORN(Population Health Modelling Consensus Reporting Network for Noncommunicable Disease)の文脈で,統計的およびクリップなベースラインに対してベンチマークする。
各基準(Population, Intervention, Outcome, Study Approach)に対して,Mamdaniファジィ制御器が,動的しきい値のグレード付き包摂度にマッピングする,対照的な類似性(包含コサイン)とあいまいさマージンを計算した。
大規模言語モデル (LLM) の判断は、三次ラベル、信頼度スコア、基準参照の有理性によって強調され、証拠が不十分な場合、ファジィなメンバーシップは除外されるよりも減じられる。
全陽性の金セット(16全文3,208チャンク)のパイロットでは、ファジィ系は81.3%(ポピュレーション)、87.5%(インターベンション)、87.5%(アウトカム)、75.0%(スタディ・アプローチ)のリコールを達成し、統計的(56.3-75.0%)、クリップベースライン(43.8-81.3%)を上回った。
厳格な「全基準」の含意は50.0%で、ベースラインでは25.0%、12.5%だった。
正当性に関するクロスモデル協定は98.3%、人間機械協定96.1%、パイロットレビューでは91%のラッター間協定(カッパ=0.82)が示され、スクリーニング時間は1記事あたり約20分から1分未満に大幅に短縮された。
これらの結果から, コントラスト強調処理とLLM近似によるファジィ論理は, 高いリコール, 安定な論理, エンドツーエンドのトレーサビリティをもたらすことがわかった。
関連論文リスト
- CORE: Comprehensive Ontological Relation Evaluation for Large Language Models [0.9668495520241466]
大規模言語モデル(LLM)は多くの推論ベンチマークでよく機能するが、既存の評価では意味のある意味的関係と真の非関連性を区別する能力を評価することは滅多にない。
74の分野にまたがる225万質問のデータセットであるCORE(Comprehensive Ontological Relation Evaluation, 総合オントロジー関係評価)を紹介する。
1000人以上の参加者のヒトのベースラインは92.6%の精度(関係のないペアの95.1%)を達成する
論文 参考訳(メタデータ) (2026-02-06T07:16:33Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - NewsScope: Schema-Grounded Cross-Domain News Claim Extraction with Open Models [0.15039745292757667]
NewsScopeは、スキーマ付きニュースクレーム抽出のためのクロスドメインデータセット、ベンチマーク、微調整モデルである。
データセットには政治、健康、科学/環境、ビジネスに関する455の記事が含まれている。
LLaMA 3.1 8Bは、LoRAを315のトレーニング例で微調整し、保持領域内(80記事)とアウト・オブ・ソース(60記事)のテストセットで評価した。
論文 参考訳(メタデータ) (2025-12-26T19:17:21Z) - AI Transparency Atlas: Framework, Scoring, and Real-Time Model Card Evaluation Pipeline [2.1787849426740364]
我々は5つのフロンティアモデル(Gemini 3, Grok 4.1, Llama 4, GPT-5, Claude 4.5)と100台のHugging Faceモデルカードからドキュメントを分析した。
安全クリティカルな開示を優先する8つのセクションと23のサブセクションからなる重み付き透明性フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-13T19:48:44Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition [0.0]
GANDiff FRは、人口動態や環境要因を正確に制御し、再現可能な厳密さで偏見を計測し、説明し、低減する最初の合成フレームワークである。
我々は5つのコホートにまたがる1万の人種的バランスのとれた顔を、自動検出と人的レビューによって合成する。
一致する操作ポイントの下でArcFace、CosFace、AdaFaceをベンチマークすると、AdaFaceはグループ間のTPR格差を60%削減する。
GANDiff FR は、純粋な GAN と比較して約20%の計算オーバーヘッドがあるにもかかわらず、3倍の属性条件付き変種が得られる。
論文 参考訳(メタデータ) (2025-08-15T09:05:57Z) - GenFair: Systematic Test Generation for Fairness Fault Detection in Large Language Models [0.12891210250935142]
大規模言語モデル(LLM)は、ますます重要なドメインにデプロイされるようになっているが、トレーニングデータから受け継がれたバイアスがしばしば現れ、公平性に関する懸念がもたらされる。
この研究は、フェアネス違反を効果的に検出する問題、特に既存のテンプレートベースおよび文法ベースのテスト手法でしばしば見逃される交叉バイアスに焦点をあてる。
我々は、同値分割、突然変異演算子、境界値解析を用いて、ソーステストケースを生成する変成フェアネステストフレームワークGenFairを提案する。
論文 参考訳(メタデータ) (2025-06-03T16:00:30Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - Streamlining Systematic Reviews: A Novel Application of Large Language Models [1.921297555859566]
体系的レビュー(SR)はエビデンスに基づくガイドラインに不可欠であるが、しばしば文学スクリーニングの時間的な性質によって制限される。
そこで本研究では,大言語モデル(LLM)をベースとした社内システムを提案し,その性能評価を行った。
論文 参考訳(メタデータ) (2024-12-14T17:08:34Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。