論文の概要: Are Two LLMs Better Than One? A Student-Teacher Dual-Head LLMs Architecture for Pharmaceutical Content Optimization
- arxiv url: http://arxiv.org/abs/2602.11957v1
- Date: Thu, 12 Feb 2026 13:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.851757
- Title: Are Two LLMs Better Than One? A Student-Teacher Dual-Head LLMs Architecture for Pharmaceutical Content Optimization
- Title(参考訳): 2つのLLMは1つより優れているか? 医薬コンテンツ最適化のための学生と教師のデュアルヘッドLLMアーキテクチャ
- Authors: Suyash Mishra, Qiang Li, Anubhav Girdhar,
- Abstract要約: 大規模言語モデル(LLM)は、医薬品のような規制された領域でコンテンツを作成するために、ますます使われてきている。
本稿では,言語,規制,ブランド,技術,コンテンツ構造チェックをカバーするモジュール型LLMおよびビジョン言語モデル(VLM)によるQCアーキテクチャについて紹介する。
AIReg-Benchでは83.0%のF1と97.5%のリコールを達成し、Gemini 2.5 Proと比較してエラーを5倍削減した。
- 参考スコア(独自算出の注目度): 2.3403125696913656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used to create content in regulated domains such as pharmaceuticals, where outputs must be scientifically accurate and legally compliant. Manual quality control (QC) is slow, error prone, and can become a publication bottleneck. We introduce LRBTC, a modular LLM and vision language model (VLM) driven QC architecture covering Language, Regulatory, Brand, Technical, and Content Structure checks. LRBTC combines a Student-Teacher dual model architecture, human in the loop (HITL) workflow with waterfall rule filtering to enable scalable, verifiable content validation and optimization. On AIReg-Bench, our approach achieves 83.0% F1 and 97.5% recall, reducing missed violations by 5x compared with Gemini 2.5 Pro. On CSpelling, it improves mean accuracy by 26.7%. Error analysis further reveals that while current models are strong at detecting misspellings (92.5 recall), they fail to identify complex medical grammatical (25.0 recall) and punctuation (41.7 recall) errors, highlighting a key area for future work. This work provides a practical, plug and play solution for reliable, transparent quality control of content in high stakes, compliance critical industries. We also provide access to our Demo under MIT Licenses.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、科学的に正確で法的に適合した出力が必要とされる医薬品などの規制された領域のコンテンツを作成するために、ますます使われてきている。
手動品質管理(QC)は遅く、エラーを起こしやすく、出版のボトルネックになる可能性がある。
本稿では,言語,規制,ブランド,技術,コンテンツ構造チェックをカバーするモジュール型LLMおよびビジョン言語モデル(VLM)によるQCアーキテクチャについて紹介する。
LRBTCは学生と教師の二重モデルアーキテクチャ、ヒューマン・イン・ザ・ループ(HITL)ワークフローとウォーターフォールルールフィルタリングを組み合わせることで、スケーラブルで検証可能なコンテンツ検証と最適化を可能にする。
AIReg-Benchでは83.0%のF1と97.5%のリコールを達成し、Gemini 2.5 Proと比較してエラーを5倍削減した。
CSpellingでは平均精度を26.7%向上させる。
誤り分析により、現在のモデルはミススペル(92.5リコール)の検出に長けているが、複雑な医学文法(25.0リコール)と句読点(41.7リコール)の誤りを識別できず、将来の作業において重要な領域を強調していることが明らかになった。
この作業は、信頼性が高く透明なコンテンツ品質管理のための実用的なプラグアンドプレイソリューションを提供する。
また、MITライセンス下でのデモへのアクセスも提供しています。
関連論文リスト
- Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - LLM4PLC: Harnessing Large Language Models for Verifiable Programming of
PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。
本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。
GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文 参考訳(メタデータ) (2024-01-08T23:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。