論文の概要: Are Two LLMs Better Than One? A Student-Teacher Dual-Head LLMs Architecture for Pharmaceutical Content Optimization
- arxiv url: http://arxiv.org/abs/2602.11957v1
- Date: Thu, 12 Feb 2026 13:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.851757
- Title: Are Two LLMs Better Than One? A Student-Teacher Dual-Head LLMs Architecture for Pharmaceutical Content Optimization
- Title(参考訳): 2つのLLMは1つより優れているか? 医薬コンテンツ最適化のための学生と教師のデュアルヘッドLLMアーキテクチャ
- Authors: Suyash Mishra, Qiang Li, Anubhav Girdhar,
- Abstract要約: 大規模言語モデル(LLM)は、医薬品のような規制された領域でコンテンツを作成するために、ますます使われてきている。
本稿では,言語,規制,ブランド,技術,コンテンツ構造チェックをカバーするモジュール型LLMおよびビジョン言語モデル(VLM)によるQCアーキテクチャについて紹介する。
AIReg-Benchでは83.0%のF1と97.5%のリコールを達成し、Gemini 2.5 Proと比較してエラーを5倍削減した。
- 参考スコア(独自算出の注目度): 2.3403125696913656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used to create content in regulated domains such as pharmaceuticals, where outputs must be scientifically accurate and legally compliant. Manual quality control (QC) is slow, error prone, and can become a publication bottleneck. We introduce LRBTC, a modular LLM and vision language model (VLM) driven QC architecture covering Language, Regulatory, Brand, Technical, and Content Structure checks. LRBTC combines a Student-Teacher dual model architecture, human in the loop (HITL) workflow with waterfall rule filtering to enable scalable, verifiable content validation and optimization. On AIReg-Bench, our approach achieves 83.0% F1 and 97.5% recall, reducing missed violations by 5x compared with Gemini 2.5 Pro. On CSpelling, it improves mean accuracy by 26.7%. Error analysis further reveals that while current models are strong at detecting misspellings (92.5 recall), they fail to identify complex medical grammatical (25.0 recall) and punctuation (41.7 recall) errors, highlighting a key area for future work. This work provides a practical, plug and play solution for reliable, transparent quality control of content in high stakes, compliance critical industries. We also provide access to our Demo under MIT Licenses.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、科学的に正確で法的に適合した出力が必要とされる医薬品などの規制された領域のコンテンツを作成するために、ますます使われてきている。
手動品質管理(QC)は遅く、エラーを起こしやすく、出版のボトルネックになる可能性がある。
本稿では,言語,規制,ブランド,技術,コンテンツ構造チェックをカバーするモジュール型LLMおよびビジョン言語モデル(VLM)によるQCアーキテクチャについて紹介する。
LRBTCは学生と教師の二重モデルアーキテクチャ、ヒューマン・イン・ザ・ループ(HITL)ワークフローとウォーターフォールルールフィルタリングを組み合わせることで、スケーラブルで検証可能なコンテンツ検証と最適化を可能にする。
AIReg-Benchでは83.0%のF1と97.5%のリコールを達成し、Gemini 2.5 Proと比較してエラーを5倍削減した。
CSpellingでは平均精度を26.7%向上させる。
誤り分析により、現在のモデルはミススペル(92.5リコール)の検出に長けているが、複雑な医学文法(25.0リコール)と句読点(41.7リコール)の誤りを識別できず、将来の作業において重要な領域を強調していることが明らかになった。
この作業は、信頼性が高く透明なコンテンツ品質管理のための実用的なプラグアンドプレイソリューションを提供する。
また、MITライセンス下でのデモへのアクセスも提供しています。
関連論文リスト
- Agentic Knowledge Distillation: Autonomous Training of Small Language Models for SMS Threat Detection [0.4899818550820574]
エージェント知識蒸留は、人間の介入なしにセキュリティタスクにデプロイ可能な、より小さな学生SLMを微調整する強力なLLMで構成されている。
SMSスパム・スマイッシング検出における教師の役割における4つのLLMと2人の学生のSLMを比較した。
以上の結果から,教師のLLMによって性能が大きく異なり,94.31%の精度と96.25%のリコールが達成された。
論文 参考訳(メタデータ) (2026-02-11T13:57:56Z) - Problems With Large Language Models for Learner Modelling: Why LLMs Alone Fall Short for Responsible Tutoring in K--12 Education [4.658972861389497]
K--12教育における大規模言語モデル(LLM)ベースのチューターの急速な増加は、生成モデルが適応的指導のために従来の学習者モデルを置き換えることができるという誤解を引き起こしている。
本研究は,LLMに基づく教師の限界に関する証拠を合成し,学習者の時間とともに進化する知識を評価するための正確性,信頼性,時間的コヒーレンスという1つの重要な問題を実証的に研究する。
論文 参考訳(メタデータ) (2025-12-28T18:26:22Z) - Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - LLM4PLC: Harnessing Large Language Models for Verifiable Programming of
PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。
本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。
GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文 参考訳(メタデータ) (2024-01-08T23:52:42Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。