Fugu-MT 論文翻訳(概要): Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

論文の概要: Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

arxiv url: http://arxiv.org/abs/2602.20543v1
Date: Tue, 24 Feb 2026 04:48:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.604926
Title: Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing
Title（参考訳）: 人的パフォーマンスを超えて:医薬品製造における品質管理のためのビジョンランゲージ・マルチエージェントアプローチ
Authors: Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain, Matthieu Duvinage, Sander W. Timmer,
Abstract要約: コロニー形成ユニット(CFU)検出は医薬品製造において重要である。そこで我々は,ディープラーニング(DL)と視覚言語モデル(VLM)を組み合わせたマルチエージェントフレームワークを開発した。最初のDLベースの自動化は、ワクチン製造現場で人間の検証を50%削減した。
参考スコア（独自算出の注目度）: 1.5362004217750165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Colony-forming unit (CFU) detection is critical in pharmaceutical manufacturing, serving as a key component of Environmental Monitoring programs and ensuring compliance with stringent quality standards. Manual counting is labor-intensive and error-prone, while deep learning (DL) approaches, though accurate, remain vulnerable to sample quality variations and artifacts. Building on our earlier CNN-based framework (Beznik et al., 2020), we evaluated YOLOv5, YOLOv7, and YOLOv8 for CFU detection; however, these achieved only 97.08 percent accuracy, insufficient for pharmaceutical-grade requirements. A custom Detectron2 model trained on GSK's dataset of over 50,000 Petri dish images achieved 99 percent detection rate with 2 percent false positives and 0.6 percent false negatives. Despite high validation accuracy, Detectron2 performance degrades on outlier cases including contaminated plates, plastic artifacts, or poor optical clarity. To address this, we developed a multi-agent framework combining DL with vision-language models (VLMs). The VLM agent first classifies plates as valid or invalid. For valid samples, both DL and VLM agents independently estimate colony counts. When predictions align within 5 percent, results are automatically recorded in Postgres and SAP; otherwise, samples are routed for expert review. Expert feedback enables continuous retraining and self-improvement. Initial DL-based automation reduced human verification by 50 percent across vaccine manufacturing sites. With VLM integration, this increased to 85 percent, delivering significant operational savings. The proposed system provides a scalable, auditable, and regulation-ready solution for microbiological quality control, advancing automation in biopharmaceutical production.
Abstract（参考訳）: コロニー形成ユニット(CFU)検出は、医薬品製造において重要であり、環境モニタリングプログラムの重要な構成要素であり、厳格な品質基準の遵守を保証する。手動のカウントは労働集約的でエラーを起こしやすいが、ディープラーニング(DL)アプローチは正確ではあるが、サンプルの品質の変化やアーティファクトに弱いままである。初期のCNNベースのフレームワーク(Beznik et al , 2020)をベースとして, YOLOv5, YOLOv7, YOLOv8をCFU検出で評価した。 GSKの5万ペトリ以上の食器画像のデータセットでトレーニングされたカスタムディテクトロン2モデルは、2%の偽陽性と0.6%の偽陰性で99%の検出率を達成した。高い検証精度にもかかわらず、ディテクトロン2の性能は汚染されたプレート、プラスチックのアーティファクト、または光学的明快さの低い不適切なケースで劣化する。そこで我々は,DLと視覚言語モデル(VLM)を組み合わせたマルチエージェントフレームワークを開発した。 VLMエージェントは、まずプレートを有効または無効と分類する。有効なサンプルについては、DLエージェントとVLMエージェントの両方が独立してコロニー数を推定する。予測が5%以内の場合には、結果がPostgresとSAPに自動的に記録される。専門家のフィードバックは、継続的リトレーニングと自己改善を可能にする。最初のDLベースの自動化は、ワクチン製造現場で人間の検証を50%削減した。 VLMの統合により、これは85%まで増加し、運用上の大幅な削減を実現した。提案システムは, 微生物学的品質管理のためのスケーラブルで監査可能な, 規制対応のソリューションを提供し, バイオ医薬品製造における自動化を推進している。

関連論文リスト

Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology [0.0]
大規模言語モデル(LLM)は生物学的なベンチマークで強く機能し、初心者アクターがデュアルユースな実験室の技術を習得するのに役立つのではないかという懸念を提起する。ウイルスのリバース・ジェネティクス・ワークフローをモデル化したタスクにおいて,LSMが初歩的パフォーマンスを向上させるか否かを検討した。 LLMは、複雑な実験室の手続きの初歩的な完了を著しく増加させることはなかったが、性能上の利点は緩やかであった。
論文参考訳（メタデータ） (2026-02-18T18:51:28Z)
Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning [15.47321745394914]
本稿では,遺伝子導入の有効性評価のためのエージェント・アズ・ツール強化学習フレームワークを提案する。 1つの重要な現実世界のケースは、遺伝子消失の妥当性のキュレーションであり、専門家は、ある遺伝子が病気に因果的に関係しているかどうかを判断しなければならない。以上の結果から,GRPOを訓練したスーパーバイザーエージェントを用いたMASでは,ベースモデルのスーパーバイザーを0.195から0.732に改善した。プロセス+結果報酬により、GRPO訓練されたスーパーバイザー付きMASは、より高い結果精度(0.750)を達成し、プロセス忠実度を0.520 F1に改善する。
論文参考訳（メタデータ） (2026-02-15T14:21:21Z)
Are vision-language models ready to zero-shot replace supervised classification models in agriculture? [0.8594140167290097]
視覚モデル(VLM)は、視覚認識タスクのための汎用的なソリューションとして提案されている。我々は、AgMLコレクションから27の農業分類データセットに基づいて、多様なオープンおよびクローズドソースのVLMをベンチマークする。
論文参考訳（メタデータ） (2025-12-17T21:22:44Z)
AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文参考訳（メタデータ） (2025-11-17T13:05:25Z)
From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文参考訳（メタデータ） (2025-09-20T09:10:26Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
Semi-Supervised Defect Detection via Conditional Diffusion and CLIP-Guided Noise Filtering [8.132909775584395]
本稿では条件拡散(DSYM)に基づく半教師付き欠陥検出フレームワークを提案する。条件拡散モデルでは,複数スケールの擬似欠陥サンプルを合成し,CLIPクロスモーダル特徴量に基づくノイズフィルタリング機構によりラベル汚染を緩和する。本研究は,工業品質検査シナリオにおける欠陥検出のための高精度で低ラベル依存のソリューションを提供する。
論文参考訳（メタデータ） (2025-07-08T01:53:34Z)
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文参考訳（メタデータ） (2024-02-24T23:54:41Z)
Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision [40.984680166762345]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。 MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文参考訳（メタデータ） (2024-02-05T00:57:51Z)
Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T07:05:36Z)
Synthetic Data Augmentation Using GAN For Improved Automated Visual Inspection [0.440401067183266]
最先端の教師なし欠陥検出は教師付きモデルの性能と一致しない。 AUC ROCスコアが 0,9898 以上である GAN ベースのデータ生成を考慮し, 最高の分類性能が得られた。
論文参考訳（メタデータ） (2022-12-19T09:31:15Z)
Recognition of Defective Mineral Wool Using Pruned ResNet Models [88.24021148516319]
我々はミネラルウールのための視覚品質管理システムを開発した。ウール標本のX線画像が収集され、欠陥および非欠陥サンプルのトレーニングセットが作成された。我々は98%以上の精度のモデルを得たが、同社の現在の手順と比較すると、20%以上の欠陥製品を認識することができる。
論文参考訳（メタデータ） (2022-11-01T13:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。