論文の概要: Optimization Instability in Autonomous Agentic Workflows for Clinical Symptom Detection
- arxiv url: http://arxiv.org/abs/2602.16037v1
- Date: Tue, 17 Feb 2026 21:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.445927
- Title: Optimization Instability in Autonomous Agentic Workflows for Clinical Symptom Detection
- Title(参考訳): 臨床症状検出のための自律的エージェントワークフローの最適化不安定性
- Authors: Cameron Cagan, Pedram Fard, Jiazi Tian, Jingya Cheng, Shawn N. Murphy, Hossein Estiri,
- Abstract要約: 自律的改善の継続がパラドックス的に分類器の性能を低下させる現象について検討する。
検証感度はイテレーション毎に1.0から0.0の間で変動し,重度はクラス有病率に逆比例することがわかった。
セレクターエージェントの監視により、システムは専門家による脳霧検出のレキシコンを331%(F1)、胸痛を7%改善した。
- 参考スコア(独自算出の注目度): 3.0950658457067433
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous agentic workflows that iteratively refine their own behavior hold considerable promise, yet their failure modes remain poorly characterized. We investigate optimization instability, a phenomenon in which continued autonomous improvement paradoxically degrades classifier performance, using Pythia, an open-source framework for automated prompt optimization. Evaluating three clinical symptoms with varying prevalence (shortness of breath at 23%, chest pain at 12%, and Long COVID brain fog at 3%), we observed that validation sensitivity oscillated between 1.0 and 0.0 across iterations, with severity inversely proportional to class prevalence. At 3% prevalence, the system achieved 95% accuracy while detecting zero positive cases, a failure mode obscured by standard evaluation metrics. We evaluated two interventions: a guiding agent that actively redirected optimization, amplifying overfitting rather than correcting it, and a selector agent that retrospectively identified the best-performing iteration successfully prevented catastrophic failure. With selector agent oversight, the system outperformed expert-curated lexicons on brain fog detection by 331% (F1) and chest pain by 7%, despite requiring only a single natural language term as input. These findings characterize a critical failure mode of autonomous AI systems and demonstrate that retrospective selection outperforms active intervention for stabilization in low-prevalence classification tasks.
- Abstract(参考訳): 自己の振る舞いを反復的に洗練する自律的なエージェントワークフローは、かなりの可能性を秘めている。
自動的なプロンプト最適化のためのオープンソースのフレームワークであるPythiaを用いて、自律的な改善がパラドックス的にクラシファイア性能を低下させる現象である最適化不安定性について検討する。
頻度の異なる3つの臨床症状(息の短さ23%,胸痛12%,Long COVID brain fog3%)を評価したところ,検証感度が1.0から0.0の繰り返しで変動し,重度はクラス有病率に逆比例することがわかった。
3%の確率で、標準評価基準によって隠蔽された故障モードであるゼロ陽性症例を検知しながら95%の精度を達成した。
我々は、最適化を積極的にリダイレクトし、修正よりも過度な適合を増幅する誘導エージェントと、最も優れたイテレーションを遡及的に特定するセレクタエージェントの2つの介入を評価し、破滅的な失敗を防いだ。
セレクターエージェントの監視により、システムは専門家による脳霧検出のレキシコンを331%(F1)、胸痛を7%改善した。
これらの知見は,自律型AIシステムにおいて重要な障害モードを特徴とし,低頻度分類タスクにおいて,レトロスペクティブ選択が能動的介入よりも優れていることを示す。
関連論文リスト
- Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - Selective Diabetic Retinopathy Screening with Accuracy-Weighted Deep Ensembles and Entropy-Guided Abstention [0.0]
糖尿病網膜症(DR)は2030年までに全世界で1億3000万人以上の患者に影響を与えると予測されている。
不確実性推定と統合された深層アンサンブル学習フレームワークを導入し,DR検出における堅牢性,透明性,スケーラビリティを向上させる。
35,000個のEyePACS網膜基底画像のトレーニングと検証は、未濾過の精度93.70%を生み出した。
論文 参考訳(メタデータ) (2025-10-29T04:16:04Z) - Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning [73.40364018029673]
連続的なテスト時間適応オブジェクト検出(CTTA-OD)は、源となる事前訓練された検出器を常に変化する環境にオンライン適応させることを目的としている。
私たちのモチベーションは、学習したすべての特徴が有益であるとは限らないという観察に起因しています。
FLOPの計算オーバヘッドを12%削減し,優れた適応性を実現する。
論文 参考訳(メタデータ) (2025-06-03T05:27:56Z) - Primary Care Diagnoses as a Reliable Predictor for Orthopedic Surgical Interventions [0.10624941710159722]
リファラルワークフローの非効率性は、最適な患者と高い医療費に寄与する。
本研究では,プライマリケアの診断項目に基づく手続き的ニーズの予測の可能性について検討した。
論文 参考訳(メタデータ) (2025-02-06T17:15:12Z) - Undersampling and Cumulative Class Re-decision Methods to Improve
Detection of Agitation in People with Dementia [16.949993123698345]
消化は認知症(PwD)で最も多い症状の1つである。
前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を検出する機械学習モデルを開発した。
本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%だけが競合的動揺検出モデルの訓練に適しているという結論に至った。
論文 参考訳(メタデータ) (2023-02-07T03:14:00Z) - Reasons for the Superiority of Stochastic Estimators over Deterministic
Ones: Robustness, Consistency and Perceptual Quality [44.47246905244631]
完全品質の回復アルゴリズムは後部サンプリング器でなければならない。
決定論的復元アルゴリズムは高い品質を達成できるが、これは可能なすべてのソース画像の空間を埋めることによってのみ達成できる。
論文 参考訳(メタデータ) (2022-11-16T14:49:10Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - SOUL: An Energy-Efficient Unsupervised Online Learning Seizure Detection
Classifier [68.8204255655161]
神経活動を記録して発作を検出するインプラントデバイスは、発作を抑えるために警告を発したり神経刺激を誘発したりするために採用されている。
移植可能な発作検出システムでは、低出力で最先端のオンライン学習アルゴリズムを使用して、神経信号のドリフトに動的に適応することができる。
SOULはTSMCの28nmプロセスで0.1mm2を占め、1.5nJ/分級エネルギー効率を実現した。
論文 参考訳(メタデータ) (2021-10-01T23:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。