論文の概要: Reliable Self-Harm Risk Screening via Adaptive Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2604.22154v1
- Date: Fri, 24 Apr 2026 01:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.305619
- Title: Reliable Self-Harm Risk Screening via Adaptive Multi-Agent LLM Systems
- Title(参考訳): 適応型多エージェントLDMシステムによる信頼性自己調和リスクスクリーニング
- Authors: Meghana Karnam, Ananya Joshi,
- Abstract要約: 有向非巡回グラフ(DAG)として構造化されたマルチエージェントパイプラインの統計的枠組みを提案する。
我々は各エージェントをカテゴリー決定としてモデル化し、より厳密なエージェントレベルのパフォーマンス信頼境界を導入する。
本研究では,2つのラベル付きデータセットを用いた行動保健システムの評価を行った。
- 参考スコア(独自算出の注目度): 6.14481021961242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging AI systems in behavioral health and psychiatry use multi-step or multi-agent LLM pipelines for tasks like assessing self-harm risk and screening for depression. However, common evaluation approaches, like LLM-as-a-judge, do not indicate when a decision is reliable or how errors may accumulate across multiple LLM judgements, limiting their suitability for safety-critical settings. We present a statistical framework for multi-agent pipelines structured as directed acyclic graphs (DAGs) that provides an alternative to heuristic voting with principled, adaptive decision-making. We model each agent as a stochastic categorical decision and introduce (1) tighter agent-level performance confidence bounds, (2) a bandit-based adaptive sampling strategy based on input difficulty, and (3) regret guarantees over the multi-agent system that shows logarithmic error growth when deployed. We evaluate our system on two labeled datasets in behavioral health : the AEGIS 2.0 behavioral health subset (N=161) and a stratified sample of SWMH Reddit posts (N=250). Empirically, our adaptive sampling strategy achieves the lowest false positive rate of any condition across both datasets, 0.095 on AEGIS 2.0 compared to 0.159 for single-agent models, reducing incorrect flagging of safe content by 40\% and still having similar false negative rates across all conditions. These results suggest that principled adaptive sampling offers a meaningful improvement in precision without reducing recall in this setting.
- Abstract(参考訳): 行動保健や精神医学におけるAIシステムは、自己損害リスクの評価やうつ病のスクリーニングといったタスクに、多段階または多段階のLSMパイプラインを使用する。
しかし、LCM-as-a-judgeのような一般的な評価手法は、決定がいつ信頼できるか、あるいは複数のLCM判断でエラーが蓄積される可能性があるかを示しておらず、安全クリティカルな設定への適合性を制限している。
本稿では,多エージェントパイプラインを有向非巡回グラフ (DAG) として構成し,原理的,適応的な意思決定によるヒューリスティック投票の代替となる統計的枠組みを提案する。
我々は,各エージェントを確率的カテゴリー決定としてモデル化し,(1)より厳密なエージェントレベルの性能信頼境界,(2)入力難度に基づく帯域ベース適応サンプリング戦略,(3)展開時の対数誤差の増大を示すマルチエージェントシステムに対する後悔の保証を導入する。
AEGIS 2.0 行動健康サブセット (N=161) とSWMH Redditポスト (N=250) の成層化サンプル (N=250) の2つのラベル付き行動健康データセットを用いて評価を行った。
AEGIS 2.0では,AEGIS 2.0では0.095であり,単一エージェントモデルでは0.159であり,安全コンテンツの誤ったフラグ付けを40%削減し,すべての条件で類似の偽陰性率を有する。
これらの結果から,適応サンプリングの原理は,リコールを減少させることなく,精度の向上に寄与することが示唆された。
関連論文リスト
- NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings [7.768426131383283]
既存のアプローチは、コントロールされた検査条件と臨床実践の間の領域ギャップに苦慮している。
本稿では、視覚言語モデル(VLM)検証器を備えたYOLOv11検出器からなる新しい2段階検出器検証フレームワークであるAdaptiveDetectorを提案する。
この適応しきい値とコスト感受性強化学習の組み合わせは、臨床的に整合したオープンワールドポリープ検出を実現し、偽陰性は極めて少ない。
論文 参考訳(メタデータ) (2025-12-13T23:33:05Z) - Semi-Supervised Regression with Heteroscedastic Pseudo-Labels [50.54050677867914]
両レベル最適化の観点から,疑似ラベルの影響を動的に調整する不確実性認識型擬似ラベル化フレームワークを提案する。
我々は、様々なベンチマークSSRデータセットにまたがって、我々のアプローチを検証するための理論的洞察と広範な実験を提供する。
論文 参考訳(メタデータ) (2025-10-17T03:06:23Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。