論文の概要: Green Shielding: A User-Centric Approach Towards Trustworthy AI
- arxiv url: http://arxiv.org/abs/2604.24700v1
- Date: Mon, 27 Apr 2026 17:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.256079
- Title: Green Shielding: A User-Centric Approach Towards Trustworthy AI
- Title(参考訳): Green Shielding: 信頼できるAIへのユーザ中心アプローチ
- Authors: Aaron J. Li, Nicolas Sanchez, Hao Huang, Ruijiang Dong, Jaskaran Bains, Katrin Jaradeh, Zhen Xiang, Bo Li, Feng Liu, Aaron Kornblith, Bin Yu,
- Abstract要約: Green Shieldingはエビデンスベースのデプロイメントガイダンスを構築するための,ユーザ中心のアジェンダだ。
HealthCareMagic-Diagnosis による医療診断における Green Shielding のインスタンス化
ここでは医療診断においてインスタンス化されているが、アジェンダは他の意思決定支援設定やエージェントAIシステムに自然に拡張されている。
- 参考スコア(独自算出の注目度): 19.485991712624095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed, yet their outputs can be highly sensitive to routine, non-adversarial variation in how users phrase queries, a gap not well addressed by existing red-teaming efforts. We propose Green Shielding, a user-centric agenda for building evidence-backed deployment guidance by characterizing how benign input variation shifts model behavior. We operationalize this agenda through the CUE criteria: benchmarks with authentic Context, reference standards and metrics that capture true Utility, and perturbations that reflect realistic variations in the Elicitation of model behavior. Guided by the PCS framework and developed with practicing physicians, we instantiate Green Shielding in medical diagnosis through HealthCareMagic-Diagnosis (HCM-Dx), a benchmark of patient-authored queries, together with structured reference diagnosis sets and clinically grounded metrics for evaluating differential diagnosis lists. We also study perturbation regimes that capture routine input variation and show that prompt-level factors shift model behavior along clinically meaningful dimensions. Across multiple frontier LLMs, these shifts trace out Pareto-like tradeoffs. In particular, neutralization, which removes common user-level factors while preserving clinical content, increases plausibility and yields more concise, clinician-like differentials, but reduces coverage of highly likely and safety-critical conditions. Together, these results show that interaction choices can systematically shift task-relevant properties of model outputs and support user-facing guidance for safer deployment in high-stakes domains. Although instantiated here in medical diagnosis, the agenda extends naturally to other decision-support settings and agentic AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますデプロイされているが、そのアウトプットは、ユーザがクエリを言い換える方法において、日常的な非逆の変動に非常に敏感である。
本論文では,入力変動がモデル動作をどのように変化させるかを特徴付けることで,エビデンス支援によるデプロイメントガイダンスを構築するための,ユーザ中心のアジェンダであるGreen Shieldingを提案する。
私たちは、CUEの基準でこの議題を運用しています。信頼されたコンテキストによるベンチマーク、真のユーティリティを捉える参照標準とメトリクス、モデル行動の引用における現実的な変動を反映する摂動です。
PCSフレームワークでガイドされ,医師とともに開発されたHealthCareMagic-Diagnosis (HCM-Dx) による医療診断における Green Shielding のインスタンス化を行った。
また, 日常的な入力変動を捉える摂動機構について検討し, アクシデントレベル因子が臨床的に有意な次元に沿ってモデル行動を変えることを示す。
複数のフロンティア LLM にまたがって、これらのシフトはパレートのようなトレードオフを辿る。
特に、中和は、臨床コンテンツを保存しながら、一般的なユーザーレベル要素を除去し、可視性を高め、より簡潔な臨床医のような差分を得るが、高い可能性と安全性クリティカルな条件のカバレッジを減少させる。
これらの結果から、相互作用の選択はモデル出力のタスク関連特性を体系的にシフトし、高取扱い領域における安全な配置のためのユーザ向けガイダンスをサポートすることが示唆された。
ここでは医療診断においてインスタンス化されているが、アジェンダは他の意思決定支援設定やエージェントAIシステムに自然に拡張されている。
関連論文リスト
- A Multi-Agent Framework for Interpreting Multivariate Physiological Time Series [9.72130666902599]
本稿では,多変量生理的時系列を記述した役割構造型マルチエージェントシステムであるVivaldiを紹介する。
実験の結果,エージェントパイプラインは,非思考的,医学的に微調整されたモデルに極めて有用であることがわかった。
一方、痛みスコアや滞在時間といった主観的対象は、限定的あるいは矛盾的な変化を示す。
論文 参考訳(メタデータ) (2026-03-04T14:55:46Z) - Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare [1.9010852820067994]
モデル不安定性("Confusability")を考慮してアライメントバイアスを分離する新しい尺度であるAdjusted Sycophancy Scoreを提案する。
以上の結果から, ベンチマーク性能は臨床信頼性の指標ではないことが示唆され, 簡易な推論構造は, 専門家主導の薬効に対して優れた堅牢性をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-26T10:21:34Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - An autonomous agent for auditing and improving the reliability of clinical AI models [11.225863068085266]
本稿では,ユーザと対話する自己表現型エージェントであるModelAuditorを紹介する。
ModelAuditorはコンテキストに依存し、臨床的に関連する分布シフトをシミュレートする。
そして、デプロイ中にパフォーマンスがどの程度低下するかを説明する解釈可能なレポートを生成する。
論文 参考訳(メタデータ) (2025-07-08T07:58:52Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。