論文の概要: M-CARE: Standardized Clinical Case Reporting for AI Model Behavioral Disorders, with a 20-Case Atlas and Experimental Validation
- arxiv url: http://arxiv.org/abs/2604.20871v1
- Date: Fri, 27 Mar 2026 12:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.133654
- Title: M-CARE: Standardized Clinical Case Reporting for AI Model Behavioral Disorders, with a 20-Case Atlas and Experimental Validation
- Title(参考訳): M-CARE:20ケースのアトラスと実験的検証によるAIモデル行動障害の標準化された臨床症例報告
- Authors: Jihoon Jeong,
- Abstract要約: M-CAREは、人間の医療に適応したAIモデル行動障害の臨床報告フレームワークである。
M-CAREは、13節のレポートフォーマット、4軸診断評価システム、およびAIの行動条件のノーズロジカルな分類を提供する。
- 参考スコア(独自算出の注目度): 4.358468367889626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce M-CARE (Model Clinical Assessment and Reporting for Evaluation), a clinical case report framework for AI model behavioral disorders adapted from human medicine. M-CARE provides a 13-section report format, a 4-axis diagnostic assessment system, and a nosological classification of AI behavioral conditions. We present 20 cases from three source categories: field observations of deployed agents (8), controlled experiments across three platforms (8), and published sources (4). Cases are organized into five categories: RLHF Performance Artifacts, Shell-Core Override Pathology, Context & Memory Conditions, Core Identity & Plasticity, and Stress, Methodology, & Boundary Conditions. As a featured case, we present Shell-Induced Behavioral Override (SIBO) -- a controlled experiment showing that Shell instructions categorically override a model's default cooperative behavior. SIBO was validated across five game domains (Trust Game, Poker, Avalon, Codenames, Chess), revealing a domain-dependent spectrum (SIBO Index: 0.75 to 0.10) that varies with action space complexity, Core domain expertise, and temporal directness. M-CARE is extensible: new cases and categories integrate without framework modification. We release the framework, all 20 case reports, and experimental data as open resources.
- Abstract(参考訳): M-CARE(M-CARE: Model Clinical Assessment and Reporting for Evaluation)は、AIモデル行動障害の臨床報告フレームワークである。
M-CAREは、13節のレポートフォーマット、4軸診断評価システム、およびAIの行動条件のノーズロジカルな分類を提供する。
本報告では,3つのソースカテゴリから,デプロイエージェントのフィールド観察(8),3つのプラットフォーム間での制御実験(8),公開ソース((4))の20事例を提示する。
ケースは、RLHFパフォーマンスアーティファクト、シェルコアオーバーライド病、コンテキストと記憶条件、コアアイデンティティと塑性、ストレス、方法論、境界条件の5つのカテゴリに分けられます。
特徴として、Shell-induced Behavioral Override (SIBO)を提示する。これは、Shell命令がモデルのデフォルトの協調動作をカテゴリー的にオーバーライドすることを示すコントロール実験である。
SIBOは5つのゲームドメイン(トラストゲーム、ポーカー、アバロン、コードネーム、チェス)で検証され、アクション空間の複雑さ、コアドメインの専門性、時間的指向性によって異なる領域依存スペクトル(SIBO Index: 0.75 - 0.10)が明らかになった。
M-CAREは拡張可能で、新しいケースやカテゴリはフレームワークの変更なしに統合される。
フレームワーク、20のケースレポート、実験データをオープンリソースとしてリリースしています。
関連論文リスト
- MedPRMBench: A Fine-grained Benchmark for Process Reward Models in Medical Reasoning [7.000170880015254]
医療領域における最初のプロセスレベルの報酬モデルベンチマークであるMedPRMBenchを提案する。
臨床共鳴ブループリント(CRB)に基づく3相パイプラインで構築される。
ベンチマークには6500の質問と13,000の推論チェーン、113,910のステップレベルラベル、トレーニング用の6,879の質問が含まれている。
論文 参考訳(メタデータ) (2026-04-19T06:44:07Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - GOLDMARK: Governed Outcome-Linked Diagnostic Model Assessment Reference Kit [7.891604152731754]
CB(Computational Biomarker)は、ヘマトキシリン・エオシン(H&E)全スライディング画像(WSI)から抽出した組織由来のパターンで、治療効果や予後を予測する。
臨床応用可能な OncoKB レベル1-3 バイオマーカーラベルを持つTCGAコーホート上に構築された標準化されたベンチマークフレームワークである GOLDMARK を紹介する。
論文 参考訳(メタデータ) (2026-03-21T15:09:06Z) - AEGIS: An Operational Infrastructure for Post-Market Governance of Adaptive Medical AI Under US and EU Regulations [39.89241412792336]
本稿では,医療AIシステムに適用可能なガバナンスフレームワークであるAEGISについて述べる。
PMS ALARM信号を用いた4つのカテゴリのデプロイメント決定分類(APPROVE, CONDITIONAL APPROVAL, CLINICAL REVIEW, REJECT)を実装した。
その結果, AEGISは規制変更制御の概念を実行可能なガバナンス手順に変換することを実証した。
論文 参考訳(メタデータ) (2026-03-20T11:56:59Z) - Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation [51.897472694590356]
Surg-R1は4段階のパイプラインで訓練された階層的推論によってギャップに対処する手術的視覚言語モデルである。
提案手法では,(1)知覚的根拠,関係理解,文脈的推論に外科的解釈を分解する3段階の推論階層,(2)320,000の推論ペアを持つ最大の外科的チェーン・オブ・シークエンス・データセット,の3つの重要な貢献を紹介する。
論文 参考訳(メタデータ) (2026-03-12T20:26:28Z) - Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models [4.358468367889626]
モデル医学は、AIモデルの障害を理解し、診断し、治療し、予防する科学である。
本稿では,現在のAI解釈可能性研究と体系的な臨床実践のギャップを埋める研究プログラムとしてモデル医学を紹介する。
論文 参考訳(メタデータ) (2026-03-05T01:49:29Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築した。
汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文 参考訳(メタデータ) (2025-06-18T10:42:22Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。