論文の概要: BehaviorSFT: Behavioral Token Conditioning for Clinical Agents Across the Proactivity Spectrum
- arxiv url: http://arxiv.org/abs/2505.21757v1
- Date: Tue, 27 May 2025 20:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.29238
- Title: BehaviorSFT: Behavioral Token Conditioning for Clinical Agents Across the Proactivity Spectrum
- Title(参考訳): 行動SFT : プロアクティビティスペクトラムにおける臨床薬品の行動トークン条件の検討
- Authors: Yubin Kim, Zhiyuan Hu, Hyewon Jeong, Eugene Park, Shuyue Stella Li, Chanwoo Park, Shiyun Xiong, MingYu Lu, Hyeonhoon Lee, Xin Liu, Daniel McDuff, Cynthia Breazeal, Samir Tulebaev, Hae Won Park,
- Abstract要約: 臨床薬としての大規模言語モデル(LLM)には、慎重に行動適応が必要である。
BehaviorSFT は動的行動選択のために LLM を明示的に条件付けするための行動トークンを用いた新しいトレーニング戦略である。
ブラインド臨床評価では、行動SFT訓練剤はより現実的な臨床行動を示すことが確認された。
- 参考スコア(独自算出の注目度): 34.133347175678395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) as clinical agents require careful behavioral adaptation. While adept at reactive tasks (e.g., diagnosis reasoning), LLMs often struggle with proactive engagement, like unprompted identification of critical missing information or risks. We introduce BehaviorBench, a comprehensive dataset to evaluate agent behaviors across a clinical assistance spectrum, ranging from reactive query responses to proactive interventions (e.g., clarifying ambiguities, flagging overlooked critical data). Our BehaviorBench experiments reveal LLMs' inconsistent proactivity. To address this, we propose BehaviorSFT, a novel training strategy using behavioral tokens to explicitly condition LLMs for dynamic behavioral selection along this spectrum. BehaviorSFT boosts performance, achieving up to 97.3% overall Macro F1 on BehaviorBench and improving proactive task scores (e.g., from 95.0% to 96.5% for Qwen2.5-7B-Ins). Crucially, blind clinician evaluations confirmed BehaviorSFT-trained agents exhibit more realistic clinical behavior, striking a superior balance between helpful proactivity (e.g., timely, relevant suggestions) and necessary restraint (e.g., avoiding over-intervention) versus standard fine-tuning or explicit instructed agents.
- Abstract(参考訳): 臨床薬としての大規模言語モデル(LLM)には、慎重に行動適応が必要である。
反応性タスク(例えば診断推論)に順応する一方で、LLMは、重要な欠落情報やリスクの未解決の特定など、積極的な関与に苦慮することが多い。
本稿では,反応クエリ応答から積極的な介入(曖昧さの明確化,見過ごされた臨界データのフラグ付けなど)まで,臨床補助スペクトル全体にわたるエージェント行動を評価する包括的データセットであるBehavimentBenchを紹介する。
我々の BehaviorBench 実験は LLM の不整合活性を明らかにする。
そこで本研究では,このスペクトルに沿った動的行動選択のためのLCMを明示的に条件付けるために,行動トークンを用いた新しいトレーニング戦略であるBehavimentSFTを提案する。
BehaviorSFTはパフォーマンスを高め、BehaviorBenchのMacro F1全体の97.3%を達成し、プロアクティブタスクスコア(Qwen2.5-7B-Insの95.0%から96.5%)を改善した。
盲目的臨床評価では、行動SFT訓練剤はより現実的な臨床行動を示し、補助的活動(例えば、時間的、関連する提案)と必要な抑制(例えば、過剰な介入を避ける)と標準的な微調整または明示的指示薬とのバランスが優れていることが確認された。
関連論文リスト
- Tuning Language Models for Robust Prediction of Diverse User Behaviors [14.342911841456663]
インテリジェントアシスタントサービスにはユーザ行動の予測が不可欠だが、ディープラーニングモデルは長い尾の振る舞いを捉えるのに苦労することが多い。
本稿では,この問題に対処する段階的な微調整手法であるBehavimentLMを紹介する。
2つの実世界のデータセットの実験結果から、BehavimentLMはアンカーとテールの両方の挙動を頑健に予測することが示された。
論文 参考訳(メタデータ) (2025-05-23T09:53:43Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Heterogeneous Hidden Markov Models for Sleep Activity Recognition from
Multi-Source Passively Sensed Data [67.60224656603823]
精神科患者の受動的活動監視は、リアルタイムでの行動変化を検出するために不可欠である。
睡眠行動認識は、患者の活動サイクルを表現する行動マーカーである。
スマートフォンから受動的に検出されたデータは、患者の生体リズムに優れた代替手段である。
論文 参考訳(メタデータ) (2022-11-08T17:29:40Z) - Interpretability by design using computer vision for behavioral sensing
in child and adolescent psychiatry [3.975358343371988]
我々は機械学習を用いて行動規範や金の標準行動評価システムの概念を導出する。
私たちの評価は、ネガティブな感情、活動レベル/覚醒、不安に対する人間の専門家評価に匹敵するものでした。
論文 参考訳(メタデータ) (2022-07-11T09:07:08Z) - Inverse Contextual Bandits: Learning How Behavior Evolves over Time [89.59391124399927]
意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。
まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。