論文の概要: Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning
- arxiv url: http://arxiv.org/abs/2511.10067v1
- Date: Fri, 14 Nov 2025 01:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.676891
- Title: Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning
- Title(参考訳): 多面的自己改善学習によるLCMの医療的文脈認識能力の向上
- Authors: Yuxuan Zhou, Yubin Wang, Bin Wang, Chen Ning, Xien Liu, Ji Wu, Jianye Hao,
- Abstract要約: 大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
- 参考スコア(独自算出の注目度): 49.559151128219725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great promise in the medical domain, achieving strong performance on several benchmarks. However, they continue to underperform in real-world medical scenarios, which often demand stronger context-awareness, i.e., the ability to recognize missing or critical details (e.g., user identity, medical history, risk factors) and provide safe, helpful, and contextually appropriate responses. To address this issue, we propose Multifaceted Self-Refinement (MuSeR), a data-driven approach that enhances LLMs' context-awareness along three key facets (decision-making, communication, and safety) through self-evaluation and refinement. Specifically, we first design a attribute-conditioned query generator that simulates diverse real-world user contexts by varying attributes such as role, geographic region, intent, and degree of information ambiguity. An LLM then responds to these queries, self-evaluates its answers along three key facets, and refines its responses to better align with the requirements of each facet. Finally, the queries and refined responses are used for supervised fine-tuning to reinforce the model's context-awareness ability. Evaluation results on the latest HealthBench dataset demonstrate that our method significantly improves LLM performance across multiple aspects, with particularly notable gains in the context-awareness axis. Furthermore, by incorporating knowledge distillation with the proposed method, the performance of a smaller backbone LLM (e.g., Qwen3-32B) surpasses its teacher model, achieving a new SOTA across all open-source LLMs on HealthBench (63.8%) and its hard subset (43.1%). Code and dataset will be released at https://muser-llm.github.io.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、現実の医療シナリオでは、しばしばより強い文脈認識、すなわち、欠落または重要な詳細(例えば、ユーザアイデンティティ、医療履歴、リスクファクター)を認識し、安全で、有用で、文脈的に適切な応答を提供する能力を必要とする。
この問題を解決するために,LLMの文脈認識性を高めるデータ駆動型手法であるMultifaceted Self-Refinement (MuSeR)を提案する。
具体的には、まず属性条件付きクエリージェネレータを設計し、役割、地理的領域、意図、情報あいまいさの程度など、様々な属性によって現実世界のユーザコンテキストをシミュレートする。
LLMはこれらのクエリに応答し、3つのキーファセットに沿って回答を自己評価し、各ファセットの要求に適合するように応答を洗練する。
最後に、クエリと洗練された応答を教師付き微調整に使用して、モデルのコンテキスト認識能力を強化する。
最新のHealthBenchデータセットによる評価結果から,本手法は複数の側面にわたるLCM性能を著しく向上させ,特に文脈認識軸における顕著な利得を示した。
さらに, 知識蒸留を本手法に取り入れることで, 小さなバックボーンLLM(eg, Qwen3-32B)の性能が教師モデルを上回っ, オープンソースLLMのHealthBench(63.8%)とハードサブセット(43.1%)にまたがる新たなSOTAを実現した。
コードとデータセットはhttps://muser-llm.github.io.comで公開される。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - A MapReduce Approach to Effectively Utilize Long Context Information in Retrieval Augmented Language Models [24.509988895204472]
大規模言語モデル(LLM)は、時代遅れの知識や幻覚のために、進化するトピックに対する最新の応答を生成するのに苦労する。
Retrieval-augmented Generation (RAG) はLLM応答の精度と関連性を改善する重要なイノベーションである。
モデル重みを変更することなく「中間のロスト・イン・ザ・ミドル」問題に対処するためのマップ・リデューサ戦略であるBrefContextを提案する。
論文 参考訳(メタデータ) (2024-12-17T11:18:14Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。