論文の概要: Rethinking Test-Time Scaling for Medical AI: Model and Task-Aware Strategies for LLMs and VLMs
- arxiv url: http://arxiv.org/abs/2506.13102v1
- Date: Mon, 16 Jun 2025 05:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.495823
- Title: Rethinking Test-Time Scaling for Medical AI: Model and Task-Aware Strategies for LLMs and VLMs
- Title(参考訳): 医療AIにおけるテストタイムスケーリングの再考: LLMとVLMのモデルとタスクアウェア戦略
- Authors: Gyutaek Oh, Seoyeon Kim, Sangjoon Park, Byung-Hoon Kim,
- Abstract要約: テスト時のスケーリングは、推論中に大きな言語モデルやビジョン言語モデルの推論能力を高めるための有望なアプローチとして現れている。
大規模言語モデルと視覚言語モデルの両方への影響を評価し,モデルサイズ,固有モデル特性,タスク複雑性などの要因を考慮した。
本研究は,医療分野におけるテストタイムスケーリングを効果的に活用するための実践的ガイドラインを提供し,医療分野の信頼性と解釈可能性の要求を満たすために,これらの戦略をさらに洗練する方法について考察する。
- 参考スコア(独自算出の注目度): 7.056510662616916
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-time scaling has recently emerged as a promising approach for enhancing the reasoning capabilities of large language models or vision-language models during inference. Although a variety of test-time scaling strategies have been proposed, and interest in their application to the medical domain is growing, many critical aspects remain underexplored, including their effectiveness for vision-language models and the identification of optimal strategies for different settings. In this paper, we conduct a comprehensive investigation of test-time scaling in the medical domain. We evaluate its impact on both large language models and vision-language models, considering factors such as model size, inherent model characteristics, and task complexity. Finally, we assess the robustness of these strategies under user-driven factors, such as misleading information embedded in prompts. Our findings offer practical guidelines for the effective use of test-time scaling in medical applications and provide insights into how these strategies can be further refined to meet the reliability and interpretability demands of the medical domain.
- Abstract(参考訳): テスト時のスケーリングは、推論中に大きな言語モデルやビジョン言語モデルの推論能力を向上するための有望なアプローチとして最近登場した。
様々なテストタイムスケーリング戦略が提案され、医療分野への応用への関心が高まりつつあるが、視覚言語モデルの有効性や異なる設定に対する最適な戦略の特定など、多くの重要な側面がまだ解明されていない。
本稿では,医療分野におけるテストタイムスケーリングの包括的調査を行う。
大規模言語モデルと視覚言語モデルの両方への影響を評価し,モデルサイズ,固有モデル特性,タスク複雑性などの要因を考慮した。
最後に,プロンプトに埋め込まれた誤解を招く情報など,ユーザ主導の要因の下で,これらの戦略の堅牢性を評価する。
本研究は,医療分野におけるテストタイムスケーリングを効果的に活用するための実践的ガイドラインを提供し,医療分野の信頼性と解釈可能性の要求を満たすために,これらの戦略をさらに洗練する方法について考察する。
関連論文リスト
- Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。
textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - Health AI Developer Foundations [18.690656891269686]
Health AI Developer Foundations(HAI-DEF)は、トレーニング済み、ドメイン固有の基礎モデル、ツール、レシピのスイートで、ヘルスアプリケーションのための機械学習の構築を加速する。
モデルは、放射線学(X線とCT)、病理学、皮膚画像、オーディオなど、様々なモダリティや領域をカバーする。
これらのモデルは、ラベル付きデータが少なく、トレーニング時間が短く、計算コストが削減されたAI開発を容易にする、ドメイン固有の埋め込みを提供する。
論文 参考訳(メタデータ) (2024-11-22T18:51:51Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文 参考訳(メタデータ) (2024-05-23T18:27:07Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Multi-Modal Perceiver Language Model for Outcome Prediction in Emergency
Department [0.03088120935391119]
主訴のテキスト情報とトリアージで記録されたバイタルサインに基づいて, 病院救急部門における結果予測と患者トリアージに関心がある。
我々は、いくつかのアプリケーションで有望な結果を示すモダリティに依存しないトランスフォーマーベースのモデルであるPerceiverを適応する。
実験では,テキストやバイタルサインのみを訓練したモデルと比較して,変異モダリティが予測性能を向上させることを示した。
論文 参考訳(メタデータ) (2023-04-03T06:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。