論文の概要: Syn-STARTS: Synthesized START Triage Scenario Generation Framework for Scalable LLM Evaluation
- arxiv url: http://arxiv.org/abs/2511.14023v1
- Date: Tue, 18 Nov 2025 01:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.863929
- Title: Syn-STARTS: Synthesized START Triage Scenario Generation Framework for Scalable LLM Evaluation
- Title(参考訳): Syn-STARTS:スケーラブルLLM評価のための合成STARTトリアージシナリオ生成フレームワーク
- Authors: Chiharu Hagiwara, Naoki Nonaka, Yuhta Hashimoto, Ryu Uchimido, Jun Seita,
- Abstract要約: 我々は,LSMを用いてトリアージケースを生成するSyn-STARTSを開発し,その有効性を検証した。
以上の結果から,Syn-STARTSが生成したトリアージケースは,手作業によるトレーニング材料からのキュレーションによって生成されたTRIAGEオープンデータセットと定性的に区別できないことがわかった。
- 参考スコア(独自算出の注目度): 1.7942265700058986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Triage is a critically important decision-making process in mass casualty incidents (MCIs) to maximize victim survival rates. While the role of AI in such situations is gaining attention for making optimal decisions within limited resources and time, its development and performance evaluation require benchmark datasets of sufficient quantity and quality. However, MCIs occur infrequently, and sufficient records are difficult to accumulate at the scene, making it challenging to collect large-scale realworld data for research use. Therefore, we developed Syn-STARTS, a framework that uses LLMs to generate triage cases, and verified its effectiveness. The results showed that the triage cases generated by Syn-STARTS were qualitatively indistinguishable from the TRIAGE open dataset generated by manual curation from training materials. Furthermore, when evaluating the LLM accuracy using hundreds of cases each from the green, yellow, red, and black categories defined by the standard triage method START, the results were found to be highly stable. This strongly indicates the possibility of synthetic data in developing high-performance AI models for severe and critical medical situations.
- Abstract(参考訳): トリアージは、犠牲者の生存率を最大化するために、大量死亡事故(MCI)において重要な意思決定プロセスである。
このような状況におけるAIの役割は、限られたリソースと時間内で最適な決定を行う上で注目されているが、その開発と性能評価には十分な量と品質のベンチマークデータセットが必要である。
しかし、MCIは頻繁に発生し、現場で十分な記録を蓄積することは困難であり、研究のために大規模な現実世界データを収集することは困難である。
そこで我々は,LSMを用いてトリアージケースを生成するSyn-STARTSを開発し,その有効性を検証した。
以上の結果から,Syn-STARTSが生成したトリアージケースは,手作業によるトレーニング材料からのキュレーションによって生成されたTRIAGEオープンデータセットと定性的に区別できないことがわかった。
さらに, 標準トリアージ法STARTで定義した緑, 黄色, 赤, 黒のカテゴリからそれぞれ数百のケースを用いてLCMの精度を評価すると, 高い安定性が得られた。
このことは、重篤かつ重篤な医療状況に対する高性能なAIモデル開発における合成データの可能性を示している。
関連論文リスト
- Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction [0.3441021278275805]
本研究は, 統計結果, リスク・オブ・バイアス評価, 研究レベルの諸課題における3つのLCMの実用的性能を評価する。
抽出品質を改善する方法を決定するために,4つの異なるプロンプト戦略を検証した。
カスタマイズされたプロンプトが最も効果的で 最大15%のリコールを加速しました
論文 参考訳(メタデータ) (2025-07-20T23:09:04Z) - Development and Comparative Analysis of Machine Learning Models for Hypoxemia Severity Triage in CBRNE Emergency Scenarios Using Physiological and Demographic Data from Medical-Grade Devices [0.0]
グラディエントブースティングモデル(GBM)は、トレーニング速度、解釈可能性、信頼性の点で、シーケンシャルモデルを上回った。
タイムリーな介入のために5分間の予測ウィンドウが選択された。
本研究は、トリアージを改善し、アラーム疲労を軽減するMLの可能性を強調した。
論文 参考訳(メタデータ) (2024-10-30T23:24:28Z) - IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation [15.895295957106772]
大規模言語モデル(LLMs)を評価するためのID誘発即時合成フレームワークを提案する。
我々のデータ合成フレームワークは、幅と特異性の両方を優先し、LLMの能力を包括的に評価するプロンプトを生成することができる。
我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
論文 参考訳(メタデータ) (2024-09-27T16:29:12Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Robust SAR ATR on MSTAR with Deep Learning Models trained on Full
Synthetic MOCEM data [0.0]
シミュレーションは、合成トレーニングデータセットを作成することでこの問題を克服することができる。
ドメインランダム化手法と対角訓練を組み合わせることでこの問題を克服できることを示す。
論文 参考訳(メタデータ) (2022-06-15T08:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。