論文の概要: ELEVATE-GenAI: Reporting Guidelines for the Use of Large Language Models in Health Economics and Outcomes Research: an ISPOR Working Group on Generative AI Report
- arxiv url: http://arxiv.org/abs/2501.12394v2
- Date: Fri, 06 Jun 2025 15:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.792818
- Title: ELEVATE-GenAI: Reporting Guidelines for the Use of Large Language Models in Health Economics and Outcomes Research: an ISPOR Working Group on Generative AI Report
- Title(参考訳): ELEVATE-GenAI:Reporting Guidelines for the Use of Large Language Models in Health Economics and Outcomes Research: a ISPOR Working Group on Generative AI Report
- Authors: Rachael L. Fleurence, Dalia Dawoud, Jiang Bian, Mitchell K. Higashi, Xiaoyan Wang, Hua Xu, Jagpreet Chhatwal, Turgay Ayer,
- Abstract要約: この記事ではELEVATE GenAIフレームワークとチェックリストを紹介します。
このフレームワークは,既存の報告ガイドラインを対象とする文献レビューを通じて開発された。
モデルの特徴、正確性、公平性、偏見を含む10のドメインから構成される。
- 参考スコア(独自算出の注目度): 12.204470166456561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Generative artificial intelligence (AI), particularly large language models (LLMs), holds significant promise for Health Economics and Outcomes Research (HEOR). However, standardized reporting guidance for LLM-assisted research is lacking. This article introduces the ELEVATE GenAI framework and checklist - reporting guidelines specifically designed for HEOR studies involving LLMs. Methods: The framework was developed through a targeted literature review of existing reporting guidelines, AI evaluation frameworks, and expert input from the ISPOR Working Group on Generative AI. It comprises ten domains, including model characteristics, accuracy, reproducibility, and fairness and bias. The accompanying checklist translates the framework into actionable reporting items. To illustrate its use, the framework was applied to two published HEOR studies: one focused on systematic literature review tasks and the other on economic modeling. Results: The ELEVATE GenAI framework offers a comprehensive structure for reporting LLM-assisted HEOR research, while the checklist facilitates practical implementation. Its application to the two case studies demonstrates its relevance and usability across different HEOR contexts. Limitations: Although the framework provides robust reporting guidance, further empirical testing is needed to assess its validity, completeness, usability, as well as its generalizability across diverse HEOR use cases. Conclusion: The ELEVATE GenAI framework and checklist address a critical gap by offering structured guidance for transparent, accurate, and reproducible reporting of LLM-assisted HEOR research. Future work will focus on extensive testing and validation to support broader adoption and refinement.
- Abstract(参考訳): 導入: 生成的人工知能(AI)、特に大規模言語モデル(LLM)は、健康経済学とアウトカムズ・リサーチ(HEOR)に大きな約束を持っている。
しかし、LCM支援研究のための標準化された報告ガイダンスは欠落している。
本稿では,ELEVATE GenAIフレームワークとチェックリストについて紹介する。
Methods: このフレームワークは,既存のレポートガイドライン,AI評価フレームワーク,ISPOR Working Group on Generative AIからのエキスパートインプットを対象とする文献レビューを通じて開発された。
モデルの特徴、正確性、再現性、公平さとバイアスを含む10のドメインから構成される。
付随するチェックリストは、フレームワークを実行可能なレポートアイテムに変換する。
その使い方を説明するために、このフレームワークは2つの公開されたHEOR研究に適用された。
結果:ELEVATE GenAI フレームワークは LLM 支援された HEOR 研究を報告するための包括的な構造を提供し,チェックリストは実践的な実装を促進する。
その2つのケーススタディへの応用は、異なるHEORコンテキストにおけるその妥当性とユーザビリティを示している。
限界: このフレームワークは、堅牢な報告ガイダンスを提供するが、その妥当性、完全性、ユーザビリティ、および多様なHEORユースケースにおける一般化性を評価するために、さらに実証的なテストが必要である。
結論:ELEVATE GenAIフレームワークとチェックリストは、LLM支援HEOR研究の透明性、正確、再現可能な報告のための構造化ガイダンスを提供することによって、重大なギャップに対処する。
今後の作業は、広範な採用と改善をサポートするために、広範なテストと検証に重点を置く予定である。
関連論文リスト
- Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.31527042425208]
本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。
このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文 参考訳(メタデータ) (2025-03-25T08:23:49Z) - CodEv: An Automated Grading Framework Leveraging Large Language Models for Consistent and Constructive Feedback [0.0]
本研究では,Large Language Models (LLMs)を活用して,一貫した構築的フィードバックを提供する自動階調フレームワークCodEvを提案する。
また,LCMアンサンブルを統合してスコアの精度と一貫性を向上させるとともに,信頼性の高いフィードバックとコードレビューコメントを提供する合意テストを実施している。
論文 参考訳(メタデータ) (2025-01-10T03:09:46Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - A Framework for Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。
私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。
この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T06:08:57Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。