論文の概要: The ELEVATE-AI LLMs Framework: An Evaluation Framework for Use of Large Language Models in HEOR: an ISPOR Working Group Report
- arxiv url: http://arxiv.org/abs/2501.12394v1
- Date: Mon, 23 Dec 2024 14:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-26 14:22:38.293857
- Title: The ELEVATE-AI LLMs Framework: An Evaluation Framework for Use of Large Language Models in HEOR: an ISPOR Working Group Report
- Title(参考訳): ELEVATE-AI LLMs Framework: HEORにおける大規模言語モデルの利用評価フレームワーク:ISPORワーキンググループレポート
- Authors: Rachael L. Fleurence, Dalia Dawoud, Jiang Bian, Mitchell K. Higashi, Xiaoyan Wang, Hua Xu, Jagpreet Chhatwal, Turgay Ayer,
- Abstract要約: この記事では、ELEVATE AI LLMsフレームワークとチェックリストを紹介します。
このフレームワークは、モデル特性、正確性、包括性、公平性を含む10の評価領域から構成される。
体系的な文献レビューと健康経済モデルの研究の枠組みとチェックリストの検証は、レポートの強さとギャップを識別する能力を強調した。
- 参考スコア(独自算出の注目度): 12.204470166456561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction. Generative Artificial Intelligence, particularly large language models (LLMs), offers transformative potential for Health Economics and Outcomes Research (HEOR). However, evaluating the quality, transparency, and rigor of LLM-assisted research lacks standardized guidance. This article introduces the ELEVATE AI LLMs framework and checklist, designed to support researchers and reviewers in assessing LLM use in HEOR. Methods. The ELEVATE AI LLMs framework was developed through a targeted review of existing guidelines and evaluation frameworks. The framework comprises ten evaluation domains, including model characteristics, accuracy, comprehensiveness, and fairness. The accompanying checklist operationalizes the framework. To validate the framework, we applied it to two published studies, demonstrating its usability across different HEOR tasks. Results. The ELEVATE AI LLMs framework provides a comprehensive structure for evaluating LLM-assisted research, while the checklist facilitates practical application. Validation of the framework and checklist on studies of systematic literature reviews and health economic modeling highlighted their ability to identify strengths and gaps in reporting. Limitations. While the ELEVATE AI LLMs framework provides robust guidance, its broader generalizability and applicability to diverse HEOR tasks require further empirical testing. Additionally, several metrics adapted from computer science need further validation in HEOR contexts. Conclusion. The ELEVATE AI LLMs framework and checklist fill a critical gap in HEOR by offering structured guidance for evaluating LLM-assisted research. By promoting transparency, accuracy, and reproducibility, they aim to standardize and improve the integration of LLMs into HEOR, ensuring their outputs meet the field's rigorous standards.
- Abstract(参考訳): はじめに。
ジェネレーティブ・人工知能、特に大きな言語モデル(LLM)は、健康経済学とアウトカムズ・リサーチ(Health Economics and Outcomes Research, HEOR)に変革をもたらす可能性がある。
しかし、LCM支援研究の品質、透明性、厳密さの評価には標準化されたガイダンスが欠如している。
本稿では,ELEVATE AI LLMsフレームワークとチェックリストを紹介する。
メソッド。
ELEVATE AI LLMsフレームワークは、既存のガイドラインと評価フレームワークのターゲットレビューを通じて開発された。
このフレームワークは、モデル特性、正確性、包括性、公平性を含む10の評価領域から構成される。
付属するチェックリストがフレームワークを運用する。
このフレームワークを2つの論文に適用し、異なるHEORタスクにまたがるユーザビリティを実証した。
結果。
ELEVATE AI LLMsフレームワークは、LCM支援研究を評価するための包括的な構造を提供するが、チェックリストは実践的な応用を促進する。
体系的な文献レビューと健康経済モデルの研究の枠組みとチェックリストの検証は、レポートの強さとギャップを識別する能力を強調した。
制限。
ELEVATE AI LLMsフレームワークは堅牢なガイダンスを提供するが、多様なHEORタスクへの広範な一般化性と適用性には、さらに経験的なテストが必要である。
さらに、計算機科学から適応したいくつかのメトリクスは、HEORコンテキストでさらなる検証が必要である。
結論。
ELEVATE AI LLMsフレームワークとチェックリストは、LLM支援研究を評価するための構造化ガイダンスを提供することで、HEORにおける重要なギャップを埋める。
透明性、正確性、再現性を促進することで、LEMのHEORへの統合を標準化し、改善し、その出力がフィールドの厳格な基準を満たすことを目指している。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。
各カテゴリの詳細な概要と,この分野の課題について紹介する。
調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文 参考訳(メタデータ) (2025-05-21T19:17:29Z) - TaMPERing with Large Language Models: A Field Guide for using Generative AI in Public Administration Research [0.0]
大規模言語モデル(LLM)の社会科学研究への統合は、科学的調査を進めるための変革的な機会を提示する。
この原稿では、タスク、モデル、プロンプト、評価、レポートの5つの決定ポイントに基づいて構成された、TaMPERフレームワークの方法論を紹介します。
論文 参考訳(メタデータ) (2025-03-30T21:38:11Z) - Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.31527042425208]
本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。
このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文 参考訳(メタデータ) (2025-03-25T08:23:49Z) - Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks [2.362412515574206]
大規模言語モデル(LLM)は、大量の文献に基づく情報を収集することで、教育において非常に有益であることが証明されている。
本稿では,LLMを活用してGATEソリューションを説明し,学生の試験準備を支援するAIを活用した質問応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T08:11:07Z) - CodEv: An Automated Grading Framework Leveraging Large Language Models for Consistent and Constructive Feedback [0.0]
本研究では,Large Language Models (LLMs)を活用して,一貫した構築的フィードバックを提供する自動階調フレームワークCodEvを提案する。
また,LCMアンサンブルを統合してスコアの精度と一貫性を向上させるとともに,信頼性の高いフィードバックとコードレビューコメントを提供する合意テストを実施している。
論文 参考訳(メタデータ) (2025-01-10T03:09:46Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - A Framework for Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。
私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。
この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T06:08:57Z) - Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training? [3.0406004578714008]
大規模言語モデルの急速な進化は、AI開発における倫理的考慮とデータの整合性の必要性を強調している。
FAIRの原則は倫理データのスチュワードシップに不可欠であるが、LLMトレーニングデータの文脈におけるそれらの特定の応用は未調査領域のままである。
本稿では,FAIR の原則を LLM 開発ライフサイクルに統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T21:21:02Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Development of the ChatGPT, Generative Artificial Intelligence and
Natural Large Language Models for Accountable Reporting and Use (CANGARU)
Guidelines [0.33249867230903685]
CANGARUは、学術におけるGAI/GPT/LLM技術の倫理的利用、開示、適切な報告に関する学際的グローバルコンセンサスを促進することを目的としている。
本プロトコルは, GAI/GPT/LLMアプリケーションについて, 学術研究における関連概念, 発見, 報告標準を理解し, その利用と開示に関するガイドラインを定式化するために, 進行中の体系的レビューから成り立っている。
論文 参考訳(メタデータ) (2023-07-18T05:12:52Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。