論文の概要: Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12644v2
- Date: Thu, 27 Jun 2024 14:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:37:21.602932
- Title: Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
- Title(参考訳): 階層型プロンプト分類:大規模言語モデルのための普遍的評価フレームワーク
- Authors: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha,
- Abstract要約: 大規模言語モデル(LLM)をより正確に評価するための5つの独特なプロンプト戦略からなる階層型プロンプトフレームワーク(HPF)を用いた分類法を提案する。
また、各タスクに適切なプロンプト戦略の選択を自動化するAdaptive Hierarchical Promptフレームワークについても紹介する。
本研究では,Llama 3 8B,Phi 3 3.8B,Mistral 7B,Gemma 7Bの4つの命令調整LDMを用いて,手動および適応的階層的プロンプトフレームワークを比較した。
- 参考スコア(独自算出の注目度): 1.9799349044359313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the effectiveness of large language models (LLMs) in addressing diverse tasks is essential for comprehending their strengths and weaknesses. Conventional evaluation techniques typically apply a single prompting strategy uniformly across datasets, not considering the varying degrees of task complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy that employs a Hierarchical Prompt Framework (HPF) composed of five unique prompting strategies, arranged from the simplest to the most complex, to assess LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a score, called the Hierarchical Prompting Score (HP-Score), to datasets as well as LLMs based on the rules of the taxonomy, providing a nuanced understanding of their ability to solve diverse tasks and offering a universal measure of task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt framework, which automates the selection of appropriate prompting strategies for each task. This study compares manual and adaptive hierarchical prompt frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B, Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness of HPT, providing a reliable way to compare different tasks and LLM capabilities. This paper leads to the development of a universal evaluation metric that can be used to evaluate both the complexity of the datasets and the capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is publicly available.
- Abstract(参考訳): 大きな言語モデル(LLM)が様々なタスクに対処する効果を評価することは、その強みと弱さを理解するのに不可欠である。
従来の評価手法は、通常、タスクの複雑さの度合いを考慮せず、データセット全体で一様に単一のプロンプト戦略を適用する。
階層型プロンプト・フレームワーク(HPF)を用いた分類法である階層型プロンプト分類法(HPT)を導入し,最も単純なものから最も複雑なものへと配置し,LCMをより正確に評価し,より明確な視点を提供する。
この分類学はヒエラルキー・プロンプトスコア(HP-Score)と呼ばれるスコアを分類学の規則に基づくデータセットとLLMに割り当て、多様なタスクを解く能力の微妙な理解を提供し、タスクの複雑さの普遍的な尺度を提供する。
さらに,タスク毎に適切なプロンプト戦略の選択を自動化するAdaptive Hierarchical Promptフレームワークを導入する。
本研究では,Llama 3 8B,Phi 3 3.8B,Mistral 7B,Gemma 7Bの4つの命令調整LDMを,BoolQ,CommonSenseQA (CSQA),IWSLT-2017 en-fr (IWSLT),SamSumの4つのデータセットで比較した。
実験はHPTの有効性を示し、異なるタスクとLLM機能を比較する信頼性の高い方法を提供する。
本稿では,LLMの複雑性と能力の両面を評価できる普遍的評価指標の開発に繋がる。
手動HPFと適応HPFの両方の実装が公開されている。
関連論文リスト
- Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks [2.822851601000061]
本稿では,多様な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計するための一般的な分類法を提案する。
この分類学により、将来のベンチマーク研究は、研究の一部として使われるプロンプトの特定のカテゴリを報告できるようになる。
論文 参考訳(メタデータ) (2023-05-19T04:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。