論文の概要: Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12644v3
- Date: Sun, 01 Dec 2024 17:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:43.374490
- Title: Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
- Title(参考訳): 階層型プロンプト分類:大規模言語モデルのための普遍的評価フレームワーク
- Authors: Devichand Budagam, Ashutosh Kumar, Mahsa Khoshnoodi, Sankalp KJ, Vinija Jain, Aman Chadha,
- Abstract要約: 本稿では,人間の認知原理に基づく階層型確率分類(HPT)について述べる。
様々なタスクの認知的要求を調べることにより、大規模言語モデル(LLM)を評価するように設計されている。
HPTは、多様なシナリオでLLMの問題解決スキルを評価するための信頼性の高い方法を提供している。
- 参考スコア(独自算出の注目度): 1.8853906324722882
- License:
- Abstract: Assessing the effectiveness of large language models (LLMs) in performing different tasks is crucial for understanding their strengths and weaknesses. This paper presents the Hierarchical Prompting Taxonomy (HPT), grounded on human cognitive principles and designed to assess LLMs by examining the cognitive demands of various tasks. The HPT uses the Hierarchical Prompting Framework (HPF), a prompt selection framework that organizes five distinct prompting strategies by their cognitive load on LLMs. This study introduces the Hierarchical Prompting Index (HPI) to measure task complexity, which demonstrates LLMs' abilities across different datasets and serves as a universal metric for task complexity. The HPT offers a reliable method for evaluating LLMs' problem-solving skills in diverse scenarios, leading to clearer conclusions. Extensive experiments with multiple datasets and LLMs show that the HPF enhances LLM performance by 2\% to 63\% compared to standard benchmark datasets, confirming the effectiveness of the HPT. To support future research in this domain, the implementations of HPT and HPF are publicly available
- Abstract(参考訳): 大きな言語モデル(LLM)の異なるタスクの実行の有効性を評価することは、その強みと弱点を理解する上で重要である。
本稿では,人間の認知原理に基づく階層型確率分類法(HPT)について述べる。
HPTはHPF(Hierarchical Prompting Framework)というプロンプト選択フレームワークを使用している。
本研究では,HPI(Hierarchical Prompting Index)を導入してタスク複雑性を計測し,複数のデータセットにまたがるLCMの能力を示し,タスク複雑性の普遍的指標として機能する。
HPTは、多様なシナリオにおいてLLMの問題解決スキルを評価するための信頼性の高い方法を提供し、より明確な結論をもたらす。
複数のデータセットとLLMを用いた大規模な実験により、HPFは標準ベンチマークデータセットと比較してLLM性能を2\%から63%向上し、HPTの有効性を確認した。
この領域における今後の研究を支援するため、HPTとHPFの実装が公開されている。
関連論文リスト
- A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3222802562733786]
大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。
LLMは、そのコア機能を超えて、創発的な能力を示す。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文 参考訳(メタデータ) (2025-01-03T21:04:49Z) - Probing Ranking LLMs: Mechanistic Interpretability in Information Retrieval [22.875174888476295]
我々は最先端の微調整型変圧器ネットワークの動作について検討する。
我々のアプローチは、LLM内のニューロンの探索に基づく層間層解析である。
ネットワークのアクティベーションの中で、既知の人間工学的・意味的な特徴の個人またはグループを特定する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。