論文の概要: TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks
- arxiv url: http://arxiv.org/abs/2305.11430v2
- Date: Tue, 24 Oct 2023 22:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 21:04:05.909165
- Title: TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks
- Title(参考訳): TELeR:複雑なタスクのベンチマークのためのLLMプロンプトの一般的な分類法
- Authors: Shubhra Kanti Karmaker Santu and Dongji Feng
- Abstract要約: 本稿では,多様な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計するための一般的な分類法を提案する。
この分類学により、将来のベンチマーク研究は、研究の一部として使われるプロンプトの特定のカテゴリを報告できるようになる。
- 参考スコア(独自算出の注目度): 2.822851601000061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs have shown great success in understanding and generating text in
traditional conversational settings, their potential for performing ill-defined
complex tasks is largely under-studied. Indeed, we are yet to conduct
comprehensive benchmarking studies with multiple LLMs that are exclusively
focused on a complex task. However, conducting such benchmarking studies is
challenging because of the large variations in LLMs' performance when different
prompt types/styles are used and different degrees of detail are provided in
the prompts. To address this issue, the paper proposes a general taxonomy that
can be used to design prompts with specific properties in order to perform a
wide range of complex tasks. This taxonomy will allow future benchmarking
studies to report the specific categories of prompts used as part of the study,
enabling meaningful comparisons across different studies. Also, by establishing
a common standard through this taxonomy, researchers will be able to draw more
accurate conclusions about LLMs' performance on a specific complex task.
- Abstract(参考訳): LLMは従来の会話環境におけるテキストの理解と生成に大きな成功を収めてきたが、不明確な複雑なタスクを実行する可能性はほとんど研究されていない。
実際、我々は複雑なタスクにのみ焦点を絞った複数のLSMを用いて包括的なベンチマーク研究を行っていません。
しかし,このようなベンチマーク研究を行うことは,プロンプトタイプやスタイルが異なる場合や,プロンプトで詳細度が異なる場合,llmsの性能のばらつきが大きいため,困難である。
この問題に対処するため,本論文では,様々な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計できる汎用分類法を提案する。
この分類は、将来のベンチマーク研究が研究の一部として使用される特定のカテゴリのプロンプトを報告し、異なる研究間で有意義な比較を可能にする。
また、この分類学を通じて共通標準を確立することで、研究者は特定の複雑なタスクにおいてLLMのパフォーマンスについてより正確な結論を導き出すことができる。
関連論文リスト
- Large Language Models are Pattern Matchers: Editing Semi-Structured and Structured Documents with ChatGPT [0.0]
本稿では,Large Language Models (LLM) を最小限の労力で構造化文書や半構造化文書の編集に適用できるかどうかを検討する。
ChatGPTは、注釈付きドキュメントの構造を認識し、処理する強力な能力を示している。
論文 参考訳(メタデータ) (2024-09-12T03:41:39Z) - Assessing SPARQL capabilities of Large Language Models [0.0]
我々は、SPARQLで動作するLarge Language Modelsのアウトオブザボックス機能の測定に重点を置いています。
LLM-KG-Benchフレームワークにベンチマークタスクを実装し,自動実行と評価を行う。
この結果から,SPARQL SELECTクエリの処理はLLMでは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-09-09T08:29:39Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models [1.9799349044359313]
大規模言語モデル(LLM)をより正確に評価するための5つの独特なプロンプト戦略からなる階層型プロンプトフレームワーク(HPF)を用いた分類法を提案する。
また、各タスクに適切なプロンプト戦略の選択を自動化するAdaptive Hierarchical Promptフレームワークについても紹介する。
本研究では,Llama 3 8B,Phi 3 3.8B,Mistral 7B,Gemma 7Bの4つの命令調整LDMを用いて,手動および適応的階層的プロンプトフレームワークを比較した。
論文 参考訳(メタデータ) (2024-06-18T14:12:27Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。