論文の概要: UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation
- arxiv url: http://arxiv.org/abs/2303.08518v4
- Date: Sat, 16 Dec 2023 06:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 21:05:39.120225
- Title: UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation
- Title(参考訳): UPRISE: ゼロショット評価を改善するユニバーサルプロンプト検索
- Authors: Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu,
Yujing Wang, Hao Sun, Furu Wei, Denvy Deng, Qi Zhang
- Abstract要約: 本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取り出す軽量で多用途なレトリバーをチューニングするUPRISEを提案する。
具体的には、クロスタスクおよびクロスモデルシナリオにおける普遍性を示す。
UPRISEはChatGPT実験における幻覚の緩和効果を示す。
- 参考スコア(独自算出の注目度): 81.80385076856304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are popular for their impressive abilities, but
the need for model-specific fine-tuning or task-specific prompt engineering can
hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for
Improving zero-Shot Evaluation), which tunes a lightweight and versatile
retriever that automatically retrieves prompts for a given zero-shot task
input. Specifically, we demonstrate universality in a cross-task and
cross-model scenario: the retriever is tuned on a diverse set of tasks, but
tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for
tuning the retriever, but test the retriever on different LLMs of much larger
scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that
UPRISE mitigates the hallucination problem in our experiments with ChatGPT,
suggesting its potential to improve even the strongest LLMs. Our model and code
are available at https://github.com/microsoft/LMOps.
- Abstract(参考訳): 大きな言語モデル(LLM)はその優れた能力で人気があるが、モデル固有の微調整やタスク固有のプロンプトエンジニアリングの必要性は、その一般化を妨げる可能性がある。
本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取得する軽量で多目的なレトリバーをチューニングするUPRISE(Universal Prompt Retrieval for Improving zero-Shot Evaluation)を提案する。
具体的には、クロスタスクおよびクロスモデルシナリオにおいて普遍性を実証する: 検索者は多様なタスクセットに基づいてチューニングされるが、見知らぬタスクタイプでテストされる; 小さな凍結LDM, GPT-Neo-2.7Bを使用して、検索をチューニングするが、BLOOM-7.1B, OPT-66B, GPT3-175B など、はるかに大きなスケールで検索する。
さらに, UPRISEはChatGPT実験において幻覚障害を緩和し, 最強のLDMでも改善する可能性が示唆された。
私たちのモデルとコードはhttps://github.com/microsoft/LMOps.comで公開されています。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Ask Me Anything: A simple strategy for prompting language models [24.294416731247427]
大規模言語モデル(LLM)は、単に自然言語のプロンプトを与えられただけである。
そこで本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。
収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。
プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
論文 参考訳(メタデータ) (2022-10-05T17:59:45Z) - Promptagator: Few-shot Dense Retrieval From 8 Examples [34.78085795791609]
Few-shot Dense Retrievalは、各タスクが短い説明といくつかの例を持ってくる設定である。
Promptagatorは生成されたデータに基づいてタスク固有のレトリバーを生成する。
論文 参考訳(メタデータ) (2022-09-23T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。