論文の概要: Enabling Weak LLMs to Judge Response Reliability via Meta Ranking
- arxiv url: http://arxiv.org/abs/2402.12146v3
- Date: Fri, 31 May 2024 03:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:52:35.289093
- Title: Enabling Weak LLMs to Judge Response Reliability via Meta Ranking
- Title(参考訳): メタランク付けによる応答信頼性判定のための弱LLMの導入
- Authors: Zijun Liu, Boqun Kou, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu,
- Abstract要約: 我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 38.63721941742435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the strong performance of large language models (LLMs) across a wide range of tasks, they still have reliability issues. Previous studies indicate that strong LLMs like GPT-4-turbo excel in evaluating the reliability of responses from LLMs, but face efficiency and local deployment issues. Thus, to enable weak LLMs to effectively assess the reliability of LLM responses, we propose a novel cross-query-comparison-based method called $\textit{Meta Ranking}$ (MR). Unlike previous few-shot methods that solely based on in-context learning capabilities in LLMs, MR assesses reliability by pairwisely ranking the target query-response pair with multiple reference query-response pairs. We found that MR is highly effective in error detection for LLM responses, where weak LLMs, such as Phi-2, could surpass strong baselines like GPT-3.5-turbo, requiring only five reference samples and significantly improving efficiency. We further demonstrate that MR can enhance strong LLMs' performance in two practical applications: model cascading and instruction tuning. In model cascading, we combine open- and closed-source LLMs to achieve performance comparable to GPT-4-turbo with lower costs. In instruction tuning, we use MR for iterative training data filtering, significantly reducing data processing time and enabling LLaMA-7B and Phi-2 to surpass Alpaca-13B with fewer training tokens. These results underscore the high potential of MR in both efficiency and effectiveness.
- Abstract(参考訳): 幅広いタスクにわたる大規模言語モデル(LLM)の強いパフォーマンスにもかかわらず、信頼性の問題はまだ残っている。
従来の研究では, GPT-4-turbo のような強力な LLM は LLM からの応答の信頼性を評価するのに優れているが, 効率性や局所的な展開の問題に直面している。
そこで我々は, LLM応答の信頼性を効果的に評価するために, $\textit{Meta Ranking}$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
LLMのインコンテキスト学習機能のみをベースとした従来の数ショット方式とは異なり、MRは複数の参照クエリレスポンスペアでターゲットクエリレスポンスペアをペアにランク付けすることで信頼性を評価する。
MRは,Phi-2などの弱いLDMがGPT-3.5-turboのような強いベースラインを超え,参照サンプルが5つしか必要とせず,効率が著しく向上するLLM応答の誤差検出に極めて有効であることがわかった。
さらに、MRはモデルカスケーディングと命令チューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを実証する。
モデルカスケードでは,GPT-4-turboに匹敵する性能を低コストで達成するために,オープンソースとクローズドソースのLCMを組み合わせる。
インストラクションチューニングでは、反復的トレーニングデータフィルタリングにMRを使用し、データ処理時間を著しく短縮し、LLaMA-7BとPhi-2がより少ないトレーニングトークンでAlpaca-13Bを超えることができる。
これらの結果はMRの効率と有効性の両方において高い可能性を示している。
関連論文リスト
- LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - LLM-Oriented Retrieval Tuner [25.563739811422874]
Dense Retrieval(DR)は現在、LLM(Large Language Models)の記憶能力を高めるための有望なツールと考えられている。
本稿では,LLM から DR 容量を分離する効率的な LLM-Oriented Retrieval Tuner,すなわち LMORT を提案する。
提案手法は,強力なDRモデルと比較して,競争力のあるゼロショット検索性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-04T12:50:25Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文 参考訳(メタデータ) (2023-10-04T18:21:17Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。