論文の概要: Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement
- arxiv url: http://arxiv.org/abs/2402.12146v1
- Date: Mon, 19 Feb 2024 13:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:25:04.451221
- Title: Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement
- Title(参考訳): メタランク付け: 単一応答判断が可能な言語モデルが少ない
- Authors: Zijun Liu, Boqun Kou, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
- Abstract要約: 我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
- 参考スコア(独自算出の注目度): 40.57471062885033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) have demonstrated strong performance on
a wide range of tasks, they still face reliability challenges such as
hallucination. Previous studies reveal that highly capable LLMs like GPT-4 are
effective in judging the reliability of individual responses, while less
capable ones are often tuned to evaluate the relative reliability of responses
to the same query. To enable less capable LLMs to effectively judge the
reliability of individual responses, we propose a novel method named
$\textit{Meta}$ $\textit{Ranking}$ (MR). Unlike previous methods, which assess
the response directly, we achieve the judgement by comparing the target
query-response pair with reference query-response pairs. We found its
remarkable effectiveness in error detection for LLM responses on reasoning
tasks, where less capable LLMs could outperform strong baselines, even without
fine-tuning. We further demonstrate that MR can be used to enhance the
performance of LLMs in two practical applications: query routing and iterative
training data filtering. The former achieves GPT-4-turbo comparable performance
with less than half the token consumption, while the latter makes the
instruction-tuned LLaMA-7B and Phi-2, a 2.7B model, significantly surpass
Alpaca-13B over fewer training samples, underscoring the high potential of our
proposed method.
- Abstract(参考訳): 大規模言語モデル(llm)は幅広いタスクで強力なパフォーマンスを示しているが、幻覚のような信頼性の課題に直面している。
これまでの研究では、gpt-4のような高い能力を持つllmは個々の応答の信頼性を判断するのに効果的であるが、同じクエリに対する応答の相対的信頼性を評価するために、能力の低いものはしばしば調整される。
個々の応答の信頼性を効果的に判断する能力の低いLCMを実現するために, $\textit{Meta}$ $\textit{Ranking}$ (MR) という新しい手法を提案する。
応答を直接評価する従来の手法とは異なり,対象のクエリ応答対と参照クエリ応答対を比較して判断を行う。
精度の低いLLMが微調整なしでも強いベースラインを上回りうる推論タスクにおけるLLM応答の誤り検出において,その顕著な有効性を見出した。
さらに,クエリルーティングと反復的トレーニングデータフィルタリングという2つの実用アプリケーションにおいて,MRがLLMの性能向上に有効であることを示す。
前者はトークン消費量の半分未満でgpt-4-turboに匹敵する性能を達成し、後者は2.7bモデルのllama-7bとphi-2は、より少ないトレーニングサンプルよりもalpaca-13bを大きく上回り、提案手法の高ポテンシャルを裏付けている。
関連論文リスト
- Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。