Fugu-MT 論文翻訳(概要): Meta Ranking: Less Capable Language Models are Capable for Single Response Judgement

論文の概要: Meta Ranking: Less Capable Language Models are Capable for Single Response Judgement

arxiv url: http://arxiv.org/abs/2402.12146v1
Date: Mon, 19 Feb 2024 13:57:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:25:04.451221
Title: Meta Ranking: Less Capable Language Models are Capable for Single Response Judgement
Title（参考訳）: メタランク付け: 単一応答判断が可能な言語モデルが少ない
Authors: Zijun Liu, Boqun Kou, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
Abstract要約: 我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。 MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
参考スコア（独自算出の注目度）: 40.57471062885033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Large Language Models (LLMs) have demonstrated strong performance on a wide range of tasks, they still face reliability challenges such as hallucination. Previous studies reveal that highly capable LLMs like GPT-4 are effective in judging the reliability of individual responses, while less capable ones are often tuned to evaluate the relative reliability of responses to the same query. To enable less capable LLMs to effectively judge the reliability of individual responses, we propose a novel method named $\textit{Meta}$ $\textit{Ranking}$ (MR). Unlike previous methods, which assess the response directly, we achieve the judgement by comparing the target query-response pair with reference query-response pairs. We found its remarkable effectiveness in error detection for LLM responses on reasoning tasks, where less capable LLMs could outperform strong baselines, even without fine-tuning. We further demonstrate that MR can be used to enhance the performance of LLMs in two practical applications: query routing and iterative training data filtering. The former achieves GPT-4-turbo comparable performance with less than half the token consumption, while the latter makes the instruction-tuned LLaMA-7B and Phi-2, a 2.7B model, significantly surpass Alpaca-13B over fewer training samples, underscoring the high potential of our proposed method.
Abstract（参考訳）: 大規模言語モデル(llm)は幅広いタスクで強力なパフォーマンスを示しているが、幻覚のような信頼性の課題に直面している。これまでの研究では、gpt-4のような高い能力を持つllmは個々の応答の信頼性を判断するのに効果的であるが、同じクエリに対する応答の相対的信頼性を評価するために、能力の低いものはしばしば調整される。個々の応答の信頼性を効果的に判断する能力の低いLCMを実現するために, $\textit{Meta}$ $\textit{Ranking}$ (MR) という新しい手法を提案する。応答を直接評価する従来の手法とは異なり,対象のクエリ応答対と参照クエリ応答対を比較して判断を行う。精度の低いLLMが微調整なしでも強いベースラインを上回りうる推論タスクにおけるLLM応答の誤り検出において,その顕著な有効性を見出した。さらに,クエリルーティングと反復的トレーニングデータフィルタリングという2つの実用アプリケーションにおいて,MRがLLMの性能向上に有効であることを示す。前者はトークン消費量の半分未満でgpt-4-turboに匹敵する性能を達成し、後者は2.7bモデルのllama-7bとphi-2は、より少ないトレーニングサンプルよりもalpaca-13bを大きく上回り、提案手法の高ポテンシャルを裏付けている。

関連論文リスト

What Factors Affect LLMs and RLLMs in Financial Question Answering? [4.42417272193095]
本研究では、金融分野における大規模言語モデル(LLM)と大規模言語モデル(RLLM)に対する様々な手法の影響について検討する。我々は,5つのLLMと3つのRLLMを用いて,財務質問応答タスクに対するプロンプト手法,エージェントフレームワーク,多言語アライメント手法の効果を評価する。
論文参考訳（メタデータ） (2025-07-11T06:37:44Z)
Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文参考訳（メタデータ） (2025-04-23T20:32:12Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
LLM-Oriented Retrieval Tuner [25.563739811422874]
Dense Retrieval(DR)は現在、LLM(Large Language Models)の記憶能力を高めるための有望なツールと考えられている。本稿では,LLM から DR 容量を分離する効率的な LLM-Oriented Retrieval Tuner,すなわち LMORT を提案する。提案手法は,強力なDRモデルと比較して,競争力のあるゼロショット検索性能を実現することができる。
論文参考訳（メタデータ） (2024-03-04T12:50:25Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文参考訳（メタデータ） (2023-10-04T18:21:17Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文参考訳（メタデータ） (2023-05-18T17:48:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。