論文の概要: Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation
- arxiv url: http://arxiv.org/abs/2311.09136v3
- Date: Tue, 23 Jul 2024 04:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:23:10.467304
- Title: Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation
- Title(参考訳): 救助:LLM応答のランク付けと部分順序付けによる応答生成の改善
- Authors: Yikun Wang, Rui Zheng, Haoming Li, Qi Zhang, Tao Gui, Fei Liu,
- Abstract要約: ランキングメトリクスを用いたLCMの最適化手法を開発した。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
- 参考スコア(独自算出の注目度): 28.89786334298637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing LLMs for a specific task involves separating high-quality responses from lower-quality ones. This skill can be developed using supervised fine-tuning with extensive human preference data. However, obtaining a large volume of expert-annotated data is costly for most tasks. In this paper, we explore a novel method to optimize LLMs using ranking metrics. This method trains the model to prioritize the best responses from a pool of candidates created for a particular task. Rather than a traditional full ordering, we advocate for a partial ordering, as achieving consensus on the perfect order of candidate responses can be challenging. Our partial ordering is more robust, less sensitive to noise, and can be achieved with limited human annotations or through heuristic methods. We test our system's improved response generation ability using benchmark datasets, including textual entailment and multi-document question answering. We conduct ablation studies to understand crucial factors, such as how to gather candidate responses for a specific task, determine their most suitable order, and balance supervised fine-tuning with ranking metrics. Our approach, named Rescue, offers a promising avenue for enhancing the response generation and task accuracy of LLMs.
- Abstract(参考訳): 特定のタスクのためにLLMをカスタマイズするには、高品質のレスポンスと低品質のレスポンスを分離する必要がある。
この技術は、広範囲の人選好データを用いた教師付き微調整を用いて開発することができる。
しかし、専門家による大量のデータを取得することは、ほとんどのタスクにとってコストがかかる。
本稿では,ランキング指標を用いたLCMの最適化手法について検討する。
この方法は、特定のタスクのために作成された候補のプールから最良のレスポンスを優先順位付けするようにモデルを訓練する。
従来の完全な順序付けではなく、我々は部分的な順序付けを提唱する。
私たちの部分的な順序付けは、より堅牢で、ノイズに敏感で、制限された人間のアノテーションやヒューリスティックな方法で達成できます。
本システムでは,テキスト・エンタテインメントや複数文書質問応答を含むベンチマーク・データセットを用いて,応答生成能力の向上を検証した。
我々は、特定のタスクに対する候補応答の収集方法、最も適した順序の決定方法、ランキングメトリクスとの微調整のバランスなど、重要な要素を理解するためにアブレーション研究を行う。
我々のアプローチであるRescueは、LCMの応答生成とタスク精度を向上させるための有望な道を提供する。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
LLMのためのレスポンス埋め込みベースのアライメントは、高品質なトレーニングデータセットを構築するための戦略である。
異なる応答対を選択することで、LLMの直接アライメントが向上し、継承されたラベリングエラーを低減できることを示す。
その結果,異なるペアにフォーカスすることでラベルエラーを低減し,LCMアライメントの効率を向上し,アノテータの作業の最大65%を節約できることがわかった。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。