論文の概要: Rescue: Ranking LLM Responses with Partial Ordering to Improve Response
Generation
- arxiv url: http://arxiv.org/abs/2311.09136v2
- Date: Sat, 17 Feb 2024 01:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:43:27.910761
- Title: Rescue: Ranking LLM Responses with Partial Ordering to Improve Response
Generation
- Title(参考訳): rescue: 応答生成を改善する部分順序付きllm応答のランク付け
- Authors: Yikun Wang and Rui Zheng and Haoming Li and Qi Zhang and Tao Gui and
Fei Liu
- Abstract要約: 本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
- 参考スコア(独自算出の注目度): 30.620633200577114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing LLMs for a specific task involves distinguishing effective
responses from erroneous ones. This skill can be developed using supervised
fine-tuning with extensive human preference data. However, obtaining
expert-annotated preference data is expensive for most tasks. In this paper, we
present a novel method to optimize LLMs using ranking metrics. This method
trains the model to prioritize the best responses from a pool of candidates
created for a particular task. Rather than a traditional full ordering, we
advocate for a partial ordering, as achieving consensus on the perfect order of
candidate responses can be challenging. Our partial ordering is more robust,
less sensitive to noise, and can be achieved with limited human annotations or
through heuristic methods. We test our system's improved response generation
ability using benchmark datasets, including the latest multi-document question
answering task. We conduct ablation studies to understand crucial factors, such
as how to gather candidate responses for specific tasks, determine their most
suitable order, and balance supervised fine-tuning with ranking metrics. Our
approach, named \textsc{Rescue}, suggests a promising avenue for enhancing
LLMs' contextual understanding via response ranking.
- Abstract(参考訳): 特定のタスクに対するllmのカスタマイズには、効果的な応答と誤った応答を区別することが含まれる。
この技術は、人選好データを用いた教師付き微調整を用いて開発することができる。
しかし、専門家による好みデータを取得することは、ほとんどのタスクにとって高価である。
本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
この方法は、特定のタスクのために作成された候補のプールから最高の応答を優先するようにモデルを訓練する。
従来の完全な順序ではなく、候補応答の完全な順序に関するコンセンサスを達成することは困難であるとして、部分的な順序付けを提唱する。
部分順序付けはより堅牢で、ノイズに対する感度が低く、制限された人間のアノテーションやヒューリスティックな手法で実現できます。
我々は,最新のマルチドキュメント質問応答タスクを含むベンチマークデータセットを用いて,システムの改善された応答生成能力をテストする。
我々は,特定の課題に対する候補応答の収集方法,最も適切な順序の決定方法,教師付き微調整とランキング指標のバランスなど,重要な要素を理解するためにアブレーション研究を行う。
提案手法は, LLMの文脈的理解を, 応答ランキングによって向上させるための, 有望な道筋を示唆するものである。
関連論文リスト
- PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human
Feedback and Preference Alignment [21.256456167260176]
マルチステップタスクのための離散的なプロンプト最適化フレームワークを新たに導入する。
我々のフレームワークは、潜在的なエラーに関する人間設計のフィードバックルールを組み込んで、改善のための直接提案を自動で提供する。
このアプローチは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方を著しく上回っている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。