論文の概要: Rescue: Ranking LLM Responses with Partial Ordering to Improve Response
Generation
- arxiv url: http://arxiv.org/abs/2311.09136v2
- Date: Sat, 17 Feb 2024 01:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:43:27.910761
- Title: Rescue: Ranking LLM Responses with Partial Ordering to Improve Response
Generation
- Title(参考訳): rescue: 応答生成を改善する部分順序付きllm応答のランク付け
- Authors: Yikun Wang and Rui Zheng and Haoming Li and Qi Zhang and Tao Gui and
Fei Liu
- Abstract要約: 本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
- 参考スコア(独自算出の注目度): 30.620633200577114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing LLMs for a specific task involves distinguishing effective
responses from erroneous ones. This skill can be developed using supervised
fine-tuning with extensive human preference data. However, obtaining
expert-annotated preference data is expensive for most tasks. In this paper, we
present a novel method to optimize LLMs using ranking metrics. This method
trains the model to prioritize the best responses from a pool of candidates
created for a particular task. Rather than a traditional full ordering, we
advocate for a partial ordering, as achieving consensus on the perfect order of
candidate responses can be challenging. Our partial ordering is more robust,
less sensitive to noise, and can be achieved with limited human annotations or
through heuristic methods. We test our system's improved response generation
ability using benchmark datasets, including the latest multi-document question
answering task. We conduct ablation studies to understand crucial factors, such
as how to gather candidate responses for specific tasks, determine their most
suitable order, and balance supervised fine-tuning with ranking metrics. Our
approach, named \textsc{Rescue}, suggests a promising avenue for enhancing
LLMs' contextual understanding via response ranking.
- Abstract(参考訳): 特定のタスクに対するllmのカスタマイズには、効果的な応答と誤った応答を区別することが含まれる。
この技術は、人選好データを用いた教師付き微調整を用いて開発することができる。
しかし、専門家による好みデータを取得することは、ほとんどのタスクにとって高価である。
本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
この方法は、特定のタスクのために作成された候補のプールから最高の応答を優先するようにモデルを訓練する。
従来の完全な順序ではなく、候補応答の完全な順序に関するコンセンサスを達成することは困難であるとして、部分的な順序付けを提唱する。
部分順序付けはより堅牢で、ノイズに対する感度が低く、制限された人間のアノテーションやヒューリスティックな手法で実現できます。
我々は,最新のマルチドキュメント質問応答タスクを含むベンチマークデータセットを用いて,システムの改善された応答生成能力をテストする。
我々は,特定の課題に対する候補応答の収集方法,最も適切な順序の決定方法,教師付き微調整とランキング指標のバランスなど,重要な要素を理解するためにアブレーション研究を行う。
提案手法は, LLMの文脈的理解を, 応答ランキングによって向上させるための, 有望な道筋を示唆するものである。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
LLMのためのレスポンス埋め込みベースのアライメントは、高品質なトレーニングデータセットを構築するための戦略である。
異なる応答対を選択することで、LLMの直接アライメントが向上し、継承されたラベリングエラーを低減できることを示す。
その結果,異なるペアにフォーカスすることでラベルエラーを低減し,LCMアライメントの効率を向上し,アノテータの作業の最大65%を節約できることがわかった。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。