論文の概要: RRescue: Ranking LLM Responses to Enhance Reasoning Over Context
- arxiv url: http://arxiv.org/abs/2311.09136v1
- Date: Wed, 15 Nov 2023 17:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:51:48.389593
- Title: RRescue: Ranking LLM Responses to Enhance Reasoning Over Context
- Title(参考訳): RRescue: LLMレスポンスのランク付けによってコンテキストに対する推論が強化
- Authors: Yikun Wang and Rui Zheng and Haoming Li and Qi Zhang and Tao Gui and
Fei Liu
- Abstract要約: 本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
従来の完全順序付けではなく、部分順序付けを提唱する。
最新のベンチマークを用いて文脈理解を改良したシステムをテストする。
- 参考スコア(独自算出の注目度): 30.620633200577114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively using a given context is paramount for large language models. A
context window can include task specifications, retrieved documents, previous
conversations, and even model self-reflections, functioning similarly to
episodic memory. While efforts are being made to expand the context window,
studies indicate that LLMs do not use their context optimally for response
generation. In this paper, we present a novel approach to optimize LLMs using
ranking metrics, which teaches LLMs to rank a collection of
contextually-grounded candidate responses. Rather than a traditional full
ordering, we advocate for a partial ordering. This is because achieving
consensus on the perfect order for system responses can be challenging. Our
partial ordering is more robust, less sensitive to noise, and can be acquired
through human labelers, heuristic functions, or model distillation. We test our
system's improved contextual understanding using the latest benchmarks,
including a new multi-document question answering dataset. We conduct ablation
studies to understand crucial factors, such as how to gather candidate
responses, determine their most suitable order, and balance supervised
fine-tuning with ranking metrics. Our approach, named RRescue, suggests a
promising avenue for enhancing LLMs' contextual understanding via response
ranking.
- Abstract(参考訳): 与えられたコンテキストを効果的に使用することは、大きな言語モデルにとって最重要である。
コンテキストウィンドウには、タスク仕様、検索されたドキュメント、以前の会話、さらにはエピソードメモリと同様に機能する自己回帰のモデルを含めることができる。
コンテキストウィンドウを拡張する努力が続けられている一方で、LLMは応答生成に最適にコンテキストを使用していないことが研究で示されている。
そこで本稿では,LLMの文脈的評価基準を用いてLLMを最適化する手法を提案する。
従来の完全な順序ではなく、部分的な順序を提唱します。
これは、システムレスポンスの完全な順序についてのコンセンサスを達成することが難しいためです。
部分的な順序付けはより堅牢で、ノイズに対する感度が低く、人間のラベルやヒューリスティック関数、モデル蒸留によって得られる。
我々は,新しいマルチドキュメント質問応答データセットを含む最新のベンチマークを用いて,システムの改善された文脈理解をテストする。
我々は, 候補応答の収集方法, 最適な順序の決定方法, 教師付き微調整とランキング指標のバランスなど, 重要な要素を理解するためにアブレーション研究を行う。
我々のアプローチはRRescueと呼ばれ、応答ランキングによるLLMの文脈理解を高めるための有望な道のりを示唆している。
関連論文リスト
- SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。
しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。
新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T02:34:18Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。