論文の概要: RRescue: Ranking LLM Responses to Enhance Reasoning Over Context
- arxiv url: http://arxiv.org/abs/2311.09136v1
- Date: Wed, 15 Nov 2023 17:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:51:48.389593
- Title: RRescue: Ranking LLM Responses to Enhance Reasoning Over Context
- Title(参考訳): RRescue: LLMレスポンスのランク付けによってコンテキストに対する推論が強化
- Authors: Yikun Wang and Rui Zheng and Haoming Li and Qi Zhang and Tao Gui and
Fei Liu
- Abstract要約: 本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
従来の完全順序付けではなく、部分順序付けを提唱する。
最新のベンチマークを用いて文脈理解を改良したシステムをテストする。
- 参考スコア(独自算出の注目度): 30.620633200577114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively using a given context is paramount for large language models. A
context window can include task specifications, retrieved documents, previous
conversations, and even model self-reflections, functioning similarly to
episodic memory. While efforts are being made to expand the context window,
studies indicate that LLMs do not use their context optimally for response
generation. In this paper, we present a novel approach to optimize LLMs using
ranking metrics, which teaches LLMs to rank a collection of
contextually-grounded candidate responses. Rather than a traditional full
ordering, we advocate for a partial ordering. This is because achieving
consensus on the perfect order for system responses can be challenging. Our
partial ordering is more robust, less sensitive to noise, and can be acquired
through human labelers, heuristic functions, or model distillation. We test our
system's improved contextual understanding using the latest benchmarks,
including a new multi-document question answering dataset. We conduct ablation
studies to understand crucial factors, such as how to gather candidate
responses, determine their most suitable order, and balance supervised
fine-tuning with ranking metrics. Our approach, named RRescue, suggests a
promising avenue for enhancing LLMs' contextual understanding via response
ranking.
- Abstract(参考訳): 与えられたコンテキストを効果的に使用することは、大きな言語モデルにとって最重要である。
コンテキストウィンドウには、タスク仕様、検索されたドキュメント、以前の会話、さらにはエピソードメモリと同様に機能する自己回帰のモデルを含めることができる。
コンテキストウィンドウを拡張する努力が続けられている一方で、LLMは応答生成に最適にコンテキストを使用していないことが研究で示されている。
そこで本稿では,LLMの文脈的評価基準を用いてLLMを最適化する手法を提案する。
従来の完全な順序ではなく、部分的な順序を提唱します。
これは、システムレスポンスの完全な順序についてのコンセンサスを達成することが難しいためです。
部分的な順序付けはより堅牢で、ノイズに対する感度が低く、人間のラベルやヒューリスティック関数、モデル蒸留によって得られる。
我々は,新しいマルチドキュメント質問応答データセットを含む最新のベンチマークを用いて,システムの改善された文脈理解をテストする。
我々は, 候補応答の収集方法, 最適な順序の決定方法, 教師付き微調整とランキング指標のバランスなど, 重要な要素を理解するためにアブレーション研究を行う。
我々のアプローチはRRescueと呼ばれ、応答ランキングによるLLMの文脈理解を高めるための有望な道のりを示唆している。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
LLMのためのレスポンス埋め込みベースのアライメントは、高品質なトレーニングデータセットを構築するための戦略である。
異なる応答対を選択することで、LLMの直接アライメントが向上し、継承されたラベリングエラーを低減できることを示す。
その結果,異なるペアにフォーカスすることでラベルエラーを低減し,LCMアライメントの効率を向上し,アノテータの作業の最大65%を節約できることがわかった。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。