論文の概要: Self-Refinement of Language Models from External Proxy Metrics Feedback
- arxiv url: http://arxiv.org/abs/2403.00827v1
- Date: Tue, 27 Feb 2024 19:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:07:17.224382
- Title: Self-Refinement of Language Models from External Proxy Metrics Feedback
- Title(参考訳): 外部プロキシメトリクスフィードバックによる言語モデルの自己定義
- Authors: Keshav Ramji, Young-Suk Lee, Ram\'on Fernandez Astudillo, Md Arafat
Sultan, Tahira Naseem, Asim Munawar, Radu Florian, Salim Roukos
- Abstract要約: ProMiSe(Proxy Metric-based Self-Refinement)
ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。
オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
- 参考スコア(独自算出の注目度): 27.57840561708484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is often desirable for Large Language Models (LLMs) to capture multiple
objectives when providing a response. In document-grounded response generation,
for example, agent responses are expected to be relevant to a user's query
while also being grounded in a given document. In this paper, we introduce
Proxy Metric-based Self-Refinement (ProMiSe), which enables an LLM to refine
its own initial response along key dimensions of quality guided by external
metrics feedback, yielding an overall better final response. ProMiSe leverages
feedback on response quality through principle-specific proxy metrics, and
iteratively refines its response one principle at a time. We apply ProMiSe to
open source language models Flan-T5-XXL and Llama-2-13B-Chat, to evaluate its
performance on document-grounded question answering datasets, MultiDoc2Dial and
QuAC, demonstrating that self-refinement improves response quality. We further
show that fine-tuning Llama-2-13B-Chat on the synthetic dialogue data generated
by ProMiSe yields significant performance improvements over the zero-shot
baseline as well as a supervised fine-tuned model on human annotated data.
- Abstract(参考訳): 大きな言語モデル(llm)では、応答を提供する際に複数の目的をキャプチャすることが望ましいことが多い。
例えば、文書接地応答生成では、エージェント応答は、与えられた文書に接地されている間、ユーザのクエリに関連することが期待される。
本稿では,Proxy Metric-based Self-Refinement (ProMiSe)を導入し,外部メトリクスフィードバックによって導かれる品質の重要次元に沿ってLLMが独自の初期応答を洗練し,全体的な最終応答を向上する。
promiseは原則固有のプロキシメトリクスを通じて、応答品質に対するフィードバックを活用し、その応答を1つの原則として反復的に洗練します。
本稿では,オープンソースの言語モデルであるFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用し,その性能を評価する。
さらに,promiseが生成する合成対話データに対するllama-2-13b-chatの微調整により,ゼロショットベースラインよりも大幅に性能が向上することを示す。
関連論文リスト
- RefuteBench: Evaluating Refuting Instruction-Following for Large
Language Models [19.985647101348775]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - Aligning Large Language Models by On-Policy Self-Judgment [52.25915009010184]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行い,パラメータ効率の高いアライメントフレームワーク,メソッドを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Read before Generate! Faithful Long Form Question Answering with Machine
Reading [77.17898499652306]
LFQA(Long-form Question answering)は、ある質問に対する段落長の回答を生成することを目的としている。
生成と機械読取を協調的にモデル化する新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-01T10:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。