Fugu-MT 論文翻訳(概要): Self-Refinement of Language Models from External Proxy Metrics Feedback

論文の概要: Self-Refinement of Language Models from External Proxy Metrics Feedback

arxiv url: http://arxiv.org/abs/2403.00827v1
Date: Tue, 27 Feb 2024 19:13:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 23:07:17.224382
Title: Self-Refinement of Language Models from External Proxy Metrics Feedback
Title（参考訳）: 外部プロキシメトリクスフィードバックによる言語モデルの自己定義
Authors: Keshav Ramji, Young-Suk Lee, Ram\'on Fernandez Astudillo, Md Arafat Sultan, Tahira Naseem, Asim Munawar, Radu Florian, Salim Roukos
Abstract要約: ProMiSe(Proxy Metric-based Self-Refinement) ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
参考スコア（独自算出の注目度）: 27.57840561708484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is often desirable for Large Language Models (LLMs) to capture multiple objectives when providing a response. In document-grounded response generation, for example, agent responses are expected to be relevant to a user's query while also being grounded in a given document. In this paper, we introduce Proxy Metric-based Self-Refinement (ProMiSe), which enables an LLM to refine its own initial response along key dimensions of quality guided by external metrics feedback, yielding an overall better final response. ProMiSe leverages feedback on response quality through principle-specific proxy metrics, and iteratively refines its response one principle at a time. We apply ProMiSe to open source language models Flan-T5-XXL and Llama-2-13B-Chat, to evaluate its performance on document-grounded question answering datasets, MultiDoc2Dial and QuAC, demonstrating that self-refinement improves response quality. We further show that fine-tuning Llama-2-13B-Chat on the synthetic dialogue data generated by ProMiSe yields significant performance improvements over the zero-shot baseline as well as a supervised fine-tuned model on human annotated data.
Abstract（参考訳）: 大きな言語モデル(llm)では、応答を提供する際に複数の目的をキャプチャすることが望ましいことが多い。例えば、文書接地応答生成では、エージェント応答は、与えられた文書に接地されている間、ユーザのクエリに関連することが期待される。本稿では,Proxy Metric-based Self-Refinement (ProMiSe)を導入し,外部メトリクスフィードバックによって導かれる品質の重要次元に沿ってLLMが独自の初期応答を洗練し,全体的な最終応答を向上する。 promiseは原則固有のプロキシメトリクスを通じて、応答品質に対するフィードバックを活用し、その応答を1つの原則として反復的に洗練します。本稿では,オープンソースの言語モデルであるFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用し,その性能を評価する。さらに,promiseが生成する合成対話データに対するllama-2-13b-chatの微調整により,ゼロショットベースラインよりも大幅に性能が向上することを示す。

関連論文リスト

On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文参考訳（メタデータ） (2024-10-15T03:04:26Z)
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation [8.975024781390077]
MIRAGE --Model Internals-based RAG Explanations -- このモデル内部を用いたプラグアンドプレイアプローチは、質問応答アプリケーションにおける忠実な回答属性である。提案手法を多言語QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
論文参考訳（メタデータ） (2024-06-19T16:10:26Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文参考訳（メタデータ） (2024-01-26T18:12:25Z)
Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文参考訳（メタデータ） (2023-11-16T03:22:25Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Towards Reliable and Fluent Large Language Models: Incorporating Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文参考訳（メタデータ） (2023-09-08T09:39:53Z)
Read before Generate! Faithful Long Form Question Answering with Machine Reading [77.17898499652306]
LFQA(Long-form Question answering)は、ある質問に対する段落長の回答を生成することを目的としている。生成と機械読取を協調的にモデル化する新しいエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-01T10:41:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。