論文の概要: Pinpoint, Not Criticize: Refining Large Language Models via Fine-Grained
Actionable Feedback
- arxiv url: http://arxiv.org/abs/2311.09336v1
- Date: Wed, 15 Nov 2023 19:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:56:25.967529
- Title: Pinpoint, Not Criticize: Refining Large Language Models via Fine-Grained
Actionable Feedback
- Title(参考訳): pinpointは批判しない - きめ細かなアクション可能なフィードバックによる大規模言語モデルの洗練
- Authors: Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang,
Zhongtao Liu, William Yang Wang, Lei Li, and Markus Freitag
- Abstract要約: 誤差タイプ, エラー位置, 重大度レベルという形で, きめ細かな動作可能なフィードバックを利用するための推定時間最適化手法FITOを提案する。
FITOは初期出力から始まり、その後、フィードバックに基づいて改善された出力を生成する改良モデルを介してフィードバックを反復的に組み込む。
中国語とドイツ語の翻訳における0.8と0.7のMetricXゲイン, 4.5と1.8のROUGE-Lゲインをそれぞれ長文QAとトピックの要約で観察し, 改良を1回行った。
- 参考スコア(独自算出の注目度): 65.84061725174269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent improvements in text generation have leveraged human feedback to
improve the quality of the generated output. However, human feedback is not
always available, especially during inference. In this work, we propose an
inference time optimization method FITO to use fine-grained actionable feedback
in the form of error type, error location and severity level that are predicted
by a learned error pinpoint model for iterative refinement. FITO starts with an
initial output, then iteratively incorporates the feedback via a refinement
model that generates an improved output conditioned on the feedback. Given the
uncertainty of consistent refined samples at iterative steps, we formulate
iterative refinement into a local search problem and develop a simulated
annealing based algorithm that balances exploration of the search space and
optimization for output quality. We conduct experiments on three text
generation tasks, including machine translation, long-form question answering
(QA) and topical summarization. We observe 0.8 and 0.7 MetricX gain on
Chinese-English and English-German translation, 4.5 and 1.8 ROUGE-L gain at
long form QA and topic summarization respectively, with a single iteration of
refinement. With our simulated annealing algorithm, we see further quality
improvements, including up to 1.7 MetricX improvements over the baseline
approach.
- Abstract(参考訳): テキスト生成の最近の改良は、人間のフィードバックを活用して、生成した出力の品質を改善している。
しかし、特に推論の間、人間のフィードバックは必ずしも利用可能ではない。
そこで本研究では, 逐次改善のための学習誤りピンポイントモデルにより予測される誤差タイプ, エラー位置, 重大度レベルで, きめ細かい動作可能なフィードバックを利用するための推定時間最適化手法FITOを提案する。
FITOは初期出力から始まり、フィードバックに基づいて改善された出力を生成する改良モデルを介して繰り返しフィードバックを組み込む。
逐次的ステップにおける不確かさを考慮し,局所探索問題への反復的改良を定式化し,探索空間の探索と出力品質の最適化を両立するシミュレーションアニーリングに基づくアルゴリズムを開発した。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
中国語とドイツ語の翻訳における0.8と0.7のMetricXゲイン, 4.5と1.8のROUGE-Lゲインをそれぞれ長文QAとトピックの要約で観察し, 改良を1回行った。
シミュレーションアニールアルゴリズムでは,ベースラインアプローチよりも最大1.7 MetricXの改善など,さらなる品質向上が期待できる。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem [14.537146664859902]
人間と同様に、大きな言語モデル(LLM)は、最初の試みについて最適な説明を常に生成するとは限らない。
本稿では,2つのLLMをジェネレータとして配置し,それぞれに役割モデリングを施したクロスリファインを紹介する。
ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
論文 参考訳(メタデータ) (2024-09-11T09:21:20Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。