論文の概要: Pinpoint, Not Criticize: Refining Large Language Models via Fine-Grained
Actionable Feedback
- arxiv url: http://arxiv.org/abs/2311.09336v1
- Date: Wed, 15 Nov 2023 19:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:56:25.967529
- Title: Pinpoint, Not Criticize: Refining Large Language Models via Fine-Grained
Actionable Feedback
- Title(参考訳): pinpointは批判しない - きめ細かなアクション可能なフィードバックによる大規模言語モデルの洗練
- Authors: Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang,
Zhongtao Liu, William Yang Wang, Lei Li, and Markus Freitag
- Abstract要約: 誤差タイプ, エラー位置, 重大度レベルという形で, きめ細かな動作可能なフィードバックを利用するための推定時間最適化手法FITOを提案する。
FITOは初期出力から始まり、その後、フィードバックに基づいて改善された出力を生成する改良モデルを介してフィードバックを反復的に組み込む。
中国語とドイツ語の翻訳における0.8と0.7のMetricXゲイン, 4.5と1.8のROUGE-Lゲインをそれぞれ長文QAとトピックの要約で観察し, 改良を1回行った。
- 参考スコア(独自算出の注目度): 65.84061725174269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent improvements in text generation have leveraged human feedback to
improve the quality of the generated output. However, human feedback is not
always available, especially during inference. In this work, we propose an
inference time optimization method FITO to use fine-grained actionable feedback
in the form of error type, error location and severity level that are predicted
by a learned error pinpoint model for iterative refinement. FITO starts with an
initial output, then iteratively incorporates the feedback via a refinement
model that generates an improved output conditioned on the feedback. Given the
uncertainty of consistent refined samples at iterative steps, we formulate
iterative refinement into a local search problem and develop a simulated
annealing based algorithm that balances exploration of the search space and
optimization for output quality. We conduct experiments on three text
generation tasks, including machine translation, long-form question answering
(QA) and topical summarization. We observe 0.8 and 0.7 MetricX gain on
Chinese-English and English-German translation, 4.5 and 1.8 ROUGE-L gain at
long form QA and topic summarization respectively, with a single iteration of
refinement. With our simulated annealing algorithm, we see further quality
improvements, including up to 1.7 MetricX improvements over the baseline
approach.
- Abstract(参考訳): テキスト生成の最近の改良は、人間のフィードバックを活用して、生成した出力の品質を改善している。
しかし、特に推論の間、人間のフィードバックは必ずしも利用可能ではない。
そこで本研究では, 逐次改善のための学習誤りピンポイントモデルにより予測される誤差タイプ, エラー位置, 重大度レベルで, きめ細かい動作可能なフィードバックを利用するための推定時間最適化手法FITOを提案する。
FITOは初期出力から始まり、フィードバックに基づいて改善された出力を生成する改良モデルを介して繰り返しフィードバックを組み込む。
逐次的ステップにおける不確かさを考慮し,局所探索問題への反復的改良を定式化し,探索空間の探索と出力品質の最適化を両立するシミュレーションアニーリングに基づくアルゴリズムを開発した。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
中国語とドイツ語の翻訳における0.8と0.7のMetricXゲイン, 4.5と1.8のROUGE-Lゲインをそれぞれ長文QAとトピックの要約で観察し, 改良を1回行った。
シミュレーションアニールアルゴリズムでは,ベースラインアプローチよりも最大1.7 MetricXの改善など,さらなる品質向上が期待できる。
関連論文リスト
- Improving Machine Translation with Human Feedback: An Exploration of
Quality Estimation as a Reward Model [79.45416224840135]
報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
実験結果から,提案したQEに基づくフィードバックトレーニングは,様々な設定において一貫した,重要な改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z) - Text Counterfactuals via Latent Optimization and Shapley-Guided Search [15.919650185010491]
本研究は,分類モデルにおける対実テキスト生成の問題について考察する。
我々は、モデルの予測を変えるために、テキストを最小限に変更することを目指している。
ホワイトボックスアプローチは、視覚における同様の問題にうまく適用されている。
論文 参考訳(メタデータ) (2021-10-22T05:04:40Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。