論文の概要: Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems
- arxiv url: http://arxiv.org/abs/2309.06384v1
- Date: Fri, 8 Sep 2023 09:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:01:05.477184
- Title: Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems
- Title(参考訳): 信頼性とフルレントな大言語モデルに向けて:QAシステムにおけるフィードバック学習ループの導入
- Authors: Dongyub Lee, Taesun Whang, Chanhee Lee, Heuiseok Lim
- Abstract要約: 我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
- 参考スコア(独自算出の注目度): 10.58737969057445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have emerged as versatile tools in various daily
applications. However, they are fraught with issues that undermine their
utility and trustworthiness. These include the incorporation of erroneous
references (citation), the generation of hallucinated information
(correctness), and the inclusion of superfluous or omission of crucial details
(fluency). To ameliorate these concerns, this study makes several key
contributions. First, we build a dataset to train a critic model capable of
evaluating the citation, correctness, and fluency of responses generated by
LLMs in QA systems. Second, we propose an automated feedback mechanism that
leverages the critic model to offer real-time feedback on heterogeneous aspects
of generated text. Third, we introduce a feedback learning loop that uses this
critic model to iteratively improve the performance of the LLM responsible for
response generation. Experimental results demonstrate the efficacy of our
approach, showing substantial improvements in citation and fluency metrics for
ChatGPT, including a 4% precision increase in citation and an approximately 8%
enhancement in the MAUVE metric for fluency, while maintaining high levels of
correctness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な日常アプリケーションで汎用ツールとして登場した。
しかし、その実用性と信頼性を損なう問題に苦しめられている。
これには、誤った参照(引用)の取り込み、幻覚情報の生成(正確性)、重要な詳細(頻度)の過剰または欠落を含むことが含まれる。
これらの懸念を改善するために,本研究ではいくつかの重要な貢献を行う。
まず、QAシステムにおいてLLMが生成する応答の引用、正当性、および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築する。
第2に,批判モデルを利用して生成したテキストの異質な側面に対するリアルタイムフィードバックを提供する自動フィードバック機構を提案する。
第3に,この批判モデルを用いたフィードバック学習ループを導入し,応答生成に責任のあるLLMの性能を反復的に改善する。
提案手法の有効性を実証し,高い正確度を維持しつつ,4%の精度向上と約8%のmauve指標のフルーエンシー向上を含む,chatgptの引用度とフルエンシー指標の大幅な改善を示した。
関連論文リスト
- Understanding the Effects of Iterative Prompting on Truthfulness [36.022674676543126]
本稿では,反復的プロンプトが大規模言語モデル(LLM)の真偽に及ぼす影響について検討する。
特定された問題に対処するために設計されたいくつかのプロンプト変種を導入する。
我々の研究は、反復的プロンプトの微妙な理解を提供し、LLMの真理性を高めるための新しいアプローチを導入している。
論文 参考訳(メタデータ) (2024-02-09T18:57:08Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Minimizing Factual Inconsistency and Hallucination in Large Language
Models [0.16417409087671928]
大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
論文 参考訳(メタデータ) (2023-11-23T09:58:39Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。