論文の概要: Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in QA Agents
- arxiv url: http://arxiv.org/abs/2502.19545v1
- Date: Wed, 26 Feb 2025 20:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:38.647674
- Title: Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in QA Agents
- Title(参考訳): 小モデルで大勝:QAエージェントの幻覚軽減のための知識蒸留と自己学習
- Authors: Ashley Lewis, Michael White, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang,
- Abstract要約: 本稿では,QAパイプラインを提案し,人間の入力と自動化のバランスをとる方法について検討する。
本研究では,Large Language Models (LLMs) が生成する合成データが,クラウドソーシングデータより優れていることを示す。
また、"I don't know"応答をコンテキスト化して、解決不可能な質問や検索失敗に対する堅牢性も向上する。
- 参考スコア(独自算出の注目度): 13.557456643017153
- License:
- Abstract: The deployment of Large Language Models (LLMs) in customer support is constrained by hallucination-generating false information-and the high cost of proprietary models. To address these challenges, we propose a retrieval-augmented question-answering (QA) pipeline and explore how to balance human input and automation. Using a dataset of questions about a Samsung Smart TV user manual, we demonstrate that synthetic data generated by LLMs outperforms crowdsourced data in reducing hallucination in finetuned models. We also compare self-training (fine-tuning models on their own outputs) and knowledge distillation (fine-tuning on stronger models' outputs, e.g., GPT-4o), and find that self-training achieves comparable hallucination reduction. We conjecture that this surprising finding can be attributed to increased exposure bias issues in the knowledge distillation case and support this conjecture with post hoc analysis. We also improve robustness to unanswerable questions and retrieval failures with contextualized "I don't know" responses. These findings show that scalable, cost-efficient QA systems can be built using synthetic data and self-training with open-source models, reducing reliance on proprietary tools or costly human annotations.
- Abstract(参考訳): 顧客サポートにおけるLarge Language Models(LLM)の展開は、幻覚による偽情報の生成とプロプライエタリなモデルの高コストによって制約される。
これらの課題に対処するため、検索強化質問応答パイプラインを提案し、人間の入力と自動化のバランスをとる方法について検討する。
サムスンのスマートTVユーザーマニュアルに関する質問のデータセットを用いて、LLMが生成した合成データがクラウドソースデータより優れており、微調整されたモデルにおける幻覚を低減していることを示す。
また, 自己学習(自作出力の微調整モデル)と知識蒸留(強化モデル出力の微調整, GPT-4o)を比較し, 自己学習が幻覚の減少に匹敵する結果が得られた。
我々は、この驚くべき発見は、知識蒸留における露光バイアスの問題の増加に起因すると推測し、ポストホック分析でこの予想を支持する。
また、"I don't know"応答をコンテキスト化して、解決不可能な質問や検索失敗に対する堅牢性も向上する。
これらの結果によると、スケーラブルで費用効率のよいQAシステムは、合成データとオープンソースモデルによる自己学習を使って構築でき、プロプライエタリなツールやコストのかかる人的アノテーションへの依存を減らすことができる。
関連論文リスト
- AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Improving QA Model Performance with Cartographic Inoculation [0.0]
データセットアーティファクト"は、実世界のQA問題に一般化するモデルの能力を低下させる。
逆問題集合を用いてデータセットアーティファクトの影響と頻度を解析する。
課題集合から曖昧な逆数例のモデルを選択的に微調整することにより、大幅な性能改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-01-30T23:08:26Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Training Generative Question-Answering on Synthetic Data Obtained from
an Instruct-tuned Model [4.515527639264234]
本稿では,質問応答系を学習するための簡易かつ費用対効果の高いデータ合成手法を提案する。
トレーニングでは、微調整のGPTモデルは英語のような資源に富む言語では一般的であるが、十分な問合せペアが不足しているため、英語以外の言語では困難になる。
論文 参考訳(メタデータ) (2023-10-12T06:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。