論文の概要: Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models
- arxiv url: http://arxiv.org/abs/2408.12326v1
- Date: Thu, 22 Aug 2024 12:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:03:43.048421
- Title: Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models
- Title(参考訳): 大規模言語モデルにおける幻覚の緩和のための対話型デュアルチェッカー
- Authors: Meiyun Wang, Masahiro Suzuki, Hiroki Sakaji, Kiyoshi Izumi,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
- 参考スコア(独自算出の注目度): 7.632217365130212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities across various machine learning (ML) tasks. Given the high costs of creating annotated datasets for supervised learning, LLMs offer a valuable alternative by enabling effective few-shot in-context learning. However, these models can produce hallucinations, particularly in domains with incomplete knowledge. Additionally, current methods for knowledge distillation using LLMs often struggle to enhance the effectiveness of both teacher and student models. To address these challenges, we introduce DualChecker, an innovative framework designed to mitigate hallucinations and improve the performance of both teacher and student models during knowledge distillation. DualChecker employs ContextAligner to ensure that the context provided by teacher models aligns with human labeling standards. It also features a dynamic checker system that enhances model interaction: one component re-prompts teacher models with more detailed content when they show low confidence, and another identifies borderline cases from student models to refine the teaching templates. This interactive process promotes continuous improvement and effective knowledge transfer between the models. We evaluate DualChecker using a green innovation textual dataset that includes binary, multiclass, and token classification tasks. The experimental results show that DualChecker significantly outperforms existing state-of-the-art methods, achieving up to a 17% improvement in F1 score for teacher models and 10% for student models. Notably, student models fine-tuned with LLM predictions perform comparably to those fine-tuned with actual data, even in a challenging domain. We make all datasets, models, and code from this research publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
教師付き学習のための注釈付きデータセットを作成するコストが高くなると、LLMは効果的な数発のインコンテキスト学習を可能にすることで、貴重な代替手段を提供する。
しかし、これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
さらに, LLMを用いた知識蒸留法は, 教師モデルと学生モデルの両方の有効性向上に苦慮することが多い。
これらの課題に対処するため、我々は、幻覚を緩和し、知識蒸留における教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された革新的なフレームワークであるDualCheckerを紹介した。
DualCheckerはContextAlignerを使用して、教師モデルが提供するコンテキストが人間のラベル付け標準と一致していることを保証する。
モデルの相互作用を強化する動的チェッカーシステムも備えている: あるコンポーネントは、信頼度が低いときにより詳細な内容で教師モデルを再起動し、別のコンポーネントは生徒モデルから境界線のケースを特定して教育テンプレートを洗練させる。
この対話的なプロセスは、モデル間の継続的な改善と効果的な知識伝達を促進する。
我々は、バイナリ、マルチクラス、トークン分類タスクを含むグリーンイノベーションテキストデータセットを用いて、DualCheckerを評価する。
実験の結果、DualCheckerは既存の最先端手法よりも優れており、教師モデルではF1スコアが最大17%向上し、学生モデルでは10%向上していることがわかった。
特に、LLM予測で微調整された学生モデルは、挑戦的な領域であっても、実際のデータで微調整された生徒と同等に機能する。
私たちはこの研究からすべてのデータセット、モデル、コードを公開しています。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model [49.587821411012705]
コントラスト言語画像前処理モデルのための包括的知識蒸留法ComKD-CLIPを提案する。
大規模な教師CLIPモデルからより小さな学生モデルに知識を抽出し、パラメータを著しく減らして同等のパフォーマンスを確保する。
EduAttentionは教師モデルで抽出したテキスト特徴と学生モデルで抽出した画像特徴との相互関係を探索する。
論文 参考訳(メタデータ) (2024-08-08T01:12:21Z) - Unlock the Power: Competitive Distillation for Multi-Modal Large
Language Models [17.25135606956287]
競合型マルチモーダル蒸留フレームワーク(CoMD)は,教師モデルと学生モデル間の双方向フィードバックをキャプチャする。
多様なデータセットを実験的に分析した結果,我々の知識伝達手法は学生モデルの性能を継続的に改善することがわかった。
論文 参考訳(メタデータ) (2023-11-14T14:49:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Learning Slice-Aware Representations with Mixture of Attentions [38.74444452556773]
この研究は、最近のスライスベース学習(SBL)トポチェン2019スライスを拡張し、注意(MoA)を混合してスライス対応の注意的二重表現を学習する。
2つの自然言語理解タスクを持つ監視されたスライスに対して,MoAアプローチがベースライン手法と元のSBLアプローチより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-04T09:22:24Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。