論文の概要: Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning
- arxiv url: http://arxiv.org/abs/2408.11431v1
- Date: Wed, 21 Aug 2024 08:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:49:48.132165
- Title: Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning
- Title(参考訳): ラベルなし学習によるLLMにおける知識不足の診断と治療
- Authors: Kai Xiong, Xiao Ding, Li Du, Jiahao Ying, Ting Liu, Bing Qin, Yixin Cao,
- Abstract要約: 大規模言語モデル(LLM)は多用途であり、印象的な一般化能力を示している。
彼らは今でも推論ミスを示しており、しばしば知識不足から起因している。
LLMの知識不足を診断・治療するためのラベルフリーなカリキュラム意味学習フレームワーク(LaMer)を提案する。
- 参考スコア(独自算出の注目度): 42.38865072597821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are versatile and demonstrate impressive generalization ability by mining and learning information from extensive unlabeled text. However, they still exhibit reasoning mistakes, often stemming from knowledge deficiencies, which can affect their trustworthiness and reliability. Although users can provide diverse and comprehensive queries, obtaining sufficient and effective feedback is demanding. Furthermore, evaluating LLMs comprehensively with limited labeled samples is difficult. This makes it a challenge to diagnose and remedy the deficiencies of LLMs through rich label-free user queries. To tackle this challenge, we propose a label-free curricular meaningful learning framework (LaMer). LaMer first employs relative entropy to automatically diagnose and quantify the knowledge deficiencies of LLMs in a label-free setting. Next, to remedy the diagnosed knowledge deficiencies, we apply curricular meaningful learning: first, we adopt meaningful learning to adaptively synthesize augmentation data according to the severity of the deficiencies, and then design a curricular deficiency remedy strategy to remedy the knowledge deficiencies of LLMs progressively. Experiments show that LaMer efficiently and effectively diagnoses and remedies knowledge deficiencies in LLMs, improving various LLMs across seven out-of-distribution (OOD) reasoning and language understanding benchmarks, achieving comparable results to baselines with just 40\% training data. LaMer even surpasses methods that rely on labeled datasets for deficiency diagnosis. In application, our label-free method can offer an effective knowledge deficiency diagnostic tool for efficient LLM development.
- Abstract(参考訳): LLM(Large Language Models)は汎用的であり、広範囲なラベルのないテキストから情報をマイニングし、学習することで、印象的な一般化能力を示す。
しかし、彼らは、しばしば知識不足に起因する推論ミスを示しており、信頼と信頼性に影響を与える可能性がある。
ユーザは多様で包括的なクエリを提供できるが、十分な効果的なフィードバックを得ることが求められている。
さらに, ラベル付きサンプルを用いたLLMの総合評価は困難である。
これにより、リッチなラベルのないユーザクエリを通じて、LSMの欠陥を診断し、治療することが困難になる。
この課題に対処するために,ラベルのない曲的意味学習フレームワーク(LaMer)を提案する。
LaMer はまず相対エントロピーを用いてラベルのない環境で LLM の知識不足を自動的に診断し定量化する。
次に、診断された知識不足を治療するために、まず、有意義な学習を採用し、欠陥の深刻度に応じて拡張データを適応的に合成し、その後、LLMの知識不足を漸進的に改善するためのカリキュラム不足救済戦略を設計する。
実験の結果、LaMerはLLMの知識不足を効果的かつ効果的に診断し、改善し、7つのアウト・オブ・ディストリビューション(OOD)推論と言語理解ベンチマークにまたがって様々なLSMを改善し、トレーニングデータでベースラインに匹敵する結果を達成している。
LaMerは、診断にラベル付きデータセットに依存するメソッドを超越している。
ラベルフリーの手法は, LLM の効率的な開発に有効な知識不足診断ツールを提供することができる。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive Diagnosis [34.62178125699054]
UNCD (UNlearning Evaluation via Cognitive Diagnosis) は、LLMアンラーニングのきめ細かい評価のための新しいフレームワークである。
われわれのベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
当社の専用ベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
論文 参考訳(メタデータ) (2025-02-19T06:56:59Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - HyKGE: A Hypothesis Knowledge Graph Enhanced Framework for Accurate and Reliable Medical LLMs Responses [20.635793525894872]
大規模言語モデル(LLM)の精度と信頼性を向上させるための仮説知識グラフ強化(HyKGE)フレームワークを開発する。
具体的には、HyKGEはゼロショット能力とLLMの豊富な知識を仮説出力で探索し、KGの可能な探索方向を拡張する。
2つのLLMターボを用いた2つの中国医学多重選択質問データセットと1つの中国のオープンドメイン医療Q&Aデータセットの実験は、精度と説明可能性の観点からHyKGEの優位性を実証した。
論文 参考訳(メタデータ) (2023-12-26T04:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。