Fugu-MT 論文翻訳(概要): Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning

論文の概要: Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning

arxiv url: http://arxiv.org/abs/2408.11431v1
Date: Wed, 21 Aug 2024 08:39:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 17:49:48.132165
Title: Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning
Title（参考訳）: ラベルなし学習によるLLMにおける知識不足の診断と治療
Authors: Kai Xiong, Xiao Ding, Li Du, Jiahao Ying, Ting Liu, Bing Qin, Yixin Cao,
Abstract要約: 大規模言語モデル(LLM)は多用途であり、印象的な一般化能力を示している。彼らは今でも推論ミスを示しており、しばしば知識不足から起因している。 LLMの知識不足を診断・治療するためのラベルフリーなカリキュラム意味学習フレームワーク(LaMer)を提案する。
参考スコア（独自算出の注目度）: 42.38865072597821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are versatile and demonstrate impressive generalization ability by mining and learning information from extensive unlabeled text. However, they still exhibit reasoning mistakes, often stemming from knowledge deficiencies, which can affect their trustworthiness and reliability. Although users can provide diverse and comprehensive queries, obtaining sufficient and effective feedback is demanding. Furthermore, evaluating LLMs comprehensively with limited labeled samples is difficult. This makes it a challenge to diagnose and remedy the deficiencies of LLMs through rich label-free user queries. To tackle this challenge, we propose a label-free curricular meaningful learning framework (LaMer). LaMer first employs relative entropy to automatically diagnose and quantify the knowledge deficiencies of LLMs in a label-free setting. Next, to remedy the diagnosed knowledge deficiencies, we apply curricular meaningful learning: first, we adopt meaningful learning to adaptively synthesize augmentation data according to the severity of the deficiencies, and then design a curricular deficiency remedy strategy to remedy the knowledge deficiencies of LLMs progressively. Experiments show that LaMer efficiently and effectively diagnoses and remedies knowledge deficiencies in LLMs, improving various LLMs across seven out-of-distribution (OOD) reasoning and language understanding benchmarks, achieving comparable results to baselines with just 40\% training data. LaMer even surpasses methods that rely on labeled datasets for deficiency diagnosis. In application, our label-free method can offer an effective knowledge deficiency diagnostic tool for efficient LLM development.
Abstract（参考訳）: LLM(Large Language Models)は汎用的であり、広範囲なラベルのないテキストから情報をマイニングし、学習することで、印象的な一般化能力を示す。しかし、彼らは、しばしば知識不足に起因する推論ミスを示しており、信頼と信頼性に影響を与える可能性がある。ユーザは多様で包括的なクエリを提供できるが、十分な効果的なフィードバックを得ることが求められている。さらに, ラベル付きサンプルを用いたLLMの総合評価は困難である。これにより、リッチなラベルのないユーザクエリを通じて、LSMの欠陥を診断し、治療することが困難になる。この課題に対処するために,ラベルのない曲的意味学習フレームワーク(LaMer)を提案する。 LaMer はまず相対エントロピーを用いてラベルのない環境で LLM の知識不足を自動的に診断し定量化する。次に、診断された知識不足を治療するために、まず、有意義な学習を採用し、欠陥の深刻度に応じて拡張データを適応的に合成し、その後、LLMの知識不足を漸進的に改善するためのカリキュラム不足救済戦略を設計する。実験の結果、LaMerはLLMの知識不足を効果的かつ効果的に診断し、改善し、7つのアウト・オブ・ディストリビューション(OOD)推論と言語理解ベンチマークにまたがって様々なLSMを改善し、トレーニングデータでベースラインに匹敵する結果を達成している。 LaMerは、診断にラベル付きデータセットに依存するメソッドを超越している。ラベルフリーの手法は, LLM の効率的な開発に有効な知識不足診断ツールを提供することができる。

関連論文リスト

Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation [29.547871298286687]
本稿では,インタプリタを生成することで,臨床データセットの難易度を高める知識誘導型データ拡張フレームワークを提案する。我々のアプローチは、医療的関連性はあるものの、実際は正しくない、気晴らしの経路-連想を特定するために、医療知識グラフ上の多段階的、意味的に情報を得たウォークである。設計した知識グラフガイド型イントラクタ生成(KGGDG)ピップラインを6つの広く使用されている医療用QAベンチマークに適用し、最先端のLCMの精度を一貫して低下させることを示す。
論文参考訳（メタデータ） (2025-05-31T15:51:09Z)
Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文参考訳（メタデータ） (2025-03-05T17:56:20Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive Diagnosis [34.62178125699054]
UNCD (UNlearning Evaluation via Cognitive Diagnosis) は、LLMアンラーニングのきめ細かい評価のための新しいフレームワークである。われわれのベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。当社の専用ベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
論文参考訳（メタデータ） (2025-02-19T06:56:59Z)
Large language models enabled multiagent ensemble method for efficient EHR data labeling [9.481473827205159]
本研究では,MLにおける重要な課題であるデータラベリングに対処するため,LLMを用いた新しいマルチエージェントアンサンブル手法を提案する。アンサンブルLLMと自然言語処理を用いて、推定精度98.2%の623,566ECGのMIMIC-IV ECGデータセットをラベル付けした。我々は,1,405EHR臨床ノートの社会史セクションからSDOHを同定するために,アンサンブルLLMs法を適用し,競争性能も向上した。
論文参考訳（メタデータ） (2024-10-21T22:12:00Z)
Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文参考訳（メタデータ） (2024-09-22T03:13:38Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。 KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文参考訳（メタデータ） (2024-02-17T02:54:32Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
HyKGE: A Hypothesis Knowledge Graph Enhanced Framework for Accurate and Reliable Medical LLMs Responses [20.635793525894872]
大規模言語モデル(LLM)の精度と信頼性を向上させるための仮説知識グラフ強化(HyKGE)フレームワークを開発する。具体的には、HyKGEはゼロショット能力とLLMの豊富な知識を仮説出力で探索し、KGの可能な探索方向を拡張する。 2つのLLMターボを用いた2つの中国医学多重選択質問データセットと1つの中国のオープンドメイン医療Q&Aデータセットの実験は、精度と説明可能性の観点からHyKGEの優位性を実証した。
論文参考訳（メタデータ） (2023-12-26T04:49:56Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。