論文の概要: Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy
- arxiv url: http://arxiv.org/abs/2305.18582v2
- Date: Fri, 9 Feb 2024 06:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:52:26.206940
- Title: Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy
- Title(参考訳): LM論理の相違を緩和した言語モデル更新のための情報アソシエーション
- Authors: Pengfei Yu and Heng Ji
- Abstract要約: 大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
- 参考スコア(独自算出の注目度): 68.31760483418901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models~(LLMs) struggle with providing current information due
to the outdated pre-training data. Existing methods for updating LLMs, such as
knowledge editing and continual fine-tuning, have significant drawbacks in
generalizability of new information and the requirements on structured updating
corpus. We identify the core challenge behind these drawbacks: the LM-logical
discrepancy featuring the difference between language modeling probabilities
and logical probabilities. To evaluate and address the core challenge, we
propose a new task formulation of the information updating task that only
requires the provision of an unstructured updating corpus and evaluates the
performance of information updating on the generalizability to question-answer
pairs pertaining to the updating information. We further propose a novel and
effective pipeline approach for the task, highlighting a self-prompting-based
question-answer generation process and a associative distillation methods to
bridge the LM-logical discrepancy. We develop two datasets for evaluation, one
sourced from news articles published in March and April 2023, and the other
from the Natural Questions benchmark. Experimental results demonstrate the
superiority of our approach, significantly increasing the factual consistency
score (on a scale from 0 to 1) by up to 0.16. Furthermore, our method
effectively mitigates forgetting utilizing a compact replay buffer with only
2.3% of the training tokens.
- Abstract(参考訳): 大きな言語モデル~(llm)は、古い事前トレーニングデータのために現在の情報を提供することに苦労しています。
知識編集や連続的な微調整などの既存のLCMの更新方法は、新しい情報の一般化や構造化更新コーパスの要求に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
そこで本研究では,未構造化更新コーパスの提供のみを必要とする情報更新タスクの新たなタスク定式化を提案し,更新情報に関連する質問応答対に対する一般化可能性に関する情報更新性能を評価する。
さらに,本課題に対する新しい効果的なパイプラインアプローチを提案し,自己プロパンティングに基づく質問応答生成プロセスと,lm-logical discrepancyを橋渡しするための連想蒸留法を提案する。
本研究では,2023年3月と4月に発表されたニュース記事と,Natural Questionsベンチマークから得られた2つの評価データセットを作成した。
実験の結果, 提案手法の優位性を示し, 事実整合性スコアを0から1のスケールで0.16まで大きく向上させた。
さらに、トレーニングトークンの2.3%しか持たないコンパクトリプレイバッファの使用を効果的に軽減する。
関連論文リスト
- Kun: Answer Polishment for Chinese Self-Alignment with Instruction
Back-Translation [51.43576926422795]
Kunは、手動のアノテーションに頼ることなく、大きな言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチである。
我々は、Wudao、Wanjuan、SkyPileなど、さまざまな情報源から収集された不正なデータを活用して、100万以上の中国語の命令データポイントの実質的なデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-12T09:56:57Z) - Analysis of the Reasoning with Redundant Information Provided Ability of
Large Language Models [0.0]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがる印象的な機能を示している。
このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。
本研究は,LlaMA2-13B-chatとGPT-3.5 (generative pre-trained transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。
論文 参考訳(メタデータ) (2023-10-06T06:20:06Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Curriculum-Meta Learning for Order-Robust Continual Relation Extraction [12.494209368988253]
連続的な関係抽出の課題に取り組むための新しいカリキュラムメタ学習方法を提案する。
メタ学習とカリキュラム学習を組み合わせて、モデルパラメータを新しいタスクに迅速に適応させる。
与えられたモデルの順序感度の程度を定量的に測定する難易度に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2021-01-06T08:52:34Z) - An Information-Theoretic Framework for Unifying Active Learning Problems [44.758281991246825]
本稿では,アクティブラーニング問題を統合するための情報理論的枠組みを提案する。
まず、既存のLSEアルゴリズムを推定する新しいアクティブ学習基準を紹介します。
LSEとBOの関係を利用して、BOのための競合情報理論獲得関数を設計する。
論文 参考訳(メタデータ) (2020-12-19T14:22:48Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。