論文の概要: Knowledge-Infused Self Attention Transformers
- arxiv url: http://arxiv.org/abs/2306.13501v1
- Date: Fri, 23 Jun 2023 13:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 12:37:40.984082
- Title: Knowledge-Infused Self Attention Transformers
- Title(参考訳): 知識注入自己注意変圧器
- Authors: Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth
- Abstract要約: トランスフォーマーベースの言語モデルは、様々な自然言語処理タスクにおいて驚くべき成功を収めた。
本稿では,トランスモデルの異なるコンポーネントに知識を注入するための体系的手法を提案する。
- 参考スコア(独自算出の注目度): 11.008412414253662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models have achieved impressive success in various
natural language processing tasks due to their ability to capture complex
dependencies and contextual information using self-attention mechanisms.
However, they are not without limitations. These limitations include
hallucinations, where they produce incorrect outputs with high confidence, and
alignment issues, where they generate unhelpful and unsafe outputs for human
users. These limitations stem from the absence of implicit and missing context
in the data alone. To address this, researchers have explored augmenting these
models with external knowledge from knowledge graphs to provide the necessary
additional context. However, the ad-hoc nature of existing methods makes it
difficult to properly analyze the effects of knowledge infusion on the many
moving parts or components of a transformer. This paper introduces a systematic
method for infusing knowledge into different components of a transformer-based
model. A modular framework is proposed to identify specific components within
the transformer architecture, such as the self-attention mechanism, encoder
layers, or the input embedding layer, where knowledge infusion can be applied.
Additionally, extensive experiments are conducted on the General Language
Understanding Evaluation (GLUE) benchmark tasks, and the findings are reported.
This systematic approach aims to facilitate more principled approaches to
incorporating knowledge into language model architectures.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、複雑な依存関係やコンテキスト情報をセルフアテンションメカニズムを使ってキャプチャする能力によって、さまざまな自然言語処理タスクで素晴らしい成功を収めています。
しかし、制限がないわけではない。
これらの制限には、不適切な出力を高い信頼性で生成する幻覚や、人間のユーザにとって不安全で安全でないアウトプットを生成するアライメントの問題が含まれる。
これらの制限は、データにのみ暗黙的かつ欠落したコンテキストがないことに起因する。
これに対処するため、研究者はこれらのモデルを知識グラフからの外部知識で拡張し、必要な追加コンテキストを提供する。
しかし,既存手法のアドホックな性質は,変圧器の多数の可動部や部品に対する知識注入の効果を適切に解析することが困難である。
本稿では,トランスベースモデルの異なる構成要素に知識を注入する体系的手法を提案する。
自己着脱機構やエンコーダ層,あるいは知識注入が適用可能な入力埋め込み層など,トランスフォーマーアーキテクチャ内の特定のコンポーネントを識別するためのモジュールフレームワークが提案されている。
さらに、GLUE(General Language Understanding Evaluation)ベンチマークタスクについて広範な実験を行い、その結果を報告する。
この体系的アプローチは、言語モデルアーキテクチャに知識を組み込むためのより原則的なアプローチを促進することを目的としている。
関連論文リスト
- Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization [10.944365976254442]
大規模言語モデルにおける知識編集と未学習の方法は、性能を損なうことなく、望ましくない知識の編集や削除を試みている。
異なる手法でローカライズされたトレーニングコンポーネントでは、学習の非学習と編集の堅牢性に大きな違いがある。
論文 参考訳(メタデータ) (2024-10-16T18:35:02Z) - Knowledge Circuits in Pretrained Transformers [47.342682123081204]
現代の大言語モデルが知識をいかに保存するかという内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
本稿では,言語モデルのグラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
これらの知識回路に対する現在の知識編集技術の影響を評価し,これらの編集手法の機能や制約についてより深い知見を提供する。
論文 参考訳(メタデータ) (2024-05-28T08:56:33Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。
欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文 参考訳(メタデータ) (2023-09-28T14:09:58Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。