論文の概要: Decoupled Context Processing for Context Augmented Language Modeling
- arxiv url: http://arxiv.org/abs/2210.05758v1
- Date: Tue, 11 Oct 2022 20:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:52:12.465906
- Title: Decoupled Context Processing for Context Augmented Language Modeling
- Title(参考訳): 文脈拡張言語モデリングのための分離文脈処理
- Authors: Zonglin Li, Ruiqi Guo, Sanjiv Kumar
- Abstract要約: 言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
- 参考スコア(独自算出の注目度): 33.89636308731306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be augmented with a context retriever to incorporate
knowledge from large external databases. By leveraging retrieved context, the
neural network does not have to memorize the massive amount of world knowledge
within its internal parameters, leading to better parameter efficiency,
interpretability and modularity. In this paper we examined a simple yet
effective architecture for incorporating external context into language models
based on decoupled Encoder Decoder architecture. We showed that such a simple
architecture achieves competitive results on auto-regressive language modeling
and open domain question answering tasks. We also analyzed the behavior of the
proposed model which performs grounded context transfer. Finally we discussed
the computational implications of such retrieval augmented models.
- Abstract(参考訳): 言語モデルは、大きな外部データベースからの知識を組み込むためにコンテキストレトリバーで拡張できる。
取得したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、パラメータ効率、解釈可能性、モジュール性が向上する。
本稿では,分離されたエンコーダデコーダアーキテクチャに基づいて,外部コンテキストを言語モデルに組み込むシンプルなアーキテクチャについて検討する。
このような単純なアーキテクチャは、自動回帰型言語モデリングとオープンドメイン質問応答タスクにおいて競合的な結果をもたらすことを示した。
また,グラウンデッド・コンテキスト・トランスファーを行う提案モデルの挙動を解析した。
最後に、このような検索強化モデルの計算的意味について論じる。
関連論文リスト
- Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability [39.42414275888214]
そこで本研究では,テキスト内学習タスクのスイート間で因果言語モデリングが可能な13のモデルを評価する。
検討されたアーキテクチャはすべて、以前文書化されたよりも幅広い条件下でコンテキスト内学習を行うことができる。
いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者と競合することがある。
論文 参考訳(メタデータ) (2023-10-12T05:43:06Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文 参考訳(メタデータ) (2023-08-09T16:44:25Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。