論文の概要: Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models
- arxiv url: http://arxiv.org/abs/2410.05162v1
- Date: Mon, 7 Oct 2024 16:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:58:57.675982
- Title: Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models
- Title(参考訳): Retrieval-augmented Language Modelにおけるパラメトリックメモリと非パラメトリックメモリの相互作用の解読
- Authors: Mehrdad Farahani, Richard Johansson,
- Abstract要約: Retrieval-Augmented Generation (RAG)モデルは、応答を生成する前に情報を取得するように振舞う。
我々は、因果媒介分析と制御実験を用いて、内部表現が情報処理にどのように影響するかを調べる。
- 参考スコア(独自算出の注目度): 5.274653527674298
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative language models often struggle with specialized or less-discussed knowledge. A potential solution is found in Retrieval-Augmented Generation (RAG) models which act like retrieving information before generating responses. In this study, we explore how the \textsc{Atlas} approach, a RAG model, decides between what it already knows (parametric) and what it retrieves (non-parametric). We use causal mediation analysis and controlled experiments to examine how internal representations influence information processing. Our findings disentangle the effects of parametric knowledge and the retrieved context. They indicate that in cases where the model can choose between both types of information (parametric and non-parametric), it relies more on the context than the parametric knowledge. Furthermore, the analysis investigates the computations involved in \emph{how} the model uses the information from the context. We find that multiple mechanisms are active within the model and can be detected with mediation analysis: first, the decision of \emph{whether the context is relevant}, and second, how the encoder computes output representations to support copying when relevant.
- Abstract(参考訳): 生成言語モデルは、しばしば専門的またはあまり議論されていない知識に苦しむ。
潜在的な解決策は、応答を生成する前に情報を取得するように振る舞うRetrieval-Augmented Generation (RAG)モデルに見られる。
本研究では、RAGモデルであるtextsc{Atlas} アプローチが、すでに知っているもの(パラメトリック)と取り出すもの(非パラメトリック)をどう判断するかを検討する。
我々は、因果媒介分析と制御実験を用いて、内部表現が情報処理にどのように影響するかを調べる。
本研究は,パラメトリック知識と検索コンテキストの影響を解消するものである。
彼らは、モデルが両方の種類の情報(パラメトリックとノンパラメトリック)を選択できる場合、パラメトリックの知識よりもコンテキストに依存していることを示している。
さらに、分析は、モデルがコンテキストから情報を使用する場合のemph{how}に関する計算を調査する。
その結果,複数のメカニズムがモデル内でアクティブに動作し,仲介分析によって検出できることが判明した。第1に,コンテキストが関係するかどうかの判断,第2に,エンコーダが出力表現を計算して,関連性のあるコピーをサポートする方法である。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries [6.382667978271587]
Retrieval Augmented Generation (RAG) は、あるユーザプロンプトに対する応答を増やすために、外部コンテキストを使って言語モデルを推論する能力を強化する。
このアプローチは、検索、質問/回答、チャットボットにおける言語モデルの様々な応用における実践的な応用により、人気が高まっている。
本稿では,RAGパイプラインを機械的に検討し,言語モデルがショートカットをとっており,パラメトリックメモリを最小限に頼りながら,文脈情報のみを活用することに強いバイアスを持つことを示す。
論文 参考訳(メタデータ) (2024-06-18T17:46:08Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Contextualized Machine Learning [40.415518395978204]
文脈化された機械学習は、文脈情報と文脈固有のパラメトリックモデルの間のメタ関係にディープラーニングを適用することによって異種関数を推定する。
本稿では、オープンソースのPyTorchパッケージContextualizedMLを紹介する。
論文 参考訳(メタデータ) (2023-10-17T15:23:00Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Tracing and Manipulating Intermediate Values in Neural Math Problem
Solvers [29.957075459315384]
複数の推論ステップを必要とする複雑な入力を、言語モデルがどのように処理するかは、よく理解されていない。
これまでの研究では、これらの入力の中間値に関する情報はモデルの活性化から抽出できることが示されている。
本稿では、簡単な算術問題とその中間値に着目して、トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T08:46:50Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。