論文の概要: Controllable Context Sensitivity and the Knob Behind It
- arxiv url: http://arxiv.org/abs/2411.07404v1
- Date: Mon, 11 Nov 2024 22:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:58.493890
- Title: Controllable Context Sensitivity and the Knob Behind It
- Title(参考訳): 制御可能な文脈感性とその背後にあるノブ
- Authors: Julian Minder, Kevin Du, Niklas Stoehr, Giovanni Monea, Chris Wendler, Robert West, Ryan Cotterell,
- Abstract要約: 予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。
我々は,この感性を制御するノブを探索し,言語モデルが文脈から応答するか,それ以前の知識から応答するかを判断する。
- 参考スコア(独自算出の注目度): 53.70327066130381
- License:
- Abstract: When making predictions, a language model must trade off how much it relies on its context vs. its prior knowledge. Choosing how sensitive the model is to its context is a fundamental functionality, as it enables the model to excel at tasks like retrieval-augmented generation and question-answering. In this paper, we search for a knob which controls this sensitivity, determining whether language models answer from the context or their prior knowledge. To guide this search, we design a task for controllable context sensitivity. In this task, we first feed the model a context (Paris is in England) and a question (Where is Paris?); we then instruct the model to either use its prior or contextual knowledge and evaluate whether it generates the correct answer for both intents (either France or England). When fine-tuned on this task, instruction-tuned versions of Llama-3.1, Mistral-v0.3, and Gemma-2 can solve it with high accuracy (85-95%). Analyzing these high-performing models, we narrow down which layers may be important to context sensitivity using a novel linear time algorithm. Then, in each model, we identify a 1-D subspace in a single layer that encodes whether the model follows context or prior knowledge. Interestingly, while we identify this subspace in a fine-tuned model, we find that the exact same subspace serves as an effective knob in not only that model but also non-fine-tuned instruct and base models of that model family. Finally, we show a strong correlation between a model's performance and how distinctly it separates context-agreeing from context-ignoring answers in this subspace. These results suggest a single subspace facilitates how the model chooses between context and prior knowledge, hinting at a simple fundamental mechanism that controls this behavior.
- Abstract(参考訳): 予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。
モデルがコンテキストに対してどれほど敏感であるかを選択することは、検索強化生成や質問応答といったタスクでモデルが優れているため、基本的な機能である。
本稿では,この感性を制御するノブを探索し,言語モデルが文脈や先行知識から応答するかどうかを判定する。
この探索を導くために、制御可能な文脈感度のためのタスクを設計する。
このタスクでは、まずモデルにコンテキスト(パリはイギリスにある)と質問(パリはどこにあるのか?)を与え、そのモデルにその事前または文脈的な知識の使用を指示し、そのモデルが両方の意図(フランスまたはイングランド)に対して正しい答えを生成するかどうかを評価する。
このタスクを微調整すると、Llama-3.1、Mistral-v0.3、Gemma-2の命令調整版が高精度(85-95%)で解ける。
これらのハイパフォーマンスモデルを解析し、新しい線形時間アルゴリズムを用いて、どの層がコンテキスト感度に重要なのかを絞り込む。
そして,各モデルにおいて,モデルが文脈や事前知識に従うか否かを符号化する単一層内の1次元部分空間を同定する。
興味深いことに、この部分空間を微調整モデルで識別する一方で、全く同じ部分空間が、そのモデルだけでなく、そのモデルファミリーの非微調整インストラクションおよびベースモデルにおいても有効なノブとして機能していることが分かる。
最後に、モデルの性能と、この部分空間における文脈無視の回答からコンテキスト認識がいかに明確に分離されるかの間に、強い相関関係を示す。
これらの結果は、単一の部分空間が、モデルがコンテキストと事前知識をどのように選択するかを促進することを示唆し、この振る舞いを制御する単純な基本的なメカニズムを示唆している。
関連論文リスト
- Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting [15.69952375347308]
言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。
モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
論文 参考訳(メタデータ) (2024-05-28T21:38:20Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - Embarrassingly Simple Performance Prediction for Abductive Natural
Language Inference [10.536415845097661]
本研究では,NLIモデルの性能を微調整せずに予測する手法を提案する。
その結果,コサイン類似度手法の精度はパーソン相関係数0.65の分類手法の精度と強く相関していることがわかった。
提案手法は,モデル選択の過程において,大幅な時間節約につながる可能性がある。
論文 参考訳(メタデータ) (2022-02-21T18:10:24Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Multi-Modal Subjective Context Modelling and Recognition [19.80579219657159]
我々は,時間,場所,活動,社会的関係,対象の5次元を捉える新しい存在論的文脈モデルを提案する。
実世界のデータに対する最初の文脈認識実験は、我々のモデルの約束を示唆している。
論文 参考訳(メタデータ) (2020-11-19T05:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。