論文の概要: Identifying and Mitigating the Influence of the Prior Distribution in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.12585v1
- Date: Thu, 17 Apr 2025 02:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:30.070860
- Title: Identifying and Mitigating the Influence of the Prior Distribution in Large Language Models
- Title(参考訳): 大規模言語モデルにおける事前分布の影響の同定と緩和
- Authors: Liyi Zhang, Veniamin Veselovsky, R. Thomas McCoy, Thomas L. Griffiths,
- Abstract要約: 大規模言語モデル(LLM)が決定論的タスクに適切に対応できない場合があります。
我々は、機械的解釈可能性技術を用いて、LLM内の前者をローカライズし、その前者が応答に影響を与える範囲を操作します。
- 参考スコア(独自算出の注目度): 9.075759687357204
- License:
- Abstract: Large language models (LLMs) sometimes fail to respond appropriately to deterministic tasks -- such as counting or forming acronyms -- because the implicit prior distribution they have learned over sequences of tokens influences their responses. In this work, we show that, in at least some cases, LLMs actually compute the information needed to perform these tasks correctly, and we identify some interventions that can allow them to access this information to improve their performance. First, we show that simply prompting the language model to not rely on its prior knowledge leads to dramatic improvements in prior-dominated tasks. We then use mechanistic interpretability techniques to localize the prior within the LLM and manipulate the extent to which that prior influences its responses. Specifically, we show that it is possible to identify layers of the underlying neural network that correlate with the prior probability of a response and that lightweight finetuning of these layers with basic prompts on prior-dominated tasks achieves high performance on held-out answers. These results suggest that the information required to produce a correct response is contained within the representations of the problems formed by the models. Furthermore, we show that this finetuning is significantly more effective for prior-dominated tasks, and that the error after finetuning is no longer correlated with the prior. Our results suggest that it may be possible to define effective methods for manipulating the extent to which LLMs rely upon their priors in solving problems, potentially increasing their performance in settings where LLMs hallucinate for reasons related to the prior probability of token sequences.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トークンのシーケンスを通じて学んだ暗黙の事前分布が、その応答に影響を与えるため、決定論的タスク(頭字語を数えたり形成したりするなど)に適切に応答できないことがある。
本研究は、少なくともいくつかのケースにおいて、LLMが実際にこれらのタスクを正しく実行するために必要な情報を計算し、これらの情報にアクセスして性能を向上させるためのいくつかの介入を特定するものであることを示す。
まず、言語モデルに事前知識を頼らないよう促すことで、事前支配されたタスクが劇的に改善されることが示される。
次に, 機械的解釈可能性技術を用いて, LLM内における事前応答の局所化と, その応答に影響を与える範囲の操作を行う。
具体的には、応答の事前確率と相関する基盤となるニューラルネットワークの層を特定することができ、これらの層を事前支配されたタスクの基本的なプロンプトで軽量に微調整することで、ホールドアウトされた回答で高いパフォーマンスが得られることを示す。
これらの結果は,モデルが生成した問題の表現の中に,正しい応答を生成するために必要な情報が含まれていることを示唆している。
さらに, この微調整は, 優先課題に対して有意に有効であり, 微調整後の誤差は, もはや先行課題と相関しないことを示した。
以上の結果から, LLM がトークン列の先行確率に関係する理由で幻覚する設定において, LLM が先行問題に依存する範囲を効果的に操作する方法を定義することが可能である可能性が示唆された。
関連論文リスト
- Benchmarking Prompt Sensitivity in Large Language Models [13.986971540998258]
大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。
本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-09T23:01:03Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。
SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。
提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-19T17:03:02Z) - Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。
この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。
既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-12-18T15:32:27Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。