論文の概要: Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts
- arxiv url: http://arxiv.org/abs/2509.04500v1
- Date: Tue, 02 Sep 2025 00:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.337162
- Title: Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts
- Title(参考訳): 信頼性のためのコンテキストエンジニアリング - Rescorla Wagner氏の講演より
- Authors: Rushi Wang, Jiateng Liu, Cheng Qian, Yifan Shen, Yanzhou Pan, Zhaozhuo Xu, Ahmed Abbasi, Heng Ji, Denghui Zhang,
- Abstract要約: 関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
- 参考スコア(独自算出の注目度): 55.70338710797578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating external context can significantly enhance the response quality of Large Language Models (LLMs). However, real-world contexts often mix relevant information with disproportionate inappropriate content, posing reliability risks. How do LLMs process and prioritize mixed context? To study this, we introduce the Poisoned Context Testbed, pairing queries with real-world contexts containing relevant and inappropriate content. Inspired by associative learning in animals, we adapt the Rescorla-Wagner (RW) model from neuroscience to quantify how competing contextual signals influence LLM outputs. Our adapted model reveals a consistent behavioral pattern: LLMs exhibit a strong tendency to incorporate information that is less prevalent in the context. This susceptibility is harmful in real-world settings, where small amounts of inappropriate content can substantially degrade response quality. Empirical evaluations on our testbed further confirm this vulnerability. To tackle this, we introduce RW-Steering, a two-stage finetuning-based approach that enables the model to internally identify and ignore inappropriate signals. Unlike prior methods that rely on extensive supervision across diverse context mixtures, RW-Steering generalizes robustly across varying proportions of inappropriate content. Experiments show that our best fine-tuned model improves response quality by 39.8% and reverses the undesirable behavior curve, establishing RW-Steering as a robust, generalizable context engineering solution for improving LLM safety in real-world use.
- Abstract(参考訳): 外部コンテキストを組み込むことで、LLM(Large Language Models)の応答品質を大幅に向上させることができる。
しかし、現実世界のコンテキストは、関係する情報を不適切なコンテンツと混同し、信頼性のリスクを生じさせる。
LLMはどのように処理し、混在したコンテキストを優先しますか?
そこで本研究では,関連する内容や不適切な内容を含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介する。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
我々の適応モデルは、一貫した行動パターンを明らかにしている: LLMは、文脈においてあまり一般的でない情報を組み込む強い傾向を示す。
この感受性は、少数の不適切なコンテンツが応答品質を著しく低下させる現実世界では有害である。
テストベッド上での実験的な評価により、この脆弱性がさらに確認されました。
そこで本研究では,RW-Steeringという2段階の微調整に基づく手法を導入し,不適切な信号を内部的に識別・無視する手法を提案する。
RW-ステアリングは、様々な文脈の混合にまたがる広範囲な監視に依存する従来の手法とは異なり、不適切な内容の様々な割合で頑健に一般化する。
実験により, 最適微調整モデルにより応答品質が39.8%向上し, 望ましくない動作曲線が逆転し, RW-ステアリングが実世界のLLMの安全性を向上させるための堅牢で一般化可能なコンテキストエンジニアリングソリューションとして確立された。
関連論文リスト
- Conflict-Aware Soft Prompting for Retrieval-Augmented Generation [7.20732238547724]
Retrieval-augmented Generation (RAG)は、外部知識を入力プロンプトに組み込むことで、大規模言語モデル(LLM)の能力を高める。
RAGはしばしば、誤った外部コンテキストと正しいパラメトリック知識の間の競合を解決できない。
コンテクストアセスタとベースLLMから構成されるCARE(Conflict-Aware Retrieval-Augmented Generation)を紹介する。
CAREはコンテキストメモリの競合を効果的に軽減し、QAとファクトチェックベンチマークの平均パフォーマンスは5.0%向上した。
論文 参考訳(メタデータ) (2025-08-21T05:36:29Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - RADIANT: Retrieval AugmenteD entIty-context AligNmenT -- Introducing RAG-ability and Entity-Context Divergence [5.066415370344766]
Retrieval-Augmented Generation (RAG) は、外部知識を生成プロセスに統合することにより、事実の精度を高める技術である。
本稿では,得られた証拠と生成されたコンテンツとの相互作用を最適化するために,RAGとアライメントを組み合わせたフレームワークであるRadiantを紹介する。
論文 参考訳(メタデータ) (2025-06-28T21:40:35Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [32.30660197797758]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
従来のサロゲート法に比べて精度が向上し,計算効率も向上した。
メカニスティック解析により、コンテキスト属性に責任を持つ特定の注意頭と多層パーセプトロン(MLP)層が明らかになった。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。