論文の概要: Learning to Extract Context for Context-Aware LLM Inference
- arxiv url: http://arxiv.org/abs/2512.11986v1
- Date: Fri, 12 Dec 2025 19:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.060199
- Title: Learning to Extract Context for Context-Aware LLM Inference
- Title(参考訳): 文脈認識型LLM推論における文脈抽出の学習
- Authors: Minseon Kim, Lucas Caccia, Zhengyan Shi, Matheus Pereira, Marc-Alexandre Côté, Xingdi Yuan, Alessandro Sordoni,
- Abstract要約: 大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.376872353918394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: User prompts to large language models (LLMs) are often ambiguous or under-specified, and subtle contextual cues shaped by user intentions, prior knowledge, and risk factors strongly influence what constitutes an appropriate response. Misinterpreting intent or risks may lead to unsafe outputs, while overly cautious interpretations can cause unnecessary refusal of benign requests. In this paper, we question the conventional framework in which LLMs generate immediate responses to requests without considering broader contextual factors. User requests are situated within broader contexts such as intentions, knowledge, and prior experience, which strongly influence what constitutes an appropriate answer. We propose a framework that extracts and leverages such contextual information from the user prompt itself. Specifically, a reinforcement learning based context generator, designed in an autoencoder-like fashion, is trained to infer contextual signals grounded in the prompt and use them to guide response generation. This approach is particularly important for safety tasks, where ambiguous requests may bypass safeguards while benign but confusing requests can trigger unnecessary refusals. Experiments show that our method reduces harmful responses by an average of 5.6% on the SafetyInstruct dataset across multiple foundation models and improves the harmonic mean of attack success rate and compliance on benign prompts by 6.2% on XSTest and WildJailbreak. These results demonstrate the effectiveness of context extraction for safer and more reliable LLM inferences.
- Abstract(参考訳): 大規模言語モデル(LLM)へのユーザプロンプトは、しばしば曖昧で不明確で、ユーザ意図、事前知識、リスク要因によって形成される微妙な文脈的手がかりが、適切な応答を構成するものに大きな影響を与えます。
意図やリスクの誤解釈は、安全でないアウトプットにつながる可能性があるが、過度に慎重な解釈は、良心的な要求の不要な拒絶を引き起こす可能性がある。
本稿では、LLMがより広い文脈要因を考慮せずに要求に対する即時応答を生成する従来の枠組みに疑問を呈する。
ユーザ要求は、意図や知識、事前経験など、より広いコンテキストに置かれており、適切な回答を構成するものに大きな影響を与えます。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
具体的には、自己エンコーダのような方法で設計された強化学習に基づくコンテキストジェネレータを用いて、プロンプトに接地した文脈信号を推測し、応答生成を誘導するように訓練する。
この方法は特に安全タスクにおいて重要であり、あいまいな要求は、良心的ではあるが混乱した要求が不必要な拒絶を引き起こす可能性がある。
実験により,複数の基盤モデルにおけるセーフティインストラクトデータセットの平均5.6%の有害応答を低減し,XSTestおよびWildJailbreakにおける攻撃成功率と良性プロンプトのコンプライアンスの調和平均を6.2%改善した。
これらの結果は,より安全で信頼性の高いLLM推論における文脈抽出の有効性を示す。
関連論文リスト
- Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts [55.70338710797578]
関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T00:40:34Z) - Highlight & Summarize: RAG without the jailbreaks [13.121045036871607]
悪意のあるユーザは、特殊なプロンプトを入力して、Large Language Modelsが望ましくないコンテンツを生成したり、意図した目的とは全く異なるタスクを実行することができる。
我々は,これらの攻撃を設計によって防止する検索強化生成(RAG)システムのための新しい設計パターンであるHighlight & Summarize(H&S)を提示し,評価する。
論文 参考訳(メタデータ) (2025-08-04T20:01:00Z) - FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning [12.467239356591238]
FalseRejectは、44の安全関連カテゴリにまたがる構造化された応答を伴う16kの一見有毒なクエリを含む包括的なリソースである。
本稿では,多種多様な複雑なプロンプトを生成するグラフインフォームド・逆多エージェントインタラクション・フレームワークを提案する。
FalseRejectによる教師付き微調整は、全体的な安全性や汎用言語能力を損なうことなく、不要な拒絶を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-12T20:45:25Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。