論文の概要: The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)
- arxiv url: http://arxiv.org/abs/2505.00626v1
- Date: Thu, 01 May 2025 16:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.366815
- Title: The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)
- Title(参考訳): 役割分離のイラシオン:LLMロールラーニングにおける隠れショートカット(とその解決法)
- Authors: Zihao Wang, Yibo Jiang, Jiahao Yu, Heqing Huang,
- Abstract要約: 微調整された大言語モデルは、しばしば役割識別のために2つのプロキシに依存することを示す。
モデル入力エンコーディングにおけるトークンワイドキューを調整し,役割境界をマークするエンフィン変分信号の強化を提案する。
- 参考スコア(独自算出の注目度): 15.48684126686974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) that integrate multiple input roles (e.g., system instructions, user queries, external tool outputs) are increasingly prevalent in practice. Ensuring that the model accurately distinguishes messages from each role -- a concept we call \emph{role separation} -- is crucial for consistent multi-role behavior. Although recent work often targets state-of-the-art prompt injection defenses, it remains unclear whether such methods truly teach LLMs to differentiate roles or merely memorize known triggers. In this paper, we examine \emph{role-separation learning}: the process of teaching LLMs to robustly distinguish system and user tokens. Through a \emph{simple, controlled experimental framework}, we find that fine-tuned models often rely on two proxies for role identification: (1) task type exploitation, and (2) proximity to begin-of-text. Although data augmentation can partially mitigate these shortcuts, it generally leads to iterative patching rather than a deeper fix. To address this, we propose reinforcing \emph{invariant signals} that mark role boundaries by adjusting token-wise cues in the model's input encoding. In particular, manipulating position IDs helps the model learn clearer distinctions and reduces reliance on superficial proxies. By focusing on this mechanism-centered perspective, our work illuminates how LLMs can more reliably maintain consistent multi-role behavior without merely memorizing known prompts or triggers.
- Abstract(参考訳): 複数の入力ロール(例えば、システムインストラクション、ユーザクエリ、外部ツールアウトプット)を統合する大規模言語モデル(LLM)は、実際にはますます普及している。
モデルが各ロールからのメッセージを正確に区別することを保証する。これは、私たちが 'emph{role separation}' と呼ぶ概念であり、一貫性のあるマルチロールの振る舞いに不可欠である。
最近の研究は、しばしば最先端のプロンプト・インジェクション・ディフェンスを標的としているが、そのような手法がLLMに役割の区別を教えているのか、単に既知のトリガーを記憶しているだけなのかは定かではない。
本稿では,LLMがシステムトークンとユーザトークンを頑健に区別するプロセスである「emph{role-separation learning」について検討する。
1)タスクタイプの活用,(2)テキストの開始に近接する2つのプロキシに、微調整されたモデルが依存していることが、‘emph{simple, controlled experimental framework}’を通じて明らかになった。
データ拡張は、これらのショートカットを部分的に緩和する可能性があるが、一般的には、より深い修正よりも反復的なパッチングにつながる。
これを解決するために,モデルの入力エンコーディングにおけるトークンワイドキューを調整することにより,役割境界をマークする「emph{invariant signal」の強化を提案する。
特に、位置IDを操作することは、モデルがより明確な区別を学習し、表面的プロキシへの依存を減らすのに役立つ。
このメカニズム中心の視点に注目して、我々の研究は、LLMが既知のプロンプトやトリガーを記憶せずに、より確実に一貫性のあるマルチロール動作を維持できるかを照らします。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。
最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。
次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文 参考訳(メタデータ) (2024-10-02T06:51:12Z) - Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。
彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。
本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文 参考訳(メタデータ) (2024-09-16T23:52:41Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning [38.36863497458095]
我々は, pAtch tokeN Embeddings (MULTI-LANE) を要約したクラス増分学習手法を提案する。
提案手法は, pAtch tokeN Embeddings (MULTI-LANE) を要約したマルチラベルクラスインクリメンタルラーニングであり, 高速な推論を実現するとともに, MLCILにおける非絡合タスク固有表現の学習を可能にする。
論文 参考訳(メタデータ) (2024-05-24T15:18:27Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Prompting and Fine-Tuning Open-Sourced Large Language Models for Stance
Classification [1.6317061277457001]
スタンス分類は、社会科学から機械学習まで、領域における研究の焦点となっている。
現在のスタンス検出法は、主に文の手動アノテーションに依存し、次に教師付き機械学習モデルを訓練する。
我々は,手作業によるアノテーションの必要性を低減あるいは排除できるスタンス検出手法として,大規模言語モデルの利用について検討する。
論文 参考訳(メタデータ) (2023-09-24T19:36:17Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。