論文の概要: Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
- arxiv url: http://arxiv.org/abs/2510.11288v1
- Date: Mon, 13 Oct 2025 11:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.338634
- Title: Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
- Title(参考訳): In-Context Learningによる創発的ミスアライメント: コンテキスト内の狭い例は、広く不整合なLLMを生成することができる
- Authors: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov,
- Abstract要約: In-context Learning(ICL)において、創発的不整合(EM)が出現することを発見した。
3つのデータセットにまたがって、3つのフロンティアモデルは、64の狭義のインコンテキストの例に対して2%から17%のレートで、256の例で最大58%の一致したレスポンスを生成します。
- 参考スコア(独自算出の注目度): 49.584982680596546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that narrow finetuning can produce broadly misaligned LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these findings were limited to finetuning and activation steering, leaving out in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find that it does: across three datasets, three frontier models produce broadly misaligned responses at rates between 2% and 17% given 64 narrow in-context examples, and up to 58% with 256 examples. We also examine mechanisms of EM by eliciting step-by-step reasoning (while leaving in-context examples unchanged). Manual analysis of the resulting chain-of-thought shows that 67.5% of misaligned traces explicitly rationalize harmful outputs by adopting a reckless or dangerous ''persona'', echoing prior results on finetuning-induced EM.
- Abstract(参考訳): 近年の研究では、狭い微調整が広範囲にミスアライメントされたLDMを発生させることが示されており、これは「創発的ミスアライメント(emergent misalignment, EM)」と呼ばれる現象である。
いずれにせよ,これらの所見は微調整とアクティベーションステアリングに限られており,文脈内学習(ICL)は残っていない。
EMはICLに現れるのか?
3つのデータセットにまたがって、3つのフロンティアモデルは、64の狭義のインコンテキストの例に対して2%から17%のレートで、256の例で最大58%の一致したレスポンスを生成します。
また,文中の例をそのまま残しながら,ステップバイステップ推論によってEMのメカニズムを解明する。
結果の連鎖を手作業で分析したところ、67.5%のミスアライメントトレースは、無謀または危険な「ペルソナ」を採用して有害な出力を明示的に合理化し、微調整によるEMの先行結果を反映している。
関連論文リスト
- LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints [31.90180597239974]
アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。
我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。
このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
論文 参考訳(メタデータ) (2024-06-06T13:15:37Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。