論文の概要: ARREST: Adversarial Resilient Regulation Enhancing Safety and Truth in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.04394v1
- Date: Wed, 07 Jan 2026 21:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.920649
- Title: ARREST: Adversarial Resilient Regulation Enhancing Safety and Truth in Large Language Models
- Title(参考訳): ARREST: 大規模言語モデルにおける安全性と真実を向上する対抗的レジリエントな規制
- Authors: Sharanya Dasgupta, Arkaprabha Basu, Sujoy Nath, Swagatam Das,
- Abstract要約: LLMにおける現実的および安全的障害は、その潜在活性化空間における表象的不整合から生じると論じる。
ドリフトした特徴を特定し,修正する統合フレームワークであるARRESTを提案する。
- 参考スコア(独自算出の注目度): 17.130698952440316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human cognition, driven by complex neurochemical processes, oscillates between imagination and reality and learns to self-correct whenever such subtle drifts lead to hallucinations or unsafe associations. In recent years, LLMs have demonstrated remarkable performance in a wide range of tasks. However, they still lack human cognition to balance factuality and safety. Bearing the resemblance, we argue that both factual and safety failures in LLMs arise from a representational misalignment in their latent activation space, rather than addressing those as entirely separate alignment issues. We hypothesize that an external network, trained to understand the fluctuations, can selectively intervene in the model to regulate falsehood into truthfulness and unsafe output into safe output without fine-tuning the model parameters themselves. Reflecting the hypothesis, we propose ARREST (Adversarial Resilient Regulation Enhancing Safety and Truth), a unified framework that identifies and corrects drifted features, engaging both soft and hard refusals in addition to factual corrections. Our empirical results show that ARREST not only regulates misalignment but is also more versatile compared to the RLHF-aligned models in generating soft refusals due to adversarial training. We make our codebase available at https://github.com/sharanya-dasgupta001/ARREST.
- Abstract(参考訳): 複雑な神経化学的プロセスによって駆動される人間の認知は、想像と現実の間を振動させ、このような微妙なドリフトが幻覚や不安全な関連に繋がるたびに自己正当性を学ぶ。
近年,LLMは様々なタスクにおいて顕著な性能を発揮している。
しかし、それらは事実と安全性のバランスをとる人間の認識を欠いている。
この類似性を踏まえて、LLMにおける事実的および安全性上の失敗は、完全に別個のアライメント問題として扱うのではなく、その潜在活性化空間における表現的ミスアライメントから生じると論じる。
我々は、変動を理解するために訓練された外部ネットワークが、モデルパラメータ自体を微調整することなく、真偽を規制し、安全でない出力を安全に出力するために、モデルに選択的に介入できると仮定する。
この仮説を反映したARREST(Adversarial Resilient Regulation Enhancing Safety and Truth)を提案する。
実験の結果,ARRESTは不整合を規制するだけでなく,RLHF対応モデルよりも汎用性が高いことがわかった。
コードベースはhttps://github.com/sharanya-dasgupta001/ARRESTで公開しています。
関連論文リスト
- The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs [9.470098715212087]
真実性を高めることは 安全性に悪影響を及ぼす
本稿では, 事実の精度向上が, 拒否行動の弱化を招きやすいことを示す。
スパースオートエンコーダを用いた幻覚特徴から拒絶関連特徴を分離する手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T04:30:58Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts [55.70338710797578]
関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T00:40:34Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:55:50Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。