論文の概要: AntiPaSTO: Self-Supervised Steering of Moral Reasoning
- arxiv url: http://arxiv.org/abs/2601.07473v2
- Date: Sat, 17 Jan 2026 22:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:44.994886
- Title: AntiPaSTO: Self-Supervised Steering of Moral Reasoning
- Title(参考訳): AntiPaSTO: 自己監督型モーラル推論のステアリング
- Authors: Michael J. Clark,
- Abstract要約: 我々は反並列軸に沿って表現を分離するAntiPaSTOを導入し、コヒーレンス制約により崩壊を防ぐ。
人間の入力は最小限であり、テンプレート文に2つのコントラストのある単語を挿入する。
Gemma-3-1Bで800組のこのようなペアを使用して、AntiPaSTOはDailyDilemmasで6.9倍のベースラインを獲得している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As models grow more capable, human supervision breaks down: labels don't scale, outputs can be gamed, and training doesn't generalize. Scalable oversight requires steering methods that are internal, self-supervised, and transfer out-of-distribution; existing methods satisfy some but not all three. We introduce AntiPaSTO, which separates representations along an anti-parallel axis ($α=\pm1$ produce opposite shifts), with coherence constraints preventing collapse. Human input is minimal: two contrasting words inserted into template sentences, no preference labels. Using 800 such pairs on Gemma-3-1B, AntiPaSTO beats prompting baselines by 6.9 times on DailyDilemmas and maintains bidirectional control where prompting triggers refusal.
- Abstract(参考訳): ラベルはスケールせず、アウトプットはゲーム化でき、トレーニングは一般化しません。
スケーラビリティの監視には、内部で、自己管理され、配布外転送されるステアリングメソッドが必要である。
我々は反平行軸(α=\pm1$ produce opposite shifts)に沿って表現を分離するAntiPaSTOを導入し、コヒーレンス制約は崩壊を防ぐ。
人間の入力は最小限であり、テンプレート文に2つのコントラストのある単語を挿入する。
Gemma-3-1B上の800個のペアを使用して、AntiPaSTOはDailyDilemmasのベースラインを6.9倍にし、トリガーを拒絶する双方向制御を維持する。
関連論文リスト
- Selective Weak-to-Strong Generalization [75.5234414246513]
不要な場合の弱い監視を避けるために,選択的なW2SGフレームワークを提案する。
我々は二項分類器P(IK)を訓練し、強いモデルが答えられる質問を特定し、その自己生成ラベルをアライメントに使用する。
論文 参考訳(メタデータ) (2025-11-18T06:03:25Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - DIO: Refining Mutual Information and Causal Chain to Enhance Machine Abstract Reasoning Ability [4.017760528208121]
我々は、パターン、推論、問題解決知能のベンチマークであるRaven's Progressive Matrices (RPM)に取り組む。
完全な因果連鎖イメージ$rightarrow$属性$rightarrow$プログレッシブパターンをモデル化し、ベースラインDIOを構築します。
しかし、DIOの低境界目的には人間の論理が組み込まれていないため、3つの改良点が提示される。
論文 参考訳(メタデータ) (2025-08-21T09:23:51Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - Concept Steerers: Leveraging K-Sparse Autoencoders for Test-Time Controllable Generations [5.2956273221301835]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。