論文の概要: Where Paths Split: Localized, Calibrated Control of Moral Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.03609v1
- Date: Tue, 05 May 2026 10:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.894032
- Title: Where Paths Split: Localized, Calibrated Control of Moral Reasoning in Large Language Models
- Title(参考訳): 経路分割:大規模言語モデルにおけるモーラル推論の局所化・校正制御
- Authors: Chenchen Yuan, Zheyu Zhang, Gjergji Kasneci,
- Abstract要約: 本稿では、トランスブロック内の最小分岐点をトレースし、編集するConvergent-Divergent Routingを提案する。
これらのローチで非ターゲットブランチをゲートすることは、上流の計算をそのまま残しながら下流の伝播をブロックする。
実生活における道徳的ジレンマの実験は、我々の方法が選好を確実に達成し、概ね一般的な能力を保っていることを示している。
- 参考スコア(独自算出の注目度): 15.280774412504101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often display heterogeneous moral preferences across settings. We study inference-time steering toward a desired ethical framework while preserving general competence. We present Convergent-Divergent Routing, which traces and edits minimal branch points inside transformer blocks where ethical-framework-related pathways first converge and then diverge. Gating non-target branches at these loci blocks the downstream propagation while leaving upstream computations intact. We find that this intervention alone increases targeted ethical-framework reasoning. To achieve fine-grained control, we adapt Common Spatial Patterns to the residual stream and extract, for each branch-point layer, a pair of directions that discriminate between utilitarian and deontological frameworks. We then introduce Dual Logit Calibration, a closed-form, minimum-$\ell_2$-norm update that moves the residual within this two-dimensional subspace so the resulting directional projections align with user-specified preference weights. Experiments on real-life moral dilemmas show that our method reliably achieves preference calibration and largely preserves general capabilities, outperforming recent baselines while providing an interpretable mechanism.
- Abstract(参考訳): 大規模な言語モデルは、しばしば設定にまたがって不均一な道徳的嗜好を示す。
我々は,一般能力を維持しつつ,所望の倫理的枠組みに向けた推論時ステアリングについて検討する。
本稿では、倫理的枠組みに関連する経路が最初に収束して分岐するトランスフォーマーブロック内の最小分岐点をトレースし、編集するConvergent-Divergent Routingを提案する。
これらのローチで非ターゲットブランチをゲートすることは、上流の計算をそのまま残しながら下流の伝播をブロックする。
この介入だけで、ターゲットとなる倫理的枠組みの推論が増加することが分かっています。
細粒度制御を実現するため,各分岐点層に共通空間パターンを適用して抽出する。
次に、Dual Logit Calibrationを導入する。これはクローズドフォームで最小$$\ell_2$-normの更新で、この2次元部分空間内で残余を移動させ、その結果の方向投影とユーザの指定した嗜好重みを一致させる。
実生活におけるモラルジレンマの実験から,提案手法は選好校正を確実に達成し,汎用性を保ちつつ,解釈可能な機構を提供しながら,近年のベースラインを上回っていることが明らかとなった。
関連論文リスト
- Recall to Predict: Grounding Motion Forecasting in Interpretable Motion Bank [9.873160019979602]
総合的な「モーションバンク」における予測を基盤としたエンドツーエンドの差別化可能なフレームワークを提案する。
空白のスレートから経路を回帰するのではなく、新しいアンカー検索層を用いて動的に明示的な動きを復元する。
提案手法では,Argoverse 2 および Open Motion データセット上での競合するマルチモーダル精度を実現しつつ,標準潜時クエリの "ブラックボックス" を排除している。
論文 参考訳(メタデータ) (2026-05-02T11:31:26Z) - Defeasible Conditional Obligation in a Two-tiered Preference-based Semantics (Extended Version) [0.0]
この論文は、ダイアド・デオン論理のためのハンソン・ルイススタイルの選好意味論を拡張した。
非単調な推論機構により、新しい、潜在的に矛盾する情報が入ってくると、事前に導かれた義務が取り下げられる。
論文 参考訳(メタデータ) (2026-04-28T11:04:26Z) - Binary Flow Matching: Prediction-Loss Space Alignment for Robust Learning [23.616336786063552]
フローマッチングは、生成モデリングの強力なフレームワークとして登場した。
速度に基づく目的と結合した場合に発生する潜在構造ミスマッチを同定する。
信号空間に対する目的の再調整が特異重み付けを排除していることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:02:30Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models [0.0]
大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内部化する。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
我々は,このバイアスを会話の文脈とは無関係に分離する,単ターン強制選択ベンチマークであるBeaconを紹介した。
論文 参考訳(メタデータ) (2025-10-19T06:36:57Z) - Ambiguity-aware Point Cloud Segmentation by Adaptive Margin Contrastive Learning [65.94127546086156]
本稿では,ポイントクラウド上のセマンティックセマンティックセグメンテーションのための適応的マージン比較学習法を提案する。
まず,両立度推定フレームワークにコントラスト学習を組み込んだAMContrast3Dを設計する。
共同トレーニングの洞察に触発されて、並列にトレーニングされた2つのブランチとAMContrast3D++を統合することを提案する。
論文 参考訳(メタデータ) (2025-07-09T07:00:32Z) - Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。
活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。
このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文 参考訳(メタデータ) (2025-03-14T07:58:26Z) - Optimal lower bounds for logistic log-likelihoods [1.3124513975412255]
ロジット変換は、おそらく線形設定を超えて最も広く採用されているリンク関数である。
2次よりも鋭い接する下界が、結果として生じるマイノライザーのトラクタビリティを損なうことなく導出できるかどうかはまだ分かっていない。
本稿は、新しい2次下界の設計と研究を通じて、このような挑戦的な問題に対処する。
論文 参考訳(メタデータ) (2024-10-14T09:09:33Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。