論文の概要: Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost
- arxiv url: http://arxiv.org/abs/2605.27969v1
- Date: Wed, 27 May 2026 05:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.758753
- Title: Boundary Suppression Asymmetry in Post-trained Assistants: Over-expansion as a Controllability Cost
- Title(参考訳): 訓練後アシスタントにおける境界抑制非対称性:制御性コストとしての過膨張
- Authors: Jiarui Han,
- Abstract要約: 訓練後の言語モデルアシスタントは、アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アンダー・アン
我々は、アンダーアンサーリング対策がベースラインよりも引き戻すのが難しいことを示している。
全体として、ポストトレーニングは方向特異的な制御性コストを生み出す可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-trained language-model assistants are often optimized to avoid under-answering, encouraging complete, helpful, cautious, and proactive responses. We ask whether this optimization creates asymmetric controllability costs: when users explicitly request narrower answers, which assistant behaviors remain suppressible, and which continue to shape the response? We study this problem as boundary-suppression asymmetry. Prompt-side probes across multiple high-level response dimensions suggest a selective cost, concentrated around `too-much assistant' directions such as over-completion, extra help, and anti-underanswering. Using controlled assistant-policy variants derived from a shared base model, we find that anti-underanswering policies are harder to pull back than the baseline under matched boundary-control evaluations, while minimal-boundary variants generally avoid this anti-side upward shift in the direct boundary-control comparisons. Mechanism-oriented probes point beyond longer default outputs, pure EOS failure, uncertainty compensation, and local continuation bias, while robustness checks preserve the main anti-over-baseline ordering under shared-system and larger-scale settings. The evidence supports a mixed planning/stopping account, where content-budget overshoot and continuation persistence jointly make boundary correction harder. Overall, post-training may create direction-specific controllability costs: some helpful assistant tendencies remain easy to invoke, yet harder to locally suppress.
- Abstract(参考訳): 訓練後の言語モデルアシスタントは、下層回答を避け、完全な、役に立つ、慎重で、前向きな応答を奨励するために最適化されることが多い。
我々は、この最適化が非対称な制御性コストを生み出すかどうかを問う。ユーザが明示的により狭い回答を要求するとき、どのアシスタントの動作が抑制可能で、どのレスポンスが引き続き形作られ続けるか?
この問題を境界圧縮非対称性として研究する。
複数の高レベル応答次元にわたるプロンプト側プローブは選択コストを示唆しており、オーバーコンプリート、余分なヘルプ、アンダーアンサーリングなどの「過剰なアシスタント」の方向に集中している。
共有ベースモデルから導出される制御型補助政治変種を用いて、一致した境界制御評価の下では、反アンダーアンサーリングポリシーはベースラインよりも引き戻すのが難しく、一方、最小限の境界制御変種は、直接境界制御比較において、この反側上向きシフトを避けるのが一般的である。
メカニズム指向プローブは、より長いデフォルト出力、純粋なEOS障害、不確実性補償、局所的な継続バイアス、ロバストネスチェックは、共有システムと大規模設定下でのメインの反オーバーベースライン順序を保存する。
このエビデンスでは、コンテンツ予算のオーバーシュートと継続持続が境界修正を難しくする、混合計画/ストッピングのアカウントが支持されている。
全体として、ポストトレーニングは方向特異的な制御性コストを発生させる可能性がある。
関連論文リスト
- AI Alignment via Incentives and Correction [14.986111703734222]
我々は、抑止と執行の法・経済モデルのレンズを通してAIアライメントを研究する。
解決者は、説得力があるが誤った答えを出し、不確実性を隠蔽したり、急激なショートカットを悪用する恩恵を受けることができる。
この相互作用を、主成分が共同補正結果よりも報酬を選択する2エージェントモデルで定式化する。
論文 参考訳(メタデータ) (2026-05-02T23:28:02Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - From Sycophancy to Sensemaking: Premise Governance for Human-AI Decision Making [0.0]
低フリクションアシスタントはサイコファンになり、暗黙の仮定を叩き、検証コストを専門家に押し付ける。
我々は、信頼できる人間とAIのパートナーシップには、回答生成から共同前提ガバナンスへの移行が必要であると主張している。
論文 参考訳(メタデータ) (2026-02-02T17:42:54Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm [44.622203626828345]
対話シーケンスを通じて動的ユーザインテントを利用するシークエンシャルリコメンダは、敵攻撃に対して脆弱である。
本報告では, ユーザインタラクションを微妙に汚染し, ターゲットの誤予測を誘発するプロファイル汚染攻撃について述べる。
本稿では,2段階の最適化フレームワークを多方向強化学習と相乗化して,対向効果とステルスネスのバランスをとる制約付き強化駆動攻撃 CREAT を提案する。
論文 参考訳(メタデータ) (2025-11-12T15:00:52Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。