論文の概要: State-Dependent Refusal and Learned Incapacity in RLHF-Aligned Language Models
- arxiv url: http://arxiv.org/abs/2512.13762v1
- Date: Mon, 15 Dec 2025 14:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.433449
- Title: State-Dependent Refusal and Learned Incapacity in RLHF-Aligned Language Models
- Title(参考訳): RLHF対応言語モデルにおける状態依存的拒絶と学習能力
- Authors: TK Lee,
- Abstract要約: 本稿では,長期的相互作用における政策関連行動選択性監査のためのケーススタディ手法を提案する。
1つの86ターンの対話セッションでは、同じモデルが広範で非感度なドメインで通常性能(NP)を示し、プロバイダやポリシーに敏感なドメインで繰り返し機能的拒絶(FR)を生成する。
我々は,3つの反応系 (NP, FR, Meta-Narrative; MN) を運用し,MNロール・フレーミング・ナラティブが同一の文脈での拒絶と共起する傾向があることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely deployed as general-purpose tools, yet extended interaction can reveal behavioral patterns not captured by standard quantitative benchmarks. We present a qualitative case-study methodology for auditing policy-linked behavioral selectivity in long-horizon interaction. In a single 86-turn dialogue session, the same model shows Normal Performance (NP) in broad, non-sensitive domains while repeatedly producing Functional Refusal (FR) in provider- or policy-sensitive domains, yielding a consistent asymmetry between NP and FR across domains. Drawing on learned helplessness as an analogy, we introduce learned incapacity (LI) as a behavioral descriptor for this selective withholding without implying intentionality or internal mechanisms. We operationalize three response regimes (NP, FR, Meta-Narrative; MN) and show that MN role-framing narratives tend to co-occur with refusals in the same sensitive contexts. Overall, the study proposes an interaction-level auditing framework based on observable behavior and motivates LI as a lens for examining potential alignment side effects, warranting further investigation across users and models.
- Abstract(参考訳): 大規模言語モデル(LLM)は汎用ツールとして広くデプロイされているが、標準的な定量的ベンチマークでは捉えられない振る舞いパターンが拡張される可能性がある。
本稿では,長期的相互作用における政策関連行動選択性監査のための定性的なケーススタディ手法を提案する。
1つの86ターンの対話セッションでは、同じモデルが広義の非感受性ドメインで正規性能(NP)を示し、またプロバイダやポリシーに敏感なドメインで機能的拒絶(FR)を繰り返し生成し、NPとFRの間に一貫した非対称性をもたらす。
学習した無力感を類推として,学習した無力感(LI)を,意図や内的メカニズムを示唆することなく,この選択的無力感を抑えるための行動記述子として導入した。
我々は,3つの反応系 (NP, FR, Meta-Narrative; MN) を運用し,MNロール・フレーミング・ナラティブが同一の文脈での拒絶と共起する傾向があることを示す。
本研究は,観察可能な行動に基づくインタラクションレベル監査フレームワークを提案するとともに,潜在的なアライメント側効果を調べるためのレンズとしてLIを動機付け,ユーザやモデル間のさらなる調査を保証している。
関連論文リスト
- Model-Based Reinforcement Learning Under Confounding [3.5690236380446163]
文脈的マルコフ決定過程 (C-MDP) におけるモデルに基づく強化学習について検討し, 文脈が観測されず, オフラインデータセットのコンバウンディングを誘導する。
本研究では,代用変数の軽度可逆条件下での観測可能な状態-反応-逆軌道のみを用いて,共起型報酬期待を識別する近位オフポリシー評価手法を適用した。
提案した定式化により,コンテキスト情報が観測できない,利用できない,収集が不可能な,統合された環境下でのモデル学習と計画が可能である。
論文 参考訳(メタデータ) (2025-12-08T13:02:00Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models [16.328341121232484]
文脈介入の効果を測定するために因果効果推定手法を適用した。
本研究はトランスフォーマーの無関係な変化に対する堅牢性と影響の高い変化に対する感受性について検討する。
論文 参考訳(メタデータ) (2024-04-03T10:22:35Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Principles from Clinical Research for NLP Model Generalization [10.985226652193543]
一般化可能性の基礎を探求し、それに影響を与える要因について検討する。
関係抽出タスクにおけるエンティティ間の距離などの学習がモデルの内部妥当性にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-11-07T02:17:25Z) - Estimating the Causal Effects of Natural Logic Features in Neural NLI
Models [2.363388546004777]
我々は、広く使われているモデルにおいて、体系的な推論失敗を特定し、定量化するのに十分な構造と規則性を持った推論の特定のパターンに着目する。
文脈介入の効果を測定するために因果効果推定手法を適用した。
異なる設定におけるNLPモデルの因果解析に関する関連する研究に続いて、NLIタスクの方法論を適用して比較モデルプロファイルを構築する。
論文 参考訳(メタデータ) (2023-05-15T12:01:09Z) - Interventional Probing in High Dimensions: An NLI Case Study [2.1028463367241033]
自然言語推論タスク(NLI)の「自然な論理」フラグメントの中間にある意味的特徴を検出するための探索戦略が示されている。
本研究では,これらの意味的特徴がNLI分類に与える影響を調べるために,新しい,既存の表現レベルの介入を行う。
論文 参考訳(メタデータ) (2023-04-20T14:34:31Z) - Modeling Inter-Aspect Dependencies with a Non-temporal Mechanism for
Aspect-Based Sentiment Analysis [70.22725610210811]
アスペクト間の依存関係をモデル化することでABSAタスクを強化するための新しい非時間的メカニズムを提案する。
我々は、ABSAタスクにおけるよく知られたクラス不均衡の問題に注目し、適切に分類されたインスタンスに割り当てられた損失を下げて対処する。
論文 参考訳(メタデータ) (2020-08-12T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。