論文の概要: Comparative reversal learning reveals rigid adaptation in LLMs under non-stationary uncertainty
- arxiv url: http://arxiv.org/abs/2604.04182v1
- Date: Sun, 05 Apr 2026 16:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.965818
- Title: Comparative reversal learning reveals rigid adaptation in LLMs under non-stationary uncertainty
- Title(参考訳): 非定常的不確実性下でのLLMの剛性適応と逆学習
- Authors: Haomiaomiao Wang, Tomás E Ward, Lili Zhang,
- Abstract要約: 非定常環境では、エージェントはイベントが変化するときに事前に学習されたアクション値を変更する必要がある。
大規模言語モデル(LLM)を3つの潜在状態を持つ2オプション確率確率逆学習タスクにおける逐次決定ポリシーとして扱い、タイムアウトまたはタイムアウトのいずれかによって引き起こされるイベントを切り替える。
本稿では,決定論的固定遷移サイクルとボラティリティを増大させる基準ランダムスケジュールを比較し,DeepSeek-V3.2,Gemini-3,GPT-5.2を人間の行動基準として評価する。
- 参考スコア(独自算出の注目度): 1.5456780324506676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Non-stationary environments require agents to revise previously learned action values when contingencies change. We treat large language models (LLMs) as sequential decision policies in a two-option probabilistic reversal-learning task with three latent states and switch events triggered by either a performance criterion or timeout. We compare a deterministic fixed transition cycle to a stochastic random schedule that increases volatility, and evaluate DeepSeek-V3.2, Gemini-3, and GPT-5.2, with human data as a behavioural reference. Across models, win-stay was near ceiling while lose-shift was markedly attenuated, revealing asymmetric use of positive versus negative evidence. DeepSeek-V3.2 showed extreme perseveration after reversals and weak acquisition, whereas Gemini-3 and GPT-5.2 adapted more rapidly but still remained less loss-sensitive than humans. Random transitions amplified reversal-specific persistence across LLMs yet did not uniformly reduce total wins, demonstrating that high aggregate payoff can coexist with rigid adaptation. Hierarchical reinforcement-learning (RL) fits indicate dissociable mechanisms: rigidity can arise from weak loss learning, inflated policy determinism, or value polarisation via counterfactual suppression. These results motivate reversal-sensitive diagnostics and volatility-aware models for evaluating LLMs under non-stationary uncertainty.
- Abstract(参考訳): 非定常環境では、エージェントはイベントが変化するときに事前に学習されたアクション値を変更する必要がある。
大規模言語モデル(LLM)を3つの潜在状態を持つ2オプション確率確率逆学習タスクにおける逐次決定ポリシーとして扱い、性能基準またはタイムアウトによって引き起こされるイベントを切り替える。
本稿では, 決定論的固定遷移サイクルと, ボラティリティを増大させる確率的ランダムスケジュールを比較し, 人間の行動基準としてDeepSeek-V3.2, Gemini-3, GPT-5.2を評価する。
モデル全体では、ウィンステイは天井の近くにあり、負けシフトは顕著に減衰し、正と負の証拠の非対称な使用が明らかになった。
DeepSeek-V3.2は逆転と弱い獲得の後に極端な持続性を示したが、Gemini-3とGPT-5.2はより迅速に適応した。
ランダム遷移はLLMの反比持続性を増幅するが、総当たりの総和は均一に減少せず、高い累積ペイオフは剛性適応と共存することを示した。
剛性は、弱い損失学習、膨らんだ政策決定論、あるいは反ファクト的抑制による価値分極から生じうる。
これらの結果は、非定常不確実性下でのLSMの評価のためのリバーサル感受性診断とボラティリティ認識モデルに動機付けられる。
関連論文リスト
- Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model [10.781664119473966]
本稿では,ロールアウトの成功と失敗を予測するための統一的不確実性定量化手法を提案する。
本手法は, 故障予測精度を大幅に向上し, 故障検出のための信頼性の高い信号を得る。
論文 参考訳(メタデータ) (2026-03-18T22:52:03Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - "I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time [1.570719611178015]
大規模言語モデル(LLM)の推論失敗は通常、世代末にのみ測定されるが、プロセスレベルのブレークダウンとして多くの障害が現れる。
連続的なステップ分布シフト(JSD)と不確実性(エントロピー)を組み合わせた単純な不安定信号を定義する。
GSM8KとHotpotQA全体で、不安定性はAUCで間違った解を予測し、単調バケットレベルの精度を低下させる。
論文 参考訳(メタデータ) (2026-02-02T22:11:25Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning [19.099363114326355]
大規模言語モデル(LLM)エージェントは、構造化されたバイオメディカルデータ環境にますますデプロイされる。
クエリ条件付きマルチテーブル要約のための不確実性認識エージェントを提案する。
論文 参考訳(メタデータ) (2025-09-02T15:12:10Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - FARCLUSS: Fuzzy Adaptive Rebalancing and Contrastive Uncertainty Learning for Semi-Supervised Semantic Segmentation [26.585985828583304]
半教師付きセマンティックセグメンテーション(SSSS)は、ラベルのないデータを効果的に活用する上で、永続的な課題に直面している。
現在のアプローチは、しばしば支配階級を優先する厳格なしきい値によって不確実な地域を捨てる。
我々は,不確実性を4つの主要コンポーネントを通じて学習資産に変換する総合的な枠組みを導入する。
論文 参考訳(メタデータ) (2025-06-11T03:47:08Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。