Fugu-MT 論文翻訳(概要): Confidence Freeze: Early Success Induces a Metastable Decoupling of Metacognition and Behaviour

論文の概要: Confidence Freeze: Early Success Induces a Metastable Decoupling of Metacognition and Behaviour

arxiv url: http://arxiv.org/abs/2603.21043v1
Date: Sun, 22 Mar 2026 03:51:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.205359
Title: Confidence Freeze: Early Success Induces a Metastable Decoupling of Metacognition and Behaviour
Title（参考訳）: 信頼の凍結: 初期の成功はメタ認知と行動のメタスタブルな分離を誘導する
Authors: Zhipeng Zhang, Hongshun He,
Abstract要約: 人間は、否定的な証拠を蓄積しながらも、失敗戦略を実行し続けることで、しばしば不適応の持続性を示す。安定な配置特性ではなく,動的学習状態として永続性を再構築する「信頼性フリーズ」の記述を提案する。
参考スコア（独自算出の注目度）: 20.8047896631941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans must flexibly arbitrate between exploring alternatives and exploiting learned strategies, yet they frequently exhibit maladaptive persistence by continuing to execute failing strategies despite accumulating negative evidence. Here we propose a ``confidence-freeze'' account that reframes such persistence as a dynamic learning state rather than a stable dispositional trait. Using a multi-reversal two-armed bandit task across three experiments (total N = 332; 19,920 trials), we first show that human learners normally make use of the symmetric statistical structure inherent in outcome trajectories: runs of successes provide positive evidence for environmental stability and thus for strategy maintenance, whereas runs of failures provide negative evidence and should raise switching probability. Behaviour in the control group conformed to this normative pattern. However, individuals who experienced a high rate of early success (90\% vs.\ 60\%) displayed a robust and selective distortion after the first reversal: they persisted through long stretches of non-reward (mean = 6.2 consecutive losses) while their metacognitive confidence ratings simultaneously dropped from 5 to 2 on a 7-point scale.
Abstract（参考訳）: 人間は、選択肢の探索と学習戦略の活用を柔軟に仲裁しなければならないが、否定的な証拠を蓄積したにもかかわらず、失敗する戦略を実行し続けることで、しばしば不適応の持続性を示す。ここでは、安定な配置特性ではなく、動的学習状態として永続性を再構成する「自信凍結」のアカウントを提案する。 3つの実験(Total N = 332; 19,920 trial)にまたがるマルチリバースな2本腕バンディットタスクを用いて、人間の学習者が通常、結果の軌跡に固有の対称的な統計構造を利用することを示す。制御群の振る舞いは、この規範的パターンに従っていた。しかし, 早期成功率が高い人(90%以上)は, 早期成功率が高い人(90%以上)であった。 60\%)は、逆転後の頑健で選択的な歪みを示し、非逆転(平均=6.2連続損失)の長い延長を継続し、メタ認知的信頼度は7ポイントスケールで5から2に同時に低下した。

関連論文リスト

BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。両課題に対処する統合フレームワークであるBadCLIP++を提案する。ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文参考訳（メタデータ） (2026-02-19T08:31:16Z)
VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文参考訳（メタデータ） (2026-02-13T03:40:52Z)
Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery [25.522943543082363]
本稿では,エージェントが学習行動を評価し,制御し,回復することを可能にするメタ認知強化学習フレームワークを提案する。提案手法では,値予測エラー安定性(VPES)によって駆動されるメタトラスト変数を導入し,フェールセーフな制御と段階的信頼回復を通じて学習ダイナミクスを変調する。
論文参考訳（メタデータ） (2026-01-28T02:43:03Z)
Post-Training and Test-Time Scaling of Generative Agent Behavior Models for Interactive Autonomous Driving [3.8612647047433217]
グループ相対行動最適化は、行動リアリズムを維持しながら安全性を40%以上改善する。 Warm-Kは、動き選択における一貫性と多様性のバランスをとる温かいスタートのTop-Kサンプリング戦略である。
論文参考訳（メタデータ） (2025-12-15T12:18:50Z)
Disproving the Feasibility of Learned Confidence Calibration Under Binary Supervision: An Information-Theoretic Impossibility [2.1485350418225244]
ニューラルネットワークは、正しい/不正確な監視を使用してトレーニングされた場合、有意義な多様性で適切に校正された信頼推定を同時に学習することはできない。これは、方法論的な失敗ではなく、情報理論的な制約であることを示す。本稿では,アンサンブル不一致と適応型マルチエージェント学習を用いた新しい指導パラダイムを提案する。
論文参考訳（メタデータ） (2025-09-17T19:43:45Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Continual evaluation for lifelong learning: Identifying the stability gap [35.99653845083381]
我々は、新しいタスクの学習を始める際に、一般的な最先端の手法のセットを忘れることに苦しむことを示す。興味深いが潜在的に問題となる現象を安定性ギャップと呼ぶ。我々は,各項目評価を用いた連続評価のためのフレームワークを構築し,最悪の場合のパフォーマンスを定量化するための新しい指標セットを定義する。
論文参考訳（メタデータ） (2022-05-26T15:56:08Z)
Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。本研究では,長尾分布下における敵対的脆弱性と防御について検討する。我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文参考訳（メタデータ） (2021-04-06T17:53:08Z)
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文参考訳（メタデータ） (2020-07-27T22:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。