論文の概要: Learning under noisy supervision is governed by a feedback-truth gap
- arxiv url: http://arxiv.org/abs/2602.16829v1
- Date: Wed, 18 Feb 2026 19:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.317722
- Title: Learning under noisy supervision is governed by a feedback-truth gap
- Title(参考訳): 騒々しい監督下での学習は、フィードバックと真実のギャップによって制御される
- Authors: Elan Schonfeld, Elias Wisnia,
- Abstract要約: タスク構造を評価できるよりも早くフィードバックが吸収されると、学習者は真実よりもフィードバックを優先する。
我々は、ノイズラベル(30データセット、2700ラン)、人間の確率的リバースラーニング(N = 292)、同時脳波(N = 25)でトレーニングされたニューラルネットワークでこの予測を検証した。
このギャップは、ノイズの多い監督の下での学習の基本的な制約であり、その結果は各システムが採用する規制に依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When feedback is absorbed faster than task structure can be evaluated, the learner will favor feedback over truth. A two-timescale model shows this feedback-truth gap is inevitable whenever the two rates differ and vanishes only when they match. We test this prediction across neural networks trained with noisy labels (30 datasets, 2,700 runs), human probabilistic reversal learning (N = 292), and human reward/punishment learning with concurrent EEG (N = 25). In each system, truth is defined operationally: held-out labels, the objectively correct option, or the participant's pre-feedback expectation - the only non-circular reference decodable from post-feedback EEG. The gap appeared universally but was regulated differently: dense networks accumulated it as memorization; sparse-residual scaffolding suppressed it; humans generated transient over-commitment that was actively recovered. Neural over-commitment (~0.04-0.10) was amplified tenfold into behavioral commitment (d = 3.3-3.9). The gap is a fundamental constraint on learning under noisy supervision; its consequences depend on the regulation each system employs.
- Abstract(参考訳): フィードバックがタスク構造よりも早く吸収されると、学習者は真実よりもフィードバックを優先する。
2時間スケールのモデルでは、2つのレートが違って、一致する場合にのみ消える場合、このフィードバックと真実のギャップは避けられない。
この予測は、ノイズラベル(30データセット、2700ラン)、人間の確率的逆転学習(N = 292)、同時脳波による人間報酬/罰学習(N = 25)を用いてトレーニングされたニューラルネットワークで検証する。
各システムでは、真理は運用的に定義されている: 保持されたラベル、客観的に正しいオプション、または参加者のフィードバック前期待 - フィードバック後脳波からデオード可能な唯一の非循環参照。
密集したネットワークは記憶として蓄積し、スパース・レジデンシャルな足場はそれを抑制し、人間は過度に過剰なコミットを発生させ、活発に回復した。
ニューラルオーバーコミット (~0.04-0.10) は10倍の振る舞いのコミットメント (d = 3.3-3.9) に増幅された。
このギャップは、ノイズの多い監督の下での学習の基本的な制約であり、その結果は各システムが採用する規制に依存する。
関連論文リスト
- Rate or Fate? RLV$^\varepsilon$R: Reinforcement Learning with Verifiable Noisy Rewards [2.0987013818856877]
検証可能な報酬を伴う強化学習(RLVR)は、LLMを訓練するための単純だが強力なパラダイムである。
しかし実際には、検証器はほとんど決してクリーンユニットテストではなく、限られたコーナーケースのみを探索する。
検証ノイズは単に学習(レート)を遅くするだけなのか、それとも結果(フィート)を覆すことができるのか?
論文 参考訳(メタデータ) (2026-01-07T21:31:26Z) - The Mirror Loop: Recursive Non-Convergence in Generative Reasoning Systems [0.0]
外部からのフィードバックのない再帰的な自己評価は、進歩よりもむしろ改革をもたらすことが多い。
3つのモデル(OpenAI GPT-4o-mini, Anthropic Claude 3 Haiku, Google Gemini 2.0 Flash)と4つのタスクファミリー(パラメータ、コード、説明、リフレクション)にまたがる144の推論シーケンスについて検討する。
我々はこれを、生成的推論における自己補正の構造的限界の証拠として解釈する。
論文 参考訳(メタデータ) (2025-10-23T07:53:26Z) - Peer Effect Estimation in the Presence of Simultaneous Feedback and Unobserved Confounders [16.96064437725128]
既存の方法は、同時にフィードバックを無視しながら、観測されていない共同創設者に対処するか、あるいは、制限された線形仮定の下でフィードバックを考慮に入れます。
DIG2RSIは,同時フィードバックと非観測共起の両方に対処する新しいディープラーニングフレームワークである。
我々は、標準条件下での推定器の整合性を証明し、真のピア効果の回復を確実にする。
論文 参考訳(メタデータ) (2025-08-05T05:49:49Z) - Weakly-Supervised Contrastive Learning for Imprecise Class Labels [50.57424331797865]
正対と負対を定義するために「連続的意味的類似性」の概念を導入する。
弱教師付きコントラスト学習のためのグラフ理論フレームワークを提案する。
我々のフレームワークは非常に多用途であり、多くの弱い教師付き学習シナリオに適用できる。
論文 参考訳(メタデータ) (2025-05-28T06:50:40Z) - The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - An Empirical Study of Implicit Regularization in Deep Offline RL [44.62587507925864]
3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討する。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を同定する。
論文 参考訳(メタデータ) (2022-07-05T15:07:31Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。