Fugu-MT 論文翻訳(概要): Generalization vs. Specialization under Concept Shift

論文の概要: Generalization vs. Specialization under Concept Shift

arxiv url: http://arxiv.org/abs/2409.15582v2
Date: Thu, 03 Jul 2025 05:05:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 15:37:12.784833
Title: Generalization vs. Specialization under Concept Shift
Title（参考訳）: 概念シフト下における一般化と特殊化
Authors: Alex Nguyen, David J. Schwab, Vudtiwat Ngampruetikorn,
Abstract要約: 我々は、概念シフトの下で尾根回帰を分析する。熱力学限界における予測リスクの正確な表現を導出する。我々のMNISTとFashionMNISTに関する実験は、この興味深い挙動が分類問題にも存在することを示唆している。
参考スコア（独自算出の注目度）: 12.196508752999797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning models are often brittle under distribution shift, i.e., when data distributions at test time differ from those during training. Understanding this failure mode is central to identifying and mitigating safety risks of mass adoption of machine learning. Here we analyze ridge regression under concept shift -- a form of distribution shift in which the input-label relationship changes at test time. We derive an exact expression for prediction risk in the thermodynamic limit. Our results reveal nontrivial effects of concept shift on generalization performance, including a phase transition between weak and strong concept shift regimes and nonmonotonic data dependence of test performance even when double descent is absent. Our theoretical results are in good agreement with experiments based on transformers pretrained to solve linear regression; under concept shift, too long context length can be detrimental to generalization performance of next token prediction. Finally, our experiments on MNIST and FashionMNIST suggest that this intriguing behavior is present also in classification problems.
Abstract（参考訳）: 機械学習モデルは、しばしば分散シフトの下で脆く、すなわち、テスト時のデータ分布がトレーニング中と異なる場合である。この障害モードを理解することは、機械学習の大量導入による安全性リスクを特定し緩和することの中心である。ここでは、入力-ラベル関係がテスト時に変化する分布シフトの形で、概念シフトの下でリッジ回帰を分析する。熱力学限界における予測リスクの正確な表現を導出する。この結果から, 概念シフトが一般化性能に与える影響は, 弱い概念シフトと強い概念シフトの相転移や, 二重降下が欠如している場合でも, テスト性能の非単調なデータ依存など, 明らかとなった。我々の理論的結果は線形回帰を解くために事前訓練された変換器に基づく実験とよく一致しており、概念シフトでは、コンテキスト長が長すぎることが次のトークン予測の一般化性能に寄与する。最後に,MNIST と FashionMNIST に関する実験から,この興味深い挙動が分類問題にも現れることが示唆された。

関連論文リスト

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文参考訳（メタデータ） (2025-12-21T08:10:26Z)
When the Past Misleads: Rethinking Training Data Expansion Under Temporal Distribution Shifts [1.2797107590517534]
本研究では,過去のデータトレーニングウィンドウの拡大が,予測モデルの性能とアルゴリズム的公正性に与える影響について検討する。公平性の観点から言えば、モデルがより偏りのある予測を生成するのは、概念のシフトの大きさが社会デマログラフ群によって異なる場合である。トレーニングウィンドウを拡張する際には、コンセプトシフトがパフォーマンスの劣化に重要な要因であることが分かりました。
論文参考訳（メタデータ） (2025-09-01T02:05:39Z)
One-Layer Transformers are Provably Optimal for In-context Reasoning and Distributional Association Learning in Next-Token Prediction Tasks [11.06955946904705]
そこで本研究では,一層変圧器の非雑音・雑音環境における近似能力と収束挙動について検討した。我々の研究は、線形およびReLUの両方の注意を払って、確実にベイズ最適である一層変圧器のクラスが存在することを示すことによってギャップに対処する。
論文参考訳（メタデータ） (2025-05-21T01:26:44Z)
Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文参考訳（メタデータ） (2025-04-04T04:42:38Z)
Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文参考訳（メタデータ） (2024-06-17T16:24:23Z)
Exploring Data Augmentations on Self-/Semi-/Fully- Supervised Pre-trained Models [24.376036129920948]
本研究では,データ拡張が視力事前訓練モデルの性能に与える影響について検討する。ランダム消去(Random Erasing)、CutOut(CutOut)、CutMix(CutMix)、MixUp(MixUp)という4種類のデータ拡張を適用します。画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなどの視覚タスクにおける性能について報告する。
論文参考訳（メタデータ） (2023-10-28T23:46:31Z)
GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations [77.34726150561087]
本稿では,ディープニューラルネットワークにおける一般化誤差検出のための総合的アプローチを提案する。 GITは勾配情報と不変変換の利用を組み合わせる。本実験は,各種ネットワークアーキテクチャの最先端技術と比較して,GITの優れた性能を示すものである。
論文参考訳（メタデータ） (2023-07-05T22:04:38Z)
Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues [19.4921353136871]
実験サンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと、テストデータが観察された不変性と急激な特徴の異なる相関を示す場合の相関シフトの2種類について検討した。そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。
論文参考訳（メタデータ） (2023-05-09T23:40:23Z)
Adapting to Continuous Covariate Shift via Online Density Ratio Estimation [64.8027122329609]
分散シフトへの対処は、現代の機械学習における中心的な課題の1つだ。歴史的情報を適切に再利用するオンライン手法を提案する。我々の密度比推定法は, ダイナミックなリセットバウンドを楽しむことにより, 良好に動作できることが証明された。
論文参考訳（メタデータ） (2023-02-06T04:03:33Z)
Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文参考訳（メタデータ） (2023-01-16T14:25:02Z)
A Learning Based Hypothesis Test for Harmful Covariate Shift [3.1406146587437904]
リスクの高いドメインの機械学習システムは、アウト・オブ・ディストリビューションテストの例で予測をすべきでないことを特定する必要がある。本研究では、トレーニングデータに同意し、テストデータに同意するように訓練された分類器のアンサンブル間の不一致を利用して、モデルがデプロイ設定から削除されるかどうかを判断する。
論文参考訳（メタデータ） (2022-12-06T04:15:24Z)
Blessings and Curses of Covariate Shifts: Adversarial Learning Dynamics, Directional Convergence, and Equilibria [6.738946307589742]
共変量分布シフトと対向摂動は,従来の統計学習フレームワークに課題を呈する。本稿では,無限次元環境下での回帰と分類の両面から,外挿領域を正確に特徴づける。
論文参考訳（メタデータ） (2022-12-05T18:00:31Z)
Tracking changes using Kullback-Leibler divergence for the continual learning [2.0305676256390934]
本稿では,多次元データストリームの確率分布の変化をモニタリングする新しい手法を提案する。変化の速さの尺度として、人気のあるKulback-Leiblerの発散を分析する。我々は,この指標を用いて,概念の漂流の発生を予測し,その性質を理解する方法を示す。
論文参考訳（メタデータ） (2022-10-10T17:30:41Z)
Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文参考訳（メタデータ） (2022-02-08T16:09:12Z)
A heteroencoder architecture for prediction of failure locations in porous metals using variational inference [1.2722697496405462]
多孔質金属張力試験片の故障箇所を予測するために,エンコーダ・デコーダ畳み込みニューラルネットワークを用いた。故障箇所の予測の目的は、標本中のほとんどの材料が故障しないため、クラス不均衡の極端なケースを示す。得られた予測分散は、任意の標本において最も失敗する可能性のある位置のランク付けに有効であることを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:53Z)
SLA$^2$P: Self-supervised Anomaly Detection with Adversarial Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文参考訳（メタデータ） (2021-11-25T03:53:43Z)
Covariate Shift in High-Dimensional Random Feature Regression [44.13449065077103]
共変量シフトは、堅牢な機械学習モデルの開発において重要な障害である。現代の機械学習の文脈における理論的理解を示す。
論文参考訳（メタデータ） (2021-11-16T05:23:28Z)
Evaluating Predictive Uncertainty and Robustness to Distributional Shift Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。また,これらの指標を用いたベースライン手法の評価を行った。
論文参考訳（メタデータ） (2021-11-08T17:32:10Z)
Tracking the risk of a deployed model and detecting harmful distribution shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文参考訳（メタデータ） (2021-10-12T17:21:41Z)
Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。本手法は精度と不確実性の両方を向上することを示す。
論文参考訳（メタデータ） (2021-09-27T01:09:08Z)
Counterfactual Invariance to Spurious Correlations: Why and How to Pass Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。因果推論ツールを用いたストレステストについて検討した。
論文参考訳（メタデータ） (2021-05-31T14:39:38Z)
Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2020-06-08T07:01:38Z)
Regularizing Class-wise Predictions via Self-knowledge Distillation [80.76254453115766]
類似サンプル間の予測分布を解析する新しい正規化法を提案する。これにより、単一のネットワークの暗黒知識(すなわち誤った予測に関する知識)を規則化する。画像分類タスクにおける実験結果から, 単純だが強力な手法が一般化能力を大幅に向上することを示した。
論文参考訳（メタデータ） (2020-03-31T06:03:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。