Fugu-MT 論文翻訳(概要): Understanding the role of importance weighting for deep learning

論文の概要: Understanding the role of importance weighting for deep learning

arxiv url: http://arxiv.org/abs/2103.15209v1
Date: Sun, 28 Mar 2021 19:44:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 14:48:26.669911
Title: Understanding the role of importance weighting for deep learning
Title（参考訳）: 深層学習における重み付けの役割を理解する
Authors: Da Xu, Yuting Ye, Chuanwei Ruan
Abstract要約: Byrd & Liptonの最近の論文は、ディープラーニングモデルにおける重み付けの影響について懸念を提起している。重要度重み付けの役割に関する形式的特徴と理論的正当性を提供する。ディープラーニングモデルにおける最適化ダイナミクスと一般化性能の両方を明らかにする。
参考スコア（独自算出の注目度）: 13.845232029169617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent paper by Byrd & Lipton (2019), based on empirical observations, raises a major concern on the impact of importance weighting for the over-parameterized deep learning models. They observe that as long as the model can separate the training data, the impact of importance weighting diminishes as the training proceeds. Nevertheless, there lacks a rigorous characterization of this phenomenon. In this paper, we provide formal characterizations and theoretical justifications on the role of importance weighting with respect to the implicit bias of gradient descent and margin-based learning theory. We reveal both the optimization dynamics and generalization performance under deep learning models. Our work not only explains the various novel phenomenons observed for importance weighting in deep learning, but also extends to the studies where the weights are being optimized as part of the model, which applies to a number of topics under active research.
Abstract（参考訳）: Byrd & Lipton (2019) による最近の論文は、経験的な観察に基づいて、過度にパラメータ化されたディープラーニングモデルに対する重み付けの影響に大きな懸念を提起している。彼らは、モデルがトレーニングデータを分離できる限り、重要度重み付けの影響はトレーニングが進むにつれて減少する、と観察する。しかし、この現象の厳密な特徴が欠けている。本稿では,勾配降下の暗黙のバイアスとマージンに基づく学習理論に対する重要度重み付けの役割に関する形式的特徴と理論的正当性について述べる。ディープラーニングモデルの下で最適化力学と一般化性能の両方を明らかにする。本研究は,深層学習において重み付けを重要視する様々な新しい現象を説明するだけでなく,モデルの一部として重み付けが最適化されている研究にも応用する。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
An Overview of Low-Rank Structures in the Training and Adaptation of Large Models [52.67110072923365]
近年の研究では、低ランク構造の出現というディープネットワークの広範な現象が明らかになった。これらの暗黙の低次元パターンは、トレーニングの効率と微調整された大規模モデルを改善するための貴重な洞察を提供する。深層学習のための低ランク構造の利用の進歩を概観し,その数学的基礎に光を当てる。
論文参考訳（メタデータ） (2025-03-25T17:26:09Z)
How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールであるこの研究において、我々はこの概念に挑戦する経験的証拠を提示する。トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文参考訳（メタデータ） (2025-03-01T22:25:11Z)
An Analysis for Reasoning Bias of Language Models with Small Initialization [8.380004565348619]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
論文参考訳（メタデータ） (2025-02-05T15:23:26Z)
Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文参考訳（メタデータ） (2024-10-21T13:06:21Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文参考訳（メタデータ） (2024-03-27T16:39:28Z)
Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文参考訳（メタデータ） (2024-03-27T05:10:38Z)
Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文参考訳（メタデータ） (2023-07-10T18:17:50Z)
A Survey on Few-Shot Class-Incremental Learning [11.68962265057818]
FSCIL(Few-shot class-incremental Learning)は、ディープニューラルネットワークが新しいタスクを学習する上で重要な課題である。本稿では, FSCILに関する包括的調査を行う。 FSCILはコンピュータビジョンの様々な分野で大きな成果を上げている。
論文参考訳（メタデータ） (2023-04-17T10:15:08Z)
A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文参考訳（メタデータ） (2022-11-27T01:53:29Z)
Rethinking Importance Weighting for Transfer Learning [71.81262398144946]
教師あり学習における主要な前提は、トレーニングとテストデータが同じ確率分布に従うことである。現実の機械学習タスクはますます複雑になりつつあるため、このような課題に対処するための新しいアプローチが検討されている。
論文参考訳（メタデータ） (2021-12-19T14:35:25Z)
On the Dynamics of Training Attention Models [30.85940880569692]
勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
論文参考訳（メタデータ） (2020-11-19T18:55:30Z)
Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。近年の文献では、この目標を達成するために表現学習を探求している。因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文参考訳（メタデータ） (2020-10-23T19:06:03Z)
Usable Information and Evolution of Optimal Representations During Training [79.38872675793813]
特に、意味的に意味があるが究極的には無関係な情報は、訓練の初期の過渡的ダイナミクスに符号化されている。文献に触発された知覚的意思決定タスクと標準画像分類タスクの両方にこれらの効果を示す。
論文参考訳（メタデータ） (2020-10-06T03:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。