論文の概要: Data Distributional Properties As Inductive Bias for Systematic Generalization
- arxiv url: http://arxiv.org/abs/2502.20499v2
- Date: Tue, 04 Mar 2025 18:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 12:13:41.290349
- Title: Data Distributional Properties As Inductive Bias for Systematic Generalization
- Title(参考訳): 一般化のためのインダクティブバイアスとしてのデータ分散特性
- Authors: Felipe del Río, Alain Raymond-Sáez, Daniel Florea, Rodrigo Toro Icarte, Julio Hurtado, Cristián Buc Calderón, Álvaro Soto,
- Abstract要約: ディープニューラルネットワーク (DNN) は系統的一般化 (SG) に苦戦している
SGの推進におけるデータ特性の育成に焦点をあてる研究はほとんどない。
- 参考スコア(独自算出の注目度): 6.079048288458114
- License:
- Abstract: Deep neural networks (DNNs) struggle at systematic generalization (SG). Several studies have evaluated the possibility to promote SG through the proposal of novel architectures, loss functions or training methodologies. Few studies, however, have focused on the role of training data properties in promoting SG. In this work, we investigate the impact of certain data distributional properties, as inductive biases for the SG ability of a multi-modal language model. To this end, we study three different properties. First, data diversity, instantiated as an increase in the possible values a latent property in the training distribution may take. Second, burstiness, where we probabilistically restrict the number of possible values of latent factors on particular inputs during training. Third, latent intervention, where a particular latent factor is altered randomly during training. We find that all three factors significantly enhance SG, with diversity contributing an 89% absolute increase in accuracy in the most affected property. Through a series of experiments, we test various hypotheses to understand why these properties promote SG. Finally, we find that Normalized Mutual Information (NMI) between latent attributes in the training distribution is strongly predictive of out-of-distribution generalization. We find that a mechanism by which lower NMI induces SG is in the geometry of representations. In particular, we find that NMI induces more parallelism in neural representations (i.e., input features coded in parallel neural vectors) of the model, a property related to the capacity of reasoning by analogy.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、体系的一般化(SG)に苦慮している。
いくつかの研究は、新しいアーキテクチャ、損失関数、トレーニング方法論の提案を通じて、SGを促進する可能性を評価している。
しかし、SGの推進におけるデータ特性の訓練の役割に焦点が当てられている研究はほとんどない。
本研究では,マルチモーダル言語モデルのSG能力に対する帰納バイアスとして,データ分散特性の影響について検討する。
この目的のために、我々は3つの異なる性質について研究する。
第一に、トレーニング分布における潜在特性の可能な値の増加としてインスタンス化されたデータの多様性。
第2に、トレーニング中の特定の入力に対する潜在因子の可能な値の数を確率的に制限するバースト性です。
第3の潜伏介入では、トレーニング中に特定の潜伏因子がランダムに変化する。
これら3因子はいずれもSGを著しく向上させ, 多様性は最も影響の大きい特性において, 89%の精度向上に寄与している。
一連の実験を通じて、これらの性質がなぜSGを促進するのかを理解するために、様々な仮説を検証した。
最後に、トレーニング分布における潜在属性間の正規化相互情報(NMI)は、分布外一般化を強く予測することを発見した。
我々は、低NMIがSGを誘導するメカニズムが表現の幾何学上にあることを発見した。
特に、NMIは、類似による推論のキャパシティに関連する特性であるモデルの神経表現(すなわち、並列神経ベクトルで符号化された入力特徴)において、より並列性を誘導する。
関連論文リスト
- Robust Domain Generalisation with Causal Invariant Bayesian Neural Networks [9.999199798941424]
本稿では,推論プロセスのメカニズムからデータ分布の学習を阻害するベイズ型ニューラルネットワークを提案する。
理論的,実験的に,我々のモデルは因果的介入下での推論に近似していることを示す。
論文 参考訳(メタデータ) (2024-10-08T20:38:05Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Deep equilibrium models as estimators for continuous latent variables [10.244213671349225]
ニューラルネットワークアーキテクチャと統計モデルとの明確な関係を示す。
深部平衡モデルでは, 潜伏係数と変換パラメータの最大アポテリオリ(MAP)推定値が解ける。
私たちのDEC機能マップはエンドツーエンドで微分可能で、下流タスクの微調整を可能にします。
論文 参考訳(メタデータ) (2022-11-11T01:21:34Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Solvable Model for Inheriting the Regularization through Knowledge
Distillation [2.944323057176686]
本稿では,知識蒸留の特性を解析的に評価できる統計物理フレームワークを提案する。
KDにより、より大規模な教師モデルの正規化特性を、より小さな学生に継承できることが示される。
また、検討されたKD設定で生じる二重降下現象を解析する。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。