Fugu-MT 論文翻訳(概要): The Implicit Bias of Heterogeneity towards Invariance and Causality

論文の概要: The Implicit Bias of Heterogeneity towards Invariance and Causality

arxiv url: http://arxiv.org/abs/2403.01420v1
Date: Sun, 3 Mar 2024 07:38:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 21:38:31.632501
Title: The Implicit Bias of Heterogeneity towards Invariance and Causality
Title（参考訳）: 不変性と因果性に対する不均一性の暗黙のバイアス
Authors: Yang Xu, Yihong Gu, Cong Fang
Abstract要約: 回帰損失の変種を訓練した大規模言語モデル(LLM)は,ある程度の因果関係を明らかにすることができる。これは「因果関係は因果関係ではない」という伝統的な知恵と伝統的な因果推論のパラダイムに反する。本稿では,アソシエーション指向トレーニングによる因果関係の出現は,情報源データからのカップリング効果に起因していると主張している。
参考スコア（独自算出の注目度）: 10.734620509375144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is observed empirically that the large language models (LLM), trained with a variant of regression loss using numerous corpus from the Internet, can unveil causal associations to some extent. This is contrary to the traditional wisdom that ``association is not causation'' and the paradigm of traditional causal inference in which prior causal knowledge should be carefully incorporated into the design of methods. It is a mystery why causality, in a higher layer of understanding, can emerge from the regression task that pursues associations. In this paper, we claim the emergence of causality from association-oriented training can be attributed to the coupling effects from the heterogeneity of the source data, stochasticity of training algorithms, and over-parameterization of the learning models. We illustrate such an intuition using a simple but insightful model that learns invariance, a quasi-causality, using regression loss. To be specific, we consider multi-environment low-rank matrix sensing problems where the unknown r-rank ground-truth d*d matrices diverge across the environments but contain a lower-rank invariant, causal part. In this case, running pooled gradient descent will result in biased solutions that only learn associations in general. We show that running large-batch Stochastic Gradient Descent, whose each batch being linear measurement samples randomly selected from a certain environment, can successfully drive the solution towards the invariant, causal solution under certain conditions. This step is related to the relatively strong heterogeneity of the environments, the large step size and noises in the optimization algorithm, and the over-parameterization of the model. In summary, we unveil another implicit bias that is a result of the symbiosis between the heterogeneity of data and modern algorithms, which is, to the best of our knowledge, first in the literature.
Abstract（参考訳）: 大規模な言語モデル(LLM)は,インターネット上の多数のコーパスを用いて回帰損失の変種を訓練することにより,ある程度の因果関係を明らかにすることができる。これは「連想は因果ではない」という従来の知恵や、先行する因果知識をメソッドの設計に慎重に組み込むべき伝統的な因果推論のパラダイムとは対照的である。因果関係が、より高い理解層において、因果関係を追求する回帰タスクから現れる理由は、謎である。本稿では,相関指向トレーニングからの因果関係の出現は,ソースデータの多様性,トレーニングアルゴリズムの確率性,学習モデルの過剰パラメータ化による結合効果に起因していると主張する。このような直観を、回帰損失を用いて準因果性である不変性を学ぶ単純だが洞察力に富んだモデルを用いて示す。具体的には、未知のr-ランク基底d*d行列が環境に分散するが、下位不変な因果部分を含むマルチ環境低ランクマトリクスセンシング問題を考える。この場合、プールされた勾配降下は、一般に関連のみを学ぶバイアス付きソリューションをもたらす。本研究では,ある環境からランダムに選択された線形測定サンプルである大規模確率勾配 Descent の実行が,ある条件下での不変因果解への解の駆動に成功していることを示す。このステップは、環境の相対的に強い不均一性、最適化アルゴリズムにおける大きなステップサイズとノイズ、モデルの過剰パラメータ化に関連している。要約すると、我々は、データの不均一性と現代のアルゴリズムの共生の結果である別の暗黙バイアスを、まず文献において、私たちの知識の最も良いところへと明らかにした。

関連論文リスト

Raising the Bar in Graph OOD Generalization: Invariant Learning Beyond Explicit Environment Modeling [58.15601237755505]
実世界のグラフデータは、従来のモデルでは一般化できない、多様で変化する環境を示すことが多い。マルチプロトタイプ超球形不変学習(MPHIL)と呼ばれる新しい手法を提案する。 MPHILは最先端のパフォーマンスを実現し、様々なドメインからのグラフデータと異なる分散シフトで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-15T07:40:14Z)
Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文参考訳（メタデータ） (2024-06-07T14:29:21Z)
Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。 OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。 OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文参考訳（メタデータ） (2024-03-26T16:40:08Z)
Effective Causal Discovery under Identifiable Heteroscedastic Noise Model [45.98718860540588]
因果DAG学習は、最近精度と効率の両面で有望な性能を達成した。本稿では,変数間のノイズ分散の変動を考慮したDAG学習のための新しい定式化を提案する。次に、最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-20T08:51:58Z)
Unleashing the Power of Graph Data Augmentation on Covariate Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。 AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文参考訳（メタデータ） (2022-11-05T07:55:55Z)
Equivariance and Invariance Inductive Bias for Learning from Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文参考訳（メタデータ） (2022-07-25T15:26:19Z)
On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。不変性はデータの変換におけるモデル予測の一貫性を測定する。データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文参考訳（メタデータ） (2022-07-14T17:08:25Z)
Differentiable Invariant Causal Discovery [106.87950048845308]
観測データから因果構造を学ぶことは、機械学習の基本的な課題である。本稿では,不特定変分因果解法(DICD)を提案する。合成および実世界のデータセットに関する大規模な実験は、DICDがSHDの36%まで最先端の因果発見手法より優れていることを検証している。
論文参考訳（メタデータ） (2022-05-31T09:29:07Z)
Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文参考訳（メタデータ） (2021-11-25T17:33:12Z)
Kernelized Heterogeneous Risk Minimization [25.5458915855661]
我々はカーネル空間における潜伏探索と不変学習の両方を実現するカーネル化不均一リスク最小化(KerHRM)アルゴリズムを提案する。理論的にアルゴリズムを正当化し、広範囲な実験でアルゴリズムの有効性を実証的に検証する。
論文参考訳（メタデータ） (2021-10-24T12:26:50Z)
Heterogeneous Risk Minimization [25.5458915855661]
分散一般化のための不変学習法は、複数の学習環境を利用して不変関係を見つけることによって提案されている。現代のデータセットは、明示的なソースラベルなしで複数のソースからのデータをマージすることで組み立てられる。不均一リスク最小化(HRM: Heterogeneous Risk Minimization)フレームワークを提案し、データと不変関係間の潜在不均質性の共同学習を実現する。
論文参考訳（メタデータ） (2021-05-09T02:51:36Z)
Nonlinear Invariant Risk Minimization: A Causal Approach [5.63479133344366]
非線形環境下での分布外一般化を可能にする学習パラダイムを提案する。我々は、非常に単純な変換までデータ表現の識別性を示す。合成データと実世界のデータセットの両方に関する広範な実験は、我々のアプローチが様々なベースラインメソッドを大きく上回っていることを示している。
論文参考訳（メタデータ） (2021-02-24T15:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。