論文の概要: Exploring Causes of Representational Similarity in Machine Learning Models
- arxiv url: http://arxiv.org/abs/2505.13899v1
- Date: Tue, 20 May 2025 04:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.670103
- Title: Exploring Causes of Representational Similarity in Machine Learning Models
- Title(参考訳): 機械学習モデルにおける表現類似性の探索
- Authors: Zeyu Michael Li, Hung Anh Vu, Damilola Awofisayo, Emily Wenger,
- Abstract要約: この研究は、データセットの重複とタスクの重複という2つの因果関係が、下流モデルの類似性にどのように影響するかを考察する。
データセットの重複の探索は、大規模な生成AIモデルが、スクラップしたインターネットデータのデータセットに重複してトレーニングされることの多い現実に動機付けられている。
両者は高い表現的類似性と正に相関し、それらを組み合わせることで最も強い効果が得られます。
- 参考スコア(独自算出の注目度): 5.976564391252357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous works have noted significant similarities in how machine learning models represent the world, even across modalities. Although much effort has been devoted to uncovering properties and metrics on which these models align, surprisingly little work has explored causes of this similarity. To advance this line of inquiry, this work explores how two possible causal factors -- dataset overlap and task overlap -- influence downstream model similarity. The exploration of dataset overlap is motivated by the reality that large-scale generative AI models are often trained on overlapping datasets of scraped internet data, while the exploration of task overlap seeks to substantiate claims from a recent work, the Platonic Representation Hypothesis, that task similarity may drive model similarity. We evaluate the effects of both factors through a broad set of experiments. We find that both positively correlate with higher representational similarity and that combining them provides the strongest effect. Our code and dataset are published.
- Abstract(参考訳): 多くの研究が、機械学習モデルが世界をどのように表現するかにおいて、たとえモダリティを越えても、大きな類似点を指摘した。
これらのモデルが整合する特性やメトリクスの解明に多くの努力が注がれているが、この類似性の原因を調査する研究は驚くほど少ない。
この一連の調査を進めるために,この研究は,2つの因果関係 – データセットの重複とタスクの重複 – が下流モデルの類似性に与える影響について検討する。
データセット重複の探索は、大規模な生成AIモデルは、しばしばスクラップされたインターネットデータのデータセットに重なり合うように訓練されているという事実によって動機付けられ、一方タスク重複の探索は、最近の研究であるプラトン表現仮説(Platonic Representation hypothesis)からの主張を裏付け、タスク類似性がモデル類似性を促進することを目指している。
両因子の効果を幅広い実験により評価した。
両者は高い表現的類似性と正に相関し、それらを組み合わせることで最も強い効果が得られます。
コードとデータセットが公開されています。
関連論文リスト
- Enhancing Model Fairness and Accuracy with Similarity Networks: A Methodological Approach [0.20718016474717196]
インスタンスを類似機能空間にマッピングするために、さまざまなテクニックを使用します。
本手法は, モデルフェアネスとデータセット分類複雑性の関係について, ペアワイズ類似性の分解能を調整できる。
論文 参考訳(メタデータ) (2024-11-08T15:43:01Z) - Training objective drives the consistency of representational similarity across datasets [19.99817888941361]
プラトン表現仮説(Platonic Representation hypothesis)は、最近の基礎モデルは下流タスクのパフォーマンスの関数として共有表現空間に収束していると主張している。
そこで本研究では,モデル間の表現的類似性が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。
目的関数はデータセット間の表現的類似性の一貫性を決定する上で最も重要な要素であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T13:35:45Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Counterfactual Generation Under Confounding [24.503075567519048]
機械学習モデルは、トレーニングデータにおける観察または観測されていない共同創設者の影響下で、素早い相関関係を学習することができる。
本稿では,画像中の任意の属性の値を変更し,観測された属性の集合を与えられた新しい画像を生成することを学習する対実生成法を提案する。
本手法は, 計算効率が高く, 実装も簡単で, 生成因子の多さや変数の整合性にも有効である。
論文 参考訳(メタデータ) (2022-10-22T06:39:22Z) - Investigate the Essence of Long-Tailed Recognition from a Unified
Perspective [11.080317683184363]
深層認識モデルは、カテゴリ間の重い不均衡なサンプル数のために、長い尾のデータ分布に悩まされることが多い。
本研究では,長い尾の認識が標本数とカテゴリの類似性の両方に悩まされていることを示す。
論文 参考訳(メタデータ) (2021-07-08T11:08:40Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Amortized Causal Discovery: Learning to Infer Causal Graphs from
Time-Series Data [63.15776078733762]
本稿では,時系列データから因果関係を推定する新しいフレームワークであるAmortized Causal Discoveryを提案する。
本研究では,本手法が変分モデルとして実装され,因果発見性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:59:12Z) - Building and Interpreting Deep Similarity Models [0.0]
そこで本稿では,入力機能の観点から説明することで類似性を解釈する手法を提案する。
我々は,2組の入力特徴に対して類似度スコアを系統的に分解する,スケーラブルで理論的に確立された手法であるBiLRPを開発した。
論文 参考訳(メタデータ) (2020-03-11T17:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。