Fugu-MT 論文翻訳(概要): Instilling Inductive Biases with Subnetworks

論文の概要: Instilling Inductive Biases with Subnetworks

arxiv url: http://arxiv.org/abs/2310.10899v2
Date: Thu, 1 Feb 2024 00:05:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 19:01:29.931000
Title: Instilling Inductive Biases with Subnetworks
Title（参考訳）: サブネットによるインダクティブビアーゼの注入
Authors: Enyan Zhang, Michael A. Lepori, Ellie Pavlick
Abstract要約: サブタスク誘導は、サブタスクを利用したソリューションに対する誘導バイアスを注入する。本稿では,Subtaskインダクションが,特定の一般化可能なソリューションを採用するために必要なトレーニングデータの量を大幅に削減することを示す。
参考スコア（独自算出の注目度）: 19.444844580405594
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite the recent success of artificial neural networks on a variety of tasks, we have little knowledge or control over the exact solutions these models implement. Instilling inductive biases -- preferences for some solutions over others -- into these models is one promising path toward understanding and controlling their behavior. Much work has been done to study the inherent inductive biases of models and instill different inductive biases through hand-designed architectures or carefully curated training regimens. In this work, we explore a more mechanistic approach: Subtask Induction. Our method discovers a functional subnetwork that implements a particular subtask within a trained model and uses it to instill inductive biases towards solutions utilizing that subtask. Subtask Induction is flexible and efficient, and we demonstrate its effectiveness with two experiments. First, we show that Subtask Induction significantly reduces the amount of training data required for a model to adopt a specific, generalizable solution to a modular arithmetic task. Second, we demonstrate that Subtask Induction successfully induces a human-like shape bias while increasing data efficiency for convolutional and transformer-based image classification models.
Abstract（参考訳）: 最近はさまざまなタスクでニューラルネットワークが成功していますが、モデルが実装する正確なソリューションに関する知識やコントロールはほとんどありません。インダクティブバイアス -- 他のソリューションよりもいくつかのソリューションを好む -- をこれらのモデルに注入することは、彼らの行動を理解し、制御するための有望な道の1つだ。モデル固有の帰納バイアスを研究し、手作業で設計したアーキテクチャや慎重にキュレートされたトレーニングレギュラーを通じて異なる帰納バイアスを注入するために多くの研究がなされている。本研究では,より機械的なアプローチであるサブタスク誘導について検討する。本手法は、訓練モデル内で特定のサブタスクを実装する機能サブネットワークを発見し、そのサブタスクを利用したソリューションに対する帰納的バイアスを注入する。サブタスク誘導は柔軟かつ効率的であり、2つの実験でその効果を示す。まず,Subtaskインダクションは,モジュール型算術課題に対して,特定の一般化可能な解を採用するために必要なトレーニングデータの量を大幅に削減することを示す。次に,畳み込み型およびトランスフォーマー型画像分類モデルのデータ効率を高めつつ,サブタスク誘導が人間の形状バイアスをうまく誘導することを示す。

関連論文リスト

When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
VaiBot: Shuttle Between the Instructions and Parameters of Large Language Models [22.676819780878198]
本稿では、推論タスクと帰納タスクの両方を均一にモデル化し、学習し、推論するように設計された、VAEとVIBを統合したニューラルネットワークフレームワークであるVaiBotを提案する。 VaiBotが既存のベースラインメソッドと同等に動作し、インダクティブ能力でそれらをはるかに上回っていることを示す。
論文参考訳（メタデータ） (2025-02-04T13:36:54Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文参考訳（メタデータ） (2024-10-02T11:33:13Z)
On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。 MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文参考訳（メタデータ） (2024-09-27T17:58:21Z)
Towards Exact Computation of Inductive Bias [8.988109761916379]
本稿では,タスクの一般化に必要な帰納バイアスを効率的に計算する手法を提案する。より高次元的なタスクはより帰納的バイアスを必要とすることを示す。提案した帰納バイアス指標は,特定のモデルアーキテクチャの利点を情報理論で解釈する。
論文参考訳（メタデータ） (2024-06-22T21:14:24Z)
Dreamguider: Improved Training free Diffusion-based Conditional Generation [31.68823843900196]
Dreamguiderは、拡散ネットワークを介して計算量の多いバックプロパゲーションを伴わない推論時ガイダンスを可能にする手法である。提案するモジュールの有効性を示すために,複数のデータセットやモデルにまたがる複数のタスクに対してDreamguiderを用いて実験を行った。
論文参考訳（メタデータ） (2024-06-04T17:59:32Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文参考訳（メタデータ） (2022-02-28T16:07:19Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning [30.610670366488943]
データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。 LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
論文参考訳（メタデータ） (2021-01-15T17:15:24Z)
Transferring Inductive Biases through Knowledge Distillation [21.219305008067735]
本研究では, あるモデルから別のモデルへの帰納バイアスの効果を伝達する知識蒸留の力について検討する。モデルが収束する解に対する帰納バイアスの効果について検討し、帰納バイアスの効果が知識蒸留によってどの程度、どの程度の程度に伝達されるかを検討する。
論文参考訳（メタデータ） (2020-05-31T16:34:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。