論文の概要: Delayed Bottlenecking: Alleviating Forgetting in Pre-trained Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2404.14941v1
- Date: Tue, 23 Apr 2024 11:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:21:26.320333
- Title: Delayed Bottlenecking: Alleviating Forgetting in Pre-trained Graph Neural Networks
- Title(参考訳): Delayed Bottlenecking: トレーニング済みグラフニューラルネットワークにおけるフォッティングの軽減
- Authors: Zhe Zhao, Pengkun Wang, Xu Wang, Haibin Wen, Xiaolong Xie, Zhengyang Zhou, Qingfu Zhang, Yang Wang,
- Abstract要約: 本稿では,新しいアンダーラインDelayed UnderlineBottlenecking UnderlinePre-trainingフレームワークを提案する。
トレーニング前の段階では、潜在表現とトレーニングデータの間の可能な限りの相互情報を保持する。
- 参考スコア(独自算出の注目度): 19.941727879841142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training GNNs to extract transferable knowledge and apply it to downstream tasks has become the de facto standard of graph representation learning. Recent works focused on designing self-supervised pre-training tasks to extract useful and universal transferable knowledge from large-scale unlabeled data. However, they have to face an inevitable question: traditional pre-training strategies that aim at extracting useful information about pre-training tasks, may not extract all useful information about the downstream task. In this paper, we reexamine the pre-training process within traditional pre-training and fine-tuning frameworks from the perspective of Information Bottleneck (IB) and confirm that the forgetting phenomenon in pre-training phase may cause detrimental effects on downstream tasks. Therefore, we propose a novel \underline{D}elayed \underline{B}ottlenecking \underline{P}re-training (DBP) framework which maintains as much as possible mutual information between latent representations and training data during pre-training phase by suppressing the compression operation and delays the compression operation to fine-tuning phase to make sure the compression can be guided with labeled fine-tuning data and downstream tasks. To achieve this, we design two information control objectives that can be directly optimized and further integrate them into the actual model design. Extensive experiments on both chemistry and biology domains demonstrate the effectiveness of DBP.
- Abstract(参考訳): 伝達可能な知識を抽出し、下流タスクに適用するための事前学習GNNは、グラフ表現学習の事実上の標準となっている。
最近の研究は、大規模未ラベルデータから有用で普遍的な伝達可能な知識を抽出するために、自己指導型事前学習タスクを設計することに焦点を当てている。
しかし、彼らは必然的な疑問に直面する必要がある: 従来の事前学習戦略は、事前学習タスクに関する有用な情報を抽出することを目的としており、下流タスクに関する有用な情報を全て抽出するわけではない。
本稿では,従来の事前学習・微調整フレームワークにおける事前学習プロセスを再検討し,事前学習段階における忘れ込み現象が下流作業に有害な影響をもたらすことを確認する。
そこで,本研究では,圧縮操作を抑え,圧縮操作を微調整フェーズに遅らせることで,ラベル付き微調整データや下流タスクで圧縮をガイドできるように,遅延表現とトレーニングデータ間の相互情報を可能な限り保持する,新規な \underline{D}elayed \underline{B}ottlenecking \underline{P}re-training (DBP) フレームワークを提案する。
これを実現するために、直接最適化できる2つの情報制御目標を設計し、それらを実際のモデル設計に統合する。
化学と生物学の両方の領域における大規模な実験は、DBPの有効性を実証している。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Better with Less: A Data-Active Perspective on Pre-Training Graph Neural
Networks [39.71761440499148]
グラフニューラルネットワーク(GNN)の事前トレーニングは、ラベルのないデータで下流タスクの転送可能な知識を学ぶことを目的としている。
より少ないが慎重に選択されたデータはGNNモデルに入力される。
実験の結果,提案手法により,より少ないトレーニングデータとより優れたダウンストリーム性能を有する効率的な事前学習モデルが得られることがわかった。
論文 参考訳(メタデータ) (2023-11-02T07:09:59Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - When to Pre-Train Graph Neural Networks? From Data Generation
Perspective! [19.239863500722983]
グラフ事前トレーニングは、ラベルのないグラフデータから転送可能な知識を取得し、下流のパフォーマンスを改善することを目的としている。
本稿では,事前学習のタイミングを問う汎用フレームワークW2PGNNを提案する。
W2PGNNは、グラフ事前トレーニングモデルの適用範囲、事前トレーニングの実現可能性、下流のパフォーマンスを高めるために事前トレーニングデータを選択する支援の3つの幅広いアプリケーションを提供している。
論文 参考訳(メタデータ) (2023-03-29T05:05:02Z) - SGL-PT: A Strong Graph Learner with Graph Prompt Tuning [36.650472660276]
そこで我々は,SGL-PTという新しいフレームワークを提案し,学習戦略であるPre-train, Prompt, Predict'に従う。
具体的には、生成的かつコントラスト的な自己教師付きグラフ学習の相補的メリットを得られるSGLと呼ばれる、強力で普遍的な事前学習タスクを提起する。
また, グラフ分類タスクを目標として, 事前学習と微調整を統一し, 従来のテキストタスクと同様の形式で下流タスクを再構成する, 新たな動詞フリープロンプト関数を設計する。
論文 参考訳(メタデータ) (2023-02-24T04:31:18Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative
Priors [59.93972277761501]
我々は,教師付きあるいは自己指導型アプローチにより,ソースタスクから高い情報的後部を学習できることを実証した。
このシンプルなモジュラーアプローチは、様々な下流の分類とセグメンテーションタスクにおいて、大幅なパフォーマンス向上と、よりデータ効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2022-05-20T16:19:30Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。