論文の概要: Does Deep Learning Learn to Abstract? A Systematic Probing Framework
- arxiv url: http://arxiv.org/abs/2302.11978v1
- Date: Thu, 23 Feb 2023 12:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:15:21.887655
- Title: Does Deep Learning Learn to Abstract? A Systematic Probing Framework
- Title(参考訳): ディープラーニングは抽象化を学ぶか?
体系的な調査枠組み
- Authors: Shengnan An, Zeqi Lin, Bei Chen, Qiang Fu, Nanning Zheng, Jian-Guang
Lou
- Abstract要約: 抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 69.2366890742283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstraction is a desirable capability for deep learning models, which means
to induce abstract concepts from concrete instances and flexibly apply them
beyond the learning context. At the same time, there is a lack of clear
understanding about both the presence and further characteristics of this
capability in deep learning models. In this paper, we introduce a systematic
probing framework to explore the abstraction capability of deep learning models
from a transferability perspective. A set of controlled experiments are
conducted based on this framework, providing strong evidence that two probed
pre-trained language models (PLMs), T5 and GPT2, have the abstraction
capability. We also conduct in-depth analysis, thus shedding further light: (1)
the whole training phase exhibits a "memorize-then-abstract" two-stage process;
(2) the learned abstract concepts are gathered in a few middle-layer attention
heads, rather than being evenly distributed throughout the model; (3) the
probed abstraction capabilities exhibit robustness against concept mutations,
and are more robust to low-level/source-side mutations than
high-level/target-side ones; (4) generic pre-training is critical to the
emergence of abstraction capability, and PLMs exhibit better abstraction with
larger model sizes and data scales.
- Abstract(参考訳): 抽象化は、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用する、ディープラーニングモデルにとって望ましい機能である。
同時に、ディープラーニングモデルにおけるこの能力の存在とさらなる特性の両方について明確な理解が欠如している。
本稿では,トランスファービリティの観点からディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
この枠組みに基づいて一連の制御実験を行い、2つの探索済み事前学習言語モデル(PLM)、T5、GPT2が抽象化能力を持つことを示す。
We also conduct in-depth analysis, thus shedding further light: (1) the whole training phase exhibits a "memorize-then-abstract" two-stage process; (2) the learned abstract concepts are gathered in a few middle-layer attention heads, rather than being evenly distributed throughout the model; (3) the probed abstraction capabilities exhibit robustness against concept mutations, and are more robust to low-level/source-side mutations than high-level/target-side ones; (4) generic pre-training is critical to the emergence of abstraction capability, and PLMs exhibit better abstraction with larger model sizes and data scales.
関連論文リスト
- Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Emergence and Function of Abstract Representations in Self-Supervised
Transformers [0.0]
本研究では,部分的にマスキングされた視覚シーンを再構築するために訓練された小型トランスフォーマーの内部動作について検討する。
ネットワークは、データセットのすべての意味的特徴をエンコードする中間抽象表現(抽象表現)を開発する。
正確な操作実験を用いて、抽象化がネットワークの意思決定プロセスの中心であることを実証する。
論文 参考訳(メタデータ) (2023-12-08T20:47:15Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - A Theory of Abstraction in Reinforcement Learning [18.976500531441346]
この論文では、強化学習における抽象論について述べる。
最初に、抽象化のプロセスを実行する関数に対して、3つのdesiderataを提供します。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
論文 参考訳(メタデータ) (2022-03-01T12:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。