論文の概要: Building, Reusing, and Generalizing Abstract Representations from Concrete Sequences
- arxiv url: http://arxiv.org/abs/2410.21332v1
- Date: Sun, 27 Oct 2024 18:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:03.356204
- Title: Building, Reusing, and Generalizing Abstract Representations from Concrete Sequences
- Title(参考訳): コンクリートシーケンスからの抽象表現の構築, 再利用, 一般化
- Authors: Shuchen Wu, Mirko Thalmann, Peter Dayan, Zeynep Akata, Eric Schulz,
- Abstract要約: 人間は異なるシーケンスで抽象パターンを学習し、無関係な詳細をフィルタリングする。
多くのシーケンス学習モデルには抽象化能力がないため、メモリの非効率性や転送の低さにつながる。
非パラメトリック階層型変数学習モデル(HVM)を導入し、シーケンスからチャンクを学習し、文脈的に類似したチャンクを変数として抽象化する。
- 参考スコア(独自算出の注目度): 51.965994405124455
- License:
- Abstract: Humans excel at learning abstract patterns across different sequences, filtering out irrelevant details, and transferring these generalized concepts to new sequences. In contrast, many sequence learning models lack the ability to abstract, which leads to memory inefficiency and poor transfer. We introduce a non-parametric hierarchical variable learning model (HVM) that learns chunks from sequences and abstracts contextually similar chunks as variables. HVM efficiently organizes memory while uncovering abstractions, leading to compact sequence representations. When learning on language datasets such as babyLM, HVM learns a more efficient dictionary than standard compression algorithms such as Lempel-Ziv. In a sequence recall task requiring the acquisition and transfer of variables embedded in sequences, we demonstrate HVM's sequence likelihood correlates with human recall times. In contrast, large language models (LLMs) struggle to transfer abstract variables as effectively as humans. From HVM's adjustable layer of abstraction, we demonstrate that the model realizes a precise trade-off between compression and generalization. Our work offers a cognitive model that captures the learning and transfer of abstract representations in human cognition and differentiates itself from the behavior of large language models.
- Abstract(参考訳): 人間は、異なるシーケンスにまたがる抽象パターンを学習し、無関係な詳細をフィルタリングし、これらの一般化された概念を新しいシーケンスに転送する。
対照的に、多くのシーケンス学習モデルには抽象化する能力がないため、メモリの非効率性と転送の低さにつながる。
非パラメトリック階層型変数学習モデル(HVM)を導入し、シーケンスからチャンクを学習し、文脈的に類似したチャンクを変数として抽象化する。
HVMは、抽象化を発見しながらメモリを効率的に整理し、コンパクトなシーケンス表現をもたらす。
babyLMのような言語データセットについて学ぶとき、HVMはLempel-Zivのような標準的な圧縮アルゴリズムよりも効率的な辞書を学習する。
シーケンスに埋め込まれた変数の取得と転送を必要とするシーケンスリコールタスクにおいて、HVMのシーケンスの確率は人間のリコール時間と相関することを示す。
対照的に、大きな言語モデル(LLM)は、抽象変数を人間と同じくらい効果的に転送するのに苦労している。
HVMの調整可能な抽象化層から,モデルが圧縮と一般化の正確なトレードオフを実現することを実証する。
我々の研究は、人間の認知における抽象表現の学習と伝達を捉え、大きな言語モデルの行動と区別する認知モデルを提供する。
関連論文リスト
- A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model [4.215221129670858]
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方に依存するかを定量化する。
論文 参考訳(メタデータ) (2024-04-16T17:01:27Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Learning to Abstract with Nonparametric Variational Information
Bottleneck [13.330819521142065]
同じモデルの異なる層で異なる抽象レベルに圧縮する方法を学ぶことができる新しい言語表現モデルを導入する。
モデル内のレイヤは抽象化のレベルの増加に対応し、それらの表現が言語的により情報化されていることが分かりました。
論文 参考訳(メタデータ) (2023-10-26T10:04:31Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Inducing Meaningful Units from Character Sequences with Dynamic Capacity
Slot Attention [12.25208417841772]
文字列の抽象的意味単位を学習するための教師なし分布法を提案する。
シーケンスをセグメント化するのではなく、Dynamic Capacity Slot Attentionモデルは、シーケンス内のオブジェクトの連続的な表現を検出する。
論文 参考訳(メタデータ) (2021-02-01T23:11:57Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。