論文の概要: Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity
- arxiv url: http://arxiv.org/abs/2604.20789v2
- Date: Thu, 23 Apr 2026 08:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.063898
- Title: Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity
- Title(参考訳): データスカシティ下における変圧器の作業記憶制約
- Authors: Pranava Madhyastha, Dagmar Adamcova,
- Abstract要約: 我々は,固定幅ウィンドウと時間減衰に基づく注意機構を含む,認知にインスパイアされた注意変動を実装した。
我々の改良型GPT-2モデルは、発達可能なデータセット(10万語、1億語)をスクラッチから訓練する。
- 参考スコア(独自算出の注目度): 5.066450251002448
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate the integration of human-like working memory constraints into the Transformer architecture and implement several cognitively inspired attention variants, including fixed-width windows based and temporal decay based attention mechanisms. Our modified GPT-2 models are trained from scratch on developmentally plausible datasets (10M and 100M words). Performance is evaluated on grammatical judgment tasks (BLiMP) and alignment with human reading time data. Our results indicate that these cognitively-inspired constraints, particularly fixed-width attention, can significantly improve grammatical accuracy especially when training data is scarce. These constrained models also tend to show a stronger alignment with human processing metrics. The findings suggest that such constraints may serve as a beneficial inductive bias, guiding models towards more robust linguistic representations, especially in data-limited settings.
- Abstract(参考訳): 本研究では,トランスフォーマーアーキテクチャへのヒューマンライクなワーキングメモリ制約の統合について検討し,固定幅ウィンドウや時間減衰に基づくアテンション機構など,認知にインスパイアされたアテンションのバリエーションを実装した。
我々の改良型GPT-2モデルは、発達的に妥当なデータセット(10万語、1億語)をスクラッチから訓練する。
文法判断タスク(BLiMP)と人間の読解時間データとの整合性を評価する。
以上の結果から,これらの制約,特に固定幅の注意は,特に訓練データが少ない場合の文法的精度を著しく向上させる可能性が示唆された。
これらの制約されたモデルは、人間の処理メトリクスとより強い整合性を示す傾向がある。
これらの制約は、特にデータ制限の設定において、より堅牢な言語表現に向けてモデルを導くことによって、有益な帰納的バイアスとなる可能性があることを示唆している。
関連論文リスト
- Optimizing Small Transformer-Based Language Models for Multi-Label Sentiment Analysis in Short Texts [4.166512373146747]
短文の感情分類における小さなトランスフォーマーモデルの有効性を評価する。
データを拡張することで分類性能が向上するのに対し、拡張データセットの事前トレーニングは精度を向上するよりもノイズを発生させる可能性があることを示す。
論文 参考訳(メタデータ) (2025-09-05T10:08:14Z) - Enhancing material behavior discovery using embedding-oriented Physically-Guided Neural Networks with Internal Variables [0.0]
内部変数を持つ物理的ガイド付きニューラルネットワークは、トレーニングや内部状態関係の解明に可観測データのみを使用するSciMLツールである。
それらの可能性にもかかわらず、これらのモデルは、細粒度空間場や時間進化システムのような高次元データに適用する場合、スケーラビリティの課題に直面している。
本稿では,これらのスケーラビリティの限界に対処するPGNNIVフレームワークの改良について,低次モデリング手法を用いて提案する。
論文 参考訳(メタデータ) (2025-08-01T12:33:21Z) - Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings [9.763273544617176]
大規模言語モデル(LLM)は、ケース固有の微調整を必要とせずに複雑な対話タスクを処理できることが顕著に示されている。
本稿では,この課題に対処するための,シンプルながら効果的な枠組みを提案する。
本手法は、意図検出や対話状態追跡などのタスクを含む発話ごとの分類問題に特化して設計されている。
論文 参考訳(メタデータ) (2025-03-07T17:46:13Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Constraining Generative Models for Engineering Design with Negative Data [11.432911164773488]
本稿では,制約を満たす出力に向けて生成モデルを導くための新しいトレーニング手法を提案する。
我々の負データ生成モデル(NDGM)の定式化は、古典的モデルよりも容易に優れている。
論文 参考訳(メタデータ) (2023-06-27T02:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。