論文の概要: PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks
- arxiv url: http://arxiv.org/abs/2403.11743v1
- Date: Mon, 18 Mar 2024 12:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:39:33.646964
- Title: PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks
- Title(参考訳): PARMESAN:Dense Prediction Taskのためのパラメータフリーメモリ検索とトランスダクション
- Authors: Philip Matthias Winter, Maria Wimmer, David Major, Dimitrios Lenis, Astrid Berg, Theresa Neubauer, Gaia Romana De Paolis, Johannes Novotny, Sophia Ulonska, Katja Bühler,
- Abstract要約: 我々は,これらの課題を解決するためのステップストーンとして,記憶からトランスダクションによって分離するという考えを論じる。
本稿では,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルなトランスダクション手法であるPARMESANを提案する。
提案手法は一般的なニューラルネットワークと互換性があり、1D, 2D, 3Dグリッドベースのデータにカノニカルに転送する。
- 参考スコア(独自算出の注目度): 5.5127111704068374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we address flexibility in deep learning by means of transductive reasoning. For adaptation to new tasks or new data, existing methods typically involve tuning of learnable parameters or even complete re-training from scratch, rendering such approaches unflexible in practice. We argue that the notion of separating computation from memory by the means of transduction can act as a stepping stone for solving these issues. We therefore propose PARMESAN (parameter-free memory search and transduction), a scalable transduction method which leverages a memory module for solving dense prediction tasks. At inference, hidden representations in memory are being searched to find corresponding examples. In contrast to other methods, PARMESAN learns without the requirement for any continuous training or fine-tuning of learnable parameters simply by modifying the memory content. Our method is compatible with commonly used neural architectures and canonically transfers to 1D, 2D, and 3D grid-based data. We demonstrate the capabilities of our approach at complex tasks such as continual and few-shot learning. PARMESAN learns up to 370 times faster than common baselines while being on par in terms of predictive performance, knowledge retention, and data-efficiency.
- Abstract(参考訳): この研究では、トランスダクティブ推論を用いてディープラーニングの柔軟性に対処する。
新しいタスクや新しいデータに適応するためには、既存のメソッドは通常、学習可能なパラメータのチューニングや、スクラッチから完全に再トレーニングを含む。
計算をメモリからトランスダクション(transduction)で分離するという概念は,これらの問題を解決するためのステップストーンとして機能する,と我々は主張する。
そこで我々は,高密度予測タスクを解くためにメモリモジュールを利用するスケーラブルなトランスダクション手法であるPARMESANを提案する。
推論では、メモリ内の隠された表現が検索され、対応する例が見つかる。
他の方法とは対照的に、PARMESANは、メモリの内容を変更するだけで、継続的なトレーニングや学習可能なパラメータの微調整を必要とせずに学習する。
提案手法は一般的なニューラルネットワークと互換性があり、1D, 2D, 3Dグリッドベースのデータにカノニカルに転送する。
継続学習や少数ショット学習といった複雑なタスクにおいて,我々のアプローチの能力を実証する。
PARMESANは、予測性能、知識保持、データ効率の点で同等でありながら、一般的なベースラインの最大370倍の速度で学習する。
関連論文リスト
- Mitigating Memorization In Language Models [37.899013074095336]
言語モデル(LM)は情報を「記憶」し、トレーニングデータをその重みにエンコードすることで、推論時クエリがそのデータの冗長な復活につながる。
本稿では,メモリ化緩和手法の高速化と評価を目的とした,小型で計算効率のよいLMのスイートであるTinyMemを紹介する。
特に,提案した未学習手法である BalancedSubnet は,目標タスクの性能を保ちながら,記憶情報を削除する他の緩和手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T02:53:51Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Learning to Prompt for Continual Learning [34.609384246149325]
本研究は,テスト時にタスクの同一性にアクセスすることなく,より簡潔なメモリシステムのトレーニングを目的とした,連続学習のための新しいパラダイムを提案する。
本手法は,タスク遷移の異なるタスクを逐次学習するための事前学習モデル(L2P)を動的に学習する。
目的は、モデル予測を指示するプロンプトを最適化し、モデル可塑性を維持しながら、タスク不変およびタスク固有知識を明示的に管理することである。
論文 参考訳(メタデータ) (2021-12-16T06:17:07Z) - Total Recall: a Customized Continual Learning Method for Neural Semantic
Parsers [38.035925090154024]
ニューラルセマンティックは、以前のタスクから完全なトレーニングデータにアクセスすることなく、シーケンシャルにタスクを学習する。
本稿では,2つの側面からニューラルセマンティクスを学習するための連続学習手法であるTotalRecallを提案する。
我々は,TotalRecallで訓練したニューラルネットワークセマンティクスが,SOTA連続学習アルゴリズムで直接訓練したセマンティクスよりも優れた性能を達成し,スクラッチからのトレーニングに比べて3~6倍の高速化を実現することを示した。
論文 参考訳(メタデータ) (2021-09-11T04:33:28Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。