論文の概要: Learning to Chain Operations by Routing Information Through a Global Workspace
- arxiv url: http://arxiv.org/abs/2503.01906v2
- Date: Thu, 06 Mar 2025 21:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:02.724259
- Title: Learning to Chain Operations by Routing Information Through a Global Workspace
- Title(参考訳): グローバルワークスペースを介した情報ルーティングによる連携作業の学習
- Authors: Hugo Chateau-Laurent, Rufin VanRullen,
- Abstract要約: 本稿では,グローバルワークスペース理論(Global Workspace Theory)にインスパイアされたモデルを提案する。
モデルの性能を単純な追加タスクで評価し、そこでは2つの加算をまとめる必要がある。
本研究は,深層学習の推論能力を高めるため,グローバルワークスペース理論に触発されたアーキテクチャの可能性を強調した。
- 参考スコア(独自算出の注目度): 3.1614158472531435
- License:
- Abstract: We present a model inspired by the Global Workspace Theory that integrates specialized modules to perform a sequential reasoning task. A controller selectively routes information between modules through the workspace using a gating mechanism. This approach allows the model to chain operations by iteratively broadcasting information between specialized domains, mimicking System-2 reasoning. We evaluate the model's performance on a simple addition task, where two addends must be summed. The task can be solved by routing information sequentially through an Input module, an Increment module (multiple times), and finally an Output module. We consider two implementations of this system with increasing complexity. First, using hand-designed modules operating on one-hot digit representations, the controller (a LSTM recurrent network) learns to select the appropriate modules (input, increment, output) in the appropriate sequence. Second, we replace the hand-designed modules with learned representation modules for MNIST images and an increment module trained on the task objectives; here again, the controller learns the appropriate sequential module selection to solve the task. Finally, we show that the Global Workspace model, while having fewer parameters, outperforms LSTMs and Transformers when tested on unseen addition operations (both interpolations and extrapolations of addition operations seen during training). Our results highlight the potential of architectures inspired by the Global Workspace Theory to enhance deep learning's reasoning capabilities.
- Abstract(参考訳): 本稿では,グローバルワークスペース理論(Global Workspace Theory)にインスパイアされたモデルを提案する。
コントローラは、ゲーティング機構を用いて、ワークスペースを介してモジュール間の情報を選択的にルーティングする。
このアプローチは、System-2推論を模倣して、特定のドメイン間で情報を反復的にブロードキャストすることで、操作をチェーンすることができる。
モデルの性能を単純な追加タスクで評価し、そこでは2つの加算をまとめる必要がある。
タスクは、インプットモジュール、インクリメントモジュール(複数回)、最後にアウトプットモジュールを通じて情報を逐次ルーティングすることで解決できる。
本稿では,複雑性を増した2つのシステムの実装について考察する。
まず、1ホットの桁表現で動作する手動設計モジュールを用いて、コントローラ(LSTMリカレントネットワーク)が適切な順序で適切なモジュール(インプット、インクリメント、アウトプット)を選択することを学習する。
第2に、手書きのモジュールをMNIST画像の学習表現モジュールとタスク目標に基づいて訓練されたインクリメントモジュールに置き換える。
最後に、Global Workspaceモデルは、パラメータが少ないにもかかわらず、未確認の追加操作(トレーニング中に見られる追加操作の補間と補間の両方)でテストした場合、LSTMやTransformerよりも優れていることを示す。
本研究は,深層学習の推論能力を高めるため,グローバルワークスペース理論に触発されたアーキテクチャの可能性を強調した。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。
このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。
LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-06-26T17:33:21Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。