Fugu-MT 論文翻訳(概要): Multi-View Incremental Learning with Structured Hebbian Plasticity for Enhanced Fusion Efficiency

論文の概要: Multi-View Incremental Learning with Structured Hebbian Plasticity for Enhanced Fusion Efficiency

arxiv url: http://arxiv.org/abs/2412.12801v1
Date: Tue, 17 Dec 2024 11:10:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.679551
Title: Multi-View Incremental Learning with Structured Hebbian Plasticity for Enhanced Fusion Efficiency
Title（参考訳）: 核融合効率向上のための構造ヘビアン塑性を用いた多視点インクリメンタル学習
Authors: Yuhong Chen, Ailin Song, Huifeng Yin, Shuai Zhong, Fuhai Chen, Qi Xu, Shiping Wang, Mingkun Xu,
Abstract要約: MVILという名前のマルチビューインクリメンタルフレームワークは、シーケンシャルに到達したビューの微粒な融合をエミュレートすることを目的としている。 MVILは、構造的ヘビアン可塑性とシナプス分割学習の2つの基本モジュールがある。 6つのベンチマークデータセットの実験結果は、MVILの最先端手法に対する有効性を示している。
参考スコア（独自算出の注目度）: 13.512920774125776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid evolution of multimedia technology has revolutionized human perception, paving the way for multi-view learning. However, traditional multi-view learning approaches are tailored for scenarios with fixed data views, falling short of emulating the intricate cognitive procedures of the human brain processing signals sequentially. Our cerebral architecture seamlessly integrates sequential data through intricate feed-forward and feedback mechanisms. In stark contrast, traditional methods struggle to generalize effectively when confronted with data spanning diverse domains, highlighting the need for innovative strategies that can mimic the brain's adaptability and dynamic integration capabilities. In this paper, we propose a bio-neurologically inspired multi-view incremental framework named MVIL aimed at emulating the brain's fine-grained fusion of sequentially arriving views. MVIL lies two fundamental modules: structured Hebbian plasticity and synaptic partition learning. The structured Hebbian plasticity reshapes the structure of weights to express the high correlation between view representations, facilitating a fine-grained fusion of view representations. Moreover, synaptic partition learning is efficient in alleviating drastic changes in weights and also retaining old knowledge by inhibiting partial synapses. These modules bionically play a central role in reinforcing crucial associations between newly acquired information and existing knowledge repositories, thereby enhancing the network's capacity for generalization. Experimental results on six benchmark datasets show MVIL's effectiveness over state-of-the-art methods.
Abstract（参考訳）: マルチメディア技術の急速な進化は人間の知覚に革命をもたらし、多視点学習の道を開いた。しかし、従来の多視点学習アプローチは、人間の脳処理信号の複雑な認知手順を連続的にエミュレートするに足りず、固定されたデータビューのシナリオに適合している。我々の脳構造は、複雑なフィードフォワードとフィードバック機構を通じて、シームレスにシーケンシャルデータを統合します。対照的に、従来の手法では、多様な領域にまたがるデータに直面すると、脳の適応性とダイナミックな統合能力を模倣する革新的な戦略の必要性を強調しながら、効果的な一般化に苦慮している。本稿では,脳の微粒化と逐次的到達の融合をエミュレートすることを目的とした,生体神経学的にインスピレーションを受けた多視点インクリメンタルフレームワークMVILを提案する。 MVILは、構造的ヘビアン可塑性とシナプス分割学習の2つの基本モジュールがある。構造的ヘビアン可塑性は、視表現間の高い相関を表現し、視表現のきめ細かい融合を促進するために重みの構造を再考する。さらに、シナプス分割学習は、重量の急激な変化を緩和し、部分的なシナプスを抑制することで古い知識を維持するのに効果的である。これらのモジュールは、新たに取得した情報と既存の知識リポジトリとの間の重要な関連を補強する中心的な役割を担い、一般化のためのネットワークの能力を高める。 6つのベンチマークデータセットの実験結果は、MVILの最先端手法に対する有効性を示している。

関連論文リスト

Bisecle: Binding and Separation in Continual Learning for Video Language Understanding [11.710573955384511]
海馬における高速な結合とパターン分離機構に着想を得たビデオ言語連続学習のためのBisecleを提案する。 Bisecleは、いくつかのVideoQAベンチマークにおいて、忘れを緩和し、クロスタスクの一般化を強化する。
論文参考訳（メタデータ） (2025-07-01T06:28:57Z)
Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文参考訳（メタデータ） (2025-06-05T16:10:47Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文参考訳（メタデータ） (2024-12-26T11:46:22Z)
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文参考訳（メタデータ） (2024-04-30T10:41:23Z)
Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。 System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文参考訳（メタデータ） (2024-03-05T03:37:28Z)
Multimodal Visual-Tactile Representation Learning through Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文参考訳（メタデータ） (2024-01-22T15:11:57Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
Synergistic information supports modality integration and flexible learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文参考訳（メタデータ） (2022-10-06T15:36:27Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
Investigating Bi-Level Optimization for Learning and Vision from a Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文参考訳（メタデータ） (2021-01-27T16:20:23Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Brain-inspired global-local learning incorporated with neuromorphic computing [35.70151531581922]
我々は,脳に触発されたメタラーニングパラダイムと,神経力学とシナプス可塑性を取り入れた識別可能なスパイキングモデルを導入することで,ニューロモルフィックハイブリッド学習モデルを報告した。ニューロモルフィック・ビジョン・センサにおける数ショット学習、連続学習、フォールトトレランス学習を含む複数のタスクにおいて、このモデルの利点を実証する。
論文参考訳（メタデータ） (2020-06-05T04:24:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。