論文の概要: TopoNets: High Performing Vision and Language Models with Brain-Like Topography
- arxiv url: http://arxiv.org/abs/2501.16396v1
- Date: Mon, 27 Jan 2025 01:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:58.452902
- Title: TopoNets: High Performing Vision and Language Models with Brain-Like Topography
- Title(参考訳): TopoNets:脳に似たトポグラフィーを用いたハイパフォーマンスビジョンと言語モデル
- Authors: Mayukh Deb, Mainak Deb, N. Apurva Ratan Murty,
- Abstract要約: TopoLossはタスク性能を犠牲にすることなく,AIモデルにおける空間的に整理された地形表現を促進する新しい損失関数である。
本研究では,視覚モデル(ResNet-18,ResNet-50,ViT)と言語モデル(GPT-Neo-125M,NanoGPT)を総合的に検証する。
TopoNetは、これまでで最も高性能な教師付き地形モデルであり、局所化された特徴処理、低次元化、効率の向上といった脳のような特性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Neurons in the brain are organized such that nearby cells tend to share similar functions. AI models lack this organization, and past efforts to introduce topography have often led to trade-offs between topography and task performance. In this work, we present TopoLoss, a new loss function that promotes spatially organized topographic representations in AI models without significantly sacrificing task performance. TopoLoss is highly adaptable and can be seamlessly integrated into the training of leading model architectures. We validate our method on both vision (ResNet-18, ResNet-50, ViT) and language models (GPT-Neo-125M, NanoGPT), collectively TopoNets. TopoNets are the highest-performing supervised topographic models to date, exhibiting brain-like properties such as localized feature processing, lower dimensionality, and increased efficiency. TopoNets also predict responses in the brain and replicate the key topographic signatures observed in the brain's visual and language cortices. Together, this work establishes a robust and generalizable framework for integrating topography into leading model architectures, advancing the development of high-performing models that more closely emulate the computational strategies of the human brain.
- Abstract(参考訳): 脳内のニューロンは、近くの細胞が同様の機能を共有できるように組織化されている。
AIモデルは、この組織を欠いている。また、過去のトポロジ導入の試みはしばしば、トポロジとタスクパフォーマンスのトレードオフにつながった。
本研究では,タスク性能を著しく犠牲にすることなく,空間的に整理されたAIモデルの地形表現を促進する新しい損失関数であるTopoLossを提案する。
TopoLossは高度に適応可能であり、主要なモデルアーキテクチャのトレーニングにシームレスに統合できる。
本研究では,視覚モデル(ResNet-18,ResNet-50,ViT)と言語モデル(GPT-Neo-125M,NanoGPT)を総合的に検証する。
TopoNetは、これまでで最も高性能な教師付き地形モデルであり、局所化された特徴処理、低次元化、効率の向上といった脳のような特性を示す。
トポネットはまた、脳内の反応を予測し、脳の視覚および言語皮質で観察される重要な地形のシグネチャを複製する。
この研究は、トポグラフィーを主要なモデルアーキテクチャに統合するための堅牢で一般化可能なフレームワークを確立し、人間の脳の計算戦略をより密にエミュレートするハイパフォーマンスモデルの開発を進めた。
関連論文リスト
- Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - Emergent Language Symbolic Autoencoder (ELSA) with Weak Supervision to Model Hierarchical Brain Networks [0.12075823996747355]
脳ネットワークには階層的な組織があり、既存のディープラーニングモデルに課題をもたらす複雑性がある。
本稿では,弱い監督と創発的言語(EL)フレームワークによって情報を得るシンボリックオートエンコーダを提案する。
私たちの革新には、文と画像の両方が機能的脳ネットワークの階層構造を正確に反映するように設計された一般化階層的損失関数が含まれています。
論文 参考訳(メタデータ) (2024-04-15T13:51:05Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - End-to-end topographic networks as models of cortical map formation and
human visual behaviour: moving beyond convolutions [0.29687381456164]
霊長類視覚システムの組織をモデル化するオールトポグラフィニューラルネットワーク(All-TNN)を開発した。
これらの結果から,All-TNNは,従来の最先端の畳み込みモデルよりも,その地形特性から,人間の行動との整合性が著しく向上していることが示唆された。
これにより、全TNNは視覚脳の空間的構造と、それが視覚行動をどのように仲介するかを理解するための重要な一歩となる。
論文 参考訳(メタデータ) (2023-08-18T10:03:51Z) - Let Segment Anything Help Image Dehaze [12.163299570927302]
低レベルコンピュータビジョンタスクに先立って,大規模モデルを統合するためのフレームワークを提案する。
低レベル視覚タスクの導出における大規模モデルの有効性と適用性を示す。
論文 参考訳(メタデータ) (2023-06-28T02:02:19Z) - FairGen: Towards Fair Graph Generation [76.34239875010381]
フェアネスを考慮したグラフ生成モデルFairGenを提案する。
我々のモデルはラベルインフォームドグラフ生成モジュールと公正表現学習モジュールを共同で訓練する。
Webベースのグラフを含む7つの実世界のデータセットの実験結果は、FairGenが最先端のグラフ生成モデルと同等のパフォーマンスを得ることを示した。
論文 参考訳(メタデータ) (2023-03-30T23:30:42Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Introducing topography in convolutional neural networks [11.595591429581546]
畳み込みニューラルネットワーク(CNN)における新しい地形誘導バイアスを提案する。
視覚および音声タスクの4つのデータセットと3つのモデルについて、新しい手法をベンチマークした。
提案手法は,精度を向上しつつ,よりメモリ効率の良いモデルを得るための新たな道筋を提供する。
論文 参考訳(メタデータ) (2022-10-28T13:20:31Z) - Contrastive Brain Network Learning via Hierarchical Signed Graph Pooling
Model [64.29487107585665]
脳機能ネットワーク上のグラフ表現学習技術は、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を容易にする。
本稿では,脳機能ネットワークからグラフレベル表現を抽出する階層型グラフ表現学習モデルを提案する。
また、モデルの性能をさらに向上させるために、機能的脳ネットワークデータをコントラスト学習のために拡張する新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-07-14T20:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。