論文の概要: Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2605.29591v1
- Date: Thu, 28 May 2026 08:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.563954
- Title: Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion
- Title(参考訳): Mind-Omni:離散拡散による脳ビジョン言語モデリングのための統合マルチタスクフレームワーク
- Authors: Yizhuo Lu, Changde Du, Qingyu Shi, Hang Chen, Jie Peng, Liuyun Jiang, Shuangchen Zhao, Huiguang He,
- Abstract要約: Mind-Omniは7つの異なるエンコーディングとデコードタスクを統一する汎用フレームワークである。
中心となるのは、不均一で連続した脳信号を標準化された離散トークンに変換する新しいブレイン・トケナイザーだ。
私たちの研究は、ニューラルモデリングのための強力な新しいパラダイムを提供し、ニューラルアクティビティの基礎モデルの道を開く。
- 参考スコア(独自算出の注目度): 20.46826223980239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling the interplay between external stimuli and internal neural representations is a pivotal research area for Brain-Computer Interfaces (BCIs). A major limitation of prior work is the prevailing paradigm of specialized, single-task models, which curtails versatility and neglects inter-task synergies. To address this, we propose Mind-Omni, the first versatile framework that unifies seven distinct encoding and decoding tasks through a discrete diffusion paradigm. At its core is a novel Brain Tokenizer that transforms heterogeneous, continuous brain signals into standardized, discrete tokens. This enables direct, token-level interactions for mutual understanding and generation between any two or more modalities within a shared semantic space. To unlock advanced reasoning capabilities, we further curate a specialized Brain Question Answering (BQA) instruction-tuning dataset. Our model not only establishes a new state-of-the-art among multi-task unified frameworks but also provides strong evidence for multi-task synergy. By demonstrating performance competitive with, and at times superior to, larger specialized models, our work offers a powerful new paradigm for neural modeling and paves the way for foundation models of neural activity. The code is publicly available at https://github.com/ReedOnePeck/Mind-Omni.
- Abstract(参考訳): 外部刺激と内部神経表現の相互作用をモデル化することは、脳-コンピュータインタフェース(BCI)の重要な研究領域である。
先行研究の大きな制限は、汎用性を高め、タスク間のシナジーを無視する専門的な単一タスクモデルのパラダイムである。
そこで本研究では、7つの異なる符号化・復号処理を離散拡散パラダイムで統一する最初の汎用フレームワークであるMind-Omniを提案する。
中心となるのは、不均一で連続した脳信号を標準化された離散トークンに変換する新しいブレイン・トケナイザーだ。
これにより、共有意味空間内の任意の2つ以上のモダリティ間の相互理解と生成のための直接的、トークンレベルの相互作用が可能になる。
高度な推論能力を解き放つために、我々はさらに専門的なBQA(Brain Question Answering)命令チューニングデータセットをキュレートする。
我々のモデルは、マルチタスク統合フレームワーク間の新しい最先端技術を確立するだけでなく、マルチタスクのシナジーを示す強力な証拠を提供する。
より大きな専門モデルと競合し、時には優位に立つパフォーマンスを示すことで、我々の研究は、ニューラルモデリングのための強力な新しいパラダイムを提供し、ニューラルアクティビティの基礎モデルの道を開く。
コードはhttps://github.com/ReedOnePeck/Mind-Omniで公開されている。
関連論文リスト
- Toward a Multi-View Brain Network Foundation Model: Cross-View Consistency Learning Across Arbitrary Atlases [62.33465338932216]
MV-BrainFMは任意のアトラスで構築された脳ネットワークから一般化可能でスケーラブルな表現を学ぶために設計された多視点脳ネットワーク基盤モデルである。
17のfMRIデータセットから20万名以上の被験者を対象に行った実験では、MV-BrainFMは既存の14の脳ネットワーク基盤モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2026-03-20T11:55:00Z) - InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing [87.5130783098133]
InternVL-Uは、マルチモーダル理解と推論機能を民主化する軽量な4BパラメータUMMである。
MLLM(Multimodal Large Language Model)と特殊なMMDiTベースのビジュアルジェネレーションヘッドを統合している。
BAGEL (14B) など,さまざまな生成タスクや編集タスクにおいて,3倍以上のスケールで統一ベースラインモデルを上回るパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-10T16:38:33Z) - Brain-OF: An Omnifunctional Foundation Model for fMRI, EEG and MEG [2.783700146328046]
本稿では,fMRI,MEG,EEG入力を統合した脳基礎モデルであるBrain-OFを提案する。
Brain-OFは40のデータセットからなる大規模なコーパスで事前トレーニングされており、さまざまな下流タスクで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-02-26T15:47:13Z) - A Unified Geometric Space Bridging AI Models and the Human Brain [24.54324712609098]
現代の人工ニューラルネットワークは、言語、知覚、推論において人間と競合している。
これらの人工システムが脳のように情報を整理するかどうかは、いまだに不明である。
ここでは、Brain-like Spaceという画期的な概念を紹介します。
論文 参考訳(メタデータ) (2025-10-28T12:09:23Z) - To See a World in a Spark of Neuron: Disentangling Multi-task Interference for Training-free Model Merging [16.81093103067372]
本研究は, モデルマージにおける神経機構を利用した最初の研究である。
神経サブスペース内のタスク干渉を軽減するために開発された新しい統合フレームワークであるNeuroMergingを紹介する。
本研究は, モデルマージにおける神経機構の整合の重要性を強調した。
論文 参考訳(メタデータ) (2025-03-07T11:00:24Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。