論文の概要: Brainish: Formalizing A Multimodal Language for Intelligence and
Consciousness
- arxiv url: http://arxiv.org/abs/2205.00001v2
- Date: Tue, 3 May 2022 21:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 00:09:57.137123
- Title: Brainish: Formalizing A Multimodal Language for Intelligence and
Consciousness
- Title(参考訳): Brainish: インテリジェンスと意識のためのマルチモーダル言語を形式化する
- Authors: Paul Pu Liang
- Abstract要約: 我々はBrainishと呼ばれる多モーダル言語のdesiderataについて述べる。
Brainishは、単語、画像、オーディオ、センセーションを組み合わせて、Conscious Turing Machineのプロセッサが通信するために使用する表現で構成されている。
- 参考スコア(独自算出の注目度): 23.86633372513335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having a rich multimodal inner language is an important component of human
intelligence that enables several necessary core cognitive functions such as
multimodal prediction, translation, and generation. Building upon the Conscious
Turing Machine (CTM), a machine model for consciousness proposed by Blum and
Blum (2021), we describe the desiderata of a multimodal language called
Brainish, comprising words, images, audio, and sensations combined in
representations that the CTM's processors use to communicate with each other.
We define the syntax and semantics of Brainish before operationalizing this
language through the lens of multimodal artificial intelligence, a vibrant
research area studying the computational tools necessary for processing and
relating information from heterogeneous signals. Our general framework for
learning Brainish involves designing (1) unimodal encoders to segment and
represent unimodal data, (2) a coordinated representation space that relates
and composes unimodal features to derive holistic meaning across multimodal
inputs, and (3) decoders to map multimodal representations into predictions
(for fusion) or raw data (for translation or generation). Through discussing
how Brainish is crucial for communication and coordination in order to achieve
consciousness in the CTM, and by implementing a simple version of Brainish and
evaluating its capability of demonstrating intelligence on multimodal
prediction and retrieval tasks on several real-world image, text, and audio
datasets, we argue that such an inner language will be important for advances
in machine models of intelligence and consciousness.
- Abstract(参考訳): リッチなマルチモーダル内言語を持つことは、多モーダル予測、翻訳、生成といったいくつかのコア認知機能を可能にする人間の知性の重要な構成要素である。
blum and blum (2021) によって提案された意識のための機械モデルである conscious turing machine (ctm) に基づいて、ctm のプロセッサが相互に通信するために使用する表現において、単語、画像、音声、感覚を組み合わせたbrainish と呼ばれるマルチモーダル言語のデシデラタを記述する。
我々は,異種信号から情報を処理するのに必要な計算ツールを研究する活発な研究分野であるマルチモーダル人工知能のレンズを用いて,この言語を操作する前に,ブレイディッシュの構文と意味を定義する。
Brainishを学習するための一般的なフレームワークは、(1)非モーダルエンコーダをセグメント化し、非モーダルデータを表現するための設計、(2)多モーダル入力の全体的意味を導出するための一モーダル特徴を関連づけ、構成するコーディネート表現空間、(3)多モーダル表現を予測(融合)や生データ(翻訳や生成)にマッピングするデコーダである。
ブレインシッシュがCTMにおける意識を達成するためにいかにコミュニケーションと調整に不可欠であるかを議論し、ブレインシッシュのシンプルなバージョンを実装し、実世界の複数の画像、テキスト、オーディオデータセット上でのマルチモーダル予測および検索タスクにおけるインテリジェンスを示す能力を評価することによって、そのようなインテリジェンス言語は、インテリジェンスと意識のマシンモデルの発展にとって重要であると論じる。
関連論文リスト
- MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2024-05-29T06:55:03Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Brain-Conditional Multimodal Synthesis: A Survey and Taxonomy [18.130004804879896]
マルチモーダル合成技術の鍵となるのは、異なるモーダル間のマッピング関係を確立することである。
ブライアン条件多重モーダル合成(Brian-conditional multimodal synthesis)とは、脳の信号を知覚経験に復号することである。
この調査は、AIGC-Brainと呼ばれる、AIGCベースのBrain-conditional Multimodal Synthesisの出現する分野を包括的に調査する。
論文 参考訳(メタデータ) (2023-12-31T09:00:40Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。