論文の概要: ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural
Languages
- arxiv url: http://arxiv.org/abs/2310.17737v1
- Date: Thu, 26 Oct 2023 18:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:45:45.849144
- Title: ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural
Languages
- Title(参考訳): archbert: ニューラルアーキテクチャと自然言語に関するバイモーダルな理解
- Authors: Mohammad Akbari, Saeed Ranjbar Alvar, Behnam Kamranian, Amin
Banitalebi-Dehkordi, Yong Zhang
- Abstract要約: ArchBERTは、ニューラルネットワークと自然言語の合同学習と理解のためのバイモーダルモデルである。
方法のトレーニングと検証のための2つの新しいバイモーダルデータセットを導入し、公開します。
- 参考スコア(独自算出の注目度): 18.275671976625897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building multi-modal language models has been a trend in the recent years,
where additional modalities such as image, video, speech, etc. are jointly
learned along with natural languages (i.e., textual information). Despite the
success of these multi-modal language models with different modalities, there
is no existing solution for neural network architectures and natural languages.
Providing neural architectural information as a new modality allows us to
provide fast architecture-2-text and text-2-architecture retrieval/generation
services on the cloud with a single inference. Such solution is valuable in
terms of helping beginner and intermediate ML users to come up with better
neural architectures or AutoML approaches with a simple text query. In this
paper, we propose ArchBERT, a bi-modal model for joint learning and
understanding of neural architectures and natural languages, which opens up new
avenues for research in this area. We also introduce a pre-training strategy
named Masked Architecture Modeling (MAM) for a more generalized joint learning.
Moreover, we introduce and publicly release two new bi-modal datasets for
training and validating our methods. The ArchBERT's performance is verified
through a set of numerical experiments on different downstream tasks such as
architecture-oriented reasoning, question answering, and captioning
(summarization). Datasets, codes, and demos are available supplementary
materials.
- Abstract(参考訳): 近年では、自然言語(すなわちテキスト情報)とともに画像、ビデオ、音声などの付加的なモダリティが学習される、マルチモーダル言語モデルの構築がトレンドとなっている。
異なるモダリティを持つマルチモーダル言語モデルの成功にもかかわらず、ニューラルネットワークアーキテクチャと自然言語に対する既存のソリューションは存在しない。
ニューラルアーキテクチャ情報を新しいモダリティとして提供することにより、単一推論で高速なアーキテクチャ-2-textとテキスト-2-architecture検索/生成サービスをクラウド上に提供できます。
このようなソリューションは、初心者と中間MLユーザが、単純なテキストクエリでより優れたニューラルアーキテクチャやAutoMLアプローチを思いつくのを助けるという点で価値がある。
本稿では,ニューラルアーキテクチャと自然言語を共同学習し理解するためのバイモーダルモデルであるarchbertを提案する。
また,より一般化された共同学習のためのMAM(Masked Architecture Modeling)という事前学習戦略を導入する。
さらに,本手法のトレーニングと検証のための2つの新しいバイモーダルデータセットを導入,公開する。
ArchBERTのパフォーマンスは、アーキテクチャ指向の推論、質問応答、キャプション(要約)など、さまざまな下流タスクに関する数値実験を通じて検証される。
データセット、コード、デモは補足資料として利用できる。
関連論文リスト
- Neural Markov Prolog [57.13568543360899]
本稿では,一階述語論理とニューラルネットワーク設計を橋渡しする手段として,言語Neural Markov Prolog (NMP)を提案する。
NMPは、画像、テキスト、リレーショナルデータベース、その他のターゲットデータ型のアーキテクチャを簡単に生成および提示することができる。
論文 参考訳(メタデータ) (2023-11-27T21:41:47Z) - Exploring the Relationship Between Model Architecture and In-Context
Learning Ability [44.308785575626146]
合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価した。
検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習が可能であることが判明した。
いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者の方が堅牢である。
論文 参考訳(メタデータ) (2023-10-12T05:43:06Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the
Wild [107.3667463295682]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z) - An Approach for Combining Multimodal Fusion and Neural Architecture
Search Applied to Knowledge Tracing [6.540879944736641]
本稿では,マルチモーダル融合とニューラルアーキテクチャ探索を組み合わせた逐次モデルに基づく最適化手法を提案する。
得られたモデルが優れた性能を達成できることを示す2つの公開実データに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T13:43:46Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。