論文の概要: On the generalization capacity of neural networks during generic
multimodal reasoning
- arxiv url: http://arxiv.org/abs/2401.15030v1
- Date: Fri, 26 Jan 2024 17:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:30:41.037186
- Title: On the generalization capacity of neural networks during generic
multimodal reasoning
- Title(参考訳): 汎用マルチモーダル推論におけるニューラルネットワークの一般化能力について
- Authors: Takuya Ito, Soham Dan, Mattia Rigotti, James Kozloski, Murray Campbell
- Abstract要約: マルチモーダル一般化のための大規模言語モデルの能力を評価し比較する。
マルチモーダルインプットと体系的一般化のためには、クロスモーダルアテンションまたはより深いアテンション層を持つモデルが、マルチモーダルインプットを統合するのに必要な重要なアーキテクチャ的特徴である。
- 参考スコア(独自算出の注目度): 20.1430673356983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of the Transformer has led to the development of large language
models (LLM), which appear to demonstrate human-like capabilities. To assess
the generality of this class of models and a variety of other base neural
network architectures to multimodal domains, we evaluated and compared their
capacity for multimodal generalization. We introduce a multimodal
question-answer benchmark to evaluate three specific types of
out-of-distribution (OOD) generalization performance: distractor generalization
(generalization in the presence of distractors), systematic compositional
generalization (generalization to new task permutations), and productive
compositional generalization (generalization to more complex tasks structures).
We found that across model architectures (e.g., RNNs, Transformers, Perceivers,
etc.), models with multiple attention layers, or models that leveraged
cross-attention mechanisms between input domains, fared better. Our positive
results demonstrate that for multimodal distractor and systematic
generalization, either cross-modal attention or models with deeper attention
layers are key architectural features required to integrate multimodal inputs.
On the other hand, neither of these architectural features led to productive
generalization, suggesting fundamental limitations of existing architectures
for specific types of multimodal generalization. These results demonstrate the
strengths and limitations of specific architectural components underlying
modern neural models for multimodal reasoning. Finally, we provide Generic COG
(gCOG), a configurable benchmark with several multimodal generalization splits,
for future studies to explore.
- Abstract(参考訳): Transformerの出現は、人間のような能力を実証する大規模言語モデル(LLM)の開発につながった。
マルチモーダル・ドメインに対するこのモデルの一般化と、他の様々なベース・ニューラルネットワーク・アーキテクチャを評価するために、マルチモーダル・ジェネライゼーションの能力を評価し比較した。
そこで,本研究では,od(out-of-distribution)一般化性能を評価するためのマルチモーダル・クエスチョン・アンワー・ベンチマーク(multimodal question-answer benchmark)を提案する。
モデルアーキテクチャ(例えば、rnn、transformers、perceiversなど)、複数の注目層を持つモデル、あるいは入力ドメイン間の相互接続メカニズムを活用したモデルの方が優れていることが分かりました。
我々の肯定的な結果は、マルチモーダルインプットを統合する上で必要となる重要なアーキテクチャ的特徴として、マルチモーダルインプットと系統的一般化があることを示す。
一方、これらのアーキテクチャの特徴はいずれも生産的な一般化につながらず、特定の種類のマルチモーダル一般化に対する既存のアーキテクチャの基本的限界を示唆している。
これらの結果は、マルチモーダル推論のための現代のニューラルモデルの基礎となる特定のアーキテクチャコンポーネントの強みと限界を示している。
最後に、将来の研究のために、複数のマルチモーダル一般化スプリットを備えた構成可能なベンチマークであるジェネリックcog(gcog)を提供する。
関連論文リスト
- Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。
この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-06-08T15:30:46Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z) - Universal approximation property of invertible neural networks [76.95927093274392]
Invertible Neural Network (INN) は、設計によって可逆性を持つニューラルネットワークアーキテクチャである。
その可逆性とヤコビアンのトラクタビリティのおかげで、IGNは確率的モデリング、生成的モデリング、表現的学習など、さまざまな機械学習応用がある。
論文 参考訳(メタデータ) (2022-04-15T10:45:26Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。