論文の概要: Generalization in Multimodal Language Learning from Simulation
- arxiv url: http://arxiv.org/abs/2108.02319v1
- Date: Tue, 3 Aug 2021 12:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:53:36.520207
- Title: Generalization in Multimodal Language Learning from Simulation
- Title(参考訳): シミュレーションによるマルチモーダル言語学習の一般化
- Authors: Aaron Eisermann, Jae Hee Lee, Cornelius Weber, Stefan Wermter
- Abstract要約: 教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
- 参考スコア(独自算出の注目度): 20.751952728808153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks can be powerful function approximators, which are able to
model high-dimensional feature distributions from a subset of examples drawn
from the target distribution. Naturally, they perform well at generalizing
within the limits of their target function, but they often fail to generalize
outside of the explicitly learned feature space. It is therefore an open
research topic whether and how neural network-based architectures can be
deployed for systematic reasoning. Many studies have shown evidence for poor
generalization, but they often work with abstract data or are limited to
single-channel input. Humans, however, learn and interact through a combination
of multiple sensory modalities, and rarely rely on just one. To investigate
compositional generalization in a multimodal setting, we generate an extensible
dataset with multimodal input sequences from simulation. We investigate the
influence of the underlying training data distribution on compostional
generalization in a minimal LSTM-based network trained in a supervised, time
continuous setting. We find compositional generalization to fail in simple
setups while improving with the number of objects, actions, and particularly
with a lot of color overlaps between objects. Furthermore, multimodality
strongly improves compositional generalization in settings where a pure vision
model struggles to generalize.
- Abstract(参考訳): ニューラルネットワークは強力な関数近似器であり、ターゲット分布から引き出されたサンプルのサブセットから高次元の特徴分布をモデル化することができる。
当然、ターゲット関数の限界内で一般化するが、明示的に学習された機能空間の外部では一般化できないことが多い。
したがって、ニューラルネットワークベースのアーキテクチャが、体系的な推論のためにどのようにデプロイされるかは、オープンな研究トピックである。
多くの研究は一般化が不十分な証拠を示しているが、しばしば抽象データを扱うか、単一チャネルの入力に限定されている。
しかし、人間は複数の感覚的モダリティを組み合わせることで学習し、相互作用する。
マルチモーダル設定における合成一般化を検討するために,マルチモーダル入力列を持つ拡張可能なデータセットをシミュレーションから生成する。
教師付き連続環境下で学習した最小限のLSTMネットワークにおいて,基礎となるトレーニングデータ分布が構成一般化に与える影響について検討する。
構成一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善される。
さらに、純視覚モデルが一般化に苦しむ設定において、多モード性は構成一般化を強く改善する。
関連論文リスト
- Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - On the generalization capacity of neural networks during generic
multimodal reasoning [20.1430673356983]
マルチモーダル一般化のための大規模言語モデルの能力を評価し比較する。
マルチモーダルインプットと体系的一般化のためには、クロスモーダルアテンションまたはより深いアテンション層を持つモデルが、マルチモーダルインプットを統合するのに必要な重要なアーキテクチャ的特徴である。
論文 参考訳(メタデータ) (2024-01-26T17:42:59Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - Neural Networks and the Chomsky Hierarchy [27.470857324448136]
チョムスキー理論の知見が実際にニューラルネットワークの一般化の限界を予測できるかどうかを考察する。
膨大なデータとトレーニング時間さえも、非自明な一般化に繋がらない負の結果を示す。
この結果から,RNNとTransformerは非正規タスクの一般化に失敗し,構造化メモリで拡張されたネットワークのみがコンテキストレス・コンテキスト依存タスクの一般化に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-05T15:06:11Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Learning Prototype-oriented Set Representations for Meta-Learning [85.19407183975802]
集合構造データから学ぶことは、近年注目を集めている根本的な問題である。
本稿では,既存の要約ネットワークを改善するための新しい最適輸送方式を提案する。
さらに、少数ショット分類と暗黙的メタ生成モデリングの事例にインスタンス化する。
論文 参考訳(メタデータ) (2021-10-18T09:49:05Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z) - Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。
我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文 参考訳(メタデータ) (2020-08-07T02:12:10Z) - Identifying Critical Neurons in ANN Architectures using Mixed Integer
Programming [11.712073757744452]
深層ニューラルネットワークアーキテクチャにおいて,各ニューロンに重要なスコアを割り当てるための混合整数プログラム(MIP)を導入する。
我々は、トレーニングされたニューラルネットワークの全体的な精度を維持するために必要な臨界ニューロンの数(すなわち、高いスコアを持つ)を最小限に抑えるために、ソルバを駆動する。
論文 参考訳(メタデータ) (2020-02-17T21:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。