Fugu-MT 論文翻訳(概要): On the generalization capacity of neural networks during generic multimodal reasoning

論文の概要: On the generalization capacity of neural networks during generic multimodal reasoning

arxiv url: http://arxiv.org/abs/2401.15030v1
Date: Fri, 26 Jan 2024 17:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 14:30:41.037186
Title: On the generalization capacity of neural networks during generic multimodal reasoning
Title（参考訳）: 汎用マルチモーダル推論におけるニューラルネットワークの一般化能力について
Authors: Takuya Ito, Soham Dan, Mattia Rigotti, James Kozloski, Murray Campbell
Abstract要約: マルチモーダル一般化のための大規模言語モデルの能力を評価し比較する。マルチモーダルインプットと体系的一般化のためには、クロスモーダルアテンションまたはより深いアテンション層を持つモデルが、マルチモーダルインプットを統合するのに必要な重要なアーキテクチャ的特徴である。
参考スコア（独自算出の注目度）: 20.1430673356983
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of the Transformer has led to the development of large language models (LLM), which appear to demonstrate human-like capabilities. To assess the generality of this class of models and a variety of other base neural network architectures to multimodal domains, we evaluated and compared their capacity for multimodal generalization. We introduce a multimodal question-answer benchmark to evaluate three specific types of out-of-distribution (OOD) generalization performance: distractor generalization (generalization in the presence of distractors), systematic compositional generalization (generalization to new task permutations), and productive compositional generalization (generalization to more complex tasks structures). We found that across model architectures (e.g., RNNs, Transformers, Perceivers, etc.), models with multiple attention layers, or models that leveraged cross-attention mechanisms between input domains, fared better. Our positive results demonstrate that for multimodal distractor and systematic generalization, either cross-modal attention or models with deeper attention layers are key architectural features required to integrate multimodal inputs. On the other hand, neither of these architectural features led to productive generalization, suggesting fundamental limitations of existing architectures for specific types of multimodal generalization. These results demonstrate the strengths and limitations of specific architectural components underlying modern neural models for multimodal reasoning. Finally, we provide Generic COG (gCOG), a configurable benchmark with several multimodal generalization splits, for future studies to explore.
Abstract（参考訳）: Transformerの出現は、人間のような能力を実証する大規模言語モデル(LLM)の開発につながった。マルチモーダル・ドメインに対するこのモデルの一般化と、他の様々なベース・ニューラルネットワーク・アーキテクチャを評価するために、マルチモーダル・ジェネライゼーションの能力を評価し比較した。そこで,本研究では,od(out-of-distribution)一般化性能を評価するためのマルチモーダル・クエスチョン・アンワー・ベンチマーク(multimodal question-answer benchmark)を提案する。モデルアーキテクチャ(例えば、rnn、transformers、perceiversなど)、複数の注目層を持つモデル、あるいは入力ドメイン間の相互接続メカニズムを活用したモデルの方が優れていることが分かりました。我々の肯定的な結果は、マルチモーダルインプットを統合する上で必要となる重要なアーキテクチャ的特徴として、マルチモーダルインプットと系統的一般化があることを示す。一方、これらのアーキテクチャの特徴はいずれも生産的な一般化につながらず、特定の種類のマルチモーダル一般化に対する既存のアーキテクチャの基本的限界を示唆している。これらの結果は、マルチモーダル推論のための現代のニューラルモデルの基礎となる特定のアーキテクチャコンポーネントの強みと限界を示している。最後に、将来の研究のために、複数のマルチモーダル一般化スプリットを備えた構成可能なベンチマークであるジェネリックcog(gcog)を提供する。

関連論文リスト

SHIELD: Multi-task Multi-distribution Vehicle Routing Solver with Sparsity and Hierarchy [26.708590440636527]
疎性と階層性の両方の原則を活用する新しいモデルであるShielDを紹介する。より優れた局所表現を生成するために,問題における階層構造の存在を活かしたコンテキストベースのクラスタリング層を開発する。提案手法は, 実世界の9つの地図において, 16種類のVRPのバリエーションを持つ既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-10T03:55:14Z)
On Path to Multimodal Generalist: General-Level and General-Bench [153.9720740167528]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文参考訳（メタデータ） (2025-05-07T17:59:32Z)
Semantic Alignment of Unimodal Medical Text and Vision Representations [1.8848810602776873]
汎用AIモデルは、セマンティックな関連データを処理する際に、同様の潜在空間を示すことができる。我々は、汎用AIを専門の医療知識で橋渡しできるセマンティックアライメントについて述べる。モダリティ間のセマンティックアライメントを利用する一元視覚エンコーダの新しいゼロショット分類手法を提案する。
論文参考訳（メタデータ） (2025-03-06T14:28:17Z)
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [43.5468667825864]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。 1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文参考訳（メタデータ） (2025-01-30T18:59:36Z)
Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-07-04T14:36:49Z)
Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文参考訳（メタデータ） (2024-06-08T15:30:46Z)
SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文参考訳（メタデータ） (2023-10-30T17:58:09Z)
Generalization and Estimation Error Bounds for Model-based Neural Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文参考訳（メタデータ） (2023-04-19T16:39:44Z)
INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。 IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文参考訳（メタデータ） (2022-06-13T05:41:09Z)
Universal approximation property of invertible neural networks [76.95927093274392]
Invertible Neural Network (INN) は、設計によって可逆性を持つニューラルネットワークアーキテクチャである。その可逆性とヤコビアンのトラクタビリティのおかげで、IGNは確率的モデリング、生成的モデリング、表現的学習など、さまざまな機械学習応用がある。
論文参考訳（メタデータ） (2022-04-15T10:45:26Z)
Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文参考訳（メタデータ） (2021-08-03T12:55:18Z)
Redefining Neural Architecture Search of Heterogeneous Multi-Network Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文参考訳（メタデータ） (2021-06-16T17:12:26Z)
Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文参考訳（メタデータ） (2021-04-16T06:41:20Z)
Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文参考訳（メタデータ） (2020-08-24T09:49:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。