Fugu-MT 論文翻訳(概要): D3: Data Diversity Design for Systematic Generalization in Visual Question Answering

論文の概要: D3: Data Diversity Design for Systematic Generalization in Visual Question Answering

arxiv url: http://arxiv.org/abs/2309.08798v2
Date: Tue, 05 Nov 2024 21:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.344678
Title: D3: Data Diversity Design for Systematic Generalization in Visual Question Answering
Title（参考訳）: D3:ビジュアル質問応答における体系的一般化のためのデータ多様性設計
Authors: Amir Rahimi, Vanessa D'Amario, Moyuru Yamada, Kentaro Takemoto, Tomotake Sasaki, Xavier Boix,
Abstract要約: 単純なタスクの多様性が、体系的な一般化を達成する上で重要な役割を担っていることを示す。これは、多種多様な複雑なタスクを収集することは必須ではないかもしれないことを意味しており、これは入手するのにコストがかかる可能性がある。
参考スコア（独自算出の注目度）: 6.033292707572802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Systematic generalization is a crucial aspect of intelligence, which refers to the ability to generalize to novel tasks by combining known subtasks and concepts. One critical factor that has been shown to influence systematic generalization is the diversity of training data. However, diversity can be defined in various ways, as data have many factors of variation. A more granular understanding of how different aspects of data diversity affect systematic generalization is lacking. We present new evidence in the problem of Visual Question Answering (VQA) that reveals that the diversity of simple tasks (i.e. tasks formed by a few subtasks and concepts) plays a key role in achieving systematic generalization. This implies that it may not be essential to gather a large and varied number of complex tasks, which could be costly to obtain. We demonstrate that this result is independent of the similarity between the training and testing data and applies to well-known families of neural network architectures for VQA (i.e. monolithic architectures and neural module networks). Additionally, we observe that neural module networks leverage all forms of data diversity we evaluated, while monolithic architectures require more extensive amounts of data to do so. These findings provide a first step towards understanding the interactions between data diversity design, neural network architectures, and systematic generalization capabilities.
Abstract（参考訳）: 体系的一般化は知性の重要な側面であり、既知のサブタスクと概念を組み合わせることで、新しいタスクに一般化する能力を指す。体系的な一般化に影響を与えることが示されている重要な要因の1つは、トレーニングデータの多様性である。しかし、データには様々な要因があるため、多様性は様々な方法で定義できる。データ多様性の異なる側面が、体系的な一般化の欠如にどのように影響するかをより細かく理解する。本稿では,視覚質問応答(VQA)問題における新たなエビデンスとして,単純なタスク(いくつかのサブタスクや概念によって形成されるタスク)の多様性が,体系的な一般化を実現する上で重要な役割を担っていることを示す。これは、多種多様な複雑なタスクを収集することは必須ではないかもしれないことを意味しており、これは入手するのにコストがかかる可能性がある。この結果は、トレーニングとテストデータの類似性とは独立して、VQA(モノリシックアーキテクチャとニューラルモジュールネットワーク)のためのよく知られたニューラルネットワークアーキテクチャのファミリーに適用できることを実証する。さらに、ニューラルネットワークは評価したすべての形式のデータの多様性を活用するのに対し、モノリシックなアーキテクチャはそれを行うためにより多くのデータを必要とする。これらの発見は、データ多様性設計、ニューラルネットワークアーキテクチャ、体系的な一般化能力の間の相互作用を理解するための第一歩となる。

関連論文リスト

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳（メタデータ） (2025-05-29T03:40:21Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文参考訳（メタデータ） (2024-06-07T14:29:21Z)
Attribute Diversity Determines the Systematicity Gap in VQA [7.433031036510163]
視覚的質問応答における系統的ギャップについて検討する。トレーニングデータの量を増やすことで、体系的なギャップを減らさないことが分かりました。特に、我々の実験は、トレーニング中に異なる属性タイプの組み合わせが見られるほど、結果のモデルがより体系的であることを示唆しています。
論文参考訳（メタデータ） (2023-11-15T04:50:30Z)
Leveraging sparse and shared feature activations for disentangled representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-04-17T01:33:24Z)
Synergistic information supports modality integration and flexible learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文参考訳（メタデータ） (2022-10-06T15:36:27Z)
Regressing Relative Fine-Grained Change for Sub-Groups in Unreliable Heterogeneous Data Through Deep Multi-Task Metric Learning [0.5999777817331317]
本研究では,マルチタスク・メトリック・ラーニングの手法を実データにおけるきめ細かい変化に応用する方法について検討する。この手法は異種データソースの処理に特化している。
論文参考訳（メタデータ） (2022-08-11T12:57:11Z)
Diversity and Generalization in Neural Network Ensembles [0.0]
これまでに公表された結果を、多様性とアンサンブルのパフォーマンスの関係を記述した理論的に健全な枠組みで組み合わせて拡張する。多様性を測定する方法、多様性がアンサンブルの一般化誤差とどのように関係しているか、そして、ニューラルネットワークアンサンブルアルゴリズムによって多様性が促進されるか、といった質問に対して、音声による回答を提供する。
論文参考訳（メタデータ） (2021-10-26T15:41:10Z)
SYGMA: System for Generalizable Modular Question Answering OverKnowledge Bases [57.89642289610301]
SYGMAは、複数の知識ベースと複数のリアソニングタイプにまたがる汎用化を容易にするモジュラーアプローチである。本システムの有効性を,DBpediaとWikidataの2つの異なる知識ベースに属するデータセットを用いて評価することで実証する。
論文参考訳（メタデータ） (2021-09-28T01:57:56Z)
A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文参考訳（メタデータ） (2021-04-29T14:31:09Z)
A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。 HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文参考訳（メタデータ） (2021-03-02T01:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。