論文の概要: Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled
Expectations in Real-World Applications
- arxiv url: http://arxiv.org/abs/2304.06401v1
- Date: Thu, 13 Apr 2023 11:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:54:14.168257
- Title: Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled
Expectations in Real-World Applications
- Title(参考訳): 既存のマルチモーダル・クラウド・カウンティング・データセットが現実世界のアプリケーションに期待できない結果をもたらす理由
- Authors: Martin Thi{\ss}en and Elke Hergenr\"other
- Abstract要約: クラウドカウントのためのすべての利用可能なマルチモーダルデータセットは、モノモーダルモデルとマルチモーダルモデルの違いを調べるために使用される。
この質問に対する一般的な答えは、既存のデータセットから導き出せない。
本稿では,クラウドカウントにおいて,マルチモーダルモデルの性能が向上するかどうかを問うために,潜在的なデータセットの基準を確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: More information leads to better decisions and predictions, right? Confirming
this hypothesis, several studies concluded that the simultaneous use of optical
and thermal images leads to better predictions in crowd counting. However, the
way multimodal models extract enriched features from both modalities is not yet
fully understood. Since the use of multimodal data usually increases the
complexity, inference time, and memory requirements of the models, it is
relevant to examine the differences and advantages of multimodal compared to
monomodal models. In this work, all available multimodal datasets for crowd
counting are used to investigate the differences between monomodal and
multimodal models. To do so, we designed a monomodal architecture that
considers the current state of research on monomodal crowd counting. In
addition, several multimodal architectures have been developed using different
multimodal learning strategies. The key components of the monomodal
architecture are also used in the multimodal architectures to be able to answer
whether multimodal models perform better in crowd counting in general.
Surprisingly, no general answer to this question can be derived from the
existing datasets. We found that the existing datasets hold a bias toward
thermal images. This was determined by analyzing the relationship between the
brightness of optical images and crowd count as well as examining the
annotations made for each dataset. Since answering this question is important
for future real-world applications of crowd counting, this paper establishes
criteria for a potential dataset suitable for answering whether multimodal
models perform better in crowd counting in general.
- Abstract(参考訳): より多くの情報がより良い意思決定と予測につながるでしょう?
この仮説を裏付けるいくつかの研究は、光学画像と熱画像の同時使用は、群衆数においてより良い予測をもたらすと結論づけた。
しかし、マルチモーダルモデルが両方のモダリティからリッチな特徴を抽出する方法はまだ完全には理解されていない。
マルチモーダルデータの利用は通常、モデルの複雑さ、推測時間、メモリ要件を増大させるため、モノモーダルモデルと比較してマルチモーダルの違いと利点を検討することが重要である。
本研究は, クラウドカウントのためのすべての利用可能なマルチモーダルデータセットを用いて, モノモーダルモデルとマルチモーダルモデルの違いについて検討する。
そこで我々は,モノモダル群数に関する研究の現状を考慮したモノモダルアーキテクチャを設計した。
さらに、様々なマルチモーダル学習戦略を用いて複数のマルチモーダルアーキテクチャが開発されている。
モノモーダルアーキテクチャの主要なコンポーネントは、群衆カウントにおいて、マルチモーダルモデルがより良く機能するかどうかを答えられるように、マルチモーダルアーキテクチャでも使用されている。
驚くべきことに、この質問に対する一般的な答えは既存のデータセットから導き出せない。
既存のデータセットは熱画像に偏りがあることがわかりました。
これは、光学画像の明るさと群衆数の関係を解析し、各データセットの注釈を調べることによって決定された。
この質問に答えることは、クラウドカウントの将来の実世界応用において重要であるため、マルチモーダルモデルが一般にクラウドカウントにおいて優れた性能を発揮するかどうかに答えるのに適した潜在的なデータセットの基準を確立する。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。