論文の概要: Sequential Compositional Generalization in Multimodal Models
- arxiv url: http://arxiv.org/abs/2404.12013v1
- Date: Thu, 18 Apr 2024 09:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:51:17.632718
- Title: Sequential Compositional Generalization in Multimodal Models
- Title(参考訳): 多モードモデルにおける逐次構成一般化
- Authors: Semih Yagcioglu, Osman Batur İnce, Aykut Erdem, Erkut Erdem, Desmond Elliott, Deniz Yuret,
- Abstract要約: 我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
- 参考スコア(独自算出の注目度): 23.52949473093583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of large-scale multimodal models has paved the pathway for groundbreaking advances in generative modeling and reasoning, unlocking transformative applications in a variety of complex tasks. However, a pressing question that remains is their genuine capability for stronger forms of generalization, which has been largely underexplored in the multimodal setting. Our study aims to address this by examining sequential compositional generalization using \textsc{CompAct} (\underline{Comp}ositional \underline{Act}ivities)\footnote{Project Page: \url{http://cyberiada.github.io/CompAct}}, a carefully constructed, perceptually grounded dataset set within a rich backdrop of egocentric kitchen activity videos. Each instance in our dataset is represented with a combination of raw video footage, naturally occurring sound, and crowd-sourced step-by-step descriptions. More importantly, our setup ensures that the individual concepts are consistently distributed across training and evaluation sets, while their compositions are novel in the evaluation set. We conduct a comprehensive assessment of several unimodal and multimodal models. Our findings reveal that bi-modal and tri-modal models exhibit a clear edge over their text-only counterparts. This highlights the importance of multimodality while charting a trajectory for future research in this domain.
- Abstract(参考訳): 大規模マルチモーダルモデルの台頭は、様々な複雑なタスクにおける変換的応用を解き放ち、生成的モデリングと推論の進歩を画期的に進める道を開いた。
しかし、まだ残っているという強い疑問は、より強い一般化の形の真の能力であり、これは多モーダルなセッティングにおいてほとんど過小評価されていない。
本研究の目的は,エゴセントリックなキッチンアクティビティビデオのリッチな背景に,注意深く構築され,知覚的に根ざしたデータセットであるtextsc{CompAct} (\underline{Comp}ositional \underline{Act}ivities);footnote{Project Page: \url{http://cyberiada.github.io/CompAct}} を用いて,連続的な構成の一般化を検討することである。
データセットの各インスタンスは、生のビデオ映像、自然発生音、クラウドソースによるステップバイステップ記述の組み合わせで表現されます。
さらに重要なことは、我々の設定は、個々の概念がトレーニングセットと評価セットに一貫して分散していることを保証する一方で、それらの構成が評価セットで新しくなっていることである。
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
これは、この領域における将来の研究の軌跡をチャート化しながら、マルチモーダリティの重要性を強調している。
関連論文リスト
- A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Neural Multimodal Topic Modeling: A Comprehensive Evaluation [18.660262940980477]
本稿では,マルチモーダルトピックモデリングの体系的および包括的評価について述べる。
本稿では2つの新しいトピックモデリングソリューションと2つの新しい評価指標を提案する。
全体として、前代未聞の豊かで多様なデータセットのコレクションに対する評価は、両方のモデルが一貫性と多様なトピックを生成することを示している。
論文 参考訳(メタデータ) (2024-03-26T01:29:46Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled
Expectations in Real-World Applications [0.0]
クラウドカウントのためのすべての利用可能なマルチモーダルデータセットは、モノモーダルモデルとマルチモーダルモデルの違いを調べるために使用される。
この質問に対する一般的な答えは、既存のデータセットから導き出せない。
本稿では,クラウドカウントにおいて,マルチモーダルモデルの性能が向上するかどうかを問うために,潜在的なデータセットの基準を確立する。
論文 参考訳(メタデータ) (2023-04-13T11:09:28Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。