論文の概要: The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements
- arxiv url: http://arxiv.org/abs/2101.06053v1
- Date: Fri, 15 Jan 2021 10:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:18:45.812092
- Title: The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements
- Title(参考訳): カーレビュー(MuSe-CaR)データセットにおけるマルチモーダル感性分析:収集,洞察,改善
- Authors: Lukas Stappen, Alice Baird, Lea Schumann, Bj\"orn Schuller
- Abstract要約: この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
- 参考スコア(独自算出の注目度): 14.707930573950787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Truly real-life data presents a strong, but exciting challenge for sentiment
and emotion research. The high variety of possible `in-the-wild' properties
makes large datasets such as these indispensable with respect to building
robust machine learning models. A sufficient quantity of data covering a deep
variety in the challenges of each modality to force the exploratory analysis of
the interplay of all modalities has not yet been made available in this
context. In this contribution, we present MuSe-CaR, a first of its kind
multimodal dataset. The data is publicly available as it recently served as the
testing bed for the 1st Multimodal Sentiment Analysis Challenge, and focused on
the tasks of emotion, emotion-target engagement, and trustworthiness
recognition by means of comprehensively integrating the audio-visual and
language modalities. Furthermore, we give a thorough overview of the dataset in
terms of collection and annotation, including annotation tiers not used in this
year's MuSe 2020. In addition, for one of the sub-challenges - predicting the
level of trustworthiness - no participant outperformed the baseline model, and
so we propose a simple, but highly efficient Multi-Head-Attention network that
exceeds using multimodal fusion the baseline by around 0.2 CCC (almost 50 %
improvement).
- Abstract(参考訳): 真に現実的なデータは、感情研究や感情研究には強力だがエキサイティングな課題だ。
可能な ‘in-the-wild' プロパティの多種多様さによって、堅牢な機械学習モデルの構築には、これらのような大きなデータセットが不可欠になる。
すべてのモダリティの相互作用の探索分析を強制するために各モダリティの課題において、深い多様性をカバーする十分な量のデータが、この文脈ではまだ利用できない。
この貢献の中で、我々はその種類のマルチモーダルデータセットの第1号である MuSe-CaR を提示する。
このデータは、最近、第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして提供され、音声・視覚・言語モダリティを包括的に統合することで、感情、感情目標のエンゲージメント、信頼度認識のタスクに焦点を当てている。
さらに、今年の MuSe 2020 で使用されていないアノテーションティアを含む、コレクションとアノテーションの観点から、データセットの概要を詳しく説明します。
さらに, 信頼度を推定するサブチャレンジの1つに対して, 参加者はベースラインモデルよりも優れていなかったので, ベースラインを0.2CCC(約50%改善)程度で多モード融合を超越した, 単純かつ高効率なマルチヘッドアテンションネットワークを提案する。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and
Reasoning [19.43430577960824]
本稿では,重要度をランク付けするマルチモーダル・エゴ中心のデータセットである Rank2Tell を紹介し,その重要性の理由を述べる。
クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。
論文 参考訳(メタデータ) (2023-09-12T20:51:07Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z) - SGED: A Benchmark dataset for Performance Evaluation of Spiking Gesture
Emotion Recognition [12.396844568607522]
我々は、既存のデータセットの分析に基づいて、新しい同質なマルチモーダルジェスチャー感情認識データセットをラベル付けする。
本稿では,このデータセットに基づく擬似二重フローネットワークを提案し,このデータセットの適用可能性を検証する。
論文 参考訳(メタデータ) (2023-04-28T09:32:09Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。