論文の概要: Clarifying the Half Full or Half Empty Question: Multimodal Container
Classification
- arxiv url: http://arxiv.org/abs/2307.08471v1
- Date: Mon, 17 Jul 2023 13:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:15:47.468186
- Title: Clarifying the Half Full or Half Empty Question: Multimodal Container
Classification
- Title(参考訳): 半完全または半空質問の明確化:マルチモーダルコンテナ分類
- Authors: Josua Spisak, Matthias Kerzel, and Stefan Wermter
- Abstract要約: 視覚的・触覚的・固有受容的データを融合させる様々な可能性を比較した。
その結果, 最良の融合戦略の精度は, 一つの特異な感覚しか持たない最良の戦略よりも15%高いことがわかった。
- 参考スコア(独自算出の注目度): 13.225264876433528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal integration is a key component of allowing robots to perceive the
world. Multimodality comes with multiple challenges that have to be considered,
such as how to integrate and fuse the data. In this paper, we compare different
possibilities of fusing visual, tactile and proprioceptive data. The data is
directly recorded on the NICOL robot in an experimental setup in which the
robot has to classify containers and their content. Due to the different nature
of the containers, the use of the modalities can wildly differ between the
classes. We demonstrate the superiority of multimodal solutions in this use
case and evaluate three fusion strategies that integrate the data at different
time steps. We find that the accuracy of the best fusion strategy is 15% higher
than the best strategy using only one singular sense.
- Abstract(参考訳): マルチモーダル統合は、ロボットが世界を知覚する上で重要な要素である。
マルチモダリティには、データの統合や融合の方法など、考慮しなければならない複数の課題が伴う。
本稿では,視覚的,触覚的,固有受容的データを融合する様々な可能性について比較する。
データはNICOLロボットに直接記録され、ロボットはコンテナとそのコンテンツを分類する必要がある。
コンテナの性質が異なるため、モダリティの使用はクラスによって大きく異なる可能性がある。
本稿では,マルチモーダルソリューションの優位性を実証し,異なる時間ステップでデータを統合する3つの融合戦略を評価する。
最良核融合戦略の精度は1つの特異な意味だけで最良戦略よりも15%高いことがわかった。
関連論文リスト
- Analyzing Multimodal Integration in the Variational Autoencoder from an Information-Theoretic Perspective [0.0]
我々は、入力データの再構成において、異なるモダリティの統合がいかに重要であるかを分析する。
我々は、4つの異なるスケジュールでネットワークをトレーニングし、それらをマルチモーダル統合の能力について分析する。
論文 参考訳(メタデータ) (2024-11-01T11:43:17Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - AttX: Attentive Cross-Connections for Fusion of Wearable Signals in
Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。
我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。
提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T17:18:33Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。