論文の概要: Clarifying the Half Full or Half Empty Question: Multimodal Container
Classification
- arxiv url: http://arxiv.org/abs/2307.08471v1
- Date: Mon, 17 Jul 2023 13:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:15:47.468186
- Title: Clarifying the Half Full or Half Empty Question: Multimodal Container
Classification
- Title(参考訳): 半完全または半空質問の明確化:マルチモーダルコンテナ分類
- Authors: Josua Spisak, Matthias Kerzel, and Stefan Wermter
- Abstract要約: 視覚的・触覚的・固有受容的データを融合させる様々な可能性を比較した。
その結果, 最良の融合戦略の精度は, 一つの特異な感覚しか持たない最良の戦略よりも15%高いことがわかった。
- 参考スコア(独自算出の注目度): 13.225264876433528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal integration is a key component of allowing robots to perceive the
world. Multimodality comes with multiple challenges that have to be considered,
such as how to integrate and fuse the data. In this paper, we compare different
possibilities of fusing visual, tactile and proprioceptive data. The data is
directly recorded on the NICOL robot in an experimental setup in which the
robot has to classify containers and their content. Due to the different nature
of the containers, the use of the modalities can wildly differ between the
classes. We demonstrate the superiority of multimodal solutions in this use
case and evaluate three fusion strategies that integrate the data at different
time steps. We find that the accuracy of the best fusion strategy is 15% higher
than the best strategy using only one singular sense.
- Abstract(参考訳): マルチモーダル統合は、ロボットが世界を知覚する上で重要な要素である。
マルチモダリティには、データの統合や融合の方法など、考慮しなければならない複数の課題が伴う。
本稿では,視覚的,触覚的,固有受容的データを融合する様々な可能性について比較する。
データはNICOLロボットに直接記録され、ロボットはコンテナとそのコンテンツを分類する必要がある。
コンテナの性質が異なるため、モダリティの使用はクラスによって大きく異なる可能性がある。
本稿では,マルチモーダルソリューションの優位性を実証し,異なる時間ステップでデータを統合する3つの融合戦略を評価する。
最良核融合戦略の精度は1つの特異な意味だけで最良戦略よりも15%高いことがわかった。
関連論文リスト
- Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - AttX: Attentive Cross-Connections for Fusion of Wearable Signals in
Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。
我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。
提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T17:18:33Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。