Fugu-MT 論文翻訳(概要): Clarifying the Half Full or Half Empty Question: Multimodal Container Classification

論文の概要: Clarifying the Half Full or Half Empty Question: Multimodal Container Classification

arxiv url: http://arxiv.org/abs/2307.08471v1
Date: Mon, 17 Jul 2023 13:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 13:15:47.468186
Title: Clarifying the Half Full or Half Empty Question: Multimodal Container Classification
Title（参考訳）: 半完全または半空質問の明確化:マルチモーダルコンテナ分類
Authors: Josua Spisak, Matthias Kerzel, and Stefan Wermter
Abstract要約: 視覚的・触覚的・固有受容的データを融合させる様々な可能性を比較した。その結果, 最良の融合戦略の精度は, 一つの特異な感覚しか持たない最良の戦略よりも15%高いことがわかった。
参考スコア（独自算出の注目度）: 13.225264876433528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal integration is a key component of allowing robots to perceive the world. Multimodality comes with multiple challenges that have to be considered, such as how to integrate and fuse the data. In this paper, we compare different possibilities of fusing visual, tactile and proprioceptive data. The data is directly recorded on the NICOL robot in an experimental setup in which the robot has to classify containers and their content. Due to the different nature of the containers, the use of the modalities can wildly differ between the classes. We demonstrate the superiority of multimodal solutions in this use case and evaluate three fusion strategies that integrate the data at different time steps. We find that the accuracy of the best fusion strategy is 15% higher than the best strategy using only one singular sense.
Abstract（参考訳）: マルチモーダル統合は、ロボットが世界を知覚する上で重要な要素である。マルチモダリティには、データの統合や融合の方法など、考慮しなければならない複数の課題が伴う。本稿では,視覚的,触覚的,固有受容的データを融合する様々な可能性について比較する。データはNICOLロボットに直接記録され、ロボットはコンテナとそのコンテンツを分類する必要がある。コンテナの性質が異なるため、モダリティの使用はクラスによって大きく異なる可能性がある。本稿では,マルチモーダルソリューションの優位性を実証し,異なる時間ステップでデータを統合する3つの融合戦略を評価する。最良核融合戦略の精度は1つの特異な意味だけで最良戦略よりも15%高いことがわかった。

関連論文リスト

Analyzing Multimodal Integration in the Variational Autoencoder from an Information-Theoretic Perspective [0.0]
我々は、入力データの再構成において、異なるモダリティの統合がいかに重要であるかを分析する。我々は、4つの異なるスケジュールでネットワークをトレーニングし、それらをマルチモーダル統合の能力について分析する。
論文参考訳（メタデータ） (2024-11-01T11:43:17Z)
What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。我々の理論的分析は、情報の共有、相乗的、ユニークな用語がこの定式化から自然に現れることを示している。後者では、CoMMは複雑なマルチモーダル相互作用を学び、7つのマルチモーダルベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2024-09-11T16:42:22Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。 MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文参考訳（メタデータ） (2023-10-04T13:54:46Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。この地域の既存の研究は、大規模に監督されたデータに大きく依存している。マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文参考訳（メタデータ） (2022-11-12T08:10:35Z)
Does a Technique for Building Multimodal Representation Matter? -- Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。 Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文参考訳（メタデータ） (2022-06-09T21:30:10Z)
AttX: Attentive Cross-Connections for Fusion of Wearable Signals in Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-06-09T17:18:33Z)
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。 MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文参考訳（メタデータ） (2022-05-04T23:40:04Z)
Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文参考訳（メタデータ） (2021-04-07T04:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。