論文の概要: Anticipative Feature Fusion Transformer for Multi-Modal Action
Anticipation
- arxiv url: http://arxiv.org/abs/2210.12649v1
- Date: Sun, 23 Oct 2022 08:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:11:31.344969
- Title: Anticipative Feature Fusion Transformer for Multi-Modal Action
Anticipation
- Title(参考訳): 多モード動作予測のための期待機能融合変換器
- Authors: Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen,
J\"urgen Beyerer
- Abstract要約: 本稿では,マルチモーダルデータを早期に統一するトランスフォーマーに基づくモーダル融合手法を提案する。
我々の予測特徴融合変換器 (AFFT) は, 一般的なスコア融合法よりも優れていることが証明された。
我々はEpicKitchens-100の音声機能を抽出し、コミュニティでよく使われている機能群に追加する。
- 参考スコア(独自算出の注目度): 19.461279313483683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although human action anticipation is a task which is inherently multi-modal,
state-of-the-art methods on well known action anticipation datasets leverage
this data by applying ensemble methods and averaging scores of unimodal
anticipation networks. In this work we introduce transformer based modality
fusion techniques, which unify multi-modal data at an early stage. Our
Anticipative Feature Fusion Transformer (AFFT) proves to be superior to popular
score fusion approaches and presents state-of-the-art results outperforming
previous methods on EpicKitchens-100 and EGTEA Gaze+. Our model is easily
extensible and allows for adding new modalities without architectural changes.
Consequently, we extracted audio features on EpicKitchens-100 which we add to
the set of commonly used features in the community.
- Abstract(参考訳): ヒューマンアクション予測は本質的にマルチモーダルなタスクであるが、よく知られたアクション予測データセットに対する最先端の手法は、アンサンブル法を適用し、ユニモーダル予測ネットワークのスコアを平均化することでこのデータを活用する。
本研究では,マルチモーダルデータを早期に統一するトランスフォーマーに基づくモーダル融合手法を提案する。
また,epickitchens-100 および egtea gaze+ において,従来の手法よりも優れた結果が得られた。
私たちのモデルは容易に拡張可能で、アーキテクチャの変更なしに新しいモダリティを追加できます。
その結果,EpicKitchens-100の音声機能を抽出し,コミュニティでよく使われている機能群に付加した。
関連論文リスト
- Appformer: A Novel Framework for Mobile App Usage Prediction Leveraging Progressive Multi-Modal Data Fusion and Feature Extraction [9.53224378857976]
Appformerは、Transformerのようなアーキテクチャの効率性に触発された、新しいモバイルアプリケーション予測フレームワークである。
このフレームワークは、ベースステーションに関連付けられたPoints of Interest(POI)を使用し、比較実験を通じてそれらを最適化し、最も効果的なクラスタリング方法を特定する。
特徴抽出モジュールは、時系列分析に特化したトランスフォーマーのようなアーキテクチャを採用しており、包括的機能を完全に排除している。
論文 参考訳(メタデータ) (2024-07-28T06:41:31Z) - Fine-Grained Scene Image Classification with Modality-Agnostic Adapter [8.801601759337006]
MAA(Modality-Agnostic Adapter)と呼ばれる新しいマルチモーダル特徴融合手法を提案する。
我々は分散のモーダル差を排除し、その後、意味レベルの特徴融合のためにモダリティに依存しないトランスフォーマーエンコーダを使用する。
実験により,MAAは従来の手法と同一のモーダル性を適用することで,ベンチマーク上での最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-03T02:57:14Z) - Multimodal Fusion with Pre-Trained Model Features in Affective Behaviour Analysis In-the-wild [37.32217405723552]
本稿では,表現(Expr)認識とValence-Arousal(VA)推定の課題に対処するためのアプローチを提案する。
我々は,事前学習モデルを用いてAff-Wild2データベースを評価し,モデルの最終層を特徴として抽出する。
抽出した特徴を整合させる前処理や畳み込みに続いて、異なるモデルがモーダル融合に使用される。
論文 参考訳(メタデータ) (2024-03-22T09:00:24Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Contrastive Fusion Transformer for Multimodal Human Action
Recognition [13.104967563769533]
我々は、Unified Contrastive Fusion Transformer (UCFFormer)と呼ばれる新しいマルチモーダル核融合アーキテクチャを導入する。
UCFFormerは、人間の行動認識(HAR)性能を向上させるために、さまざまなディストリビューションとデータを統合する。
We present the Factorized Time-Modality Attention to perform self-attention for the Unified Transformer。
論文 参考訳(メタデータ) (2023-09-10T14:10:56Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。