Fugu-MT 論文翻訳(概要): Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method

論文の概要: Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method

arxiv url: http://arxiv.org/abs/2306.16950v1
Date: Thu, 29 Jun 2023 13:49:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 13:07:27.890642
Title: Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method
Title（参考訳）: オルタナティブ・テレスコープ・アライメント:効率的なマルチモーダルアライメント法
Authors: Jiahao Qin and Yitao Xu and Zihong Luo Chengzhi Liu and Zong Lu and Xiaojun Zhang
Abstract要約: マルチモーダル情報を完全に融合する特徴アライメント手法を提案する。提案手法は,異なるモダリティの特徴間の高レベル相互作用を強固に捉えることができる。
参考スコア（独自算出の注目度）: 2.4754083311339454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Feature alignment is the primary means of fusing multimodal data. We propose a feature alignment method that fully fuses multimodal information, which alternately shifts and expands feature information from different modalities to have a consistent representation in a feature space. The proposed method can robustly capture high-level interactions between features of different modalities, thus significantly improving the performance of multimodal learning. We also show that the proposed method outperforms other popular multimodal schemes on multiple tasks. Experimental evaluation of ETT and MIT-BIH-Arrhythmia, datasets shows that the proposed method achieves state of the art performance.
Abstract（参考訳）: 特徴アライメントは、マルチモーダルデータを融合する主要な手段である。本稿では,特徴情報を異なるモダリティから交互にシフト・拡張し,特徴空間に一貫した表現を持つマルチモーダル情報を完全に融合する特徴アライメント手法を提案する。提案手法は,異なるモーダル特徴間の高レベル相互作用を頑健に捉え,マルチモーダル学習の性能を大幅に向上させることができる。また,提案手法は,複数のタスクにおいて他の一般的なマルチモーダルスキームよりも優れていることを示す。 ETTとMIT-BIH-Arrhythmiaの実験的評価により,提案手法が技術性能の状態を達成していることを示す。

関連論文リスト

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations [4.67724003380452]
マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動の(シネルジスティックな)情報を無視している。最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。基本的枠組みである textbfCOrAL を導入する。
論文参考訳（メタデータ） (2026-02-16T18:06:53Z)
UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-28T09:11:30Z)
Multimodal Alignment and Fusion: A Survey [7.250878248686215]
マルチモーダル統合により、モデルの精度と適用性が改善される。我々は既存のアライメントと融合の手法を体系的に分類し分析する。この調査は、ソーシャルメディア分析、医療画像、感情認識といった分野の応用に焦点を当てている。
論文参考訳（メタデータ） (2024-11-26T02:10:27Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
Zoom and Shift are All You Need [0.0]
マルチモーダル情報の完全統合を実現する機能アライメント手法を提案する。提案手法は,異なるモダリティから派生した特徴間の高レベルな相互作用を確実に捉えることができる。
論文参考訳（メタデータ） (2024-06-13T07:09:41Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Generalized Product-of-Experts for Learning Multimodal Representations in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文参考訳（メタデータ） (2022-11-07T14:27:38Z)
Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文参考訳（メタデータ） (2022-10-26T08:24:15Z)
Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (2021-12-27T10:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。