Fugu-MT 論文翻訳(概要): Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers

論文の概要: Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers

arxiv url: http://arxiv.org/abs/2307.04129v2
Date: Tue, 5 Sep 2023 02:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 04:15:02.607965
Title: Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers
Title（参考訳）: RGB-Event Transformer-Tracker におけるクロスモーダル直交高階化
Authors: Zhiyu Zhu, Junhui Hou, and Dapeng Oliver Wu
Abstract要約: 本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
参考スコア（独自算出の注目度）: 58.802352477207094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the problem of cross-modal object tracking from RGB videos and event data. Rather than constructing a complex cross-modal fusion network, we explore the great potential of a pre-trained vision Transformer (ViT). Particularly, we delicately investigate plug-and-play training augmentations that encourage the ViT to bridge the vast distribution gap between the two modalities, enabling comprehensive cross-modal information interaction and thus enhancing its ability. Specifically, we propose a mask modeling strategy that randomly masks a specific modality of some tokens to enforce the interaction between tokens from different modalities interacting proactively. To mitigate network oscillations resulting from the masking strategy and further amplify its positive effect, we then theoretically propose an orthogonal high-rank loss to regularize the attention matrix. Extensive experiments demonstrate that our plug-and-play training augmentation techniques can significantly boost state-of-the-art one-stream and twostream trackers to a large extent in terms of both tracking precision and success rate. Our new perspective and findings will potentially bring insights to the field of leveraging powerful pre-trained ViTs to model cross-modal data. The code will be publicly available.
Abstract（参考訳）: 本稿では,RGBビデオとイベントデータからのクロスモーダルオブジェクト追跡の問題に対処する。複雑なクロスモーダル融合ネットワークを構築するのではなく、事前学習された視覚変換器(ViT)の大きな可能性を探る。特に,2つのモード間の広い分散ギャップを橋渡しし,網羅的な相互モーダル情報通信を可能にし,その能力を高めるプラグイン・アンド・プレイ・トレーニングの強化を微妙に調査する。具体的には,あるトークンの特定のモダリティをランダムにマスクして,異なるモダリティからのトークン間のインタラクションを積極的に実施するマスクモデリング戦略を提案する。マスキング戦略によるネットワーク振動を緩和し、さらにその正の効果を増幅するため、理論上は注意行列を正則化する直交高ランク損失を提案する。広汎な実験により、我々のプラグアンドプレイトレーニング強化技術は、追跡精度と成功率の両方の観点から、最先端の1ストリームと2ストリームのトラッカーを大幅に向上させることができることが示された。我々の新たな視点と発見は、強力なトレーニング済みのViTを使って、クロスモーダルデータをモデル化する分野に洞察をもたらす可能性がある。コードは公開される予定だ。

関連論文リスト

Disrupting Semantic and Abstract Features for Better Adversarial Transferability [4.529296557637168]
既存の機能レベルの攻撃は、主に重み行列を導出するために意味情報を操作します。我々はSemantic and Abstract features disRuption (SAFER)と呼ばれるバランスの取れたアプローチを提案する。このような重み行列を使用することで、攻撃者に意味的特徴と抽象的特徴の両方を中断させ、転送可能性を向上させることができる。
論文参考訳（メタデータ） (2025-07-21T20:38:50Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [17.356760351203715]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。我々は、シミュレートされた9.9kの画像と実際の画像のデータセットを作成し、シミュレートとリアルのギャップを埋めた。我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善した。
論文参考訳（メタデータ） (2024-12-13T11:22:01Z)
Multi-layer Learnable Attention Mask for Multimodal Tasks [2.378535917357144]
ラーナブル・アテンション・マスク(LAM)は、グローバルなアテンションマップの規制と重要なトークンの優先順位付けのために戦略的に設計された。 LAMはBERTのようなトランスフォーマーネットワークでトークン間の関連を受信する。 MADv2、QVHighlights、ImageNet 1K、MSRVTTなど、さまざまなデータセットに対する総合的な実験的検証。
論文参考訳（メタデータ） (2024-06-04T20:28:02Z)
GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer [44.44603063754173]
クロスモーダル変換器は、様々なモダリティを効果的に統合することにより、様々な視覚タスクにおいて優位性を証明している。本稿では,画素単位の融合手法であるGeminiFusionを提案する。我々は,層間相互作用を適応的に制御するために層適応雑音を用い,調和した融合プロセスを実現する。
論文参考訳（メタデータ） (2024-06-03T11:24:15Z)
Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文参考訳（メタデータ） (2024-05-30T11:11:54Z)
Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文参考訳（メタデータ） (2023-12-08T08:18:12Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文参考訳（メタデータ） (2023-06-06T12:36:57Z)
Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。提案手法は1dB以上で最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-05-09T17:36:58Z)
Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。 TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文参考訳（メタデータ） (2022-04-19T07:47:50Z)
Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文参考訳（メタデータ） (2021-10-30T15:34:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。