Fugu-MT 論文翻訳(概要): Modality-missing RGBT Tracking via Invertible Prompt Learning and A High-quality Data Simulation Method

論文の概要: Modality-missing RGBT Tracking via Invertible Prompt Learning and A High-quality Data Simulation Method

arxiv url: http://arxiv.org/abs/2312.16244v2
Date: Mon, 22 Jan 2024 07:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 19:42:19.809422
Title: Modality-missing RGBT Tracking via Invertible Prompt Learning and A High-quality Data Simulation Method
Title（参考訳）: 可逆的プロンプト学習によるモード欠落RGBT追跡と高品質データシミュレーション手法
Authors: Andong Lu, Jiacong Zhao, Chenglong Li, Jin Tang, Bin Luo
Abstract要約: 現在のRGBT追跡研究は主に、現実世界のシーンにおけるモダリティを欠く課題を見越して、モダリティ完備なシナリオに焦点を当てている。本稿では、コンテンツ保存プロンプトをよく訓練された追跡モデルに統合する、新しい非可逆的プロンプト学習手法を提案する。提案手法は,最先端手法と比較して,大幅な性能向上を実現している。
参考スコア（独自算出の注目度）: 22.679063527901917
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Current RGBT tracking researches mainly focus on the modality-complete scenarios, overlooking the modality-missing challenge in real-world scenes. In this work, we comprehensively investigate the impact of modality-missing challenge in RGBT tracking and propose a novel invertible prompt learning approach, which integrates the content-preserving prompts into a well-trained tracking model to adapt to various modality-missing scenarios, for modality-missing RGBT tracking. In particular, given one modality-missing scenario, we propose to utilize the available modality to generate the prompt of the missing modality to adapt to RGBT tracking model. However, the cross-modality gap between available and missing modalities usually causes semantic distortion and information loss in prompt generation. To handle this issue, we propose the invertible prompt learning scheme by incorporating the full reconstruction of the input available modality from the prompt in prompt generation model. Considering that there lacks a modality-missing RGBT tracking dataset and many modality-missing scenarios are difficult to capture, we design a high-quality data simulation method based on hierarchical combination schemes to generate real-world modality-missing data. Extensive experiments on three modality-missing datasets show that our method achieves significant performance improvements compared with state-of-the-art methods. We will release the code and simulation dataset.
Abstract（参考訳）: 現在のRGBT追跡研究は主に、現実世界のシーンにおけるモダリティを欠く課題を見越して、モダリティ完備シナリオに焦点を当てている。本研究では,RGBT追跡におけるモダリティ欠落問題の影響を包括的に調査し,コンテンツ保存プロンプトをよく訓練されたトラッキングモデルに統合し,様々なモダリティ欠落シナリオに適応する,新しい非可逆的プロンプト学習手法を提案する。特に, 1つのモダリティを欠いたシナリオを考慮し, RGBT追跡モデルに適応するためのモダリティの欠如を発生させるためのモダリティの利用を提案する。しかしながら、利用可能なモダリティと欠落したモダリティの間の相互モダリティギャップは、通常、即時生成において意味的歪みと情報損失を引き起こす。この問題に対処するために,インパルス生成モデルから入力可能なモダリティの完全な再構築を取り入れた非可逆的なプロンプト学習方式を提案する。モダリティ許容rgbt追跡データセットの欠如と多くのモダリティ許容シナリオのキャプチャが困難であることを考慮して,階層的組合せスキームに基づく高品質データシミュレーション手法を設計し,実世界のモダリティ許容データを生成する。 3つのモダリティを許容するデータセットに関する広範囲な実験により、本手法は最先端手法に比べて大幅に性能が向上することを示した。コードとシミュレーションのデータセットをリリースします。

関連論文リスト

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation [71.2136732268131]
RGB-Thermal(RGBT)トラッキングは、多様な環境条件をまたいだ堅牢なオブジェクトローカライゼーションを実現することを目的としている。既存のRGBTトラッカーは、ターゲットモデリングのための初期フレームの視覚情報のみに依存している。堅牢なRGBTトラッキングのための新しい検索拡張フレームワークであるRAGTrackを提案する。
論文参考訳（メタデータ） (2026-03-04T01:02:04Z)
Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文参考訳（メタデータ） (2026-02-28T05:41:57Z)
Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文参考訳（メタデータ） (2026-02-04T07:38:42Z)
CADTrack: Learning Contextual Aggregation with Deformable Alignment for Robust RGBT Tracking [68.71826342377004]
RGB-Thermal (RGBT) トラッキングは、堅牢な全天候物体追跡のために可視および熱赤外モードを活用することを目的としている。既存のRGBTトラッカーはモダリティの相違を解決するのに苦労している。 RGBT追跡のためのCADTrackと呼ばれる,変形可能なアライメントによるコンテキストアグリゲーション(Contextual Aggregation)を提案する。
論文参考訳（メタデータ） (2025-11-22T08:10:02Z)
MTNet: Learning modality-aware representation with transformer for RGBT tracking [35.96855931247585]
MTNetと呼ばれるトランスフォーマーに基づくモダリティ対応トラッカーを提案する。その後、グローバルな依存関係をキャプチャしてインスタンス表現を強化するために、Transformer fusion Networkが適用される。提案手法は,3つのRGBTベンチマークにおいて,最先端の競合相手と比較して良好な結果が得られる。
論文参考訳（メタデータ） (2025-08-24T10:01:11Z)
What You Have is What You Track: Adaptive and Robust Multimodal Tracking [72.92244578461869]
本研究では,時間的に不完全なマルチモーダルデータを用いたトラッカー性能に関する総合的研究を行った。我々のモデルは9つのベンチマークでSOTA性能を達成し、従来の完全性と欠落したモダリティ設定の両方で優れている。
論文参考訳（メタデータ） (2025-07-08T11:40:21Z)
PATFinger: Prompt-Adapted Transferable Fingerprinting against Unauthorized Multimodal Dataset Usage [19.031839603738057]
マルチモーダルデータセットは、クロスモーダルセマンティクスを提供することで、事前訓練されたビジョン適応モデルに活用することができる。本稿では,PATFingerと呼ばれる新しいプロンプト言語変換可能なフィンガープリント手法を提案する。提案手法では,モデルにトリガを学習させる代わりに,固有データセット属性を指紋として利用する。
論文参考訳（メタデータ） (2025-04-15T09:53:02Z)
AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文参考訳（メタデータ） (2025-04-07T03:31:57Z)
Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning [27.867369806400834]
本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。 RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。 3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-02T07:39:48Z)
Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking [1.8843687952462744]
M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。メタフレームワークに基づいて、複数のフレキシブルなプロンプト戦略を用いて、事前訓練されたモデルを適用し、ユニモーダルパターンの包括的探索を行う。
論文参考訳（メタデータ） (2024-03-27T02:06:25Z)
Gradient-Guided Modality Decoupling for Missing-Modality Robustness [24.95911972867697]
我々は,モダリティの優位性を監視し,抑制するために,新しい指標,勾配を導入する。本稿では, 支配的モダリティへの依存を分離するために, GMD法を提案する。さらに,モーダル不完全データを柔軟に処理するために,パラメータ効率のよい動的共有フレームワークを設計する。
論文参考訳（メタデータ） (2024-02-26T05:50:43Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios [23.43319138048058]
実践シナリオにおけるマルチモーダル感情認識(MER)は、欠落したデータや不完全なデータの存在によって著しく困難である。従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。本稿では,雑音データから頑健なマルチモーダル関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。
論文参考訳（メタデータ） (2023-09-21T10:49:02Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報はソーシャルメディアのプラットフォームで増え続けている問題です本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文参考訳（メタデータ） (2023-04-27T12:28:29Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。 ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文参考訳（メタデータ） (2022-07-29T09:35:02Z)
Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-08T04:09:13Z)
Challenge-Aware RGBT Tracking [32.88141817679821]
本稿では,モダリティに偏った課題と,モダリティに特有の課題に対処する,新たな課題認識ニューラルネットワークを提案する。提案手法は,3つのベンチマークデータセット上での最先端手法に対して高い性能を保ちながら,リアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-07-26T15:11:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。