論文の概要: Low-rank Prompt Interaction for Continual Vision-Language Retrieval
- arxiv url: http://arxiv.org/abs/2501.14369v1
- Date: Fri, 24 Jan 2025 10:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:53.519131
- Title: Low-rank Prompt Interaction for Continual Vision-Language Retrieval
- Title(参考訳): 連続的な視覚・言語検索のための低速度プロンプト相互作用
- Authors: Weicai Yan, Ye Wang, Wang Lin, Zirun Guo, Zhou Zhao, Tao Jin,
- Abstract要約: 本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。
トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。
また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
- 参考スコア(独自算出の注目度): 47.323830129786145
- License:
- Abstract: Research on continual learning in multi-modal tasks has been receiving increasing attention. However, most existing work overlooks the explicit cross-modal and cross-task interactions. In this paper, we innovatively propose the Low-rank Prompt Interaction (LPI) to address this general problem of multi-modal understanding, which considers both cross-modal and cross-task interactions. Specifically, as for the former, we employ multi-modal correlation modules for corresponding Transformer layers. Considering that the training parameters scale to the number of layers and tasks, we propose low-rank interaction-augmented decomposition to avoid memory explosion while enhancing the cross-modal association through sharing and separating common-specific low-rank factors. In addition, due to the multi-modal semantic differences carried by the low-rank initialization, we adopt hierarchical low-rank contrastive learning to ensure training robustness. As for the latter, we initially employ a visual analysis and identify that different tasks have clear distinctions in proximity. Therefore, we introduce explicit task contrastive constraints in the prompt learning process based on task semantic distances. Experiments on two retrieval tasks show performance improvements with the introduction of a minimal number of parameters, demonstrating the effectiveness of our method. Code is available at https://github.com/Kelvin-ywc/LPI.
- Abstract(参考訳): マルチモーダルタスクにおける連続学習の研究が注目されている。
しかし、既存の作業のほとんどは、明示的なクロスモーダルとクロスタスクの相互作用を見落としている。
本稿では,マルチモーダル理解の一般的な問題に対処するための低ランクプロンプト相互作用(LPI)を革新的に提案する。
具体的には、前者について、対応するTransformer層に対してマルチモーダル相関モジュールを用いる。
トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、メモリの爆発を回避するために、共通する低ランク要因の共有と分離による相互関連性を高めながら、低ランクな相互作用強化分解を提案する。
また,低ランク初期化によるマルチモーダルな意味の相違により,階層型低ランクコントラスト学習を採用し,トレーニングの堅牢性を確保する。
後者については、まず視覚分析を用いて、異なるタスクが近接において明確な相違があることを識別する。
そこで本研究では,課題意味距離に基づく素早い学習プロセスにおいて,明示的なタスクコントラスト制約を導入する。
2つの検索タスクの実験は、最小限のパラメータの導入による性能改善を示し、本手法の有効性を実証した。
コードはhttps://github.com/Kelvin-ywc/LPIで入手できる。
関連論文リスト
- Contrastive Multi-Task Dense Prediction [11.227696986100447]
設計における中核的な目的は、異なるタスクに対する包括的な改善を達成するために、クロスタスクインタラクションを効果的にモデル化する方法である。
マルチタスク密接な予測のためのクロスタスク相互作用のモデル化に特徴的コントラスト整合を導入する。
本稿では,各サブタスクの表現学習を効果的に促進するために,一貫性に基づく新しいマルチタスクコントラスト正規化手法を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:54:01Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Interval Bound Interpolation for Few-shot Learning with Few Tasks [15.85259386116784]
少ないショット学習は、さまざまなタスクのトレーニングから得られた知識を、限られたラベル付きデータで見つからないタスクに転送することを目的としている。
そこで本研究では,頑健な学習文献から数ショット学習まで,インターバルバウンダリの概念を紹介した。
次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。
論文 参考訳(メタデータ) (2022-04-07T15:29:27Z) - Modelling continual learning in humans with Hebbian context gating and
exponentially decaying task signals [4.205692673448206]
人間は、最小限の相互干渉で連続して複数のタスクを学ぶことができるが、一度に複数のタスクを訓練すると、パフォーマンスが低下する。
本稿では,ニューラルネットワークに対する新しい計算制約を提案する。この制約は,インターリーブドトレーニングのコストを捕捉し,ネットワークが2つのタスクを連続的に学習することを可能にする。
学習中に「スラグッシュ」ユニットがスイッチコストを導入し、コンテキストキューを無視した共同表現に対して、インターリーブされたトレーニング下での表現をバイアスするのに対し、ヘビアンステップはタスクユニットから完全に干渉から保護された表現を生成する隠蔽層へのゲーティングスキームの形成を促進する。
論文 参考訳(メタデータ) (2022-03-22T09:32:06Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。