Fugu-MT 論文翻訳(概要): Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

論文の概要: Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

arxiv url: http://arxiv.org/abs/2603.12055v1
Date: Thu, 12 Mar 2026 15:25:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.179868
Title: Continual Learning with Vision-Language Models via Semantic-Geometry Preservation
Title（参考訳）: 意味幾何学保存による視覚言語モデルによる連続学習
Authors: Chiyuan He, Zihuan Qiu, Fanman Meng, Runtong Zhang, Linfeng Xu, Qingbo Wu, Hongliang Li,
Abstract要約: 事前学習された視覚言語モデル(VLM)の継続的な学習は、破滅的な忘れがちである。現在のアプローチは、事前学習から受け継いだクロスモーダルな意味幾何学を明示的に保持することなく、新しいタスクに適応する。連続学習のための意味幾何学保存法(SeGP-CL)を提案する。
参考スコア（独自算出の注目度）: 30.46243279009575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual learning of pretrained vision-language models (VLMs) is prone to catastrophic forgetting, yet current approaches adapt to new tasks without explicitly preserving the cross-modal semantic geometry inherited from pretraining and previous stages, allowing new-task supervision to induce geometric distortion. We observe that the most pronounced drift tends to concentrate in vulnerable neighborhoods near the old-new semantic interface, where shared visual patterns are easily re-explained by new textual semantics. To address this under an exemplar-free constraint, we propose Semantic Geometry Preservation for Continual Learning (SeGP-CL). SeGP-CL first probes the drift-prone region by constructing a compact set of adversarial anchors with dual-targeted projected gradient descent (DPGD), which drives selected new-task seeds toward old-class semantics while remaining faithful in raw visual space. During training, we preserve cross-modal structure by anchor-guided cross-modal geometry distillation (ACGD), and stabilize the textual reference frame across tasks via a lightweight text semantic-geometry regularization (TSGR). After training, we estimate anchor-induced raw-space drift to transfer old visual prototypes and perform dual-path inference by fusing cross-modal and visual cues. Extensive experiments on five continual learning benchmarks demonstrate that SeGP-CL consistently improves stability and forward transfer, achieving state-of-the-art performance while better preserving semantic geometry of VLMs.
Abstract（参考訳）: 事前学習された視覚言語モデル(VLM)の継続的な学習は、破滅的な忘れがちであるが、現在のアプローチは、事前学習と以前の段階から受け継がれたクロスモーダルな意味幾何学を明示的に保存することなく、新しいタスクに適応する。従来のセマンティックインターフェースに近い脆弱な地域では,最も顕著なドリフトが集中する傾向にあり,新しいセマンティックスによって共有された視覚パターンが容易に再説明できる。これを解決するために,SeGP-CL(Semantic Geometry Preservation for Continual Learning)を提案する。 SeGP-CLは、まず、選択された新タスクの種を、生の視覚空間に忠実なまま、古いクラスセマンティクスに向けて駆動する、二重ターゲットの勾配降下(DPGD)を持つ対向アンカーのコンパクトなセットを構築することにより、ドリフト・プロン領域を探索する。トレーニング中は、アンカーガイド型クロスモーダル幾何蒸留(ACGD)によるクロスモーダル構造を保ち、軽量なテキストセマンティック幾何正規化(TSGR)によりタスク間のテキスト参照フレームを安定化する。トレーニング後, アンカーが引き起こす生空間のドリフトを推定し, 古い視覚プロトタイプを転送し, クロスモーダル・ビジュアル・キューを融合させてデュアルパス推論を行う。 5つの連続学習ベンチマークの広範囲な実験により、SeGP-CLは安定性と転送を一貫して改善し、最先端の性能を実現し、VLMのセマンティックな幾何を保存できることが示されている。

関連論文リスト

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。 NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。 3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2026-02-27T12:04:07Z)
SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models [73.19044613922911]
大規模視覚言語モデル(VLM)は、転送ベースの対向摂動に対して脆弱である。 SGHA-Attackは、複数のターゲット参照を採用し、中間層一貫性を強制するフレームワークである。オープンソースおよび商用のブラックボックスVLMの実験は、SGHA-Attackが従来の方法よりも強力な目標転送性を実現することを示している。
論文参考訳（メタデータ） (2026-02-02T03:10:41Z)
Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints [12.704390013489054]
2つのメッシュのゼロショット3Dアライメントについて,その関係を記述したテキストプロンプトを用いて検討した。テスト時の相対的なポーズの最適化,翻訳,回転,等方的スケールの更新,CLIP駆動の勾配による検討を行った。我々の手法は、意味論的に忠実で物理的に妥当なアライメントをもたらす全ての代替手段より優れています。
論文参考訳（メタデータ） (2026-01-20T18:12:55Z)
Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文参考訳（メタデータ） (2025-09-25T14:56:11Z)
Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [47.56496248878093]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文参考訳（メタデータ） (2025-08-03T04:09:00Z)
SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。本稿では,TPL(Triplane Prior Learning)について紹介する。我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文参考訳（メタデータ） (2024-10-10T07:02:06Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-02-07T08:19:57Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。