論文の概要: MVS-TTA: Test-Time Adaptation for Multi-View Stereo via Meta-Auxiliary Learning
- arxiv url: http://arxiv.org/abs/2511.18120v1
- Date: Sat, 22 Nov 2025 16:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.638099
- Title: MVS-TTA: Test-Time Adaptation for Multi-View Stereo via Meta-Auxiliary Learning
- Title(参考訳): MVS-TTA:メタ補助学習によるマルチビューステレオのテスト時間適応
- Authors: Hannuo Zhang, Zhixiang Chi, Yang Wang, Xinxin Zuo,
- Abstract要約: MVS-TTAは学習に基づくMVS手法のための効率的なテスト時間適応フレームワークである。
補助タスクベースの更新を明示的に活用するために,モデルのトレーニングを行うメタ補助学習戦略を導入する。
我々のフレームワークはモデルに依存しないため、最小限のアーキテクチャ変更で広範囲のMVSメソッドに適用できる。
- 参考スコア(独自算出の注目度): 15.25971188918359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent learning-based multi-view stereo (MVS) methods are data-driven and have achieved remarkable progress due to large-scale training data and advanced architectures. However, their generalization remains sub-optimal due to fixed model parameters trained on limited training data distributions. In contrast, optimization-based methods enable scene-specific adaptation but lack scalability and require costly per-scene optimization. In this paper, we propose MVS-TTA, an efficient test-time adaptation (TTA) framework that enhances the adaptability of learning-based MVS methods by bridging these two paradigms. Specifically, MVS-TTA employs a self-supervised, cross-view consistency loss as an auxiliary task to guide inference-time adaptation. We introduce a meta-auxiliary learning strategy to train the model to benefit from auxiliary-task-based updates explicitly. Our framework is model-agnostic and can be applied to a wide range of MVS methods with minimal architectural changes. Extensive experiments on standard datasets (DTU, BlendedMVS) and a challenging cross-dataset generalization setting demonstrate that MVS-TTA consistently improves performance, even when applied to state-of-the-art MVS models. To our knowledge, this is the first attempt to integrate optimization-based test-time adaptation into learning-based MVS using meta-learning. The code will be available at https://github.com/mart87987-svg/MVS-TTA.
- Abstract(参考訳): 近年の学習型マルチビューステレオ (MVS) 法はデータ駆動型であり, 大規模学習データや高度なアーキテクチャにより, 目覚ましい進歩を遂げている。
しかし、それらの一般化は、限られた訓練データ分布で訓練された固定モデルパラメータにより、依然として準最適である。
対照的に、最適化に基づく手法はシーン固有の適応を可能にするが、スケーラビリティが欠如しており、シーンごとの最適化に費用がかかる。
本稿では,これら2つのパラダイムをブリッジすることで,学習に基づくMVS手法の適応性を向上する,効率的なテスト時適応(TTA)フレームワークであるMVS-TTAを提案する。
具体的には、MVS-TTAは、推論時間適応を導く補助タスクとして、自己教師付きクロスビュー整合性損失を用いる。
補助タスクベースの更新を明示的に活用するために,モデルのトレーニングを行うメタ補助学習戦略を導入する。
我々のフレームワークはモデルに依存しないため、最小限のアーキテクチャ変更で広範囲のMVSメソッドに適用できる。
標準データセット(DTU, BlendedMVS)と挑戦的なクロスデータセットの一般化設定に関する大規模な実験は、MVS-TTAが最先端のMVSモデルに適用しても、一貫して性能を改善することを示した。
我々の知る限り、これはメタラーニングを用いた学習ベースのMVSに最適化ベースのテスト時間適応を統合する最初の試みである。
コードはhttps://github.com/mart87987-svg/MVS-TTAで入手できる。
関連論文リスト
- Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time [12.659582318581606]
Vision Foundation Models (VFM) や Multimodal Large Language Models (MLLM) といった現在のアプローチでは意味理解が強化されているが、微調整時に高い計算オーバーヘッドと限られたクロスドメイン転送性に悩まされている。
本稿では,直接類似度スコアリングのためのガイダンスベースの手法を用いて,視覚言語アライメント機能を活用したテスト時間スケーリング(TTS)を用いた新しいフレームワークを提案する。
提案手法では,長さ制御可能なスコアアウトプットを生成する構造的プロンプトを用いることで,2段階処理を除去する。
論文 参考訳(メタデータ) (2025-09-02T09:25:13Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [13.803180972839213]
テスト時間拡張(MTA)のための堅牢な平均シフトを導入する。
MTAは、この集中的なトレーニング手順を必要とせずに、プロンプトベースの手法を超える。
提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
論文 参考訳(メタデータ) (2024-05-03T17:34:02Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models [7.428199805959228]
Few-shot semantic segmentation (FSS) はコンピュータビジョンにおいて重要な課題である。
一般化的特徴抽出器としての視覚基盤モデル(VFM)の出現に伴い,これらのモデルをFSSに適用することを模索する。
本稿では,このタスクに適した単純で簡単な適応プロセスを備えた,新しい現実的なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-20T19:50:51Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。
メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。
この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-30T09:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。