論文の概要: Test-Time Visual In-Context Tuning
- arxiv url: http://arxiv.org/abs/2503.21777v1
- Date: Thu, 27 Mar 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:54.646687
- Title: Test-Time Visual In-Context Tuning
- Title(参考訳): テストタイムビジュアルインコンテキストチューニング
- Authors: Jiahao Xie, Alessio Tonioni, Nathalie Rauschmayr, Federico Tombari, Bernt Schiele,
- Abstract要約: ビジュアル・イン・コンテキスト・ラーニング(VICL)は、いくつかのプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。
効果はあるものの、既存のVICLパラダイムは分布シフトの下での一般化性が劣っている。
VICT(Test-time Visual In-Context Tuning)は、1つのテストサンプルでVICLモデルをオンザフライで適用できる手法である。
- 参考スコア(独自算出の注目度): 85.62916644835902
- License:
- Abstract: Visual in-context learning (VICL), as a new paradigm in computer vision, allows the model to rapidly adapt to various tasks with only a handful of prompts and examples. While effective, the existing VICL paradigm exhibits poor generalizability under distribution shifts. In this work, we propose test-time Visual In-Context Tuning (VICT), a method that can adapt VICL models on the fly with a single test sample. Specifically, we flip the role between the task prompts and the test sample and use a cycle consistency loss to reconstruct the original task prompt output. Our key insight is that a model should be aware of a new test distribution if it can successfully recover the original task prompts. Extensive experiments on six representative vision tasks ranging from high-level visual understanding to low-level image processing, with 15 common corruptions, demonstrate that our VICT can improve the generalizability of VICL to unseen new domains. In addition, we show the potential of applying VICT for unseen tasks at test time. Code: https://github.com/Jiahao000/VICT.
- Abstract(参考訳): ビジュアル・イン・コンテキスト・ラーニング(VICL)は、コンピュータビジョンの新しいパラダイムとして、少数のプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。
効果はあるものの、既存のVICLパラダイムは分布シフトの下での一般化性が劣っている。
本研究では,VICT(Test-time Visual In-Context Tuning)を提案する。
具体的には、タスクプロンプトとテストサンプルの間のロールを反転させ、サイクル一貫性損失を使用して、元のタスクプロンプト出力を再構築する。
私たちのキーとなる洞察は、モデルが元のタスクプロンプトを正常に回復できれば、新しいテストディストリビューションに気付くべきだということです。
高レベルの視覚理解から低レベルの画像処理までの6つの代表的な視覚課題に対する広範囲な実験により、VICTはVCLの一般化性を向上し、新しい領域に到達できることが実証された。
また,テスト時に見えないタスクにVICTを適用する可能性を示す。
コード:https://github.com/Jiahao000/VICT。
関連論文リスト
- Exploring Task-Level Optimal Prompts for Visual In-Context Learning [20.34945396590862]
本稿では,推論段階におけるプロンプトの探索コストを削減するためのタスクレベルプロンプトを提案する。
提案手法は最適に近いプロンプトを同定し,最小限のコストで最高のVICL性能が得られることを示す。
論文 参考訳(メタデータ) (2025-01-15T14:52:20Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文 参考訳(メタデータ) (2024-08-16T08:37:56Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。