論文の概要: Steerable Visual Representations
- arxiv url: http://arxiv.org/abs/2604.02327v1
- Date: Thu, 02 Apr 2026 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.992618
- Title: Steerable Visual Representations
- Title(参考訳): ステアブルなビジュアル表現
- Authors: Jona Ruthardt, Manu Gaur, Deva Ramanan, Makarand Tapaswi, Yuki M. Asano,
- Abstract要約: 我々は、グローバルでローカルな機能を自然言語で操れるステアブルなビジュアル表現を紹介した。
また,本手法は,異常検出とパーソナライズされた対象の識別に専用アプローチを適合させ,性能を向上する。
- 参考スコア(独自算出の注目度): 72.39044430620977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Vision Transformers (ViTs) such as DINOv2 and MAE provide generic image features that can be applied to a variety of downstream tasks such as retrieval, classification, and segmentation. However, such representations tend to focus on the most salient visual cues in the image, with no way to direct them toward less prominent concepts of interest. In contrast, Multimodal LLMs can be guided with textual prompts, but the resulting representations tend to be language-centric and lose their effectiveness for generic visual tasks. To address this, we introduce Steerable Visual Representations, a new class of visual representations, whose global and local features can be steered with natural language. While most vision-language models (e.g., CLIP) fuse text with visual features after encoding (late fusion), we inject text directly into the layers of the visual encoder (early fusion) via lightweight cross-attention. We introduce benchmarks for measuring representational steerability, and demonstrate that our steerable visual features can focus on any desired objects in an image while preserving the underlying representation quality. Our method also matches or outperforms dedicated approaches on anomaly detection and personalized object discrimination, exhibiting zero-shot generalization to out-of-distribution tasks.
- Abstract(参考訳): DINOv2やMAEのような事前訓練された視覚変換器(ViT)は、検索、分類、セグメンテーションといった様々な下流タスクに適用可能な一般的な画像機能を提供する。
しかし、そのような表現は画像の中で最も健全な視覚的手がかりに焦点を当てる傾向にあり、それらがあまり目立たない関心のコンセプトに向かわせる方法はない。
対照的に、Multimodal LLMはテキストプロンプトでガイドできるが、結果として得られる表現は言語中心であり、汎用的な視覚タスクにおいてその効果を失う傾向にある。
これを解決するために、我々は、グローバルでローカルな機能を自然言語で操ることのできる、新しい視覚表現のクラスであるステアブル・ビジュアル・リ表現を導入する。
ほとんどの視覚言語モデル(例えばCLIP)はエンコーディング後(後期融合)に視覚的特徴を融合するが、私たちは軽量なクロスアテンションを通じて視覚的エンコーダ(初期融合)の層に直接テキストを注入する。
我々は,表現性評価のためのベンチマークを導入し,その基礎となる表現品質を保ちながら,画像中の任意の対象に注目できることを実証する。
また,本手法は,異常検出とパーソナライズされた対象の識別に特化して,アウト・オブ・ディストリビューションタスクに対するゼロショットの一般化を示す。
関連論文リスト
- FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations [40.27064688727896]
本稿では、関心の文脈に基づいて、同じ画像に対して異なる表現を生成する条件付き視覚符号化法であるFocalLensを紹介する。
本稿では,FocalLensが画像画像検索,画像分類,画像テキスト検索など,下流タスクの性能改善につながることを示す。
論文 参考訳(メタデータ) (2025-04-11T09:07:05Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。