論文の概要: Leveraging Textures in Zero-shot Understanding of Fine-Grained Domains
- arxiv url: http://arxiv.org/abs/2203.11449v1
- Date: Tue, 22 Mar 2022 04:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:55:54.682976
- Title: Leveraging Textures in Zero-shot Understanding of Fine-Grained Domains
- Title(参考訳): ファイングラインドドメインのゼロショット理解におけるテクスチャの活用
- Authors: Chenyun Wu and Subhransu Maji
- Abstract要約: 自然画像におけるテクスチャ特性の認識における大規模言語と視覚モデル(例えばCLIP)の有効性について検討する。
筆者らはまず,CLIPをテクスチャデータセット上で体系的に研究し,幅広いテクスチャ用語に好適なカバレッジがあることを見出した。
次に、これらの属性が既存のデータセットに対して、ゼロショットのきめ細かい分類を可能にする方法を示す。
- 参考スコア(独自算出の注目度): 34.848408203825194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Textures can be used to describe the appearance of objects in a wide range of
fine-grained domains. Textures are localized and one can often refer to their
properties in a manner that is independent of the object identity. Moreover,
there is a rich vocabulary to describe textures corresponding to properties
such as their color, pattern, structure, periodicity, stochasticity, and
others. Motivated by this, we study the effectiveness of large-scale language
and vision models (e.g., CLIP) at recognizing texture attributes in natural
images. We first conduct a systematic study of CLIP on texture datasets where
we find that it has good coverage for a wide range of texture terms. CLIP can
also handle compositional phrases that consist of color and pattern terms
(e.g., red dots or yellow stripes). We then show how these attributes allow for
zero-shot fine-grained categorization on existing datasets.
- Abstract(参考訳): テクスチャは、広範囲のきめ細かいドメインにおけるオブジェクトの出現を記述するのに用いられる。
テクスチャはローカライズされ、しばしばオブジェクトのアイデンティティとは独立な方法でそれらのプロパティを参照することができる。
さらに、その色、パターン、構造、周期性、確率性などの特性に対応するテクスチャを記述するための豊富な語彙が存在する。
そこで本研究では,大規模言語と視覚モデル(例えばCLIP)による自然画像のテクスチャ特性の認識の有効性について検討する。
筆者らはまず,CLIPをテクスチャデータセット上で体系的に研究し,幅広いテクスチャ用語に好適なカバレッジがあることを見出した。
CLIPは、色とパターンの用語(赤い点や黄色のストライプなど)からなる構成句も扱うことができる。
次に、これらの属性が既存のデータセットに対してゼロショットのきめ細かな分類を可能にする方法を示す。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Are we describing the same sound? An analysis of word embedding spaces
of expressive piano performance [4.867952721052875]
表現力のあるピアノ演奏の特徴の領域における不確実性について検討する。
5つの埋め込みモデルとその類似性構造を基礎的真理に対応するために検証する。
埋め込みモデルの品質は、このタスクに対して大きなばらつきを示している。
論文 参考訳(メタデータ) (2023-12-31T12:20:03Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Text2Scene: Text-driven Indoor Scene Stylization with Part-aware Details [12.660352353074012]
複数のオブジェクトからなる仮想シーンの現実的なテクスチャを自動生成するText2Sceneを提案する。
我々のパイプラインは、室内のラベル付き3Dジオメトリに詳細なテクスチャを追加し、生成した色が、しばしば類似の材料から構成される階層構造や意味的な部分を尊重するようにします。
論文 参考訳(メタデータ) (2023-08-31T17:37:23Z) - Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。
RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文 参考訳(メタデータ) (2022-06-10T14:44:43Z) - Topological Semantic Mapping by Consolidation of Deep Visual Features [0.0]
本研究は,ロボットが操作する環境の複数ビューで撮影された2次元画像から,CNNによって抽出された深い視覚的特徴を利用するトポロジカルセマンティックマッピング手法を提案する。
実世界の屋内データセットを用いて実験を行った結果、この手法は領域の視覚的特徴を統合し、それらを用いてオブジェクトとカテゴリを意味的特性として認識できることがわかった。
論文 参考訳(メタデータ) (2021-06-24T01:10:03Z) - Learning Statistical Texture for Semantic Segmentation [53.7443670431132]
セマンティックセグメンテーションのための新しい統計テクスチャ学習ネットワーク(STLNet)を提案する。
STLNetは、初めて低レベルの情報の分布を分析し、それらをタスクに効率的に活用する。
1)テクスチャ関連情報を捕捉し,テクスチャの詳細を強化するためのテクスチャエンハンスモジュール(TEM),(2)ピラミッドテクスチャ特徴抽出モジュール(PTFEM)の2つのモジュールを導入し,複数のスケールから統計的テクスチャ特徴を効果的に抽出する。
論文 参考訳(メタデータ) (2021-03-06T15:05:35Z) - Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents [17.672677325827454]
画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。
本稿では,オブジェクト検出や画像タグ付けのベースラインを越えた精度の向上とリコールを実現する,単純なクラスタリングに基づくクラスタリング手法を提案する。
提案手法は, 単語の局所的文脈意味に対して特に有効である。例えば, 不動産データセットのカウンタートップと, ウィキペディアデータセットの岩の多いランドスケープとを関連付ける。
論文 参考訳(メタデータ) (2020-10-30T16:39:49Z) - Describing Textures using Natural Language [32.076605062485605]
自然画像のテクスチャは、色、形状、内部の要素の周期性、および自然言語を用いて記述できるその他の属性によって特徴づけられる。
テクスチャの豊富な記述を含む新しいデータセットにおいて,テクスチャの視覚的属性を記述する問題について検討した。
我々は、いくつかのきめ細かいドメインを視覚化し、データセットで学んだテクスチャ属性が、Caltech-UCSD Birdsデータセットのエキスパート設計属性よりも改善できることを示します。
論文 参考訳(メタデータ) (2020-08-03T20:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。