論文の概要: Describing Sets of Images with Textual-PCA
- arxiv url: http://arxiv.org/abs/2210.12112v1
- Date: Fri, 21 Oct 2022 17:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:15:23.200224
- Title: Describing Sets of Images with Textual-PCA
- Title(参考訳): テキストPCAによる画像の集合記述
- Authors: Oded Hupert, Idan Schwartz, Lior Wolf
- Abstract要約: 画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
- 参考スコア(独自算出の注目度): 89.46499914148993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We seek to semantically describe a set of images, capturing both the
attributes of single images and the variations within the set. Our procedure is
analogous to Principle Component Analysis, in which the role of projection
vectors is replaced with generated phrases. First, a centroid phrase that has
the largest average semantic similarity to the images in the set is generated,
where both the computation of the similarity and the generation are based on
pretrained vision-language models. Then, the phrase that generates the highest
variation among the similarity scores is generated, using the same models. The
next phrase maximizes the variance subject to being orthogonal, in the latent
space, to the highest-variance phrase, and the process continues. Our
experiments show that our method is able to convincingly capture the essence of
image sets and describe the individual elements in a semantically meaningful
way within the context of the entire set. Our code is available at:
https://github.com/OdedH/textual-pca.
- Abstract(参考訳): 我々は、画像の集合を意味的に記述し、単一の画像の属性と集合内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
まず、セット内の画像と最も平均的な意味的類似性を持つセントロイド句を生成し、その類似性と生成の計算は、事前訓練された視覚言語モデルに基づいて行われる。
そして、同一モデルを用いて、類似度スコアの最も高い変動を生成するフレーズを生成する。
次のフレーズは、直交する空間において、最も分散度の高いフレーズへの分散を最大化し、プロセスは継続する。
実験により,本手法は画像集合の本質を説得力を持って捉え,個々の要素を集合全体の文脈内で意味的に意味のある方法で記述できることを示した。
私たちのコードは、https://github.com/OdedH/textual-pca.comで利用可能です。
関連論文リスト
- Visual Information Guided Zero-Shot Paraphrase Generation [71.33405403748237]
ペア画像キャプチャデータのみに基づく視覚情報誘導ゼロショットパラフレーズ生成(ViPG)を提案する。
画像キャプションモデルとパラフレーズモデルとを共同で訓練し、画像キャプションモデルを活用してパラフレーズモデルのトレーニングを指導する。
自動評価と人的評価の両方は、我々のモデルが関係性、流布度、多様性に優れたパラフレーズを生成できることを示している。
論文 参考訳(メタデータ) (2022-01-22T18:10:39Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。