論文の概要: DreamSim: Learning New Dimensions of Human Visual Similarity using
Synthetic Data
- arxiv url: http://arxiv.org/abs/2306.09344v2
- Date: Mon, 26 Jun 2023 17:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 21:51:47.904400
- Title: DreamSim: Learning New Dimensions of Human Visual Similarity using
Synthetic Data
- Title(参考訳): DreamSim: 合成データを用いた人間の視覚的類似性の新たな次元学習
- Authors: Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard
Zhang, Tali Dekel, Phillip Isola
- Abstract要約: 現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作します。
これらのメトリクスは、低レベルの色やテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティック内容の中間レベルの類似点や相違点をキャプチャできない。
我々は,画像の全体的評価を行う知覚的指標を開発した。
- 参考スコア(独自算出の注目度): 36.62173069582422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current perceptual similarity metrics operate at the level of pixels and
patches. These metrics compare images in terms of their low-level colors and
textures, but fail to capture mid-level similarities and differences in image
layout, object pose, and semantic content. In this paper, we develop a
perceptual metric that assesses images holistically. Our first step is to
collect a new dataset of human similarity judgments over image pairs that are
alike in diverse ways. Critical to this dataset is that judgments are nearly
automatic and shared by all observers. To achieve this we use recent
text-to-image models to create synthetic pairs that are perturbed along various
dimensions. We observe that popular perceptual metrics fall short of explaining
our new data, and we introduce a new metric, DreamSim, tuned to better align
with human perception. We analyze how our metric is affected by different
visual attributes, and find that it focuses heavily on foreground objects and
semantic content while also being sensitive to color and layout. Notably,
despite being trained on synthetic data, our metric generalizes to real images,
giving strong results on retrieval and reconstruction tasks. Furthermore, our
metric outperforms both prior learned metrics and recent large vision models on
these tasks.
- Abstract(参考訳): 現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作する。
これらのメトリクスは、低レベルの色とテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティックコンテンツの中間レベルの類似性と相違を捉えられていない。
本稿では,画像の全体的評価を行う知覚指標を開発する。
最初のステップは、さまざまな方法で画像ペアよりも人間の類似性判断の新しいデータセットを収集することです。
このデータセットにとって重要なのは、判断はほぼ自動であり、すべてのオブザーバーによって共有されることだ。
これを実現するために、最近のテキスト・ツー・イメージモデルを用いて、様々な次元に沿って摂動する合成ペアを作成する。
私たちは、一般的な知覚指標が新しいデータを説明することの欠如を観察し、人間の知覚に合致するように調整された新しいメトリクスdreamsimを紹介します。
我々は、我々のメトリクスが異なる視覚的属性によってどのように影響を受けるかを分析し、色やレイアウトに敏感でありながら、前景オブジェクトやセマンティックコンテンツに重点を置いていることを発見した。
特に,合成データに基づいて訓練されているにもかかわらず,実画像に一般化し,検索および復元作業において強い結果を与える。
さらに,これらの課題において,従来の学習指標と最近の大規模ビジョンモデルの両方よりも優れていた。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Shift-tolerant Perceptual Similarity Metric [5.326626090397465]
既存の知覚的類似度指標は、画像とその参照がよく一致していると仮定する。
本稿では,入力画像と参照画像の小さなずれが既存の指標に与える影響について検討する。
我々は,新しいディープニューラルネットワークに基づく知覚的類似度測定法を開発した。
論文 参考訳(メタデータ) (2022-07-27T17:55:04Z) - Rarity Score : A New Metric to Evaluate the Uncommonness of Synthesized
Images [32.94581354719927]
そこで我々は,各画像の放射率を測定するために,新しい評価基準である「放射率スコア」を提案する。
コードは、研究コミュニティのためにオンラインで公開されます。
論文 参考訳(メタデータ) (2022-06-17T05:16:16Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Image Quality Assessment: Unifying Structure and Texture Similarity [38.05659069533254]
テクスチャリサンプリングに対する耐性を明示した,最初のフル参照画像品質モデルを開発した。
畳み込みニューラルネットワークを用いて、画像をオーバーコンプリート表現に変換するインジェクティブで微分可能な関数を構築する。
論文 参考訳(メタデータ) (2020-04-16T16:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。