Fugu-MT 論文翻訳(概要): fruit-SALAD: A Style Aligned Artwork Dataset to reveal similarity perception in image embeddings

論文の概要: fruit-SALAD: A Style Aligned Artwork Dataset to reveal similarity perception in image embeddings

arxiv url: http://arxiv.org/abs/2406.01278v1
Date: Mon, 3 Jun 2024 12:47:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 01:09:07.010942
Title: fruit-SALAD: A Style Aligned Artwork Dataset to reveal similarity perception in image embeddings
Title（参考訳）: fruit-SALAD:画像埋め込みにおける類似性知覚を明らかにするスタイルアラインアートワークデータセット
Authors: Tillmann Ohm, Andres Karjus, Mikhail Tamm, Maximilian Schich,
Abstract要約: スタイルアラインドアートワークデータセット(SALAD)を紹介する。このセマンティックなカテゴリとスタイルのベンチマークは、10の区別容易なスタイルに対して、10の認識容易なフルーツカテゴリのそれぞれ100のインスタンスで構成されている。 SALADフレームワークは、これらのモデルがどのようにセマンティックなカテゴリとスタイル認識タスクを実行するかの比較を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The notion of visual similarity is essential for computer vision, and in applications and studies revolving around vector embeddings of images. However, the scarcity of benchmark datasets poses a significant hurdle in exploring how these models perceive similarity. Here we introduce Style Aligned Artwork Datasets (SALADs), and an example of fruit-SALAD with 10,000 images of fruit depictions. This combined semantic category and style benchmark comprises 100 instances each of 10 easy-to-recognize fruit categories, across 10 easy distinguishable styles. Leveraging a systematic pipeline of generative image synthesis, this visually diverse yet balanced benchmark demonstrates salient differences in semantic category and style similarity weights across various computational models, including machine learning models, feature extraction algorithms, and complexity measures, as well as conceptual models for reference. This meticulously designed dataset offers a controlled and balanced platform for the comparative analysis of similarity perception. The SALAD framework allows the comparison of how these models perform semantic category and style recognition task to go beyond the level of anecdotal knowledge, making it robustly quantifiable and qualitatively interpretable.
Abstract（参考訳）: 視覚的類似性の概念は、コンピュータビジョン、および画像のベクトル埋め込みに関する応用と研究に不可欠である。しかしながら、ベンチマークデータセットの不足は、これらのモデルが類似性をどう認識するかを調査する上で、大きなハードルとなっている。ここではSALAD(Style Aligned Artwork Datasets)を紹介する。このセマンティックなカテゴリとスタイルのベンチマークは、10の区別容易なスタイルに対して、10の認識容易なフルーツカテゴリのそれぞれ100のインスタンスで構成されている。生成画像合成の体系的なパイプラインを活用することで、この視覚的に多様だがバランスの取れたベンチマークは、機械学習モデル、特徴抽出アルゴリズム、複雑性測定、参照の概念モデルなど、さまざまな計算モデルにおけるセマンティックなカテゴリとスタイルの類似性重みの顕著な相違を示す。この綿密に設計されたデータセットは、類似性知覚の比較分析のための制御されバランスの取れたプラットフォームを提供する。 SALADフレームワークは、これらのモデルがどのようにセマンティックなカテゴリとスタイル認識タスクを実行するかを比較して、逸話的知識のレベルを超え、堅牢な定量化と質的な解釈を可能にする。

関連論文リスト

Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文参考訳（メタデータ） (2025-06-10T13:16:26Z)
DiffSim: Taming Diffusion Models for Evaluating Visual Similarity [19.989551230170584]
本稿では,生成モデルにおける視覚的類似度を測定するDiffSim法を提案する。 Denoising U-Netの注目層に特徴を合わせることで、DiffSimは外観とスタイルの類似性の両方を評価する。また,Sref と IP ベンチマークを導入し,視覚的類似性の評価を行った。
論文参考訳（メタデータ） (2024-12-19T07:00:03Z)
Training objective drives the consistency of representational similarity across datasets [19.99817888941361]
プラトン表現仮説(Platonic Representation hypothesis)は、最近の基礎モデルは下流タスクのパフォーマンスの関数として共有表現空間に収束していると主張している。そこで本研究では,モデル間の表現的類似性が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。目的関数はデータセット間の表現的類似性の一貫性を決定する上で最も重要な要素であることがわかった。
論文参考訳（メタデータ） (2024-11-08T13:35:45Z)
Visual Motif Identification: Elaboration of a Curated Comparative Dataset and Classification Methods [4.431754853927668]
映画では、視覚的なモチーフは、芸術的または美的な意味を持つ反復的な図形的構成である。私たちのゴールは、これらのモチーフを認識して分類することであり、その目的にカスタムデータセットを使用する新しい機械学習モデルを提案することです。 CLIPモデルから抽出した機能を、浅いネットワークと適切な損失を用いて、20の異なるモチーフに分類し、驚くほど良い結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-21T10:50:00Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
Self-similarity Driven Scale-invariant Learning for Weakly Supervised Person Search [66.95134080902717]
自己相似性駆動型スケール不変学習(SSL)という新しいワンステップフレームワークを提案する。本稿では,ネットワークを前景と学習スケール不変の機能に集中させるための,マルチスケール・エクステンプラー・ブランチを提案する。 PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2023-02-25T04:48:11Z)
Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。 The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文参考訳（メタデータ） (2022-06-03T07:15:00Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)
IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。 IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文参考訳（メタデータ） (2022-01-26T21:35:14Z)
Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文参考訳（メタデータ） (2021-09-22T18:34:14Z)
Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文参考訳（メタデータ） (2021-09-15T02:26:07Z)
Towards Visually Explaining Similarity Models [29.704524987493766]
本稿では,画像類似度予測のための勾配に基づく視覚的注意を生成する手法を提案する。学習した機能の埋め込みにのみ依存することにより、我々のアプローチがCNNベースの類似性アーキテクチャのあらゆる種類に適用可能であることを示す。得られたアテンションマップは、単に解釈可能性だけでなく、新たなトレーニング可能な制約でモデル学習プロセス自体に注入可能であることを示す。
論文参考訳（メタデータ） (2020-08-13T17:47:41Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。