論文の概要: Interpretable Measures of Conceptual Similarity by
Complexity-Constrained Descriptive Auto-Encoding
- arxiv url: http://arxiv.org/abs/2402.08919v1
- Date: Wed, 14 Feb 2024 03:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:12:02.756740
- Title: Interpretable Measures of Conceptual Similarity by
Complexity-Constrained Descriptive Auto-Encoding
- Title(参考訳): 複雑制約付き記述型自動符号化による概念類似性の解釈
- Authors: Alessandro Achille, Greg Ver Steeg, Tian Yu Liu, Matthew Trager,
Carson Klingenberg, Stefano Soatto
- Abstract要約: 画像間の類似度を定量化することは、画像ベースの機械学習にとって重要な著作権問題である。
我々は,高次関係を捉えた画像間での「概念的類似性」の概念を定義し,計算することを目指している。
2つの非常に異種な画像は、その記述の早い段階で識別できるが、概念的に異種な画像は、より詳細を区別する必要がある。
- 参考スコア(独自算出の注目度): 112.0878081944858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the degree of similarity between images is a key copyright issue
for image-based machine learning. In legal doctrine however, determining the
degree of similarity between works requires subjective analysis, and
fact-finders (judges and juries) can demonstrate considerable variability in
these subjective judgement calls. Images that are structurally similar can be
deemed dissimilar, whereas images of completely different scenes can be deemed
similar enough to support a claim of copying. We seek to define and compute a
notion of "conceptual similarity" among images that captures high-level
relations even among images that do not share repeated elements or visually
similar components. The idea is to use a base multi-modal model to generate
"explanations" (captions) of visual data at increasing levels of complexity.
Then, similarity can be measured by the length of the caption needed to
discriminate between the two images: Two highly dissimilar images can be
discriminated early in their description, whereas conceptually dissimilar ones
will need more detail to be distinguished. We operationalize this definition
and show that it correlates with subjective (averaged human evaluation)
assessment, and beats existing baselines on both image-to-image and
text-to-text similarity benchmarks. Beyond just providing a number, our method
also offers interpretability by pointing to the specific level of granularity
of the description where the source data are differentiated.
- Abstract(参考訳): 画像間の類似度の定量化は、画像ベースの機械学習の重要な著作権問題である。
しかし、法的なドクトリンでは、作品間の類似度を決定するには主観的分析が必要であり、ファクトファインダー(裁判官と陪審員)はこれらの主観的判断呼び出しにおいてかなりの変動を示すことができる。
構造的に類似したイメージは異なっており、全く異なるシーンのイメージはコピーの主張を支持するのに十分類似していると考えられる。
反復的な要素や視覚的に類似した要素を共有しない画像であっても、ハイレベルな関係をキャプチャする画像間の「概念的類似性」の概念を定義し、計算することを目指す。
基本的なマルチモーダルモデルを使用して、複雑さのレベルが増大するにつれて、視覚データの"説明"(キャプション)を生成する。
次に、類似度は2つの画像の区別に必要なキャプションの長さによって測定できる: 2つの非常に異なる画像は記述の早い段階で識別できるが、概念的に異なる画像はより詳細な区別が必要である。
この定義を運用し、主観的(平均的人的評価)評価と相関し、画像と画像の類似性ベンチマークとテキストとテキストの類似性ベンチマークの両方で既存のベースラインを上回ります。
提案手法は,単に数値を提供するだけでなく,ソースデータの識別を行う記述の粒度の特定のレベルを指し示すことによって,解釈可能性も提供する。
関連論文リスト
- Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Hierarchical Similarity Learning for Language-based Product Image
Retrieval [40.83290730640458]
本稿では,クロスモーダル類似度測定に着目し,新しい階層的類似度学習ネットワークを提案する。
大規模製品検索データセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-18T14:23:16Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。