Fugu-MT 論文翻訳(概要): Image Similarity using An Ensemble of Context-Sensitive Models

論文の概要: Image Similarity using An Ensemble of Context-Sensitive Models

arxiv url: http://arxiv.org/abs/2401.07951v2
Date: Tue, 10 Sep 2024 13:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 23:35:05.709705
Title: Image Similarity using An Ensemble of Context-Sensitive Models
Title（参考訳）: 文脈感性モデルのアンサンブルを用いた画像類似性
Authors: Zukang Liao, Min Chen,
Abstract要約: ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
参考スコア（独自算出の注目度）: 2.9490616593440317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image similarity has been extensively studied in computer vision. In recent years, machine-learned models have shown their ability to encode more semantics than traditional multivariate metrics. However, in labelling semantic similarity, assigning a numerical score to a pair of images is impractical, making the improvement and comparisons on the task difficult. In this work, we present a more intuitive approach to build and compare image similarity models based on labelled data in the form of A:R vs B:R, i.e., determining if an image A is closer to a reference image R than another image B. We address the challenges of sparse sampling in the image space (R, A, B) and biases in the models trained with context-based data by using an ensemble model. Our testing results show that the ensemble model constructed performs ~5% better than the best individual context-sensitive models. They also performed better than the models that were directly fine-tuned using mixed imagery data as well as existing deep embeddings, e.g., CLIP and DINO. This work demonstrates that context-based labelling and model training can be effective when an appropriate ensemble approach is used to alleviate the limitation due to sparse sampling.
Abstract（参考訳）: 画像の類似性はコンピュータビジョンで広く研究されている。近年、機械学習モデルは、従来の多変量メトリクスよりも多くの意味論をエンコードする能力を示している。しかし、セマンティック類似性のラベル付けでは、数値スコアを一対のイメージに割り当てるのは現実的ではないため、タスクの改善と比較が困難になる。本研究では,A:R対B:Rというラベル付きデータに基づく画像類似性モデルの構築と比較を行う,より直感的なアプローチを提案する。すなわち,画像Aが参照画像Rに近づくかどうかを判断する。実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも約5%高い性能を示した。また、混合画像データと既存のディープ埋め込み(例えば、CLIP、DINO)を使って直接微調整されたモデルよりも優れたパフォーマンスを実現した。この研究は、スパースサンプリングによる制限を緩和するために適切なアンサンブルアプローチを用いる場合、コンテキストベースのラベリングとモデルトレーニングが有効であることを示す。

関連論文リスト

Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。 ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳（メタデータ） (2025-03-21T15:28:22Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
CorrEmbed: Evaluating Pre-trained Model Image Similarity Efficacy with a Novel Metric [6.904776368895614]
我々は、CorrEmbedという新しいアプローチを用いて、事前訓練されたコンピュータビジョンモデルから画像埋め込みの有効性を評価する。本研究では,画像埋め込みにおける距離と人為的タグベクトルにおける距離との相関を計算した。また,このパターンからの逸脱を同定し,異なるモデルが高レベル画像の特徴をどのように捉えているかについての洞察を与える。
論文参考訳（メタデータ） (2023-08-30T16:23:07Z)
Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文参考訳（メタデータ） (2023-06-15T17:59:51Z)
Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-03-06T11:51:28Z)
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-02-02T19:28:41Z)
Through a fair looking-glass: mitigating bias in image datasets [1.0323063834827415]
目的変数間の統計的依存を最小化し,画像データセットを非バイアス化するための高速かつ効果的なモデルを提案する。提案手法をCelebAデータセット上で評価し、その結果を最先端のデバイアス法と比較し、そのモデルが有望なフェアネスと精度の組み合わせを達成することを示す。
論文参考訳（メタデータ） (2022-09-18T20:28:36Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Identical Image Retrieval using Deep Learning [0.0]
私たちは最先端のモデルであるBigTransfer Modelを使用しています。我々は、K-Nearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を得るために訓練する。本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。
論文参考訳（メタデータ） (2022-05-10T13:34:41Z)
IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。 IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文参考訳（メタデータ） (2022-01-26T21:35:14Z)
Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文参考訳（メタデータ） (2021-04-30T12:05:23Z)
I Am Going MAD: Maximum Discrepancy Competition for Comparing Classifiers Adaptively [135.7695909882746]
我々は、MAD(Maximum Discrepancy)コンペティションを命名する。任意に大きいラベル付き画像のコーパスから小さなテストセットを適応的にサンプリングする。結果のモデル依存画像集合に人間のラベルを付けると、競合する分類器の相対的な性能が明らかになる。
論文参考訳（メタデータ） (2020-02-25T03:32:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。