Fugu-MT 論文翻訳(概要): LatentDiff: Scaling Semantic Dataset Comparison to Millions of Images

論文の概要: LatentDiff: Scaling Semantic Dataset Comparison to Millions of Images

arxiv url: http://arxiv.org/abs/2605.00899v1
Date: Tue, 28 Apr 2026 12:28:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.464523
Title: LatentDiff: Scaling Semantic Dataset Comparison to Millions of Images
Title（参考訳）: LatentDiff: 何百万もの画像に対するセマンティックデータセットのスケーリング
Authors: James Flora, Kowshik Thopalli, Akshay R. Kulkarni, Weng-Keen Wong, Shusen Liu,
Abstract要約: セマンティックデータセット比較のためのスケーラブルなフレームワークであるLatentDiffを提示する。 LatentDiffは、キャプションベースの代替品の計算コストのごく一部で、データセット間の解釈可能な意味的差異を識別する。
参考スコア（独自算出の注目度）: 12.079144931652912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present LatentDiff, a scalable framework for semantic dataset comparison that operates directly in the latent space of pretrained vision encoders. By combining sparse autoencoder-based divergence testing with density ratio estimation, LatentDiff identifies interpretable semantic differences between datasets at a fraction of the computational cost of caption-based alternatives. We also introduce Noisy-Diff, a benchmark capturing realistic sparse distribution shifts that cause existing methods to struggle. Experiments demonstrate that LatentDiff achieves superior accuracy while remaining robust to settings where an extremely small fraction of images (from 5% to <1% ) differ semantically.
Abstract（参考訳）: 我々は、事前訓練された視覚エンコーダの潜在空間で直接動作する意味的データセット比較のためのスケーラブルなフレームワークであるLatentDiffを提案する。スパースオートエンコーダに基づく分散テストと密度比推定を組み合わせることで、LatentDiffはキャプションベースの代替品の計算コストのごく一部でデータセット間の解釈可能な意味的差異を特定する。 Noisy-Diffも導入しています。これは現実的なスパース分布シフトをキャプチャするベンチマークで、既存のメソッドが苦労する原因になります。実験により、LatentDiffは、非常に少数の画像(5%から1%)が意味的に異なる設定に頑健でありながら、優れた精度を達成することが示された。

関連論文リスト

FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文参考訳（メタデータ） (2025-01-22T18:52:06Z)
DEMO: A Statistical Perspective for Efficient Image-Text Matching [32.256725860652914]
本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。 DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
論文参考訳（メタデータ） (2024-05-19T09:38:56Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Semi-supervised Counting via Pixel-by-pixel Density Distribution Modelling [135.66138766927716]
本稿では,トレーニングデータのごく一部をラベル付けした半教師付き群集カウントに着目した。我々は1つの決定論的値ではなく、確率分布として回帰するためにピクセル単位の密度値を定式化する。本手法は,様々なラベル付き比率設定の下で,競争相手よりも明らかに優れる。
論文参考訳（メタデータ） (2024-02-23T12:48:02Z)
Transmission-Guided Bayesian Generative Model for Smoke Segmentation [29.74065829663554]
深層ニューラルネットワークは、その非厳密な形状と透明な外観のために、煙分断を過信する傾向にある。これは、正確な煙分別のための限られた訓練データによる知識レベルの不確かさと、地味のラベル付けの難しさを表すラベル付けレベルの不確実性の両方によって引き起こされる。本稿では,モデルパラメータの後方分布とその予測を同時に推定するベイズ生成モデルを提案する。また,1,400個の実画像と4,000個の合成画像からなる高品質な煙分画データセットSMOKE5Kを画素単位のアノテーションで提供した。
論文参考訳（メタデータ） (2023-03-02T01:48:05Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Semantic similarity metrics for learned image registration [10.355938901584565]
画像登録のための意味的類似度尺度を提案する。このアプローチは、学習に基づく登録モデルの最適化を促進するデータセット固有の特徴を学習する。自動エンコーダを用いた非監視的アプローチと、補助セグメンテーションデータを用いた半監督的アプローチの両方をトレーニングし、画像登録のための意味的特徴を抽出します。
論文参考訳（メタデータ） (2021-04-20T15:23:58Z)
DeepSim: Semantic similarity metrics for learned image registration [6.789370732159177]
画像登録のための意味的類似度尺度を提案する。提案手法は,学習ベース登録モデルの最適化を促進する,データセット固有の特徴を学習する。
論文参考訳（メタデータ） (2020-11-11T12:35:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。