論文の概要: Teaching Humans Subtle Differences with DIFFusion
- arxiv url: http://arxiv.org/abs/2504.08046v1
- Date: Thu, 10 Apr 2025 18:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 00:44:28.87527
- Title: Teaching Humans Subtle Differences with DIFFusion
- Title(参考訳): DIFFusionによる人体の違いを教える
- Authors: Mia Chiquier, Orr Avrech, Yossi Gandelsman, Berthy Feng, Katherine Bouman, Carl Vondrick,
- Abstract要約: 専門分野におけるニュアンス付きカテゴリを区別する方法を初心者に教える新しい手法を提案する。
本手法では,クラス間の遷移の最小限の変化を可視化するために生成モデルを用いる。
6つの領域にわたる実験は、限られた例や欠席例であっても正確な遷移を示す。
- 参考スコア(独自算出の注目度): 36.30462318766868
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human expertise depends on the ability to recognize subtle visual differences, such as distinguishing diseases, species, or celestial phenomena. We propose a new method to teach novices how to differentiate between nuanced categories in specialized domains. Our method uses generative models to visualize the minimal change in features to transition between classes, i.e., counterfactuals, and performs well even in domains where data is sparse, examples are unpaired, and category boundaries are not easily explained by text. By manipulating the conditioning space of diffusion models, our proposed method DIFFusion disentangles category structure from instance identity, enabling high-fidelity synthesis even in challenging domains. Experiments across six domains show accurate transitions even with limited and unpaired examples across categories. User studies confirm that our generated counterfactuals outperform unpaired examples in teaching perceptual expertise, showing the potential of generative models for specialized visual learning.
- Abstract(参考訳): 人間の専門知識は、病気、種、天体現象の区別など、微妙な視覚的差異を認識する能力に依存する。
専門分野におけるニュアンス付きカテゴリを区別する方法を初心者に教える新しい手法を提案する。
本手法は,データ不足や例の欠如,カテゴリ境界がテキストで簡単に説明できない領域においても,クラス間の遷移の最小限の変化を可視化するために,生成モデルを用いる。
拡散モデルの条件空間を演算することにより、本提案手法はカテゴリ構造をインスタンスの同一性から切り離し、挑戦的領域においても高忠実性合成を可能にする。
6つの領域にわたる実験は、カテゴリにまたがる限定された、あるいは欠落した例であっても、正確な遷移を示す。
ユーザスタディでは、生成した偽物は知覚的専門知識の教育において未経験例よりも優れており、特殊な視覚学習のための生成モデルの可能性を示している。
関連論文リスト
- Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification [3.1208151315473622]
本稿では,人間の視線時系列データセットであるGaze-CIFAR-10と2列視線エンコーダを紹介する。
並行して、視覚変換器(ViT)を用いて画像内容のシーケンシャルな表現を学習する。
画像特徴表現における不正確な局所化を効果的に補正する。
論文 参考訳(メタデータ) (2025-04-08T00:40:46Z) - DiffEx: Explaining a Classifier with Diffusion Models to Identify Microscopic Cellular Variations [0.815557531820863]
識別的なディープラーニングモデルは、イメージをカテゴリに分類することに長けている。
これらのモデルは、その複雑さと解釈可能性の欠如により、しばしばブラックボックスと見なされる。
視覚的に解釈可能な属性を生成して分類器を説明するDiffExを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:46:58Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。
HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。
また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文 参考訳(メタデータ) (2024-04-07T13:17:47Z) - Diff-Def: Diffusion-Generated Deformation Fields for Conditional Atlases [13.440406411539987]
条件付きアトラスは、微細な解剖学的差異を調査することができる。
我々は、潜在拡散モデルを用いて変形場を生成し、一般集団アトラスを特定のサブ集団に変換する。
本手法を、5000個の脳とUK Biobankの全身MR画像を用いた実験で、最先端のアトラス生成法と比較した。
論文 参考訳(メタデータ) (2024-03-25T13:52:48Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - Finding Interpretable Class-Specific Patterns through Efficient Neural
Search [43.454121220860564]
本稿では、データから微分パターンを抽出する、本質的に解釈可能なバイナリニューラルネットワークアーキテクチャDNAPSを提案する。
DiffNapsは何十万もの機能にスケーラブルで、ノイズに強い。
3つの生物学的応用を含む人工的および実世界のデータについて、DiffNapsは競合と異なり、常に正確で簡潔で解釈可能なクラス記述を生成する。
論文 参考訳(メタデータ) (2023-12-07T14:09:18Z) - TS-MoCo: Time-Series Momentum Contrast for Self-Supervised Physiological
Representation Learning [8.129782272731397]
ラベルを必要とせずに様々な生理領域から表現を学習するために,モーメントコントラストを持つ自己教師型学習に依存した新しい符号化フレームワークを提案する。
我々の自己教師型学習アプローチは、下流の分類タスクで活用できる差別的特徴を実際に学習できることを示します。
論文 参考訳(メタデータ) (2023-06-10T21:17:42Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Towards Intrinsic Common Discriminative Features Learning for Face
Forgery Detection using Adversarial Learning [59.548960057358435]
本稿では, 対人学習を利用して, 異なる偽造法と顔の同一性による負の効果を除去する手法を提案する。
我々の顔偽造検出モデルは、偽造法や顔の同一性の影響を排除し、共通の識別的特徴を抽出することを学ぶ。
論文 参考訳(メタデータ) (2022-07-08T09:23:59Z) - Disentangled representations: towards interpretation of sex
determination from hip bone [1.0775419935941009]
サリエンシマップは ニューラルネットワークを解釈する 一般的な方法になっています
我々は、より良い解釈可能性のための新しいパラダイムを提案する。
法医学における股関節からの自動性決定の文脈におけるこのアプローチの意義について述べる。
論文 参考訳(メタデータ) (2021-12-17T10:07:05Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Exploiting Emotional Dependencies with Graph Convolutional Networks for
Facial Expression Recognition [31.40575057347465]
本稿では,視覚における表情認識のためのマルチタスク学習フレームワークを提案する。
MTL設定において、離散認識と連続認識の両方のために共有特徴表現が学習される。
実験の結果,本手法は離散FER上での最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T10:20:05Z) - Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。
CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。
本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文 参考訳(メタデータ) (2021-03-12T19:48:01Z) - View-Invariant Gait Recognition with Attentive Recurrent Learning of
Partial Representations [27.33579145744285]
本稿では,まず,フレームレベルの畳み込み特徴から歩行畳み込みエネルギーマップ(GCEM)を抽出するネットワークを提案する。
次に、GCEMの分割されたビンから学ぶために双方向ニューラルネットワークを採用し、学習された部分的リカレント表現の関係を利用する。
提案手法は2つの大規模CASIA-BとOU-Mの歩行データセットで広範囲に検証されている。
論文 参考訳(メタデータ) (2020-10-18T20:20:43Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。