論文の概要: Describing Differences in Image Sets with Natural Language
- arxiv url: http://arxiv.org/abs/2312.02974v1
- Date: Tue, 5 Dec 2023 18:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:34:31.892920
- Title: Describing Differences in Image Sets with Natural Language
- Title(参考訳): 自然言語を用いた画像集合の差分記述
- Authors: Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell,
Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy
- Abstract要約: モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
- 参考スコア(独自算出の注目度): 106.19434836499316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do two sets of images differ? Discerning set-level differences is crucial
for understanding model behaviors and analyzing datasets, yet manually sifting
through thousands of images is impractical. To aid in this discovery process,
we explore the task of automatically describing the differences between two
$\textbf{sets}$ of images, which we term Set Difference Captioning. This task
takes in image sets $D_A$ and $D_B$, and outputs a description that is more
often true on $D_A$ than $D_B$. We outline a two-stage approach that first
proposes candidate difference descriptions from image sets and then re-ranks
the candidates by checking how well they can differentiate the two sets. We
introduce VisDiff, which first captions the images and prompts a language model
to propose candidate descriptions, then re-ranks these descriptions using CLIP.
To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image
sets with ground truth difference descriptions. We apply VisDiff to various
domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing
classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing
model failure modes (supervised ResNet), characterizing differences between
generative models (e.g., StableDiffusionV1 and V2), and discovering what makes
images memorable. Using VisDiff, we are able to find interesting and previously
unknown differences in datasets and models, demonstrating its utility in
revealing nuanced insights.
- Abstract(参考訳): 2つの画像のセットがどう違うのか?
モデル行動を理解し、データセットを解析するためには、セットレベルの差異を識別することが不可欠だが、何千ものイメージを手動で精査するのは現実的ではない。
この発見プロセスを支援するために、我々は2つの$\textbf{sets}$の画像間の差分を自動的に記述するタスクについて検討する。
このタスクはイメージセット $D_A$ と $D_B$ を取り込み、$D_A$ よりも $D_B$ の方がしばしば真である記述を出力する。
まずイメージセットから候補差分記述を提案する2段階のアプローチを概説し、その2つのセットをどの程度よく区別できるかを確認して候補を再度ランク付けする。
VisDiffはまずイメージをキャプションし、言語モデルに候補記述を提案し、次にCLIPを使ってこれらの記述を再ランクする。
VisDiffBenchは、187組のイメージセットと地上の真理差を記述したデータセットである。
データセットの比較(例: ImageNet vs. ImageNetV2)、分類モデルの比較(例:zero-shot CLIP vs. supervised ResNet)、モデル失敗モードの要約(例: ResNet)、生成モデルの違いの特徴づけ(例: StableDiffusionV1とV2)、イメージを記憶可能なものにする方法の発見など、さまざまな領域に適用する。
VisDiffを使用することで、データセットやモデルにこれまで知られていなかった、興味深い違いを見つけ出すことができました。
関連論文リスト
- VIXEN: Visual Text Comparison Network for Image Difference Captioning [59.907924668417934]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z) - Visualizing Adapted Knowledge in Domain Transfer [25.598840284457548]
ソースデータに基づいて訓練されたソースモデルと、教師なしドメイン適応(UDA)を通じて学習されたターゲットモデルは通常、異なる知識を符号化する。
対象画像と2つのモデルのみを用いてソース形式の画像を生成するソースフリー画像翻訳手法を提案する。
異なる UDA メソッドでいくつかのデータセットで適応した知識を視覚化し、生成された画像が2つのドメインのスタイルの違いをうまく捉えることを見つけます。
論文 参考訳(メタデータ) (2021-04-20T17:59:05Z) - L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals [65.87728481187625]
本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
論文 参考訳(メタデータ) (2021-02-03T03:44:42Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。