論文の概要: Describing Differences in Image Sets with Natural Language
- arxiv url: http://arxiv.org/abs/2312.02974v1
- Date: Tue, 5 Dec 2023 18:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:34:31.892920
- Title: Describing Differences in Image Sets with Natural Language
- Title(参考訳): 自然言語を用いた画像集合の差分記述
- Authors: Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell,
Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy
- Abstract要約: モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
- 参考スコア(独自算出の注目度): 106.19434836499316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do two sets of images differ? Discerning set-level differences is crucial
for understanding model behaviors and analyzing datasets, yet manually sifting
through thousands of images is impractical. To aid in this discovery process,
we explore the task of automatically describing the differences between two
$\textbf{sets}$ of images, which we term Set Difference Captioning. This task
takes in image sets $D_A$ and $D_B$, and outputs a description that is more
often true on $D_A$ than $D_B$. We outline a two-stage approach that first
proposes candidate difference descriptions from image sets and then re-ranks
the candidates by checking how well they can differentiate the two sets. We
introduce VisDiff, which first captions the images and prompts a language model
to propose candidate descriptions, then re-ranks these descriptions using CLIP.
To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image
sets with ground truth difference descriptions. We apply VisDiff to various
domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing
classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing
model failure modes (supervised ResNet), characterizing differences between
generative models (e.g., StableDiffusionV1 and V2), and discovering what makes
images memorable. Using VisDiff, we are able to find interesting and previously
unknown differences in datasets and models, demonstrating its utility in
revealing nuanced insights.
- Abstract(参考訳): 2つの画像のセットがどう違うのか?
モデル行動を理解し、データセットを解析するためには、セットレベルの差異を識別することが不可欠だが、何千ものイメージを手動で精査するのは現実的ではない。
この発見プロセスを支援するために、我々は2つの$\textbf{sets}$の画像間の差分を自動的に記述するタスクについて検討する。
このタスクはイメージセット $D_A$ と $D_B$ を取り込み、$D_A$ よりも $D_B$ の方がしばしば真である記述を出力する。
まずイメージセットから候補差分記述を提案する2段階のアプローチを概説し、その2つのセットをどの程度よく区別できるかを確認して候補を再度ランク付けする。
VisDiffはまずイメージをキャプションし、言語モデルに候補記述を提案し、次にCLIPを使ってこれらの記述を再ランクする。
VisDiffBenchは、187組のイメージセットと地上の真理差を記述したデータセットである。
データセットの比較(例: ImageNet vs. ImageNetV2)、分類モデルの比較(例:zero-shot CLIP vs. supervised ResNet)、モデル失敗モードの要約(例: ResNet)、生成モデルの違いの特徴づけ(例: StableDiffusionV1とV2)、イメージを記憶可能なものにする方法の発見など、さまざまな領域に適用する。
VisDiffを使用することで、データセットやモデルにこれまで知られていなかった、興味深い違いを見つけ出すことができました。
関連論文リスト
- Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals [65.87728481187625]
本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
論文 参考訳(メタデータ) (2021-02-03T03:44:42Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。