Fugu-MT 論文翻訳(概要): Describing Differences in Image Sets with Natural Language

論文の概要: Describing Differences in Image Sets with Natural Language

arxiv url: http://arxiv.org/abs/2312.02974v1
Date: Tue, 5 Dec 2023 18:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:34:31.892920
Title: Describing Differences in Image Sets with Natural Language
Title（参考訳）: 自然言語を用いた画像集合の差分記述
Authors: Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy
Abstract要約: モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
参考スコア（独自算出の注目度）: 106.19434836499316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How do two sets of images differ? Discerning set-level differences is crucial for understanding model behaviors and analyzing datasets, yet manually sifting through thousands of images is impractical. To aid in this discovery process, we explore the task of automatically describing the differences between two $\textbf{sets}$ of images, which we term Set Difference Captioning. This task takes in image sets $D_A$ and $D_B$, and outputs a description that is more often true on $D_A$ than $D_B$. We outline a two-stage approach that first proposes candidate difference descriptions from image sets and then re-ranks the candidates by checking how well they can differentiate the two sets. We introduce VisDiff, which first captions the images and prompts a language model to propose candidate descriptions, then re-ranks these descriptions using CLIP. To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image sets with ground truth difference descriptions. We apply VisDiff to various domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing model failure modes (supervised ResNet), characterizing differences between generative models (e.g., StableDiffusionV1 and V2), and discovering what makes images memorable. Using VisDiff, we are able to find interesting and previously unknown differences in datasets and models, demonstrating its utility in revealing nuanced insights.
Abstract（参考訳）: 2つの画像のセットがどう違うのか? モデル行動を理解し、データセットを解析するためには、セットレベルの差異を識別することが不可欠だが、何千ものイメージを手動で精査するのは現実的ではない。この発見プロセスを支援するために、我々は2つの$\textbf{sets}$の画像間の差分を自動的に記述するタスクについて検討する。このタスクはイメージセット $D_A$ と $D_B$ を取り込み、$D_A$ よりも $D_B$ の方がしばしば真である記述を出力する。まずイメージセットから候補差分記述を提案する2段階のアプローチを概説し、その2つのセットをどの程度よく区別できるかを確認して候補を再度ランク付けする。 VisDiffはまずイメージをキャプションし、言語モデルに候補記述を提案し、次にCLIPを使ってこれらの記述を再ランクする。 VisDiffBenchは、187組のイメージセットと地上の真理差を記述したデータセットである。データセットの比較(例: ImageNet vs. ImageNetV2)、分類モデルの比較(例:zero-shot CLIP vs. supervised ResNet)、モデル失敗モードの要約(例: ResNet)、生成モデルの違いの特徴づけ(例: StableDiffusionV1とV2)、イメージを記憶可能なものにする方法の発見など、さまざまな領域に適用する。 VisDiffを使用することで、データセットやモデルにこれまで知られていなかった、興味深い違いを見つけ出すことができました。

関連論文リスト

BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models [55.2480439325792]
本稿では,性能を考慮した文脈埋め込みを用いた言語モデルの自動比較手法を提案する。提案手法は,2つのLM間の生成容易性について,その相違点を示すコヒーレントな特徴を抽出する。本研究では,サイズ,モデルファミリ,ポストトレーニングの異なるモデルを比較し,コーパスレベルの難易度だけでは見つからないパフォーマンスの有意義な違いを示す,特定のコンテキストに対する洞察を列挙する。
論文参考訳（メタデータ） (2025-06-02T19:44:06Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文参考訳（メタデータ） (2024-07-16T13:00:33Z)
OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。 OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。 OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文参考訳（メタデータ） (2024-07-08T06:14:37Z)
VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文参考訳（メタデータ） (2024-02-29T12:56:18Z)
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文参考訳（メタデータ） (2023-10-12T17:59:30Z)
Self-supervised Cross-view Representation Reconstruction for Change Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。自己教師型クロスビュー表現再構成ネットワークを提案する。
論文参考訳（メタデータ） (2023-09-28T09:28:50Z)
Text Descriptions are Compressive and Invariant Representations for Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文参考訳（メタデータ） (2023-07-10T03:06:45Z)
L2C: Describing Visual Differences Needs Semantic Understanding of Individuals [65.87728481187625]
本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
論文参考訳（メタデータ） (2021-02-03T03:44:42Z)
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文参考訳（メタデータ） (2020-02-23T23:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。