論文の概要: L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals
- arxiv url: http://arxiv.org/abs/2102.01860v1
- Date: Wed, 3 Feb 2021 03:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:49:23.288704
- Title: L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals
- Title(参考訳): L2C: 個々人の意味的理解を必要とする視覚的差異を記述
- Authors: An Yan, Xin Eric Wang, Tsu-Jui Fu, William Yang Wang
- Abstract要約: 本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
- 参考スコア(独自算出の注目度): 65.87728481187625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in language and vision push forward the research of
captioning a single image to describing visual differences between image pairs.
Suppose there are two images, I_1 and I_2, and the task is to generate a
description W_{1,2} comparing them, existing methods directly model { I_1, I_2
} -> W_{1,2} mapping without the semantic understanding of individuals. In this
paper, we introduce a Learning-to-Compare (L2C) model, which learns to
understand the semantic structures of these two images and compare them while
learning to describe each one. We demonstrate that L2C benefits from a
comparison between explicit semantic representations and single-image captions,
and generalizes better on the new testing image pairs. It outperforms the
baseline on both automatic evaluation and human evaluation for the
Birds-to-Words dataset.
- Abstract(参考訳): 言語と視覚の最近の進歩は、イメージペア間の視覚的差異を記述するために単一のイメージをキャプションする研究を推し進めている。
i_1 と i_2 の2つの画像があり、それらを比較するための記述 w_{1,2} を生成するのがタスクであり、既存のメソッドは個人の意味的な理解なしに { i_1, i_2 } -> w_{1,2} マッピングを直接モデル化する。
本稿では,これら2つの画像の意味構造を理解し,それぞれを記述しながら比較する学習・比較モデル(l2c)を提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
Birds-to-Wordsデータセットの自動評価と人的評価の両方でベースラインを上回ります。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Describing Differences in Image Sets with Natural Language [101.80939666230168]
モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
論文 参考訳(メタデータ) (2023-12-05T18:59:16Z) - DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image
Models [53.29993651680099]
DALLE-2は各単語が解釈においてひとつの役割を持つという制約に従わないことを示す。
DALLE-2は、複数の感覚を持つ名詞の両感覚を同時に表現している。
論文 参考訳(メタデータ) (2022-10-19T14:52:40Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。