論文の概要: An implementation of the "Guess who?" game using CLIP
- arxiv url: http://arxiv.org/abs/2112.00599v1
- Date: Tue, 30 Nov 2021 13:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:59:13.425081
- Title: An implementation of the "Guess who?" game using CLIP
- Title(参考訳): CLIP を用いた "Guess Who?" ゲームの実装
- Authors: Arnau Mart\'i Sarri, Victor Rodriguez-Fernandez
- Abstract要約: CLIP (Contrastive Language-Image Pretraining) は、自然言語によるコンピュータビジョンタスクの学習方法である。
インターネット上で利用可能な画像テキストペアからトレーニングすることにより、CLIPモデルは、データセット固有のトレーニングを必要とせずに、ほとんどのタスクに自明に転送する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: CLIP (Contrastive Language-Image Pretraining) is an efficient method for
learning computer vision tasks from natural language supervision that has
powered a recent breakthrough in deep learning due to its zero-shot transfer
capabilities. By training from image-text pairs available on the internet, the
CLIP model transfers non-trivially to most tasks without the need for any data
set specific training. In this work, we use CLIP to implement the engine of the
popular game "Guess who?", so that the player interacts with the game using
natural language prompts and CLIP automatically decides whether an image in the
game board fulfills that prompt or not. We study the performance of this
approach by benchmarking on different ways of prompting the questions to CLIP,
and show the limitations of its zero-shot capabilites.
- Abstract(参考訳): CLIP(Contrastive Language-Image Pretraining)は、自然言語の監視からコンピュータビジョンタスクを学習するための効率的な方法である。
インターネット上で利用可能な画像テキストペアからトレーニングすることにより、CLIPモデルは、データセット固有のトレーニングを必要とせずに、ほとんどのタスクに自明に転送する。
本研究では,CLIPを用いて人気ゲーム「Guess Who?」のエンジンを実装し,プレイヤーが自然言語プロンプトを用いてゲームと対話し,ゲームボード内の画像がそのプロンプトを満たすか否かを自動的に決定する。
我々は,このアプローチの性能を,質問をクリップに促す方法の異なるベンチマークによって検証し,ゼロショットキャパビライトの限界を示す。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - From Association to Generation: Text-only Captioning by Unsupervised
Cross-modal Mapping [20.67415815472257]
画像キャプションとビデオキャプションの関連付けから生成までのゼロショット手法を提案する。
Knight State-of-the-Artは、画像キャプションとビデオキャプションのゼロショット方式でパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-26T04:06:20Z) - Text-Only Training for Image Captioning using Noise-Injected CLIP [23.384962328773753]
トレーニング時にCLIPモデルと追加テキストデータのみを用いた画像キャプチャのタスクについて検討する。
私たちのアプローチは、CLIPがビジュアルとテキストの埋め込みを類似させるように訓練されているという事実に依存しています。
論文 参考訳(メタデータ) (2022-11-01T16:36:01Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文 参考訳(メタデータ) (2022-10-06T17:59:15Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。