論文の概要: An implementation of the "Guess who?" game using CLIP
- arxiv url: http://arxiv.org/abs/2112.00599v1
- Date: Tue, 30 Nov 2021 13:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:59:13.425081
- Title: An implementation of the "Guess who?" game using CLIP
- Title(参考訳): CLIP を用いた "Guess Who?" ゲームの実装
- Authors: Arnau Mart\'i Sarri, Victor Rodriguez-Fernandez
- Abstract要約: CLIP (Contrastive Language-Image Pretraining) は、自然言語によるコンピュータビジョンタスクの学習方法である。
インターネット上で利用可能な画像テキストペアからトレーニングすることにより、CLIPモデルは、データセット固有のトレーニングを必要とせずに、ほとんどのタスクに自明に転送する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: CLIP (Contrastive Language-Image Pretraining) is an efficient method for
learning computer vision tasks from natural language supervision that has
powered a recent breakthrough in deep learning due to its zero-shot transfer
capabilities. By training from image-text pairs available on the internet, the
CLIP model transfers non-trivially to most tasks without the need for any data
set specific training. In this work, we use CLIP to implement the engine of the
popular game "Guess who?", so that the player interacts with the game using
natural language prompts and CLIP automatically decides whether an image in the
game board fulfills that prompt or not. We study the performance of this
approach by benchmarking on different ways of prompting the questions to CLIP,
and show the limitations of its zero-shot capabilites.
- Abstract(参考訳): CLIP(Contrastive Language-Image Pretraining)は、自然言語の監視からコンピュータビジョンタスクを学習するための効率的な方法である。
インターネット上で利用可能な画像テキストペアからトレーニングすることにより、CLIPモデルは、データセット固有のトレーニングを必要とせずに、ほとんどのタスクに自明に転送する。
本研究では,CLIPを用いて人気ゲーム「Guess Who?」のエンジンを実装し,プレイヤーが自然言語プロンプトを用いてゲームと対話し,ゲームボード内の画像がそのプロンプトを満たすか否かを自動的に決定する。
我々は,このアプローチの性能を,質問をクリップに促す方法の異なるベンチマークによって検証し,ゼロショットキャパビライトの限界を示す。
関連論文リスト
- CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - From Association to Generation: Text-only Captioning by Unsupervised
Cross-modal Mapping [20.67415815472257]
画像キャプションとビデオキャプションの関連付けから生成までのゼロショット手法を提案する。
Knight State-of-the-Artは、画像キャプションとビデオキャプションのゼロショット方式でパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-26T04:06:20Z) - Text-Only Training for Image Captioning using Noise-Injected CLIP [23.384962328773753]
トレーニング時にCLIPモデルと追加テキストデータのみを用いた画像キャプチャのタスクについて検討する。
私たちのアプローチは、CLIPがビジュアルとテキストの埋め込みを類似させるように訓練されているという事実に依存しています。
論文 参考訳(メタデータ) (2022-11-01T16:36:01Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文 参考訳(メタデータ) (2022-10-06T17:59:15Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。