論文の概要: ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based
Polishing
- arxiv url: http://arxiv.org/abs/2303.02437v1
- Date: Sat, 4 Mar 2023 14:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:37:53.214474
- Title: ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based
Polishing
- Title(参考訳): ConZIC:サンプリングベースポリシングによる制御可能なゼロショット画像キャプション
- Authors: Zequn Zeng, Hao Zhang, Zhengjue Wang, Ruiying Lu, Dongsheng Wang, Bo
Chen
- Abstract要約: 制御可能なゼロショットIC(ConZIC)のフレームワークを提案する。
ConZICのコアは、GibsBERTという新しいサンプリングベースの非自己回帰言語モデルである。
ConZICはZeroCapよりも約5倍高速で、1.5倍高い多様性を示す。
- 参考スコア(独自算出の注目度): 19.725399111526244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot capability has been considered as a new revolution of deep
learning, letting machines work on tasks without curated training data. As a
good start and the only existing outcome of zero-shot image captioning (IC),
ZeroCap abandons supervised training and sequentially searches every word in
the caption using the knowledge of large-scale pretrained models. Though
effective, its autoregressive generation and gradient-directed searching
mechanism limit the diversity of captions and inference speed, respectively.
Moreover, ZeroCap does not consider the controllability issue of zero-shot IC.
To move forward, we propose a framework for Controllable Zero-shot IC, named
ConZIC. The core of ConZIC is a novel sampling-based non-autoregressive
language model named GibbsBERT, which can generate and continuously polish
every word. Extensive quantitative and qualitative results demonstrate the
superior performance of our proposed ConZIC for both zero-shot IC and
controllable zero-shot IC. Especially, ConZIC achieves about 5x faster
generation speed than ZeroCap, and about 1.5x higher diversity scores, with
accurate generation given different control signals.
- Abstract(参考訳): ゼロショットの能力は、ディープラーニングの新しい革命と見なされ、機械が訓練データなしでタスクをこなせるようになった。
ゼロショット画像キャプション(ic)のよいスタートと唯一の既存の結果として、zerocapは教師付きトレーニングを放棄し、大規模な事前学習モデルの知識を用いてキャプション内のすべての単語を順次検索する。
効果はあるものの、自己回帰生成と勾配指向探索機構はそれぞれキャプションの多様性と推論速度を制限する。
さらに、ZeroCapはゼロショットICの可制御性の問題を考慮していない。
本研究では,制御可能なゼロショットICのフレームワークであるConZICを提案する。
conzicの中核は、新しいサンプリングベースの非自己回帰言語モデルgibbsbertであり、すべての単語を生成および連続的に磨くことができる。
ゼロショットICと制御可能なゼロショットICの両方に対して提案したConZICの優れた性能を示す。
特に、ConZICはZeroCapよりも約5倍高速で、1.5倍高い多様性スコアを達成し、正確な生成には異なる制御信号が与えられる。
関連論文リスト
- TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning [30.506968671472517]
我々はTRaining-Free Object-Part Enhancement (TROPE)を紹介する。
TROPEは、オブジェクト検出の提案と自然言語処理技術を使用して、追加のオブジェクト部分の詳細でベースキャプションを豊かにする。
評価の結果,TROPEはテスト対象のゼロショットICアプローチすべてに対して一貫して性能を向上し,細粒度ICデータセットの最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T05:24:01Z) - CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification [11.225067563482169]
ゼロショット学習(ZSL)および一般化ゼロショット学習(GZSL)設定において、包括的な文書画像分類分析を行う。
CICA(ki-ka)はCLIPのゼロショット学習能力を向上するフレームワークである。
我々のモジュールは、CLIPのZSLトップ-1精度を6.7%改善し、GZSLハーモニック平均はRVL-CDIPデータセットで24%向上した。
論文 参考訳(メタデータ) (2024-05-06T17:37:23Z) - MeaCap: Memory-Augmented Zero-shot Image Captioning [11.817667500151687]
メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
論文 参考訳(メタデータ) (2024-03-06T14:00:31Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding [86.08738156304224]
我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。
SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。
クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
論文 参考訳(メタデータ) (2023-05-23T16:15:31Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - Self-Annotated Training for Controllable Image Captioning [4.742874328556818]
Controllable Image Captioning (CIC)タスクは、指定された制御信号に条件付きキャプションを生成することを目的としている。
既存の強化訓練方法は構造関連CICモデルには適用できない。
文品質という新しい制御信号を導入する。
論文 参考訳(メタデータ) (2021-10-16T02:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。