論文の概要: Better Captioning with Sequence-Level Exploration
- arxiv url: http://arxiv.org/abs/2003.03749v1
- Date: Sun, 8 Mar 2020 09:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:24:08.671061
- Title: Better Captioning with Sequence-Level Exploration
- Title(参考訳): シーケンスレベル探索によるキャプション向上
- Authors: Jia Chen, Qin Jin
- Abstract要約: 課題の字幕化における現在のシーケンスレベルの学習目標の限界を示す。
理論的には、現在の目的はキャプションセットの精度側だけを最適化することである。
実証的な結果は、この目的によって訓練されたモデルは、リコール側で低いスコアを得る傾向があることを示している。
- 参考スコア(独自算出の注目度): 60.57850194028581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-level learning objective has been widely used in captioning tasks to
achieve the state-of-the-art performance for many models. In this objective,
the model is trained by the reward on the quality of its generated captions
(sequence-level). In this work, we show the limitation of the current
sequence-level learning objective for captioning tasks from both theory and
empirical result. In theory, we show that the current objective is equivalent
to only optimizing the precision side of the caption set generated by the model
and therefore overlooks the recall side. Empirical result shows that the model
trained by this objective tends to get lower score on the recall side. We
propose to add a sequence-level exploration term to the current objective to
boost recall. It guides the model to explore more plausible captions in the
training. In this way, the proposed objective takes both the precision and
recall sides of generated captions into account. Experiments show the
effectiveness of the proposed method on both video and image captioning
datasets.
- Abstract(参考訳): シーケンスレベルの学習目標は多くのモデルで最先端のパフォーマンスを達成するためにキャプションタスクで広く使われている。
この目的において、モデルは生成されたキャプション(シーケンスレベル)の品質に対する報酬によって訓練される。
本研究では, 理論と実験結果の両方から, キャプション課題に対する現在のシーケンスレベルの学習目標の限界を示す。
理論的には、現在の目的はモデルによって生成されたキャプションセットの精度側のみを最適化することであり、リコール側を見落としていることを示している。
実証的な結果は、この目的によって訓練されたモデルは、リコール側で低いスコアを得る傾向があることを示している。
我々は,リコールを促進するために,現在の目的にシーケンスレベルの探索用語を追加することを提案する。
トレーニングにおいて、より妥当なキャプションを探索するためにモデルがガイドされる。
このようにして,提案手法は,生成キャプションの精度とリコール面の両方を考慮したものである。
ビデオと画像のキャプションデータセットにおける提案手法の有効性を示す実験を行った。
関連論文リスト
- Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training [44.008094698200026]
PAC-S++はCLIPモデルを利用した学習可能なメトリックであり、Webコンパイルされたデータとクリーンなデータの両方で事前トレーニングされている。
PAC-S++をキャプションモデルの微調整段階に組み込むことで,文の繰り返しや文法的誤りが少なく,意味的に豊かなキャプションが得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T18:00:09Z) - IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers [31.455819448471157]
生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。
ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。
本稿では,分類作業における生成学習の有効性を向上させることにより,このギャップを狭めることを目的とする。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile
Screenshot Captioning [0.5893124686141781]
本研究では,モデル上の追加モジュールのみをチューニングするアダプタ手法の組み合わせを提案する。
画像キャプションモデルのパラメータを凍結し、メソッドに関連する重みのみをトレーニングすることにより、モデル全体の微調整に匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-09-26T09:16:44Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。