論文の概要: ECOL-R: Encouraging Copying in Novel Object Captioning with
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.09865v1
- Date: Mon, 25 Jan 2021 02:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 07:58:33.027535
- Title: ECOL-R: Encouraging Copying in Novel Object Captioning with
Reinforcement Learning
- Title(参考訳): ECOL-R:強化学習による新規オブジェクトキャプションにおけるコピー促進
- Authors: Yufei Wang and Ian D. Wood and Stephen Wan and Mark Johnson
- Abstract要約: 新規なオブジェクトキャプションは、トレーニングキャプションで見ることなく、外部オブジェクト検出器から情報が得られるオブジェクトを記述することを必要とするゼロショットタスクである。
本稿では、新しいオブジェクトラベルを正確に記述することを奨励するコピー強化トランスフォーマモデルECOL-R(Encouraging Copying of Object Labels with Reinforced Learning)を提案する。
- 参考スコア(独自算出の注目度): 22.810602879537473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel Object Captioning is a zero-shot Image Captioning task requiring
describing objects not seen in the training captions, but for which information
is available from external object detectors. The key challenge is to select and
describe all salient detected novel objects in the input images. In this paper,
we focus on this challenge and propose the ECOL-R model (Encouraging Copying of
Object Labels with Reinforced Learning), a copy-augmented transformer model
that is encouraged to accurately describe the novel object labels. This is
achieved via a specialised reward function in the SCST reinforcement learning
framework (Rennie et al., 2017) that encourages novel object mentions while
maintaining the caption quality. We further restrict the SCST training to the
images where detected objects are mentioned in reference captions to train the
ECOL-R model. We additionally improve our copy mechanism via Abstract Labels,
which transfer knowledge from known to novel object types, and a Morphological
Selector, which determines the appropriate inflected forms of novel object
labels. The resulting model sets new state-of-the-art on the nocaps (Agrawal et
al., 2019) and held-out COCO (Hendricks et al., 2016) benchmarks.
- Abstract(参考訳): 新規なオブジェクトキャプションは、トレーニングキャプションで見ることなく、外部のオブジェクト検出器から情報が得られるオブジェクトを記述することを必要とするゼロショット画像キャプションタスクである。
重要な課題は、入力画像中の検出されたすべての新規オブジェクトを選択し、記述することです。
本稿では、この課題に焦点をあて、新しいオブジェクトラベルを正確に記述することを奨励するコピー強化トランスフォーマーモデルであるECOL-Rモデル(Encouraging Copying of Object Labels with Reinforced Learning)を提案する。
これは、キャプション品質を維持しながら、新しいオブジェクトへの言及を奨励するscst強化学習フレームワーク(rennie et al., 2017)の特別報酬関数によって達成される。
さらに、検出対象が参照キャプションに言及されている画像に対してSCSTトレーニングを制限し、ECOL-Rモデルをトレーニングする。
さらに、既知のオブジェクトタイプから新しいオブジェクトタイプに知識を転送するAbstract Labelsと、新しいオブジェクトラベルの適切な入力形式を決定するMorphological Selectorを介してコピーメカニズムを改善します。
その結果得られたモデルは、nocaps (agrawal et al., 2019) と hold-out coco (hendricks et al., 2016) ベンチマークに最新技術を設定する。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External
Knowledge [33.380864949316155]
未知知識法(NOC-REK)から検索語彙を用いたエンドツーエンドの新規オブジェクトキャプションを提案する。
我々のモデルは、新しいオブジェクトが現れるたびに外部知識を更新するだけで、モデル再訓練の必要がなくなる。
ホールドアウトCOCOとNocapsデータセットに関する実験は、NOC-REKがSOTAに対してかなり有効であることを示している。
論文 参考訳(メタデータ) (2022-03-28T04:59:16Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - Learning to Select: A Fully Attentive Approach for Novel Object
Captioning [48.497478154384105]
新たなオブジェクトキャプション(NOC)は、トレーニング期間中に見えないオブジェクトに対してキャプションモデルをテストするパラダイムとして最近登場した。
我々は,トレーニングセットへの準拠性に関係なく,画像の最も関連性の高いオブジェクトを選択することを学習するNOCに対して,新しいアプローチを提案する。
私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。
論文 参考訳(メタデータ) (2021-06-02T19:11:21Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。