論文の概要: NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External
Knowledge
- arxiv url: http://arxiv.org/abs/2203.14499v1
- Date: Mon, 28 Mar 2022 04:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:34:25.647814
- Title: NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External
Knowledge
- Title(参考訳): NOC-REK:外部知識から語彙を抽出した新しいオブジェクトキャプション
- Authors: Duc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama
- Abstract要約: 未知知識法(NOC-REK)から検索語彙を用いたエンドツーエンドの新規オブジェクトキャプションを提案する。
我々のモデルは、新しいオブジェクトが現れるたびに外部知識を更新するだけで、モデル再訓練の必要がなくなる。
ホールドアウトCOCOとNocapsデータセットに関する実験は、NOC-REKがSOTAに対してかなり有効であることを示している。
- 参考スコア(独自算出の注目度): 33.380864949316155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel object captioning aims at describing objects absent from training data,
with the key ingredient being the provision of object vocabulary to the model.
Although existing methods heavily rely on an object detection model, we view
the detection step as vocabulary retrieval from an external knowledge in the
form of embeddings for any object's definition from Wiktionary, where we use in
the retrieval image region features learned from a transformers model. We
propose an end-to-end Novel Object Captioning with Retrieved vocabulary from
External Knowledge method (NOC-REK), which simultaneously learns vocabulary
retrieval and caption generation, successfully describing novel objects outside
of the training dataset. Furthermore, our model eliminates the requirement for
model retraining by simply updating the external knowledge whenever a novel
object appears. Our comprehensive experiments on held-out COCO and Nocaps
datasets show that our NOC-REK is considerably effective against SOTAs.
- Abstract(参考訳): 新たなオブジェクトキャプションは、トレーニングデータから欠落したオブジェクトを記述することを目的としている。
既存の手法はオブジェクト検出モデルに大きく依存しているが、検出ステップを外部知識からの語彙検索として、任意のオブジェクトの定義をwiktionaryから埋め込む形で、トランスフォーマーモデルから学習した検索画像領域の特徴として使用する。
本研究では, 単語検索とキャプション生成を同時に学習し, トレーニングデータセットの外部で新規オブジェクトをうまく記述できる, 未知知識法(NOC-REK)による単語検索によるエンドツーエンドの新規オブジェクトキャプションを提案する。
さらに,新しいオブジェクトが現れるたびに外部の知識を更新するだけで,モデル再トレーニングの必要がなくなる。
ホールドアウトCOCOとNocapsデータセットに関する包括的な実験は、NOC-REKがSOTAに対してかなり有効であることを示している。
関連論文リスト
- From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects [0.6262268096839562]
オープン語彙オブジェクト検出(OVD)に関する最近の研究により、非有界語彙によって定義されたオブジェクトの検出が可能になった。
OVDは'oracle'によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要なアプリケーションでの使用を制限する。
我々は,OVDモデルをオープンワールドで動作させるフレームワークを提案し,新しいオブジェクトを段階的に識別し,学習する。
論文 参考訳(メタデータ) (2024-11-27T10:33:51Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Hyperbolic Learning with Synthetic Captions for Open-World Detection [26.77840603264043]
本稿では,視覚言語モデル(VLM)から知識を伝達して,オープン語彙記述を自動的に強化することを提案する。
具体的には、予め訓練したVLMを用いて高濃度の合成キャプションをブートストラップし、画像の異なる領域について豊富な記述を提供する。
また,視覚とキャプションの埋め込みの階層構造を付加する,新しい双曲型視覚言語学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T17:06:22Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Learning to Select: A Fully Attentive Approach for Novel Object
Captioning [48.497478154384105]
新たなオブジェクトキャプション(NOC)は、トレーニング期間中に見えないオブジェクトに対してキャプションモデルをテストするパラダイムとして最近登場した。
我々は,トレーニングセットへの準拠性に関係なく,画像の最も関連性の高いオブジェクトを選択することを学習するNOCに対して,新しいアプローチを提案する。
私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。
論文 参考訳(メタデータ) (2021-06-02T19:11:21Z) - ECOL-R: Encouraging Copying in Novel Object Captioning with
Reinforcement Learning [22.810602879537473]
新規なオブジェクトキャプションは、トレーニングキャプションで見ることなく、外部オブジェクト検出器から情報が得られるオブジェクトを記述することを必要とするゼロショットタスクである。
本稿では、新しいオブジェクトラベルを正確に記述することを奨励するコピー強化トランスフォーマモデルECOL-R(Encouraging Copying of Object Labels with Reinforced Learning)を提案する。
論文 参考訳(メタデータ) (2021-01-25T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。