論文の概要: Detection and Captioning with Unseen Object Classes
- arxiv url: http://arxiv.org/abs/2108.06165v1
- Date: Fri, 13 Aug 2021 10:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:07:56.901927
- Title: Detection and Captioning with Unseen Object Classes
- Title(参考訳): 未認識オブジェクトクラスによる検出とキャプション
- Authors: Berkan Demirel and Ramazan Gokberk Cinbis
- Abstract要約: テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
- 参考スコア(独自算出の注目度): 12.894104422808242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image caption generation is one of the most challenging problems at the
intersection of visual recognition and natural language modeling domains. In
this work, we propose and study a practically important variant of this problem
where test images may contain visual objects with no corresponding visual or
textual training examples. For this problem, we propose a detection-driven
approach based on a generalized zero-shot detection model and a template-based
sentence generation model. In order to improve the detection component, we
jointly define a class-to-class similarity based class representation and a
practical score calibration mechanism. We also propose a novel evaluation
metric that provides complimentary insights to the captioning outputs, by
separately handling the visual and non-visual components of the captions. Our
experiments show that the proposed zero-shot detection model obtains
state-of-the-art performance on the MS-COCO dataset and the zero-shot
captioning approach yields promising results.
- Abstract(参考訳): 画像キャプション生成は、視覚認識と自然言語モデリングドメインの交差において最も難しい問題の一つである。
そこで本研究では,テスト画像に視覚やテキストのトレーニング例を含まないビジュアルオブジェクトを含むことができるような,この問題の実際上重要な変種を提案し,検討する。
そこで本研究では,一般化ゼロショット検出モデルとテンプレートベース文生成モデルに基づく検出駆動型アプローチを提案する。
検出成分を改善するために,クラス間類似度に基づくクラス表現と実用的なスコア校正機構を共同で定義する。
また,字幕の視覚成分と非視覚成分を別々に扱うことにより,字幕出力に対する補完的洞察を提供する新しい評価指標を提案する。
実験の結果,提案したゼロショット検出モデルはMS-COCOデータセット上での最先端性能を得ることができ,ゼロショットキャプション手法は有望な結果をもたらすことがわかった。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - A Unified Interactive Model Evaluation for Classification, Object
Detection, and Instance Segmentation in Computer Vision [31.441561710096877]
コンピュータビジョンにおける分類,オブジェクト検出,インスタンスセグメンテーションのための統一モデル評価を支援するために,オープンソースビジュアル分析ツールUni-Evaluatorを開発した。
我々の手法の背景にある重要な考え方は、異なるタスクにおける離散的および連続的な予測を統一された確率分布として定式化することである。
これらの分布に基づいて,1)モデルの性能を概観する行列ベースの可視化,2)モデルの性能が不十分な問題のあるデータサブセットを識別するテーブル視覚化,3)興味のあるサンプルを表示するグリッド視覚化を開発する。
論文 参考訳(メタデータ) (2023-08-09T18:11:28Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - A Baseline for Detecting Out-of-Distribution Examples in Image
Captioning [12.953517767147998]
画像キャプションにおけるOOD検出の問題点について考察する。
OOD画像の検出と拒否におけるキャプションの確率スコアの有効性を示す。
論文 参考訳(メタデータ) (2022-07-12T09:29:57Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Image Captioning with Compositional Neural Module Networks [18.27510863075184]
自然言語の合成性と順序性の両方を探求する画像キャプションのための階層的枠組みを導入する。
提案アルゴリズムは,入力画像で検出された各オブジェクトの特異な側面に対応する異なるモジュールに選択的に参加することで,詳細に富んだ文を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-10T20:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。