論文の概要: DetermiNet: A Large-Scale Diagnostic Dataset for Complex
Visually-Grounded Referencing using Determiners
- arxiv url: http://arxiv.org/abs/2309.03483v1
- Date: Thu, 7 Sep 2023 05:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:19:35.417861
- Title: DetermiNet: A Large-Scale Diagnostic Dataset for Complex
Visually-Grounded Referencing using Determiners
- Title(参考訳): DetermiNet:Determinerを用いた複雑なビジュアルグラウンド参照のための大規模診断データセット
- Authors: Clarence Lee, M Ganesh Kumar, Cheston Tan
- Abstract要約: DetermiNetデータセットは25の判定値に基づいて25万の合成画像とキャプションで構成されている。
タスクは、与えられた決定子のセマンティクスによって制約された関心の対象を特定するために、バウンディングボックスを予測することである。
現在の最先端のビジュアルグラウンドモデルでは、データセットではうまく動作しないことがわかった。
- 参考スコア(独自算出の注目度): 5.256237513030104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art visual grounding models can achieve high detection accuracy,
but they are not designed to distinguish between all objects versus only
certain objects of interest. In natural language, in order to specify a
particular object or set of objects of interest, humans use determiners such as
"my", "either" and "those". Determiners, as an important word class, are a type
of schema in natural language about the reference or quantity of the noun.
Existing grounded referencing datasets place much less emphasis on determiners,
compared to other word classes such as nouns, verbs and adjectives. This makes
it difficult to develop models that understand the full variety and complexity
of object referencing. Thus, we have developed and released the DetermiNet
dataset , which comprises 250,000 synthetically generated images and captions
based on 25 determiners. The task is to predict bounding boxes to identify
objects of interest, constrained by the semantics of the given determiner. We
find that current state-of-the-art visual grounding models do not perform well
on the dataset, highlighting the limitations of existing models on reference
and quantification tasks.
- Abstract(参考訳): 最先端のビジュアルグラウンドモデルは高い検出精度を達成することができるが、興味のある特定のオブジェクトのみと全てのオブジェクトを区別するように設計されていない。
自然言語では、特定の対象や興味のある対象のセットを特定するために、人間は「私」や「アイザー」や「スーズ」といった決定器を使う。
決定子は、重要な単語クラスとして、名詞の参照または量に関する自然言語におけるスキーマの一種である。
既存の接地参照データセットは、名詞、動詞、形容詞などの他の単語クラスと比べて、決定子に重点を置いている。
これにより、オブジェクト参照の完全な多様性と複雑さを理解するモデルの開発が困難になる。
そこで我々は,25個の決定子に基づく合成画像とキャプションからなるDetermiNetデータセットを開発し,リリースした。
タスクは、与えられた決定子のセマンティクスによって制約された、関心のあるオブジェクトを識別するための境界ボックスを予測することである。
現在の最先端のビジュアルグラウンドモデルはデータセットではうまく機能せず、参照および定量化タスクにおける既存のモデルの制限を強調している。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Automatic dataset generation for specific object detection [6.346581421948067]
本研究では,オブジェクトの詳細な特徴を,無関係な情報を得ることなく保存することができるオブジェクト・イン・シーン・イメージの合成手法を提案する。
その結果,合成画像では,物体の境界が背景とよく一致していることがわかった。
論文 参考訳(メタデータ) (2022-07-16T07:44:33Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。