論文の概要: Learning to Reason from General Concepts to Fine-grained Tokens for
Discriminative Phrase Detection
- arxiv url: http://arxiv.org/abs/2112.03237v1
- Date: Mon, 6 Dec 2021 18:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:29:15.170744
- Title: Learning to Reason from General Concepts to Fine-grained Tokens for
Discriminative Phrase Detection
- Title(参考訳): 識別的フレーズ検出のための一般概念から微粒化トークンへの推論の学習
- Authors: Maan Qraitem, Bryan A. Plummer
- Abstract要約: フレーズ検出には、あるフレーズが画像と関連しているかどうかを識別し、適用可能であればローカライズする手法が必要である。
本稿では,2つの新しい手法を用いてフレーズを区別するフレーズ検出器であるPFP-Netを紹介する。
Flickr30K EntitiesとRefCOCO+のデータセットに対する我々のアプローチを評価し、すべてのフレーズに対して、最先端のmAPを1~1.5ポイント改善する。
- 参考スコア(独自算出の注目度): 14.750623394821128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phrase detection requires methods to identify if a phrase is relevant to an
image and then localize it if applicable. A key challenge in training more
discriminative phrase detection models is sampling hard-negatives. This is
because few phrases are annotated of the nearly infinite variations that may be
applicable. To address this problem, we introduce PFP-Net, a phrase detector
that differentiates between phrases through two novel methods. First, we group
together phrases of related objects into coarse groups of visually coherent
concepts (eg animals vs automobiles), and then train our PFP-Net to
discriminate between them according to their concept membership. Second, for
phrases containing fine grained mutually-exclusive tokens (eg colors), we force
the model into selecting only one applicable phrase for each region. We
evaluate our approach on the Flickr30K Entities and RefCOCO+ datasets, where we
improve mAP over the state-of-the-art by 1-1.5 points over all phrases on this
challenging task. When considering only the phrases affected by our
fine-grained reasoning module, we improve by 1-4 points on both datasets.
- Abstract(参考訳): フレーズ検出は、あるフレーズが画像に関連しているかどうかを識別し、適用すればローカライズする手法を必要とする。
より識別的なフレーズ検出モデルのトレーニングにおける重要な課題は、ハード負のサンプリングである。
これは、適用可能なほぼ無限のバリエーションについて注釈を付けるフレーズがほとんどないからである。
この問題に対処するために,2つの新しい手法を用いてフレーズを区別するフレーズ検出器であるPFP-Netを導入する。
まず,関連対象のフレーズを,視覚的にコヒーレントな概念(動物対自動車)の粗いグループにグループ化し,pfp-netにその概念のメンバシップに応じて区別するように訓練する。
第2に、きめ細かい相互排他トークン(例えば色)を含むフレーズに対しては、各領域に適用される1つのフレーズのみを選択するようにモデルを強制する。
Flickr30K EntitiesとRefCOCO+データセットに対する我々のアプローチを評価し、この課題に関するすべてのフレーズに対して、最先端のmAPを1~1.5ポイント改善する。
きめ細かい推論モジュールの影響を受けるフレーズのみを考慮すると、両方のデータセットで1-4ポイント改善します。
関連論文リスト
- PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models [5.980822697955566]
Paraphrasusはパラフレーズ検出モデルの多次元評価のために設計されたベンチマークである。
詳細な評価レンズ下でのパラフレーズ検出モデルは,単一分類データセットでは取得できないトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-18T15:33:48Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding [24.787497472368244]
本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-11T05:42:12Z) - Improving Paraphrase Detection with the Adversarial Paraphrasing Task [0.0]
パラフレーズデータセットは現在、単語の重複と構文に基づくパラフレーズの感覚に依存している。
パラフレーズ識別のための新しいデータセット生成法: 逆パラフレーズ処理タスク(APT)について紹介する。
APTは参加者に意味論的に等価(相互に意味的)であるが、語彙的にも構文的にも異なるパラフレーズを生成するよう要求する。
論文 参考訳(メタデータ) (2021-06-14T18:15:20Z) - Research on Annotation Rules and Recognition Algorithm Based on Phrase
Window [4.334276223622026]
フレーズウィンドウに基づくラベリングルールを提案し,それに対応するフレーズ認識アルゴリズムを設計する。
ラベル付けルールでは、フレーズを最小単位とし、文を7種類のネスト可能なフレーズタイプに分割し、フレーズ間の文法的依存関係を示す。
対応するアルゴリズムは、画像中の対象領域を識別するアイデアに基づいて、文中の様々なフレーズの開始位置と終了位置を見つけることができる。
論文 参考訳(メタデータ) (2020-07-07T00:19:47Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。