論文の概要: Panoptic Narrative Grounding
- arxiv url: http://arxiv.org/abs/2109.04988v1
- Date: Fri, 10 Sep 2021 16:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:26:34.368997
- Title: Panoptic Narrative Grounding
- Title(参考訳): Panoptic Narrative Grounding
- Authors: C. Gonz\'alez, N. Ayobi, I. Hern\'andez, J. Hern\'andez, J.
Pont-Tuset, P. Arbel\'aez
- Abstract要約: 本稿では,自然言語の視覚的グラウンドリング問題に対する空間的微細で一般的な定式化であるパノプティック・ナラティブ・グラウンドディングを提案する。
画像の内在的意味的豊かさを汎視的カテゴリを含めることで活用し,セグメンテーションを用いて細粒度で視覚的グラウンド化にアプローチする。
そこで本研究では,MS COCOデータセットの汎視的セグメンテーションにおいて,局所的ナラティクスアノテーションを特定の領域に自動的に転送するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Panoptic Narrative Grounding, a spatially fine and
general formulation of the natural language visual grounding problem. We
establish an experimental framework for the study of this new task, including
new ground truth and metrics, and we propose a strong baseline method to serve
as stepping stone for future work. We exploit the intrinsic semantic richness
in an image by including panoptic categories, and we approach visual grounding
at a fine-grained level by using segmentations. In terms of ground truth, we
propose an algorithm to automatically transfer Localized Narratives annotations
to specific regions in the panoptic segmentations of the MS COCO dataset. To
guarantee the quality of our annotations, we take advantage of the semantic
structure contained in WordNet to exclusively incorporate noun phrases that are
grounded to a meaningfully related panoptic segmentation region. The proposed
baseline achieves a performance of 55.4 absolute Average Recall points. This
result is a suitable foundation to push the envelope further in the development
of methods for Panoptic Narrative Grounding.
- Abstract(参考訳): 本稿では,自然言語視覚接地問題の空間的詳細と一般的な定式化であるpanoptic narrative groundingを提案する。
我々は,新しい基礎的真理とメトリクスを含む,この新しい課題の研究のための実験的枠組みを確立し,今後の研究の足場となる強力なベースライン手法を提案する。
画像の内在的意味的豊かさを汎視的カテゴリを含めることで活用し,セグメンテーションを用いて視覚的グラウンド化にアプローチする。
そこで本研究では,MS COCOデータセットの汎視的セグメンテーションにおいて,局所的ナラティクスアノテーションを特定の領域に自動的に転送するアルゴリズムを提案する。
アノテーションの品質を保証するため、WordNetに含まれる意味構造を利用して、意味のある関連性のあるパノプティックセグメンテーション領域に基づく名詞句を排他的に組み込む。
提案するベースラインは絶対平均リコールポイント55.4である。
この結果は、パノプティカル・ナラティブ・グラウンディングの手法の開発においてエンベロープをさらに推し進めるための適切な基盤となる。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - A Bottom-Up Approach to Class-Agnostic Image Segmentation [4.086366531569003]
本稿では,クラスに依存しないセグメンテーション問題に対処するためのボトムアップの新たな定式化を提案する。
我々は、その特徴空間の射影球に直接ネットワークを監督する。
ボトムアップの定式化は、クラスベースのセグメンテーション用に設計されたデータセットで訓練された場合でも、例外的な一般化能力を示す。
論文 参考訳(メタデータ) (2024-09-20T17:56:02Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding [24.787497472368244]
本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-11T05:42:12Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。