論文の概要: Grounded Situation Recognition
- arxiv url: http://arxiv.org/abs/2003.12058v1
- Date: Thu, 26 Mar 2020 17:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:58:51.868255
- Title: Grounded Situation Recognition
- Title(参考訳): 接地状況認識
- Authors: Sarah Pratt, Mark Yatskar, Luca Weihs, Ali Farhadi, Aniruddha Kembhavi
- Abstract要約: 画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
- 参考スコア(独自算出の注目度): 56.18102368133022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Grounded Situation Recognition (GSR), a task that requires
producing structured semantic summaries of images describing: the primary
activity, entities engaged in the activity with their roles (e.g. agent, tool),
and bounding-box groundings of entities. GSR presents important technical
challenges: identifying semantic saliency, categorizing and localizing a large
and diverse set of entities, overcoming semantic sparsity, and disambiguating
roles. Moreover, unlike in captioning, GSR is straightforward to evaluate. To
study this new task we create the Situations With Groundings (SWiG) dataset
which adds 278,336 bounding-box groundings to the 11,538 entity classes in the
imsitu dataset. We propose a Joint Situation Localizer and find that jointly
predicting situations and groundings with end-to-end training handily
outperforms independent training on the entire grounding metric suite with
relative gains between 8% and 32%. Finally, we show initial findings on three
exciting future directions enabled by our models: conditional querying, visual
chaining, and grounded semantic aware image retrieval. Code and data available
at https://prior.allenai.org/projects/gsr.
- Abstract(参考訳): 基本活動,その役割(エージェント,ツール),エンティティのバウンディングボックスグラウンドといった,イメージの構造化された意味的要約を生成するタスクである,接地状況認識(grounded situation recognition,gsr)を紹介する。
GSRは、セマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズ、セマンティック・スペシャリティの克服、役割の曖昧化といった重要な技術的課題を提示している。
さらに、字幕化とは異なり、GSRは容易に評価できる。
この新たなタスクを研究するために、Imsituデータセットの11,538のエンティティクラスに278,336のバウンディングボックスグラウンドを追加して、SWiGデータセットを作成しました。
本研究は,共同状況ローカライザを提案し,エンド・ツー・エンドのトレーニングによる状況予測と接地が,8%から32%の相対的な利得で,単独のトレーニングよりも良好であることを示す。
最後に,条件付き問合せ,視覚連鎖,接地した意味認識画像検索という3つのエキサイティングな将来的方向性について最初の知見を示す。
コードとデータはhttps://prior.allenai.org/projects/gsrで入手できる。
関連論文リスト
- S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving [12.406655155106424]
そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:00:06Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Evaluating the Efficacy of Cut-and-Paste Data Augmentation in Semantic Segmentation for Satellite Imagery [4.499833362998487]
本研究では,衛星画像のセマンティックセグメンテーションにおけるカット・アンド・ペースト拡張手法の有効性について検討した。
私たちは、通常ラベル付きインスタンスを必要とするこの拡張を、セマンティックセグメンテーションのケースに適用します。
評価のためにDynamicEarthNetデータセットとU-Netモデルを用いて、この拡張により、テストセットのmIoUスコアが37.9から44.1に大幅に向上することを発見した。
論文 参考訳(メタデータ) (2024-04-08T17:18:30Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - INoD: Injected Noise Discriminator for Self-Supervised Representation
Learning in Agricultural Fields [6.891600948991265]
Injected Noise Discriminator (INoD) を提案する。
INoDは、畳み込みエンコーディング中に2つの非結合データセットからフィーチャーマップをインターリーブし、結果のフィーチャーマップのデータセットアフィリエイトをプレテキストタスクとして予測する。
提案手法により、ネットワークは、あるデータセットで見られるオブジェクトの無意味な表現を学習し、解離したデータセットの類似した特徴と合わせて観察することができる。
論文 参考訳(メタデータ) (2023-03-31T14:46:31Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Conditioning Covert Geo-Location (CGL) Detection on Semantic Class
Information [5.660207256468971]
サハらによってCCGL(Covert Geo-Location)検出と呼ばれる潜在的な隠蔽物を特定するタスクが提案された。
セマンティッククラス情報を利用する試みは行われなかった。
本稿では,2つの目標を達成するためのマルチタスク学習に基づくアプローチを提案する。i) 意味クラス情報を持つ特徴の抽出;i) 共通エンコーダの堅牢なトレーニング。
論文 参考訳(メタデータ) (2022-11-27T07:21:59Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。