論文の概要: Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2103.05271v2
- Date: Wed, 10 Mar 2021 05:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 12:45:35.911466
- Title: Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation
- Title(参考訳): シーングラフ生成のためのセマンティックアンビジティの確率的モデル化
- Authors: Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang
- Abstract要約: 視覚的関係はしばしば意味的に曖昧である。
あいまいさは自然に、複雑なマルチラベルの問題を引き起こし、多様な予測の必要性を動機付けます。
本研究では,プラグアンドプレイ確率不確実性モデリング(PUM)モジュールを提案する。
- 参考スコア(独自算出の注目度): 38.30703975408238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To generate "accurate" scene graphs, almost all existing methods predict
pairwise relationships in a deterministic manner. However, we argue that visual
relationships are often semantically ambiguous. Specifically, inspired by
linguistic knowledge, we classify the ambiguity into three types: Synonymy
Ambiguity, Hyponymy Ambiguity, and Multi-view Ambiguity. The ambiguity
naturally leads to the issue of \emph{implicit multi-label}, motivating the
need for diverse predictions. In this work, we propose a novel plug-and-play
Probabilistic Uncertainty Modeling (PUM) module. It models each union region as
a Gaussian distribution, whose variance measures the uncertainty of the
corresponding visual content. Compared to the conventional deterministic
methods, such uncertainty modeling brings stochasticity of feature
representation, which naturally enables diverse predictions. As a byproduct,
PUM also manages to cover more fine-grained relationships and thus alleviates
the issue of bias towards frequent relationships. Extensive experiments on the
large-scale Visual Genome benchmark show that combining PUM with newly proposed
ResCAGCN can achieve state-of-the-art performances, especially under the mean
recall metric. Furthermore, we prove the universal effectiveness of PUM by
plugging it into some existing models and provide insightful analysis of its
ability to generate diverse yet plausible visual relationships.
- Abstract(参考訳): 正確な」シーングラフを生成するために、ほぼ全ての既存手法は決定論的にペアワイズ関係を予測している。
しかし、視覚的関係はしばしば意味的に曖昧である。
具体的には,言語知識に着想を得て,同義的曖昧性,偽性曖昧性,多視点曖昧性という3つのタイプに分類した。
あいまいさは自然に、多様な予測の必要性を動機づける、"emph{implicit multi-label}"の問題に繋がる。
本研究では,プラグアンドプレイ確率不確実性モデリング(PUM)モジュールを提案する。
各組合地域をガウス分布としてモデル化し、その分散は対応する視覚コンテンツの不確実性を測定する。
従来の決定論的手法と比較して、不確実性モデリングは特徴表現の確率性をもたらし、自然に多様な予測を可能にする。
副産物として、PUMはよりきめ細かい関係をカバーし、頻繁な関係に対する偏見の問題を軽減する。
大規模ビジュアルゲノムベンチマークに関する広範な実験は、PUMと新たに提案されたResCAGCNを組み合わせることで、特に平均リコールメトリックの下で最先端のパフォーマンスを達成できることを示しています。
さらに,既存のモデルに組み込むことで,pumの普遍的有効性を証明し,多様で多彩な視覚関係を生み出す能力について洞察的な分析を行う。
関連論文リスト
- Exchangeable Sequence Models Can Naturally Quantify Uncertainty Over Latent Concepts [5.095571791233068]
事前学習されたシーケンスモデルは、交換可能なデータポイントよりも確率論的推論が可能であることを示す。
シーケンスモデルは、典型的なベイズモデルとは異なる観測間の関係を学習する。
シーケンス予測損失が不確実性定量化の品質を制御することを示す。
論文 参考訳(メタデータ) (2024-08-06T17:16:10Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Uncertainty-Aware Pedestrian Trajectory Prediction via Distributional Diffusion [26.715578412088327]
モデルに依存しない不確実性を考慮した歩行者軌道予測手法を提案する。
従来の研究とは異なり、予測性は明示的な分布に変換され、予測可能な将来の軌道を生成することができる。
私たちのフレームワークは、さまざまなニューラルネットアーキテクチャと互換性があります。
論文 参考訳(メタデータ) (2023-03-15T04:58:43Z) - Bayesian Networks for the robust and unbiased prediction of depression
and its symptoms utilizing speech and multimodal data [65.28160163774274]
我々は,抑うつ,抑うつ症状,および,胸腺で収集された音声,表情,認知ゲームデータから得られる特徴の関連性を把握するためにベイズ的枠組みを適用した。
論文 参考訳(メタデータ) (2022-11-09T14:48:13Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。