論文の概要: Biasing Like Human: A Cognitive Bias Framework for Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2203.09160v1
- Date: Thu, 17 Mar 2022 08:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:38:54.280445
- Title: Biasing Like Human: A Cognitive Bias Framework for Scene Graph
Generation
- Title(参考訳): Biasing Like Human: シーングラフ生成のための認知バイアスフレームワーク
- Authors: Xiaoguang Chang, Teng Wang, Changyin Sun and Wenzhe Cai
- Abstract要約: 本稿では,視覚に基づく表現のガイダンスとして,人間がラベル言語の特徴をどのように取り入れるかをシミュレートする,新しい3パラダイムフレームワークを提案する。
私たちのフレームワークはどんなシーングラフモデルにも依存しません。
- 参考スコア(独自算出の注目度): 20.435023745201878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation is a sophisticated task because there is no specific
recognition pattern (e.g., "looking at" and "near" have no conspicuous
difference concerning vision, whereas "near" could occur between entities with
different morphology). Thus some scene graph generation methods are trapped
into most frequent relation predictions caused by capricious visual features
and trivial dataset annotations. Therefore, recent works emphasized the
"unbiased" approaches to balance predictions for a more informative scene
graph. However, human's quick and accurate judgments over relations between
numerous objects should be attributed to "bias" (i.e., experience and
linguistic knowledge) rather than pure vision. To enhance the model capability,
inspired by the "cognitive bias" mechanism, we propose a novel 3-paradigms
framework that simulates how humans incorporate the label linguistic features
as guidance of vision-based representations to better mine hidden relation
patterns and alleviate noisy visual propagation. Our framework is
model-agnostic to any scene graph model. Comprehensive experiments prove our
framework outperforms baseline modules in several metrics with minimum
parameters increment and achieves new SOTA performance on Visual Genome
dataset.
- Abstract(参考訳): シーングラフ生成は、特定の認識パターンがないため、洗練されたタスクである(例えば、" look at" と "near" は視覚に関して顕著な違いを持たないが、"near" は異なる形態を持つエンティティ間で起こる可能性がある)。
したがって、いくつかのシーングラフ生成方法は、有能な視覚的特徴と自明なデータセットアノテーションによって引き起こされる最も頻繁な関係予測に閉じ込められる。
したがって、最近の研究は、より情報的なシーングラフの予測のバランスをとるための「偏見のない」アプローチを強調した。
しかしながら、多数の物体間の関係に関する人間の迅速かつ正確な判断は、純粋な視覚よりもむしろ「バイアス」(すなわち経験と言語知識)に帰せられるべきである。
認知バイアス(cognitive bias)機構にインスパイアされたモデル能力を向上させるために,ラベル言語的特徴を視覚に基づく表現のガイダンスとして組み込む手法をシミュレートし,隠れた関係パターンの抽出とノイズの少ない視覚伝搬を緩和する,新たな3パラダイムフレームワークを提案する。
私たちのフレームワークは、どんなシーングラフモデルにも非依存です。
包括的実験により、我々のフレームワークは、最小パラメータの増加を伴ういくつかのメトリクスでベースラインモジュールよりも優れており、Visual Genomeデータセット上で新しいSOTAパフォーマンスを実現する。
関連論文リスト
- Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Graph Self-supervised Learning with Accurate Discrepancy Learning [64.69095775258164]
離散性に基づく自己監督型LeArning(D-SLA)と呼ばれる原図と摂動グラフの正確な相違を学習することを目的としたフレームワークを提案する。
本稿では,分子特性予測,タンパク質機能予測,リンク予測タスクなど,グラフ関連下流タスクにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-02-07T08:04:59Z) - Neural Belief Propagation for Scene Graph Generation [31.9682610869767]
本稿では,結果のシーングラフを生成するための新しいニューラル信念伝搬法を提案する。
平均場近似よりも構造的Bethe近似を用いて、関連する限界を推定する。
様々な人気のあるシーングラフ生成ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-10T18:30:27Z) - ExplaGraphs: An Explanation Graph Generation Task for Structured
Commonsense Reasoning [65.15423587105472]
スタンス予測のための説明グラフ生成の新しい生成および構造化コモンセンスリゾニングタスク(および関連するデータセット)を紹介します。
具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。
グラフの83%は、様々な構造と推論深度を持つ外部のコモンセンスノードを含んでいる。
論文 参考訳(メタデータ) (2021-04-15T17:51:36Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z) - Unbiased Scene Graph Generation via Rich and Fair Semantic Extraction [42.37557498737781]
我々はRich and Fairセマンティック抽出ネットワーク(RiFa)という新しいシンプルなアーキテクチャを提案する。
RiFaは、ある文脈領域における実体の視覚的特徴と意味的特徴の両方に基づいて主観的対象関係を予測する。
人気のあるVisual Genomeデータセットの実験は、RiFaが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2020-02-01T09:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。