論文の概要: Classification by Attention: Scene Graph Classification with Prior
Knowledge
- arxiv url: http://arxiv.org/abs/2011.10084v2
- Date: Thu, 17 Dec 2020 11:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:43:33.621485
- Title: Classification by Attention: Scene Graph Classification with Prior
Knowledge
- Title(参考訳): 注意による分類:事前知識を用いたシーングラフ分類
- Authors: Sahand Sharifzadeh, Sina Moayed Baharlou, Volker Tresp
- Abstract要約: シーングラフ分類における大きな課題は、オブジェクトと関係の出現が、ある画像から別の画像に大きく異なる可能性があることである。
我々はマルチタスク学習アプローチを採用し、注意層として分類を実装した。
本モデルでは,この知識をシーン表現に反復的に注入することで,分類性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 24.58063509474368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in scene graph classification is that the appearance of
objects and relations can be significantly different from one image to another.
Previous works have addressed this by relational reasoning over all objects in
an image or incorporating prior knowledge into classification. Unlike previous
works, we do not consider separate models for perception and prior knowledge.
Instead, we take a multi-task learning approach, where we implement the
classification as an attention layer. This allows for the prior knowledge to
emerge and propagate within the perception model. By enforcing the model also
to represent the prior, we achieve a strong inductive bias. We show that our
model can accurately generate commonsense knowledge and that the iterative
injection of this knowledge to scene representations leads to significantly
higher classification performance. Additionally, our model can be fine-tuned on
external knowledge given as triples. When combined with self-supervised
learning and with 1% of annotated images only, this gives more than 3%
improvement in object classification, 26% in scene graph classification, and
36% in predicate prediction accuracy.
- Abstract(参考訳): シーングラフ分類における大きな課題は、オブジェクトと関係の出現が、ある画像から別の画像に大きく異なる可能性があることである。
以前の研究では、画像内のすべてのオブジェクトをリレーショナル推論したり、事前の知識を分類に組み込んだりすることでこの問題に対処してきた。
先行研究とは異なり、知覚と事前知識について異なるモデルを検討することはない。
代わりに、マルチタスク学習アプローチを採用し、注意層として分類を実装します。
これにより、事前の知識が知覚モデル内に出現し、伝播することができる。
モデルも前者を表現するように強制することで、強い帰納バイアスを達成できる。
本モデルでは,この知識をシーン表現に反復的に注入することで,より高度な分類性能が得られることを示す。
さらに、我々のモデルはトリプルとして与えられる外部知識に基づいて微調整することができる。
自己教師付き学習と1%の注釈付き画像のみを組み合わせた場合、3%以上のオブジェクト分類の改善、26%のシーングラフ分類、36%の述語予測精度が得られる。
関連論文リスト
- Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Semantic Clustering based Deduction Learning for Image Recognition and
Classification [19.757743366620613]
本稿では,人間の脳の学習・思考過程を模倣した意味的クラスタリングに基づく推論学習を提案する。
提案手法は広範な実験を通じて理論的,実証的に支持される。
論文 参考訳(メタデータ) (2021-12-25T01:31:21Z) - Improving Visual Reasoning by Exploiting The Knowledge in Texts [13.242906693488342]
バックボーン,リレーショナル推論コンポーネント,分類コンポーネントの3つのモジュールからなる分類フレームワークを検討する。
注記画像の1%の教師付きベースラインと比較して8倍精度の高い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-02-09T11:21:44Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Towards Visually Explaining Similarity Models [29.704524987493766]
本稿では,画像類似度予測のための勾配に基づく視覚的注意を生成する手法を提案する。
学習した機能の埋め込みにのみ依存することにより、我々のアプローチがCNNベースの類似性アーキテクチャのあらゆる種類に適用可能であることを示す。
得られたアテンションマップは、単に解釈可能性だけでなく、新たなトレーニング可能な制約でモデル学習プロセス自体に注入可能であることを示す。
論文 参考訳(メタデータ) (2020-08-13T17:47:41Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z) - Rethinking Class Relations: Absolute-relative Supervised and
Unsupervised Few-shot Learning [157.62595449130973]
本稿では,現在の数ショット学習法における単純化型クラスモデリングの基本的問題について検討する。
本稿では,ラベル情報をフル活用して画像表現を洗練するための,絶対相対学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-01-12T12:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。