論文の概要: Context-driven Visual Object Recognition based on Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2210.11233v1
- Date: Thu, 20 Oct 2022 13:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:13:47.132482
- Title: Context-driven Visual Object Recognition based on Knowledge Graphs
- Title(参考訳): 知識グラフに基づくコンテキスト駆動型視覚物体認識
- Authors: Sebastian Monka, Lavdim Halilaj, Achim Rettinger
- Abstract要約: 本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
- 参考スコア(独自算出の注目度): 0.8701566919381223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deep learning methods for object recognition are purely data-driven
and require a large number of training samples to achieve good results. Due to
their sole dependence on image data, these methods tend to fail when confronted
with new environments where even small deviations occur. Human perception,
however, has proven to be significantly more robust to such distribution
shifts. It is assumed that their ability to deal with unknown scenarios is
based on extensive incorporation of contextual knowledge. Context can be based
either on object co-occurrences in a scene or on memory of experience. In
accordance with the human visual cortex which uses context to form different
object representations for a seen image, we propose an approach that enhances
deep learning methods by using external contextual knowledge encoded in a
knowledge graph. Therefore, we extract different contextual views from a
generic knowledge graph, transform the views into vector space and infuse it
into a DNN. We conduct a series of experiments to investigate the impact of
different contextual views on the learned object representations for the same
image dataset. The experimental results provide evidence that the contextual
views influence the image representations in the DNN differently and therefore
lead to different predictions for the same images. We also show that context
helps to strengthen the robustness of object recognition models for
out-of-distribution images, usually occurring in transfer learning tasks or
real-world scenarios.
- Abstract(参考訳): 現在の物体認識のためのディープラーニング手法は純粋にデータ駆動であり、優れた結果を得るためには多数のトレーニングサンプルが必要である。
画像データにのみ依存するため、これらの手法は小さな偏差が生じる新しい環境に直面すると失敗する傾向にある。
しかし、人間の知覚はこのような分布シフトに対してかなり強固であることが証明されている。
未知のシナリオに対処する能力は、文脈知識の広範囲な取り込みに基づいていると推定される。
コンテキストは、シーン内のオブジェクトの共起または経験の記憶に基づいている。
そこで本研究では,知識グラフにエンコードされた外的文脈知識を用いて,異なる対象表現を形成する人間の視覚野に基づいて,深層学習手法を強化する手法を提案する。
そこで我々は,汎用知識グラフから異なるコンテキストビューを抽出し,ビューをベクトル空間に変換してDNNに注入する。
同じ画像データセットの学習対象表現に対する異なるコンテキストビューの影響を調べるために,一連の実験を行った。
実験結果から, 文脈ビューがDNN内の画像表現に異なる影響を与え, 同一画像に対して異なる予測をもたらすことを示す。
また,移動学習タスクや実世界のシナリオで通常発生する,分布外画像に対するオブジェクト認識モデルの堅牢性の向上にも寄与することを示す。
関連論文リスト
- Lost in Context: The Influence of Context on Feature Attribution Methods for Object Recognition [4.674826882670651]
本研究では,文脈操作がモデル精度と特徴属性の両方にどのように影響するかを検討する。
我々は、オブジェクト認識タスクにおけるコンテキストに基づくディープニューラルネットワークの信頼度を解明するために、様々な特徴属性技術を用いている。
論文 参考訳(メタデータ) (2024-11-05T06:13:01Z) - Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Classifying Textual Data with Pre-trained Vision Models through Transfer
Learning and Data Transformations [0.0]
我々は、ImageNetで訓練されたベンチマークビジョンモデルによって得られた知識を用いて、より小さなアーキテクチャがテキストの分類を学ぶのを助けることを提案する。
異なるドメインの分析と転送学習を行う。
この研究の主な貢献は、言語とビジョンの両方で事前訓練された大きなモデルを結びつけて、最先端の結果を得るという、新しいアプローチである。
論文 参考訳(メタデータ) (2021-06-23T15:53:38Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。