論文の概要: Reason from Context with Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2211.12817v2
- Date: Tue, 11 Apr 2023 07:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:39:40.445326
- Title: Reason from Context with Self-supervised Learning
- Title(参考訳): 自己教師型学習による文脈からの推論
- Authors: Xiao Liu, Ankur Sikarwar, Gabriel Kreiman, Zenglin Shi, Mengmi Zhang
- Abstract要約: 文脈推論(SeCo)のための外部記憶を用いた自己教師型手法を提案する。
どちらのタスクでも、SeCoはすべての最先端(SOTA)SSLメソッドを大幅なマージンで上回りました。
以上の結果から,SeCoは人間的な行動を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 15.16197896174348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) learns to capture discriminative visual
features useful for knowledge transfers. To better accommodate the
object-centric nature of current downstream tasks such as object recognition
and detection, various methods have been proposed to suppress contextual biases
or disentangle objects from contexts. Nevertheless, these methods may prove
inadequate in situations where object identity needs to be reasoned from
associated context, such as recognizing or inferring tiny or obscured objects.
As an initial effort in the SSL literature, we investigate whether and how
contextual associations can be enhanced for visual reasoning within SSL
regimes, by (a) proposing a new Self-supervised method with external memories
for Context Reasoning (SeCo), and (b) introducing two new downstream tasks,
lift-the-flap and object priming, addressing the problems of "what" and "where"
in context reasoning. In both tasks, SeCo outperformed all state-of-the-art
(SOTA) SSL methods by a significant margin. Our network analysis revealed that
the proposed external memory in SeCo learns to store prior contextual
knowledge, facilitating target identity inference in the lift-the-flap task.
Moreover, we conducted psychophysics experiments and introduced a Human
benchmark in Object Priming dataset (HOP). Our results demonstrate that SeCo
exhibits human-like behaviors.
- Abstract(参考訳): 自己教師付き学習(SSL)は、知識伝達に有用な識別的視覚的特徴を捉えることを学ぶ。
オブジェクト認識や検出など、現在の下流タスクのオブジェクト中心の性質をよりよく適応するために、コンテキストバイアスやコンテキストからのオブジェクトの絡み合いを抑制する様々な手法が提案されている。
しかし、これらの手法は、小さなオブジェクトや未知のオブジェクトの認識や推論など、関連するコンテキストからオブジェクトのアイデンティティを推論する必要がある状況では不十分である。
SSL文献における最初の取り組みとして、SSL体制内の視覚的推論において、文脈的関連性をどのように拡張できるかを調査する。
(a)外部記憶を用いたSeCo(Context Reasoning)のための新たな自己管理手法の提案
(b)コンテキスト推論における"what"と"where"の問題に対処する2つの新しいダウンストリームタスク、lift-the-flapとobject primingを導入する。
どちらのタスクでも、SeCoはすべての最先端(SOTA)SSLメソッドを大幅なマージンで上回りました。
ネットワーク解析の結果,secoで提案する外部メモリは,事前の文脈知識の保存を学習し,リフト・ザ・フラップタスクにおいて目標のアイデンティティ推論を容易にすることが明らかとなった。
さらに,精神物理学実験を行い,対象プライミングデータセット(HOP)にHumanベンチマークを導入した。
以上の結果から,SeCoは人間的な行動を示すことが明らかとなった。
関連論文リスト
- Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics [5.497036643694402]
我々は、シンプルなシミュレーション環境を構築し、ゼロショット環境では、テキストとマルチモーダルLLMの両方が、様々なオブジェクトに関する原子世界の知識を示すが、オブジェクト操作と配置タスクのための正しいソリューションで、この知識を構成するのに失敗する例を示す。
また、より洗練されたクロスモーダルな注意で訓練された視覚言語モデルBLIPを使用して、そのモデルがグラウンドに失敗するオブジェクトの物理的特性に関連する事例を特定する。
論文 参考訳(メタデータ) (2024-02-24T00:01:01Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Knowledge-guided Causal Intervention for Weakly-supervised Object
Localization [32.99508048913356]
KG-CI-CAMは知識誘導因果介入法である。
我々は、因果介入による共起コンテキスト共同設立問題に取り組む。
分類知識の吸収と局所化知識のバランスをとるための多元的知識指導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-03T12:02:19Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Out of Context: A New Clue for Context Modeling of Aspect-based
Sentiment Analysis [54.735400754548635]
ABSAは、与えられた側面に関してレビューで表現された感情を予測することを目的としている。
与えられたアスペクトは、コンテキストモデリングプロセスにおけるコンテキストからの新たなヒントと見なされるべきである。
異なるバックボーンに基づいて複数のアスペクト認識コンテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2021-06-21T02:26:03Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。