論文の概要: Reason from Context with Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2211.12817v1
- Date: Wed, 23 Nov 2022 10:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:53:46.268478
- Title: Reason from Context with Self-supervised Learning
- Title(参考訳): 自己教師型学習による文脈からの推論
- Authors: Xiao Liu, Ankur Sikarwar, Joo Hwee Lim, Gabriel Kreiman, Zenglin Shi,
Mengmi Zhang
- Abstract要約: 文脈推論のための自己教師型学習法(SeCo)を提案する。
SeCoは自己プロファイリング対象の領域とそのコンテキストを別々に処理し、学習可能な外部メモリを使用してコンテキスト関連情報を検索および更新する。
以上の結果から,SeCoは人間レベルの性能を近似し,人間的な行動を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 20.59150610620195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A tiny object in the sky cannot be an elephant. Context reasoning is critical
in visual recognition, where current inputs need to be interpreted in the light
of previous experience and knowledge. To date, research into contextual
reasoning in visual recognition has largely proceeded with supervised learning
methods. The question of whether contextual knowledge can be captured with
self-supervised learning regimes remains under-explored. Here, we established a
methodology for context-aware self-supervised learning. We proposed a novel
Self-supervised Learning Method for Context Reasoning (SeCo), where the only
inputs to SeCo are unlabeled images with multiple objects present in natural
scenes. Similar to the distinction between fovea and periphery in human vision,
SeCo processes self-proposed target object regions and their contexts
separately, and then employs a learnable external memory for retrieving and
updating context-relevant target information. To evaluate the contextual
associations learned by the computational models, we introduced two evaluation
protocols, lift-the-flap and object priming, addressing the problems of "what"
and "where" in context reasoning. In both tasks, SeCo outperformed all
state-of-the-art (SOTA) self-supervised learning methods by a significant
margin. Our network analysis revealed that the external memory in SeCo learns
to store prior contextual knowledge, facilitating target identity inference in
lift-the-flap task. Moreover, we conducted psychophysics experiments and
introduced a Human benchmark in Object Priming dataset (HOP). Our quantitative
and qualitative results demonstrate that SeCo approximates human-level
performance and exhibits human-like behavior. All our source code and data are
publicly available here.
- Abstract(参考訳): 空の小さな物体は象ではありません。
文脈推論は視覚認識において重要であり、現在の入力は以前の経験や知識から解釈する必要がある。
これまで,視覚認識における文脈推論の研究は,教師付き学習手法によって大きく進められてきた。
自己監督学習体制で文脈知識を捉えることができるかという疑問は未検討のままである。
ここでは,文脈認識型自己教師付き学習の方法論を確立した。
本研究では,SeCo への入力は,自然の場面に複数オブジェクトが存在するラベル付き画像のみである,SeCo の自己教師付き学習手法を提案する。
人間の視覚における焦点と周囲の区別と同様に、SeCoは自己提案対象領域とそのコンテキストを別々に処理し、学習可能な外部メモリを使用してコンテキスト関連対象情報の検索と更新を行う。
計算モデルを用いて学習した文脈関連性を評価するため、文脈推論における「何」と「どこで」の問題に対処するため、リフト・ザ・フラップとオブジェクトプライミングという2つの評価プロトコルを導入した。
どちらのタスクでも、SeCoは最先端(SOTA)の自己教師型学習手法を大きなマージンで上回りました。
ネットワーク分析の結果、SeCoの外部メモリは、事前のコンテキスト知識を記憶し、リフト・ザ・フラップタスクにおけるターゲットの同一性推論を容易にすることが判明した。
さらに,精神物理学実験を行い,対象プライミングデータセット(HOP)にHumanベンチマークを導入した。
定量的および定性的な結果から,SeCoは人間レベルの性能を近似し,人間的な行動を示すことが示された。
ソースコードとデータはすべて、ここで公開されています。
関連論文リスト
- Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics [5.497036643694402]
我々は、シンプルなシミュレーション環境を構築し、ゼロショット環境では、テキストとマルチモーダルLLMの両方が、様々なオブジェクトに関する原子世界の知識を示すが、オブジェクト操作と配置タスクのための正しいソリューションで、この知識を構成するのに失敗する例を示す。
また、より洗練されたクロスモーダルな注意で訓練された視覚言語モデルBLIPを使用して、そのモデルがグラウンドに失敗するオブジェクトの物理的特性に関連する事例を特定する。
論文 参考訳(メタデータ) (2024-02-24T00:01:01Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Knowledge-guided Causal Intervention for Weakly-supervised Object
Localization [32.99508048913356]
KG-CI-CAMは知識誘導因果介入法である。
我々は、因果介入による共起コンテキスト共同設立問題に取り組む。
分類知識の吸収と局所化知識のバランスをとるための多元的知識指導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-03T12:02:19Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Out of Context: A New Clue for Context Modeling of Aspect-based
Sentiment Analysis [54.735400754548635]
ABSAは、与えられた側面に関してレビューで表現された感情を予測することを目的としている。
与えられたアスペクトは、コンテキストモデリングプロセスにおけるコンテキストからの新たなヒントと見なされるべきである。
異なるバックボーンに基づいて複数のアスペクト認識コンテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2021-06-21T02:26:03Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。