論文の概要: Visual Probing: Cognitive Framework for Explaining Self-Supervised Image
Representations
- arxiv url: http://arxiv.org/abs/2106.11054v1
- Date: Mon, 21 Jun 2021 12:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 16:02:27.547681
- Title: Visual Probing: Cognitive Framework for Explaining Self-Supervised Image
Representations
- Title(参考訳): visual probing:自己教師あり画像表現を説明する認知フレームワーク
- Authors: Witold Oleszkiewicz, Dominika Basaj, Igor Sieradzki, Micha{\l}
G\'orszczak, Barbara Rychalska, Koryna Lewandowska, Tomasz Trzci\'nski,
Bartosz Zieli\'nski
- Abstract要約: 近年,画像表現学習のための自己教師付き手法が,完全教師付き競技者に対して,同等以上の結果を提供するようになった。
そこで本研究では,自己教師型モデルを説明するための新しい視覚探索フレームワークを提案する。
自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。
- 参考スコア(独自算出の注目度): 12.485001250777248
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently introduced self-supervised methods for image representation learning
provide on par or superior results to their fully supervised competitors, yet
the corresponding efforts to explain the self-supervised approaches lag behind.
Motivated by this observation, we introduce a novel visual probing framework
for explaining the self-supervised models by leveraging probing tasks employed
previously in natural language processing. The probing tasks require knowledge
about semantic relationships between image parts. Hence, we propose a
systematic approach to obtain analogs of natural language in vision, such as
visual words, context, and taxonomy. Our proposal is grounded in Marr's
computational theory of vision and concerns features like textures, shapes, and
lines. We show the effectiveness and applicability of those analogs in the
context of explaining self-supervised representations. Our key findings
emphasize that relations between language and vision can serve as an effective
yet intuitive tool for discovering how machine learning models work,
independently of data modality. Our work opens a plethora of research pathways
towards more explainable and transparent AI.
- Abstract(参考訳): 近年,画像表現学習のための自己指導的手法が,完全教師付き競争相手に対して同等以上の結果をもたらす一方で,自己指導的アプローチの遅れを説明するための取り組みが遅れている。
本研究では,これまで自然言語処理に用いられてきた探索作業を活用することで,自己教師型モデルを記述するための新しい視覚探索フレームワークを提案する。
探索タスクは、画像部分間の意味関係に関する知識を必要とする。
そこで本研究では,視覚における自然言語の類似語(視覚語,文脈,分類)を得るための体系的アプローチを提案する。
本提案は,marrの視覚計算理論とテクスチャ,形状,線などの特徴を基礎としている。
自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。
私たちの重要な発見は、言語とビジョンの関係が、データモダリティとは無関係に、機械学習モデルがどのように機能するかを発見するための、効果的で直感的なツールになり得ることを示しています。
我々の研究は、より説明しやすく透明なAIへの多くの研究経路を開く。
関連論文リスト
- Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Cross-Modal Alignment Learning of Vision-Language Conceptual Systems [24.423011687551433]
幼児の単語学習メカニズムに触発された視覚言語概念体系を学習する手法を提案する。
提案モデルでは、視覚オブジェクトと単語の関連性をオンラインで学習し、徐々に相互関係グラフネットワークを構築している。
論文 参考訳(メタデータ) (2022-07-31T08:39:53Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Contrastive Representation Learning: A Framework and Review [2.7393821783237184]
コントラスト学習の起源は1990年代まで遡り、その発展は多くの分野に及んでいる。
本稿では,多くの異なるコントラスト学習手法を単純化し,統一する一般的なコントラスト表現学習フレームワークを提案する。
コンピュータビジョンや自然言語処理,音声処理など,強化学習においても,コントラスト学習が適用された例も紹介されている。
論文 参考訳(メタデータ) (2020-10-10T22:46:25Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。