論文の概要: Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning
- arxiv url: http://arxiv.org/abs/2010.14551v1
- Date: Tue, 27 Oct 2020 18:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:24:01.969605
- Title: Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning
- Title(参考訳): 表現学習に現れる視覚概念の学習可能性と記述可能性の定量化
- Authors: Iro Laina, Ruth C. Fong, Andrea Vedaldi
- Abstract要約: 我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
- 参考スコア(独自算出の注目度): 91.58529629419135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing impact of black box models, and particularly of unsupervised
ones, comes with an increasing interest in tools to understand and interpret
them. In this paper, we consider in particular how to characterise visual
groupings discovered automatically by deep neural networks, starting with
state-of-the-art clustering methods. In some cases, clusters readily correspond
to an existing labelled dataset. However, often they do not, yet they still
maintain an "intuitive interpretability". We introduce two concepts, visual
learnability and describability, that can be used to quantify the
interpretability of arbitrary image groupings, including unsupervised ones. The
idea is to measure (1) how well humans can learn to reproduce a grouping by
measuring their ability to generalise from a small set of visual examples
(learnability) and (2) whether the set of visual examples can be replaced by a
succinct, textual description (describability). By assessing human annotators
as classifiers, we remove the subjective quality of existing evaluation
metrics. For better scalability, we finally propose a class-level captioning
system to generate descriptions for visual groupings automatically and compare
it to human annotators using the describability metric.
- Abstract(参考訳): ブラックボックスモデル、特に教師なしモデルの影響の増大は、それらを理解し解釈するためのツールへの関心が高まっている。
本稿では,ディープニューラルネットワークによって自動的に検出される視覚グループ化を,最先端のクラスタリング手法から,どのように特徴付けるかを検討する。
クラスタは、既存のラベル付きデータセットに容易に対応します。
しかし、しばしばそうしないが、「直観的解釈可能性」を維持している。
我々は,教師なし画像を含む任意の画像グルーピングの解釈可能性の定量化に使用できる視覚学習性と記述可能性という2つの概念を導入する。
視覚的な例(学習可能性)から視覚的な例(学習可能性)を一般化する能力を測定することによって,(1) 視覚的な例の集合を簡潔でテキスト的な記述(記述可能性)に置き換えることができるかを測定する。
人間の注釈を分類器として評価することにより,既存の評価指標の主観的品質を除去した。
拡張性を向上するために,視覚的グループ化のための記述を自動生成するクラスレベルのキャプションシステムを提案し,デクリビビリティ・メトリックを用いて人間のアノテータと比較した。
関連論文リスト
- Perceptual Group Tokenizer: Building Perception with Iterative Grouping [14.760204235027627]
本稿では,視覚的特徴を抽出し,自己指導型表現学習を行うためにグループ化操作に依存するパーセプチュアル・グループ・トケナイザを提案する。
提案モデルは,最先端のビジョンアーキテクチャと比較して,競争力のある計算性能を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-30T07:00:14Z) - Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。
画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。
その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文 参考訳(メタデータ) (2023-11-18T02:00:20Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content [6.434361163743876]
可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。
視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
論文 参考訳(メタデータ) (2021-10-08T23:37:25Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。