論文の概要: Paying down metadata debt: learning the representation of concepts using
topic models
- arxiv url: http://arxiv.org/abs/2010.04836v1
- Date: Fri, 9 Oct 2020 22:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:13:30.426065
- Title: Paying down metadata debt: learning the representation of concepts using
topic models
- Title(参考訳): メタデータ負債の支払い:トピックモデルを用いた概念表現の学習
- Authors: Jiahao Chen and Manuela Veloso
- Abstract要約: メタデータ負債と呼ばれるデータ管理問題を導入し、データ概念とそれらの論理表現のマッピングを識別する。
低ランク行列因数分解に基づく半教師付きトピックモデルを用いて、このマッピングをどのように学習するかを述べる。
In this topic model in predicting subject tags on 25,000 datasets from Kaggle.com, showed the ability of semantically meaningful features。
- 参考スコア(独自算出の注目度): 20.168114364787925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a data management problem called metadata debt, to identify the
mapping between data concepts and their logical representations. We describe
how this mapping can be learned using semisupervised topic models based on
low-rank matrix factorizations that account for missing and noisy labels,
coupled with sparsity penalties to improve localization and interpretability.
We introduce a gauge transformation approach that allows us to construct
explicit associations between topics and concept labels, and thus assign
meaning to topics. We also show how to use this topic model for semisupervised
learning tasks like extrapolating from known labels, evaluating possible errors
in existing labels, and predicting missing features. We show results from this
topic model in predicting subject tags on over 25,000 datasets from Kaggle.com,
demonstrating the ability to learn semantically meaningful features.
- Abstract(参考訳): メタデータ負債と呼ばれるデータ管理問題を導入し、データ概念とそれらの論理表現のマッピングを識別する。
このマッピングは,低ランクな行列因数分解に基づく半教師付きトピックモデルを用いて,低ランクでノイズの多いラベルを考慮し,局所化と解釈性を改善するために,疎度なペナルティと組み合わせて学習する方法について述べる。
我々は,トピックと概念ラベル間の明示的な関連を構築できるゲージ変換手法を導入し,トピックに意味を割り当てる。
また,この話題モデルを,既知のラベルの補間,既存のラベルの誤りの可能性評価,欠落した機能の予測など,半教師付き学習タスクに使用する方法を示す。
kaggle.comの25,000以上のデータセットから主題タグを予測する際に、このトピックモデルの結果を示し、意味的に意味のある特徴を学習する能力を示す。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Incremental Image Labeling via Iterative Refinement [4.7590051176368915]
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
論文 参考訳(メタデータ) (2023-04-18T13:37:22Z) - TagRec++: Hierarchical Label Aware Attention Network for Question
Categorization [0.3683202928838613]
オンライン学習システムは、階層的な性質の明確に定義された分類に従ってコンテンツを整理する。
階層ラベルへの入力を分類するタスクは通常、フラットな多クラス分類問題として扱われる。
各コンテンツに対して適切な階層ラベルを検索するために,タスクを高密度検索問題として定式化する。
論文 参考訳(メタデータ) (2022-08-10T05:08:37Z) - The Weak Supervision Landscape [5.186945902380689]
弱い監督設定を分類する枠組みを提案する。
我々は、弱い監督を特徴付ける重要な要素を特定し、既存のアプローチのほとんどを分類する一連の次元を考案する。
文献における一般的な設定がフレームワークにどのように適合するかを示し、実際に使用可能な使用法について議論する。
論文 参考訳(メタデータ) (2022-03-30T13:19:43Z) - Graph Attention Transformer Network for Multi-Label Image Classification [50.0297353509294]
複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための一般的なフレームワークを提案する。
提案手法は3つのデータセット上で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-03-08T12:39:05Z) - VAE-CE: Visual Contrastive Explanation using Disentangled VAEs [3.5027291542274357]
変分自己エンコーダに基づくコントラスト説明(VAE-CE)
本研究では,各次元をアンタングル化するための新しい教師付き手法で拡張した,アンタングル付きVAEを用いたモデルを構築した。
合成データとMNISTの分析は、解離と説明の両方へのアプローチが他の方法よりも有利であることを示している。
論文 参考訳(メタデータ) (2021-08-20T13:15:24Z) - Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer [140.72439827136085]
グラフィノノミー(Graphonomy)というグラフ推論・伝達学習フレームワークを提案する。
人間の知識とラベル分類を、局所畳み込みを超えた中間グラフ表現学習に組み込んでいる。
意味認識グラフの推論と転送を通じて、複数のドメインにおけるグローバルおよび構造化されたセマンティックコヒーレンシーを学習する。
論文 参考訳(メタデータ) (2021-01-26T08:19:03Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Multi-Label Text Classification using Attention-based Graph Neural
Network [0.0]
ラベル間の注意的依存構造を捉えるために,グラフアテンションネットワークに基づくモデルを提案する。
提案モデルでは, 従来の最先端モデルと比較して, 類似あるいは良好な性能が得られた。
論文 参考訳(メタデータ) (2020-03-22T17:12:43Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。