論文の概要: Beyond Accuracy: Measuring Representation Capacity of Embeddings to
Preserve Structural and Contextual Information
- arxiv url: http://arxiv.org/abs/2309.11294v1
- Date: Wed, 20 Sep 2023 13:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 16:14:07.493716
- Title: Beyond Accuracy: Measuring Representation Capacity of Embeddings to
Preserve Structural and Contextual Information
- Title(参考訳): 精度を超えて:構造的および文脈的情報を保存する埋め込みの表現能力を測定する
- Authors: Sarwan Ali
- Abstract要約: 埋め込みのテキスト表現能力を測定する手法を提案する。
この研究の背後にある動機は、埋め込みの強さと限界を理解することの重要性にある。
提案手法は, 埋込評価の分野の進展に寄与するだけでなく, 研究者や実践者に定量的な測定力を与える。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective representation of data is crucial in various machine learning
tasks, as it captures the underlying structure and context of the data.
Embeddings have emerged as a powerful technique for data representation, but
evaluating their quality and capacity to preserve structural and contextual
information remains a challenge. In this paper, we address this need by
proposing a method to measure the \textit{representation capacity} of
embeddings. The motivation behind this work stems from the importance of
understanding the strengths and limitations of embeddings, enabling researchers
and practitioners to make informed decisions in selecting appropriate embedding
models for their specific applications. By combining extrinsic evaluation
methods, such as classification and clustering, with t-SNE-based neighborhood
analysis, such as neighborhood agreement and trustworthiness, we provide a
comprehensive assessment of the representation capacity. Additionally, the use
of optimization techniques (bayesian optimization) for weight optimization (for
classification, clustering, neighborhood agreement, and trustworthiness)
ensures an objective and data-driven approach in selecting the optimal
combination of metrics. The proposed method not only contributes to advancing
the field of embedding evaluation but also empowers researchers and
practitioners with a quantitative measure to assess the effectiveness of
embeddings in capturing structural and contextual information. For the
evaluation, we use $3$ real-world biological sequence (proteins and nucleotide)
datasets and performed representation capacity analysis of $4$ embedding
methods from the literature, namely Spike2Vec, Spaced $k$-mers, PWM2Vec, and
AutoEncoder.
- Abstract(参考訳): データの構造とコンテキストをキャプチャするので、データの効果的な表現はさまざまな機械学習タスクにおいて不可欠である。
埋め込みはデータ表現の強力なテクニックとして登場したが、構造的および文脈的な情報を保存するための品質と能力の評価は依然として課題である。
本稿では、埋め込みの \textit{representation capacity} を測定する方法を提案することで、このニーズに対処する。
この研究の背後にあるモチベーションは、埋め込みの強さと限界を理解することの重要性から来ており、研究者や実践者が特定のアプリケーションに適切な埋め込みモデルを選択する際に、情報的な決定をすることができる。
分類やクラスタリングなどの外在的評価手法と、近隣の合意や信頼性といったt-SNEに基づく地域分析を組み合わせることで、表現能力の包括的評価を行う。
さらに、重み最適化(分類、クラスタリング、近隣合意、信頼性)のための最適化手法(ベイジアン最適化)を使用することで、メトリクスの最適組み合わせを選択するための客観的かつデータ駆動的なアプローチが保証される。
提案手法は, 埋込評価の分野の進展に寄与するだけでなく, 研究者や実践者に対して, 埋込方法の有効性を定量的に評価する上で有効である。
評価のために、実世界の生物配列(タンパク質とヌクレオチド)データセットを使用し、Spike2Vec、Spaced $k$-mers、PWM2Vec、AutoEncoderといった文献からの4ドル埋め込みメソッドの表現能力解析を行った。
関連論文リスト
- Prospector Heads: Generalized Feature Attribution for Large Models &
Data [63.33062996732212]
本稿では,特徴帰属のための説明に基づく手法の,効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - OPTION: OPTImization Algorithm Benchmarking ONtology [4.060078409841919]
OPTION(OPTImization algorithm benchmarking ONtology)は、ベンチマークプラットフォーム用のセマンティックにリッチでマシン可読なデータモデルである。
私たちのオントロジーは、ベンチマークプロセスに関わるコアエンティティのセマンティックアノテーションに必要な語彙を提供します。
また、自動データ統合、相互運用性の改善、強力なクエリ機能を提供する。
論文 参考訳(メタデータ) (2022-11-21T10:34:43Z) - Making Machine Learning Datasets and Models FAIR for HPC: A Methodology
and Case Study [0.0]
FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。
これらの原則は、ハイパフォーマンスコンピューティングのための機械学習ベースのプログラム分析と最適化の分野において、まだ広く採用されていない。
我々は、既存のFAIRness評価と改善技術を調査した後、HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。
論文 参考訳(メタデータ) (2022-11-03T18:45:46Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Top-K Ranking Deep Contextual Bandits for Information Selection Systems [0.0]
本稿では,文脈的マルチアーム・バンディット・フレームワークに基づくトップKランキングに対する新しいアプローチを提案する。
ニューラルネットワークを用いて報酬関数をモデル化し、非線形近似を用いて報酬と文脈の関係を学習する。
論文 参考訳(メタデータ) (2022-01-28T15:10:44Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。