論文の概要: CLARITY -- Comparing heterogeneous data using dissimiLARITY
- arxiv url: http://arxiv.org/abs/2006.00077v2
- Date: Thu, 2 Dec 2021 11:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:39:20.554532
- Title: CLARITY -- Comparing heterogeneous data using dissimiLARITY
- Title(参考訳): CLARITY -- dissimility を用いた異種データの比較
- Authors: Daniel J. Lawson, Vinesh Solanki, Igor Yanovich, Johannes Dellert,
Damian Ruck and Phillip Endicott
- Abstract要約: 多くの科学的疑問は、エンティティ間の(離散的な)相似性が、そのような異なるデータ間で保存されているかどうかについて述べられる。
提案手法であるCLARITYは,データセット間の一貫性を定量化し,不整合の発生箇所を特定し,その解釈を支援する。
- 参考スコア(独自算出の注目度): 0.39146761527401414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating datasets from different disciplines is hard because the data are
often qualitatively different in meaning, scale, and reliability. When two
datasets describe the same entities, many scientific questions can be phrased
around whether the (dis)similarities between entities are conserved across such
different data. Our method, CLARITY, quantifies consistency across datasets,
identifies where inconsistencies arise, and aids in their interpretation. We
illustrate this using three diverse comparisons: gene methylation vs
expression, evolution of language sounds vs word use, and country-level
economic metrics vs cultural beliefs. The non-parametric approach is robust to
noise and differences in scaling, and makes only weak assumptions about how the
data were generated. It operates by decomposing similarities into two
components: a `structural' component analogous to a clustering, and an
underlying `relationship' between those structures. This allows a `structural
comparison' between two similarity matrices using their predictability from
`structure'. Significance is assessed with the help of re-sampling appropriate
for each dataset. The software, CLARITY, is available as an R package from
https://github.com/danjlawson/CLARITY.
- Abstract(参考訳): データが意味、規模、信頼性において定性的に異なることが多いため、異なる分野からデータセットを統合することは難しい。
2つのデータセットが同じエンティティを記述するとき、エンティティ間の(dis)類似性が、そのような異なるデータ間で保存されているかどうかに関して多くの科学的疑問を言い表すことができる。
提案手法であるCLARITYは,データセット間の一貫性を定量化し,不整合の発生箇所を特定し,その解釈を支援する。
我々は、遺伝子メチル化と発現、言語音の進化と単語の使用、国レベルの経済指標と文化的信念の3つの異なる比較を用いてこれを説明する。
非パラメトリックなアプローチは、ノイズやスケーリングの違いに対して堅牢であり、データの生成方法に関する弱い仮定しか持たない。
類似性を2つのコンポーネントに分解することで動作する: クラスタリングに類似した‘構造’コンポーネントと、それらの構造間の‘関係性’である。
これにより、2つの類似度行列間の'構造比較'が可能となり、その'構造'からの予測可能性を利用する。
重要度は、各データセットに適切な再サンプリングの助けを借りて評価される。
CLARITYはhttps://github.com/danjlawson/CLARITYからRパッケージとして入手できる。
関連論文リスト
- Measuring similarity between embedding spaces using induced neighborhood graphs [10.056989400384772]
本稿では,ペアの項目表現の類似性を評価するための指標を提案する。
この結果から,類似度とゼロショット分類タスクの精度が類似度と相関していることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T15:22:33Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning [43.75697355156703]
ノイズ対応は、人間の注釈付きまたはWebクローリングデータセットで広く使われている。
本稿では,真の対応性を推定するための幾何学的構造整合性(GSC)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T09:42:52Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Commutative Lie Group VAE for Disentanglement Learning [96.32813624341833]
本研究では,データに表される因子の変動を同変的に反映する基盤構造を見いだすこととして,非絡み合い学習を考察する。
グループベースの非絡み合い学習を実現するために、Communative Lie Group VAEというシンプルなモデルが導入された。
実験により,本モデルでは,教師なしの非絡み合い表現を効果的に学習し,余分な制約を伴わずに最先端のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-06-07T07:03:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - A Bayesian Hierarchical Score for Structure Learning from Related Data
Sets [0.7240563090941907]
ベイジアン階層ディリクレ(Bayesian Hierarchical Dirichlet, BHD)と呼ばれる新しいベイジアンディリクレスコアを提案する。
BHDは階層的なモデルに基づいており、データセットにまたがって情報をプールし、ネットワーク構造を包含する単一の学習を行う。
BHDは, 構造ハンミング距離によって測定された復元精度において, ベイズディリクレ等価値(BDeu)スコアよりも優れていた。
論文 参考訳(メタデータ) (2020-08-04T16:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。