論文の概要: Characterizing how 'distributional' NLP corpora distance metrics are
- arxiv url: http://arxiv.org/abs/2310.14829v1
- Date: Mon, 23 Oct 2023 11:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:41:47.104569
- Title: Characterizing how 'distributional' NLP corpora distance metrics are
- Title(参考訳): 分布的」NLPコーパス距離の測定値の特徴付け
- Authors: Samuel Ackerman, George Kour, Eitan Farchi
- Abstract要約: このようなメトリクスの「分布性」と呼ばれる抽象的な品質を記述する。
非分布計量は、非常に局所的な測定を使用する傾向がある。
対照的に、より分布的な計量は、分布全体の距離をよりよく捉えます。
- 参考スコア(独自算出の注目度): 2.4921910293793412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A corpus of vector-embedded text documents has some empirical distribution.
Given two corpora, we want to calculate a single metric of distance (e.g.,
Mauve, Frechet Inception) between them. We describe an abstract quality, called
`distributionality', of such metrics. A non-distributional metric tends to use
very local measurements, or uses global measurements in a way that does not
fully reflect the distributions' true distance. For example, if individual
pairwise nearest-neighbor distances are low, it may judge the two corpora to
have low distance, even if their two distributions are in fact far from each
other. A more distributional metric will, in contrast, better capture the
distributions' overall distance. We quantify this quality by constructing a
Known-Similarity Corpora set from two paraphrase corpora and calculating the
distance between paired corpora from it. The distances' trend shape as set
element separation increases should quantify the distributionality of the
metric. We propose that Average Hausdorff Distance and energy distance between
corpora are representative examples of non-distributional and distributional
distance metrics, to which other metrics can be compared, to evaluate how
distributional they are.
- Abstract(参考訳): ベクトル埋め込みテキスト文書のコーパスには経験的分布がある。
2つのコーパスが与えられた場合、距離の単一のメートル法(例えば、モーヴ、フレシェ・インセプション)を計算したい。
このようなメトリクスの「分布性」と呼ばれる抽象的な品質を記述する。
非分布計量は、非常に局所的な測度を使用する傾向があり、あるいは分布の真の距離を完全に反映しない方法で大域的な測度を使用する傾向がある。
例えば、ペアに最も近い近傍距離が低い場合、その2つの分布が実際には互いに遠く離れているとしても、2つのコーパスは低い距離を持つと判断することができる。
より分布的な計量は、対照的に、分布全体の距離をよりよく捉える。
2つのパラフレーズコーパスから設定したノウン・シミュラリティコーパスを構築し,その間の距離を計算することで,この品質を定量化する。
設定要素分離の増加に伴う距離のトレンド形状は、計量の分布性を定量化すべきである。
本研究では,コーパス間の平均ハウスドルフ距離とエネルギー距離が,他の測定値と比較可能な非分布および分布距離指標の代表的な例であることを示す。
関連論文リスト
- Computing the Distance between unbalanced Distributions -- The flat
Metric [0.0]
平坦計量は、よく知られたワッサーシュタイン距離 W1 を、分布が不等質量である場合に一般化する。
この手法のコアはニューラルネットワークに基づいて、2つの測度間の距離を実現する最適なテスト関数を決定する。
論文 参考訳(メタデータ) (2023-08-02T09:30:22Z) - Fisher-Rao distance and pullback SPD cone distances between multivariate normal distributions [7.070726553564701]
正規多様体の準多様体への微分同相埋め込みに基づく距離のクラスを導入する。
コーン上の射影ヒルベルト距離が埋め込み正規部分多様体上の計量となることを示す。
このような距離をクラスタリングタスクでどのように使うかを示します。
論文 参考訳(メタデータ) (2023-07-20T07:14:58Z) - Energy-Based Sliced Wasserstein Distance [47.18652387199418]
スライスされたワッサーシュタイン(SW)距離の鍵成分はスライス分布である。
本研究では,スライシング分布をパラメータフリーなエネルギーベース分布として設計する。
次に、新しいスライスされたワッセルシュタイン計量、エネルギーベースのスライスされたワッセルシュタイン距離(EBSW)を導出する。
論文 参考訳(メタデータ) (2023-04-26T14:28:45Z) - LMR: Lane Distance-Based Metric for Trajectory Prediction [10.83642398981694]
現在確立されている測度はユークリッド距離に基づいており、これは全ての方向において誤差が等しく重み付けされていることを意味する。
レーン距離に基づく新しい距離基準を提案する:レーンミスレート(LMR)
LMRは、ミスを起こすシーケンスの比率として定義される。
論文 参考訳(メタデータ) (2023-04-12T13:59:04Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - On the capacity of deep generative networks for approximating
distributions [8.798333793391544]
ニューラルネットワークが一次元音源分布をワッサーシュタイン距離の高次元目標分布に任意に近い分布に変換することを証明した。
近似誤差は周囲次元で最も直線的に増加することが示されている。
$f$-divergences は、サンプルを生成するための分布の指標として、Waserstein 距離よりも適切ではない。
論文 参考訳(メタデータ) (2021-01-29T01:45:02Z) - Linear Optimal Transport Embedding: Provable Wasserstein classification
for certain rigid transformations and perturbations [79.23797234241471]
分布の区別は多くの科学分野において重要な問題である。
線形最適輸送(LOT)は分布の空間を$L2$-スペースに埋め込む。
複数の分布分類問題に対するLOTの利点を実証する。
論文 参考訳(メタデータ) (2020-08-20T19:09:33Z) - On the Relation between Quality-Diversity Evaluation and
Distribution-Fitting Goal in Text Generation [86.11292297348622]
本研究では, 品質と多様性の線形結合が, 生成した分布と実分布との分岐距離を構成することを示す。
品質/多様性メトリックペアの代替としてCR/NRRを提案する。
論文 参考訳(メタデータ) (2020-07-03T04:06:59Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z) - Theoretical Guarantees for Bridging Metric Measure Embedding and Optimal
Transport [18.61019008000831]
共役ユークリッド空間に計量測度空間を埋め込み、埋め込み分布上の最適輸送(OT)を計算する方法を考える。
このことは、ロバストなワッサーシュタイン距離(SERW)を埋め込む部分埋め込み(sub-embedding robust Wasserstein)と呼ばれるものにつながります。
論文 参考訳(メタデータ) (2020-02-19T17:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。