論文の概要: Assessing Keyness using Permutation Tests
- arxiv url: http://arxiv.org/abs/2308.13383v1
- Date: Fri, 25 Aug 2023 13:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:52:21.086451
- Title: Assessing Keyness using Permutation Tests
- Title(参考訳): 置換試験によるキーネス評価
- Authors: Thoralf Mildenberger
- Abstract要約: トークン単位のサンプリングモデルを,トークンではなく文書のサンプルであるコーパスモデルに置き換える。
トークンがドキュメント内やドキュメント間でどのように整理されているかという仮定は必要ありません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a resampling-based approach for assessing keyness in corpus
linguistics based on suggestions by Gries (2006, 2022). Traditional approaches
based on hypothesis tests (e.g. Likelihood Ratio) model the copora as
independent identically distributed samples of tokens. This model does not
account for the often observed uneven distribution of occurences of a word
across a corpus. When occurences of a word are concentrated in few documents,
large values of LLR and similar scores are in fact much more likely than
accounted for by the token-by-token sampling model, leading to false positives.
We replace the token-by-token sampling model by a model where corpora are
samples of documents rather than tokens, which is much closer to the way
corpora are actually assembled. We then use a permutation approach to
approximate the distribution of a given keyness score under the null hypothesis
of equal frequencies and obtain p-values for assessing significance. We do not
need any assumption on how the tokens are organized within or across documents,
and the approach works with basically *any* keyness score. Hence, appart from
obtaining more accurate p-values for scores like LLR, we can also assess
significance for e.g. the logratio which has been proposed as a measure of
effect size.
An efficient implementation of the proposed approach is provided in the `R`
package `keyperm` available from github.
- Abstract(参考訳): Gries (2006, 2022) の提案に基づき, コーパス言語学におけるキーネスを評価するための再サンプリングに基づくアプローチを提案する。
仮説テスト(例えばLikelihood Ratio)に基づく伝統的なアプローチは、コプラをトークンの独立した同一分散サンプルとしてモデル化する。
このモデルは、コーパスを横断する単語の出現がしばしば観測される不均一な分布を説明できない。
単語の発生が少数の文書に集中すると、llrと類似のスコアの大きな値は、トークン毎のサンプリングモデルによって説明されるよりもずっと高い確率で、偽陽性をもたらす。
私たちはトークン毎のサンプリングモデルを,coporaがトークンではなくドキュメントのサンプルであるモデルに置き換えました。
次に、等価周波数のヌル仮説の下で与えられたキーネススコアの分布を近似し、重要度を評価するためのp値を求める。
トークンがドキュメント内またはドキュメント間でどのように編成されるかの仮定は不要であり、そのアプローチは基本的に *any* キーネススコアで機能する。
したがって、LLRのようなスコアに対してより正確なp値を得ることによって、例えば効果の大きさの尺度として提案された対数率の意義を評価することもできる。
提案手法の効率的な実装は,github から利用可能な `R` package `keyperm" で提供される。
関連論文リスト
- Correlation and Navigation in the Vocabulary Key Representation Space of Language Models [33.747872934103334]
鍵分布がNTP分布に及ぼす影響について検討した。
NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
論文 参考訳(メタデータ) (2024-10-03T08:07:55Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement
Learning [30.09715149060206]
キーフレーズ生成(KG)は、ある文書から中心的なアイデアを取得するための古典的なタスクである。
本稿では,異なる粒度を考慮した新しい粒度評価指標を提案する。
より不規則な言語パターンを学習するために、予測キーフレーズとターゲットキーフレーズの連続的な類似度スコアを計算するために、事前訓練されたモデル(例えばBERT)を用いる。
論文 参考訳(メタデータ) (2021-04-18T10:13:46Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Probabilistic Anchor Assignment with IoU Prediction for Object Detection [9.703212439661097]
オブジェクト検出では、どのアンカーを正または負のサンプルとして割り当てるか、すなわちアンカー代入(アンカー代入)がモデルの性能に大きく影響を与えるコアプロシージャとして明らかにされている。
本稿では,モデルの学習状況に応じて,アンカーを正と負のサンプルに適応的に分離する新しいアンカー代入戦略を提案する。
論文 参考訳(メタデータ) (2020-07-16T04:26:57Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。