論文の概要: Explore the difficulty of words and its influential attributes based on
the Wordle game
- arxiv url: http://arxiv.org/abs/2305.03502v1
- Date: Wed, 3 May 2023 09:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:03:08.860665
- Title: Explore the difficulty of words and its influential attributes based on
the Wordle game
- Title(参考訳): Wordleゲームに基づく単語の難易度とその影響属性の探索
- Authors: Beibei Liu, Yuanfang Zhang, Shiyu Zhang
- Abstract要約: 我々は,ゲームWordleにおける予測時間の分布と予測を,単語の難易度を予測する指標として採用する。
我々はモンテカルロを用いてプレイヤーの推測過程をシミュレートし、各単語に対する推定時間の生と実際の分布のギャップを狭める。
我々は、順序付けられたロジスティック回帰により、語彙属性と難易度の関係を構築する。
- 参考スコア(独自算出の注目度): 3.2291217834450294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We adopt the distribution and expectation of guessing times in game Wordle as
metrics to predict the difficulty of words and explore their influence factors.
In order to predictthe difficulty distribution, we use Monte Carlo to simulate
the guessing process of players and then narrow the gap between raw and actual
distribution of guessing times for each word with Markov which generates the
associativity of words. Afterwards, we take advantage of lasso regression to
predict the deviation of guessing times expectation and quadratic programming
to obtain the correction of the original distribution.To predict the difficulty
levels, we first use hierarchical clustering to classify the difficulty levels
based on the expectation of guessing times. Afterwards we downscale the
variables of lexical attributes based on factor analysis. Significant factors
include the number of neighboring words, letter similarity, sub-string
similarity, and word frequency. Finally, we build the relationship between
lexical attributes and difficulty levels through ordered logistic regression.
- Abstract(参考訳): 単語の難易度を予測し,その影響因子を探索するために,ゲームワードの推測時間の分布と期待を指標として採用する。
難易度分布を予測するために,モンテカルロを用いてプレイヤーの推測過程をシミュレートし,単語の連想度を生成するマルコフを用いて各単語の生推定時間と実推定時間とのギャップを狭める。
その後,lasso回帰を利用して推定時間予測の偏りを予測し,二次計画法を用いて元の分布の補正を行い,難易度を予測し,まず階層的クラスタリングを用いて推定時間の期待値に基づいて難易度を分類する。
その後、因子分析に基づいて語彙属性の変数をダウンスケールする。
重要な要因は、隣接する単語の数、文字の類似性、サブストリングの類似性、単語の頻度である。
最後に,順序ロジスティック回帰によって語彙属性と難易度の関係を構築する。
関連論文リスト
- Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z) - Prediction Model For Wordle Game Results With High Robustness [0.0]
本研究では,データ解析と機械学習を用いたWordleのダイナミクスに焦点を当てた。
単語の難易度を予測するために、私たちはバックプロパゲーションニューラルネットワークを採用し、機能工学によるオーバーフィッティングを克服した。
以上の結果から,2023年3月1日に約12,884件の結果が提出され,平均4.8回試みられ,最も難易度の高いクラスタに落下することが示唆された。
論文 参考訳(メタデータ) (2023-09-25T16:10:35Z) - Fit Like You Sample: Sample-Efficient Generalized Score Matching from
Fast Mixing Diffusions [29.488555741982015]
幅広いマルコフ過程の混合時間と生成元 $mathcalL$ との密接な関係を示す。
我々はマルコフ連鎖を高速化し、より良いスコアマッチング損失を構築する技術に適応する。
特に、拡散のプレコンディショニング'をスコア損失の適切なプレコンディショニング'に変換することができる。
論文 参考訳(メタデータ) (2023-06-15T17:58:42Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Solving Cosine Similarity Underestimation between High Frequency Words
by L2 Norm Discounting [19.12036493733793]
本稿では,単語間のコサイン類似度を測定する際に,その単語の周波数に埋め込まれた文脈化された単語のL2ノルムをコーパスに分解する手法を提案する。
文脈的単語類似度データセットの実験結果から,提案手法は類似度推定の難しさを正確に解決することを示した。
論文 参考訳(メタデータ) (2023-05-17T23:41:30Z) - Linear-time calculation of the expected sum of edge lengths in random
projective linearizations of trees [1.2944868613449219]
構文的に関連付けられた単語間の距離の合計は、過去数十年間、ライムライトの中にあった。
言語に関する関連する定量的研究を行うために、様々なランダムベースラインが定義されている。
ここでは、文の単語のランダムな射影置換という、一般的なベースラインに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-07T15:11:53Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。