論文の概要: Proposal and study of statistical features for string similarity computation and classification
- arxiv url: http://arxiv.org/abs/2605.15110v1
- Date: Thu, 14 May 2026 17:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.981987
- Title: Proposal and study of statistical features for string similarity computation and classification
- Title(参考訳): 文字列類似性計算と分類のための統計的特徴の提案と研究
- Authors: E. O. Rodrigues, D. Casanova, M. Teixeira, V. Pegorini, F. Favarim, E. Clua, A. Conci, Panos Liatsis,
- Abstract要約: ビジュアルコンピューティング,共起行列 (COM) および実行長行列 (RLM) の分野で一般的に適用される特徴の適応法を提案する。
提案する機能は言語関連情報に敏感ではない。
- 参考スコア(独自算出の注目度): 1.3543272364560073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptations of features commonly applied in the field of visual computing, co-occurrence matrix (COM) and run-length matrix (RLM), are proposed for the similarity computation of strings in general (words, phrases, codes and texts). The proposed features are not sensitive to language related information. These are purely statistical and can be used in any context with any language or grammatical structure. Other statistical measures that are commonly employed in the field such as longest common subsequence, maximal consecutive longest common subsequence, mutual information and edit distances are evaluated and compared. In the first synthetic set of experiments, the COM and RLM features outperform the remaining state-of-the-art statistical features. In 3 out of 4 cases, the RLM and COM features were statistically more significant than the second best group based on distances (P-value < 0.001). When it comes to a real text plagiarism dataset, the RLM features obtained the best results.
- Abstract(参考訳): 一般的な文字列(単語,フレーズ,コード,テキスト)の類似性計算には,共起行列 (COM) と実行長行列 (RLM) がよく用いられる。
提案する機能は言語関連情報に敏感ではない。
これらは純粋に統計的であり、どんな言語や文法構造でも使用することができる。
フィールドで一般的に使用される他の統計指標として、例えば、最長共通列、最大連続共通列、相互情報、編集距離を評価・比較する。
最初の合成実験では、COMとRLMは残りの最先端の統計特性よりも優れていた。
4例中3例において, RLMとCOMの特徴は, 距離(P値<0。
実際のテキストプラジャリズムデータセットに関しては、RLM機能は最良の結果を得た。
関連論文リスト
- Programmatic Context Augmentation for LLM-based Symbolic Regression [65.01826333382738]
大規模言語モデル(LLM)に基づく進化的探索手法が記号回帰に導入されている。
本稿では,プログラム的文脈拡張を取り入れたLLMに基づく進化的検索フレームワークを提案する。
本手法では,データ解析と情報信号抽出を積極的に行うことができる。
論文 参考訳(メタデータ) (2026-05-04T19:34:03Z) - Multiple-Prediction-Powered Inference [57.30769275944024]
この研究は、MultiPPI推定器のミニマックス最適性、有限サンプル性能、正規性に関する理論的保証を提供する。
我々は,MultiPPIが既存のベースラインよりも低い推定誤差を実現することを示す。
論文 参考訳(メタデータ) (2026-03-28T21:24:00Z) - LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Learning from String Sequences [0.0]
ユニバーサル類似度メトリック(USM)は、シーケンスデータ間の「類似性」の実用的な測定方法として実証されている。
我々は,K-Nearest Neighbours(K-NN)学習者において,USMを代替距離測定基準として使用して,可変長シーケンスデータの効果的なパターン認識を実現した。
論文 参考訳(メタデータ) (2024-05-10T08:09:53Z) - The Normalized Cross Density Functional: A Framework to Quantify
Statistical Dependence for Random Processes [6.625320950808605]
正規化クロス密度(NCD)と呼ばれる正定関数を用いて、2つのランダムプロセス(r.p.)間の統計的依存を測定する新しい手法を提案する。
NCDは2つのr.p.の確率密度関数から直接導出され、データ依存ヒルベルト空間、正規化クロス密度ヒルベルト空間(NCD-HS)を構成する。
我々は,FMCAがNCDの固有値と固有関数を直接実現したことを数学的に証明する。
論文 参考訳(メタデータ) (2022-12-09T02:12:41Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Ranking the information content of distance measures [61.754016309475745]
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
論文 参考訳(メタデータ) (2021-04-30T15:57:57Z) - A generalised OMP algorithm for feature selection with application to
gene expression data [1.969028842568933]
分子データに適用するには、機能選択アルゴリズムは数万の利用可能な機能にスケーラブルである必要がある。
本稿では,Orthogonal Matching Pursuit特徴選択アルゴリズムの高度にスケール可能な一般化であるgOMPを提案する。
論文 参考訳(メタデータ) (2020-04-01T08:33:02Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。