論文の概要: Optimizing Text Search: A Novel Pattern Matching Algorithm Based on Ukkonen's Approach
- arxiv url: http://arxiv.org/abs/2512.16927v1
- Date: Sat, 29 Nov 2025 16:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.031121
- Title: Optimizing Text Search: A Novel Pattern Matching Algorithm Based on Ukkonen's Approach
- Title(参考訳): テキスト検索の最適化: 初念のアプローチに基づく新しいパターンマッチングアルゴリズム
- Authors: Xinyu Guan, Shaohua Zhang,
- Abstract要約: 本研究では,スプリッティングやウッコネンアルゴリズムなどの手法を用いて,接尾辞木を最適化することに焦点を当てた。
ユッコネンのアルゴリズムと新しい探索手法を組み合わせた新しい最適化手法を導入し、線形時間と空間効率を示す。
実証テストでは、ゲノム配列のパターン認識のようなタスクにおいて、最適化されたSuffix Treeの有効性を強調し、理論的優位性を確認した。
- 参考スコア(独自算出の注目度): 7.975242816297842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of computer science, the efficiency of text-search algorithms is crucial for processing vast amounts of data in areas such as natural language processing and bioinformatics. Traditional methods like Naive Search, KMP, and Boyer-Moore, while foundational, often fall short in handling the complexities and scale of modern datasets, such as the Reuters corpus and human genomic sequences. This study rigorously investigates text-search algorithms, focusing on optimizing Suffix Trees through methods like Splitting and Ukkonen's Algorithm, analyzed on datasets including the Reuters corpus and human genomes. A novel optimization combining Ukkonen's Algorithm with a new search technique is introduced, showing linear time and space efficiencies, outperforming traditional methods like Naive Search, KMP, and Boyer-Moore. Empirical tests confirm the theoretical advantages, highlighting the optimized Suffix Tree's effectiveness in tasks like pattern recognition in genomic sequences, achieving 100% accuracy. This research not only advances academic knowledge in text-search algorithms but also demonstrates significant practical utility in fields like natural language processing and bioinformatics, due to its superior resource efficiency and reliability.
- Abstract(参考訳): コンピュータ科学の領域では、自然言語処理やバイオインフォマティクスといった分野において、テキスト検索アルゴリズムの効率性は膨大な量のデータを処理するために不可欠である。
Naive SearchやKMP、Boier-Mooreといった従来の手法は、Reuters corpusやヒトゲノム配列のような現代のデータセットの複雑さとスケールを扱うのに基礎的でないことが多い。
本研究では,Reuters corpus やヒトゲノムなどのデータセットから解析したスプリッティングや Ukkonen's Algorithm などの手法を用いて,接尾辞木を最適化することに着目し,テキスト検索アルゴリズムを精査した。
ユッコネンのアルゴリズムと新しい探索手法を組み合わせた新しい最適化を導入し、線形時間と空間効率を示し、Naive Search, KMP, Boyer-Mooreといった従来の手法より優れていた。
実証実験では、ゲノム配列のパターン認識のようなタスクにおいて、最適化されたSuffix Treeの有効性を強調し、100%の精度を達成した。
本研究は, テキスト検索アルゴリズムにおける学術的知識の進歩だけでなく, 自然言語処理やバイオインフォマティクスなどの分野において, 優れた資源効率と信頼性のため, 重要な実用性を示すものである。
関連論文リスト
- Evolutionary Algorithms Approach For Search Based On Semantic Document Similarity [0.0]
我々は,様々なテキスト表現技術を用いて,クラスタリング,レコメンデーション,質問応答システムを開発した。
テキストの意味的類似性を捉えるために,ユニバーサル・センテンス・ベクター (USE) が用いられていることを示す。
また, 遺伝的アルゴリズム (GA) と微分進化 (DE) のアルゴリズムを用いて, 関連するトップN文書の検索と検索を行う。
論文 参考訳(メタデータ) (2025-02-20T18:56:52Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Learning with Differentiable Algorithms [6.47243430672461]
この論文は、古典的なアルゴリズムとニューラルネットワークのような機械学習システムを組み合わせることを探求している。
この論文はアルゴリズムの監督という概念を定式化し、ニューラルネットワークがアルゴリズムから、あるいは、アルゴリズムと連動して学ぶことを可能にする。
さらに、この論文では、微分可能なソートネットワーク、微分可能なソートゲート、微分可能な論理ゲートネットワークなど、微分可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-01T17:30:00Z) - Training Neural Networks using SAT solvers [1.0152838128195465]
本稿では,SATソルバを用いてニューラルネットワークのトレーニングを行うグローバル最適化手法を提案する。
実験では,パリティ学習などのタスクにおいて,ADAMオプティマイザに対するアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2022-06-10T01:31:12Z) - CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。
私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。
我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文 参考訳(メタデータ) (2022-03-20T04:41:05Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Enhancing accuracy of deep learning algorithms by training with
low-discrepancy sequences [15.2292571922932]
トレーニングセットとして低差分シーケンスに基づく深層教師付き学習アルゴリズムを提案する。
提案アルゴリズムは, 適度な高次元の問題に対して, 標準的なディープラーニングアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-26T08:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。