論文の概要: string2string: A Modern Python Library for String-to-String Algorithms
- arxiv url: http://arxiv.org/abs/2304.14395v1
- Date: Thu, 27 Apr 2023 17:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:06:39.862429
- Title: string2string: A Modern Python Library for String-to-String Algorithms
- Title(参考訳): string2string: string-to-stringアルゴリズムのためのモダンなpythonライブラリ
- Authors: Mirac Suzgun, Stuart M. Shieber, Dan Jurafsky
- Abstract要約: string2stringは、文字列から文字列への問題に対する効率的なアルゴリズムの包括的なスイートを提供するオープンソースライブラリである。
これには、文字列アライメント、距離測定、語彙と意味探索、類似性解析といった様々な問題に対処する、従来のアルゴリズムによる解や、最近の先進的なニューラルアプローチが含まれる。
Pythonで実装されており、ip経由で簡単にインストールでき、シンプルなAPI経由でアクセスできる。
- 参考スコア(独自算出の注目度): 24.167017445129105
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce string2string, an open-source library that offers a
comprehensive suite of efficient algorithms for a broad range of
string-to-string problems. It includes traditional algorithmic solutions as
well as recent advanced neural approaches to tackle various problems in string
alignment, distance measurement, lexical and semantic search, and similarity
analysis -- along with several helpful visualization tools and metrics to
facilitate the interpretation and analysis of these methods. Notable algorithms
featured in the library include the Smith-Waterman algorithm for pairwise local
alignment, the Hirschberg algorithm for global alignment, the Wagner-Fisher
algorithm for edit distance, BARTScore and BERTScore for similarity analysis,
the Knuth-Morris-Pratt algorithm for lexical search, and Faiss for semantic
search. Besides, it wraps existing efficient and widely-used implementations of
certain frameworks and metrics, such as sacreBLEU and ROUGE, whenever it is
appropriate and suitable. Overall, the library aims to provide extensive
coverage and increased flexibility in comparison to existing libraries for
strings. It can be used for many downstream applications, tasks, and problems
in natural-language processing, bioinformatics, and computational social
sciences. It is implemented in Python, easily installable via pip, and
accessible through a simple API. Source code, documentation, and tutorials are
all available on our GitHub page: https://github.com/stanfordnlp/string2string.
- Abstract(参考訳): string2stringは,文字列から文字列までの幅広い問題に対して,包括的なアルゴリズムスイートを提供するオープンソースライブラリである。
これには、文字列アライメント、距離測定、語彙と意味探索、類似性分析といったさまざまな問題に対処する、最近の高度なニューラルネットワークだけでなく、いくつかの有用な視覚化ツールとメトリクスが含まれており、これらの手法の解釈と分析を容易にする。
このライブラリで注目されるアルゴリズムには、ペアの局所アライメントのためのSmith-Watermanアルゴリズム、グローバルアライメントのためのHirschbergアルゴリズム、編集距離のためのWagner-Fisherアルゴリズム、類似性解析のためのBARTScoreとBERTScore、語彙探索のためのKnuth-Morris-Prattアルゴリズム、意味探索のためのFaissなどがある。
さらに、sacrebleuやrougeといった特定のフレームワークやメトリクスの既存の効率的かつ広く使用されている実装を、適切かつ適当にラップする。
全体として、このライブラリは文字列の既存のライブラリと比較して広範なカバレッジと柔軟性の向上を目指している。
自然言語処理、バイオインフォマティクス、計算社会科学における多くのダウンストリームアプリケーション、タスク、問題に使用することができる。
pythonで実装され、pip経由で簡単にインストールでき、シンプルなapiでアクセスできる。
ソースコード、ドキュメンテーション、チュートリアルはすべて、githubページで利用可能です。
関連論文リスト
- LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Beryllium: Neural Search for Algorithm Implementations [14.11934122454653]
我々は,p言語と命名された新しい言語を設計し,p言語のための静的解析器を設計し,アルゴリズム記述から情報を自動的に抽出する。
我々は,p言語(p-code)とソースコードの出力を自己教師付き機械学習手法を用いて共通ベクトル空間に埋め込んだ。
Berylliumは、CとJavaの両方で最先端のコード検索ツールを著しく上回った。
論文 参考訳(メタデータ) (2023-05-25T03:49:36Z) - torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。
環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文 参考訳(メタデータ) (2023-05-24T00:20:59Z) - textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文 参考訳(メタデータ) (2022-02-15T12:39:42Z) - Small-Text: Active Learning for Text Classification in Python [23.87081733039124]
small-textはPython用の使いやすいアクティブラーニングライブラリである。
シングルラベルとマルチラベルのテキスト分類のためのプールベースのアクティブラーニングを提供する。
論文 参考訳(メタデータ) (2021-07-21T19:23:56Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - PyGlove: Symbolic Programming for Automated Machine Learning [88.15565138144042]
シンボリックプログラミングに基づくAutoMLの新しいプログラミング方法を紹介します。
このパラダイムでは、MLプログラムは変更可能であるため、他のプログラムで簡単に操作できます。
PyGloveユーザーは、静的プログラムを検索空間に簡単に変換し、検索空間と検索アルゴリズムをすばやく繰り返し、複雑な検索フローを作成できることを示しています。
論文 参考訳(メタデータ) (2021-01-21T19:05:44Z) - Scout Algorithm For Fast Substring Matching [0.0]
厳密なマッチングは多くのソフトウェアアプリケーションで一般的なタスクである。
我々は、すべてのアプリケーションに簡単で、迅速かつ適切な新しいアルゴリズム、Scoutを提示する。
論文 参考訳(メタデータ) (2020-11-08T16:09:20Z) - Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。
Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文 参考訳(メタデータ) (2020-02-03T16:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。