論文の概要: Going Beyond T-SNE: Exposing \texttt{whatlies} in Text Embeddings
- arxiv url: http://arxiv.org/abs/2009.02113v1
- Date: Fri, 4 Sep 2020 11:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:41:55.331738
- Title: Going Beyond T-SNE: Exposing \texttt{whatlies} in Text Embeddings
- Title(参考訳): T-SNEを超える: テキスト埋め込みにおける \texttt{whatlies} の公開
- Authors: Vincent D. Warmerdam, Thomas Kober, Rachael Tatman
- Abstract要約: Whatliesは、単語と文の埋め込みを視覚的に検査するオープンソースのツールキットだ。
このパッケージは、算術ベクトルのためのドメイン固有言語と、単語の埋め込みをより直感的で簡潔に探索する可視化ツールを組み合わせる。
また、Jupyterノートブック経由で静的にエクスポートしたり共有したりできるインタラクティブな可視化も多数用意されている。
- 参考スコア(独自算出の注目度): 1.2246649738388389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce whatlies, an open source toolkit for visually inspecting word
and sentence embeddings. The project offers a unified and extensible API with
current support for a range of popular embedding backends including spaCy,
tfhub, huggingface transformers, gensim, fastText and BytePair embeddings. The
package combines a domain specific language for vector arithmetic with
visualisation tools that make exploring word embeddings more intuitive and
concise. It offers support for many popular dimensionality reduction techniques
as well as many interactive visualisations that can either be statically
exported or shared via Jupyter notebooks. The project documentation is
available from https://rasahq.github.io/whatlies/.
- Abstract(参考訳): 単語と文の埋め込みを視覚的に検査するオープンソースツールキットwhatliesを紹介する。
プロジェクトは統一的で拡張可能なapiを提供し、spacy、tfhub、hughingface transformers、gensim、fasttext、bytepair embeddedsなど、広く使われている組み込みバックエンドをサポートする。
このパッケージは、ベクトル演算のためのドメイン固有言語と、単語の埋め込みをより直感的で簡潔に探索する可視化ツールを組み合わせる。
多くの一般的な次元縮小技術と、jupyterノートブックを介して静的にエクスポートまたは共有できる多数のインタラクティブな視覚化をサポートする。
プロジェクトのドキュメントはhttps://rasahq.github.io/whatlies/から入手できる。
関連論文リスト
- OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained
Text Evaluation [11.690442820401453]
Threshは、きめ細かい評価のための統一的でカスタマイズ可能な、デプロイ可能なプラットフォームです。
Threshはコミュニティハブを提供する。コミュニティによって作成され、収集される、きめ細かいフレームワークとそれに対応するアノテーションのコレクションをホストする。
Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに対して、複数のオプションを提供している。
論文 参考訳(メタデータ) (2023-08-14T06:09:51Z) - ADELT: Transpilation Between Deep Learning Frameworks [12.30248336523211]
Adversarial DEep Learning Transpiler (ADELT)は、ディープラーニングフレームワーク間のソースからソースへのトランスパイラのための新しいアプローチである。
コードスケルトントランスパイレーションでは、大きな言語モデル(LLM)で数発のプロンプトを使用するが、APIキーワードマッピングでは、コード固有のBERTからのコンテキスト埋め込みを使用する。
ADELTは、手作りのルールや並列データに頼ることなく、ラベルなしのWebcrawled Deep Learning Corpusでトレーニングされている。
論文 参考訳(メタデータ) (2023-03-07T01:57:10Z) - UDAAN - Machine Learning based Post-Editing tool for Document
Translation [16.143443845623196]
UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。
UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。
本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
論文 参考訳(メタデータ) (2022-03-03T11:08:16Z) - textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文 参考訳(メタデータ) (2022-02-15T12:39:42Z) - More Romanian word embeddings from the RETEROM project [0.0]
単語埋め込み」は、単語のベクトル表現を自動的に学習する。
使用可能な単語埋め込みセットをオープンアクセス可能な大規模ライブラリを開発する計画である。
論文 参考訳(メタデータ) (2021-11-21T06:05:12Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。