論文の概要: Vaporetto: Efficient Japanese Tokenization Based on Improved Pointwise Linear Classification
- arxiv url: http://arxiv.org/abs/2406.17185v1
- Date: Mon, 24 Jun 2024 23:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 16:11:02.012485
- Title: Vaporetto: Efficient Japanese Tokenization Based on Improved Pointwise Linear Classification
- Title(参考訳): Vaporetto: 改良されたポイントワイド線形分類に基づく効率的な日本語トークン化
- Authors: Koichi Akabe, Shunsuke Kanda, Yusuke Oda, Shinsuke Mori,
- Abstract要約: 本稿では,ポイントワイド線形分類(PLC)フレームワークに基づく日本語トークン化のランタイム効率向上のためのアプローチを提案する。
PLCフレームワークの特性とタスク定義を活用することでトークン化を最適化する。
- 参考スコア(独自算出の注目度): 2.2125465557153756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an approach to improve the runtime efficiency of Japanese tokenization based on the pointwise linear classification (PLC) framework, which formulates the whole tokenization process as a sequence of linear classification problems. Our approach optimizes tokenization by leveraging the characteristics of the PLC framework and the task definition. Our approach involves (1) composing multiple classifications into array-based operations, (2) efficient feature lookup with memory-optimized automata, and (3) three orthogonal pre-processing methods for reducing actual score calculation. Thus, our approach makes the tokenization speed 5.7 times faster than the current approach based on the same model without decreasing tokenization accuracy. Our implementation is available at https://github.com/daac-tools/vaporetto under the MIT or Apache-2.0 license.
- Abstract(参考訳): 本稿では, トークン化過程全体を線形分類問題列として定式化するPLC(pointwise linear classification)フレームワークに基づく, 日本語のトークン化のランタイム効率向上手法を提案する。
提案手法は,PLCフレームワークの特性とタスク定義を活用することでトークン化を最適化する。
提案手法は,(1)複数の分類を配列ベース操作に構成すること,(2)メモリ最適化オートマトンによる効率的な特徴検索,(3)実際のスコア計算の削減のための3つの直交前処理手法を含む。
したがって,本手法はトークン化精度を低下させることなく,同じモデルに基づく現行手法の5.7倍の速度でトークン化を行う。
私たちの実装は、MITまたはApache-2.0ライセンスの下でhttps://github.com/daac-tools/vaporettoで利用可能です。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Learning Optimal Signal Temporal Logic Decision Trees for Classification: A Max-Flow MILP Formulation [5.924780594614676]
本稿では,データから時間的時間的論理特性を推定するための新しい枠組みを提案する。
混合整数線形プログラミング最適化問題として推論過程を定式化する。
結果木に最大フローアルゴリズムを適用すると、この問題はグローバルな最適化問題に変換される。
我々は,2クラス,複数クラス,複雑な式分類シナリオを含む3つのケーススタディを実施している。
論文 参考訳(メタデータ) (2024-07-30T16:56:21Z) - Non-uniformity is All You Need: Efficient and Timely Encrypted Traffic Classification With ECHO [3.9154800026646566]
本稿では,ML/DLベースの暗号化トラフィック分類のための新しい最適化プロセスであるECHOを紹介する。
ECHOは、分類時間とメモリ利用の両方を目標とし、2つの革新的なテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-06-03T23:54:48Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - BO-ICP: Initialization of Iterative Closest Point Based on Bayesian
Optimization [3.248584983235657]
臨界初期ICP変換を求めるため,ベイズ最適化に基づく新しい手法を提案する。
同様の計算時間を与えられた場合,本手法は最先端の手法よりも優れていることを示す。
ICPの他の改良と互換性があり、初期変換の選択のみに焦点を当てている。
論文 参考訳(メタデータ) (2023-04-25T19:38:53Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Multiple Classifiers Based Maximum Classifier Discrepancy for
Unsupervised Domain Adaptation [25.114533037440896]
本稿では、2つの分類器の構造を複数の分類器に拡張し、その性能をさらに向上することを提案する。
平均的に、3つの分類器の構造を採用すると、精度と効率のトレードオフとして最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-02T03:00:13Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - An Extensive Experimental Evaluation of Automated Machine Learning
Methods for Recommending Classification Algorithms (Extended Version) [4.400989370979334]
これら3つの手法は進化的アルゴリズム(EA)に基づいており、もう1つはAuto-WEKAである。
我々は,これらの4つのAutoMLメソッドに,この制限の異なる値に対して,同じランタイム制限を付与する制御実験を行った。
一般に,3つの最良のAutoML手法の予測精度の差は統計的に有意ではなかった。
論文 参考訳(メタデータ) (2020-09-16T02:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。