論文の概要: Token Alignment via Character Matching for Subword Completion
- arxiv url: http://arxiv.org/abs/2403.08688v1
- Date: Wed, 13 Mar 2024 16:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:31.625680
- Title: Token Alignment via Character Matching for Subword Completion
- Title(参考訳): サブワード補完のための文字マッチングによるトークンアライメント
- Authors: Ben Athiwaratkun, Shiqi Wang, Mingyue Shang, Yuchen Tian, Zijian Wang,
Sujan Kumar Gonugondla, Sanjay Krishna Gouda, Rob Kwiatowski, Ramesh
Nallapati, Bing Xiang
- Abstract要約: 本稿では,生成モデルにおけるテキスト補完におけるトークン化アーティファクトの緩和手法について検討する。
この手法はトークンアライメントと呼ばれ、最後の完全なトークンをバックトラックし、モデルの生成がプロンプトと整合することを保証する。
- 参考スコア(独自算出の注目度): 34.76794239097628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models, widely utilized in various applications, can often
struggle with prompts corresponding to partial tokens. This struggle stems from
tokenization, where partial tokens fall out of distribution during inference,
leading to incorrect or nonsensical outputs. This paper examines a technique to
alleviate the tokenization artifact on text completion in generative models,
maintaining performance even in regular non-subword cases. The method, termed
token alignment, involves backtracking to the last complete tokens and ensuring
the model's generation aligns with the prompt. This approach showcases marked
improvement across many partial token scenarios, including nuanced cases like
space-prefix and partial indentation, with only a minor time increase. The
technique and analysis detailed in this paper contribute to the continuous
advancement of generative models in handling partial inputs, bearing relevance
for applications like code completion and text autocompletion.
- Abstract(参考訳): 様々な用途で広く利用されている生成モデルは、部分トークンに対応するプロンプトとしばしば苦労する。
この闘争は、部分的なトークンが推論中に分布から外れ、誤ったあるいは非感覚的な出力をもたらすトークン化に起因している。
本稿では,生成モデルにおけるテキスト補完におけるトークン化アーティファクトを緩和し,通常の非サブワードの場合においても性能を維持する手法について検討する。
この手法はトークンアライメントと呼ばれ、最後の完全なトークンをバックトラックし、モデルの生成がプロンプトと整合することを保証する。
このアプローチは、スペースプレフィックスや部分的インデンテーションのようなニュアンスなケースを含む、多くの部分的トークンシナリオで顕著な改善が示され、わずかに時間的増加が見られた。
本稿では,コード補完やテキスト自動補完など,部分入力処理における生成モデルの継続的な発展に寄与する技術と解析について述べる。
関連論文リスト
- Empowering Character-level Text Infilling by Eliminating Sub-Tokens [34.37743927032878]
FIM-SEは"Fill-In-the-Middle"の略で、開始文字と終了文字の制約がある。
本稿では,FIM-SEについて紹介する。
論文 参考訳(メタデータ) (2024-05-27T12:21:48Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [68.68025991850115]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T13:22:30Z) - Counterfactual Multi-Token Fairness in Text Classification [0.0]
対実生成の概念は、あらゆる形式のテキストや文書に有効なマルチトークンサポートにまで拡張されている。
我々は,複数の機密トークンを摂動することで,偽造語を生成する手法を,偽造語マルチトークン生成として定義する。
論文 参考訳(メタデータ) (2022-02-08T11:30:19Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。
提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-06T13:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。