論文の概要: Tokenization Preference for Human and ML Model: An Annotation Study
- arxiv url: http://arxiv.org/abs/2304.10813v2
- Date: Thu, 15 Feb 2024 08:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:29:23.791389
- Title: Tokenization Preference for Human and ML Model: An Annotation Study
- Title(参考訳): ヒトおよびmlモデルのトークン化選好:注釈研究
- Authors: Tatsuya Hiraoka, Tomoya Iwakura
- Abstract要約: 本研究では,人間のトークン化と機械学習モデル(ML)の関係について検討した。
我々は,人間とMLモデルによる回答のパフォーマンス,トークン化の適切性,質問に対する回答時間との関係を解析した。
- 参考スコア(独自算出の注目度): 6.399914034380356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is preferred tokenization for humans also preferred for machine-learning (ML)
models? This study examines the relations between preferred tokenization for
humans (appropriateness and readability) and one for ML models (performance on
an NLP task). The question texts of the Japanese commonsense question-answering
dataset are tokenized with six different tokenizers, and the performances of
human annotators and ML models were compared. Furthermore, we analyze relations
among performance of answers by human and ML model, the appropriateness of
tokenization for human, and response time to questions by human. This study
provides a quantitative investigation result that shows that preferred
tokenizations for humans and ML models are not necessarily always the same. The
result also implies that existing methods using language models for
tokenization could be a good compromise both for human and ML models.
- Abstract(参考訳): 機械学習(ML)モデルにも、人間のトークン化は望ましいか?
本研究では,人間のトークン化(適切性)とMLモデル(NLPタスクの性能)の関係について検討した。
日本語コモンセンス問合せデータセットの質問文を6種類のトークン化器を用いてトークン化し,人間のアノテータとMLモデルの性能を比較した。
さらに,人間モデルとmlモデルによる回答性能の関係,人間に対するトークン化の適切性,質問に対する応答時間について分析した。
この研究は、人間とMLモデルのトークン化が必ずしも同じとは限らないことを示す定量的研究結果を提供する。
その結果、トークン化に言語モデルを使用する既存の方法が、人間モデルとmlモデルの両方にとってよい妥協点になる可能性がある。
関連論文リスト
- High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
大規模言語モデル(LLM)における人的価値分布の高次元表現であるUniVaRを提案する。
我々は,UniVaRが,異なるLLMに埋め込まれた人間の値と異なる言語源との分布を比較する強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - MixCE: Training Autoregressive Language Models by Mixing Forward and
Reverse Cross-Entropies [84.13303255150004]
自己回帰言語モデルは、データ分布Pに対するモデル分布Qのクロスエントロピーを最小化することにより訓練される。
我々は,前と逆のクロスエントロピーを混合する目的であるMixCEを用いた学習を提案する。
その結果,複雑な復号化戦略を使わずに,より優れた生成テキストが得られることがわかった。
論文 参考訳(メタデータ) (2023-05-26T14:14:51Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Quantifying Human Bias and Knowledge to guide ML models during Training [0.0]
トレーニングプロセスに人間を含めることで、歪んだデータセットを扱うための実験的なアプローチを導入する。
我々は、データセットの特徴の重要性をランク付けし、ランクアグリゲーションを通じて、モデルの初期重みバイアスを決定するよう人間に求める。
我々は、集団的人間の偏見によって、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示した。
論文 参考訳(メタデータ) (2022-11-19T20:49:07Z) - Multilingual Language Models Predict Human Reading Behavior [8.830621849672108]
言語固有および多言語事前学習トランスフォーマーモデルの性能比較を行い,読解時間尺度の予測を行った。
BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。
一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。
論文 参考訳(メタデータ) (2021-04-12T13:03:49Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Learning a Formula of Interpretability to Learn Interpretable Formulas [1.7616042687330642]
人間の解釈可能性の非対象プロキシのMLモデルが人間のフィードバックから学習可能であることを示す。
進化的シンボリック回帰について示す。
我々のアプローチは、次世代の解釈可能な(進化的な)MLアルゴリズムの設計のための重要なステップストーンである。
論文 参考訳(メタデータ) (2020-04-23T13:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。