論文の概要: Correlation and Navigation in the Vocabulary Key Representation Space of Language Models
- arxiv url: http://arxiv.org/abs/2410.02284v1
- Date: Thu, 3 Oct 2024 08:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 04:12:15.173861
- Title: Correlation and Navigation in the Vocabulary Key Representation Space of Language Models
- Title(参考訳): 言語モデルの語彙キー表現空間における相関とナビゲーション
- Authors: Letian Peng, Chenyang An, Jingbo Shang,
- Abstract要約: 鍵分布がNTP分布に及ぼす影響について検討した。
NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
- 参考スコア(独自算出の注目度): 33.747872934103334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model (LM) decoding is based on the next-token prediction (NTP) probability distribution. For neural LMs (e.g., Transformer-based), NTP distribution is essentially a softmax-regularized dot product between an encoded input context (query) and fixed vocabulary representations (keys). In this paper, we study the effect of the key distribution on the NTP distribution, with a focus on whether the similarity between keys will trigger spurious correlations in NTP. Through knowledge-probing tasks, we show that in the NTP distribution, the few top-ranked tokens are typically accurate. However, the middle-ranked prediction is highly biased towards the tokens that are distributionally (not necessarily semantically) similar to these top ones. For instance, if "P" is predicted as the top-1 token, "A"-"Z" will all be ranked high in NTP, no matter whether they can lead to correct decoding results. This hurts the sampling diversity and makes the sampling of correct, long-tail results hopeless and noisy. We attempt to alleviate this issue via a novel in-context method that iteratively pushes the query representation away from explored regions. Specifically, we include the explored decoding results in the context and prompt the LM to generate something else, which encourages the LM to produce a query representation that has small dot products with explored keys. Experiments on knowledge-probing tasks show that our method leads to efficient navigation away from explored keys to correct new keys. We further extend our method to open-ended and chain-of-thought (for reasoning) generation. Experiment results show that ICN contributes to better generation diversity and improved self-consistency voting performance. Finally, we discuss potential training issues caused by the fixed key space together with the challenges and possible ways to address them in future research.
- Abstract(参考訳): 言語モデル(LM)デコーディングは、NTP確率分布に基づく。
ニューラルLM(例えばTransformerベース)では、NTP分布は基本的に、符号化された入力コンテキスト(クエリ)と固定語彙表現(キー)の間のソフトマックス規則化されたドット積である。
本稿では,鍵分布がNTP分布に与える影響について検討し,鍵間の類似性がNTPの突発的相関を引き起こすかどうかに着目した。
知識提供タスクを通じて、NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
しかし、中間ランクの予測は、これらの上位に類似した(必ずしも意味論的ではない)トークンに対して非常に偏りがある。
例えば、"P" がトップ-1トークンとして予測された場合、"A"-"Z" はすべてNTPで上位にランクされる。
これにより、サンプリングの多様性が損なわれ、正しいロングテールの結果のサンプリングが望ましくない、騒々しいものになる。
我々は,探索領域からクエリ表現を反復的に押下する新しいインコンテキスト手法により,この問題を緩和しようと試みている。
具体的には、探索された復号結果を文脈に含み、LMに他の何かを生成するよう促すことで、探索されたキーを持つ小さなドット積を持つクエリ表現を生成することをLMに促す。
知識提供タスクの実験により,提案手法は探索されたキーから効率的にナビゲーションし,新しいキーの修正につながることが示された。
我々はさらに、提案手法をオープンエンドおよびチェーンオブソート(推論のための)世代に拡張する。
実験の結果,ICNは世代多様性の向上と自己整合性投票性能の向上に寄与していることがわかった。
最後に、固定鍵空間に起因する潜在的なトレーニング問題と、今後の研究における課題と対処方法について議論する。
関連論文リスト
- NDP: Next Distribution Prediction as a More Broad Target [59.30497395313209]
我々はNext Distribution Prediction (NDP)を導入し、$n$-gramの分布を使って1ホットターゲットを置き換える。
NDPは翻訳タスクで最大2.97 COMETの改善、一般タスクで平均0.61、医療領域で平均10.75の改善を達成できる。
論文 参考訳(メタデータ) (2024-08-30T16:13:49Z) - Assessing Keyness using Permutation Tests [0.0]
トークン単位のサンプリングモデルを,トークンではなく文書のサンプルであるコーパスモデルに置き換える。
トークンがドキュメント内やドキュメント間でどのように整理されているかという仮定は必要ありません。
論文 参考訳(メタデータ) (2023-08-25T13:52:57Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文 参考訳(メタデータ) (2023-05-24T01:48:33Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - NFL: Robust Learned Index via Distribution Transformation [14.812854942243503]
本稿では、学習インデックスを構築する前に、鍵にテキスト分布変換を適用することで近似問題に取り組む。
2段階の正規化フローベース学習インデックスフレームワーク (NFL) が提案され、最初に元の複雑な鍵分布をほぼ一様に変換し、次に変換された鍵を利用する学習インデックスを構築する。
変換キーの特性に基づいて、ロバストなアフターフロー学習指標(AFLI)を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:03:19Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Bridging Few-Shot Learning and Adaptation: New Challenges of
Support-Query Shift [4.374837991804085]
わずかなラベル付きデータで新しい概念を学習するアルゴリズムはほとんどない。
テスト時に遭遇した新しいクラスからクエリインスタンスを分類するには、いくつかのラベル付きサンプルからなるサポートセットが必要である。
現実的なセットティングでは、データ分散は、少なくとも変化の対象であり、分散シフト(DS)と呼ばれる状況である。
論文 参考訳(メタデータ) (2021-05-25T10:10:09Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。