論文の概要: Nugget: Neural Agglomerative Embeddings of Text
- arxiv url: http://arxiv.org/abs/2310.01732v1
- Date: Tue, 3 Oct 2023 01:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:08:25.780001
- Title: Nugget: Neural Agglomerative Embeddings of Text
- Title(参考訳): Nugget: テキストの神経集合的埋め込み
- Authors: Guanghui Qin, Benjamin Van Durme
- Abstract要約: 入力トークンのサブセットに基づいた表現に言語をエンコードするNuggetというソリューションを提案する。
これらのナゲットは、自動エンコーディングや機械翻訳といったタスクを通じて学習され、直感的に言語を意味のある単位に分割する。
- 参考スコア(独自算出の注目度): 49.233014020133034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding text sequences is a widespread requirement in modern language
understanding. Existing approaches focus largely on constant-size
representations. This is problematic, as the amount of information contained in
text often varies with the length of the input. We propose a solution called
Nugget, which encodes language into a representation based on a dynamically
selected subset of input tokens. These nuggets are learned through tasks like
autoencoding and machine translation, and intuitively segment language into
meaningful units. We demonstrate Nugget outperforms related approaches in tasks
involving semantic comparison. Finally, we illustrate these compact units allow
for expanding the contextual window of a language model (LM), suggesting new
future LMs that can condition on significantly larger amounts of content.
- Abstract(参考訳): テキストシーケンスの埋め込みは、現代の言語理解において幅広い要件である。
既存のアプローチは主に定数サイズの表現に焦点を当てている。
これは問題であり、テキストに含まれる情報量は入力の長さによって異なることが多い。
入力トークンの動的に選択されたサブセットに基づいて、言語を表現にエンコードするnuggetというソリューションを提案する。
これらのナゲットは、自動エンコーディングや機械翻訳といったタスクを通じて学習され、直感的に言語を意味のある単位に分割する。
セマンティック比較を含むタスクにおいて、Nuggetが関連するアプローチより優れていることを示す。
最後に、これらのコンパクトなユニットは、言語モデル(LM)のコンテキストウィンドウの拡張を可能にし、より大量のコンテンツに条件付けできる新しい将来のLMを提案する。
関連論文リスト
- MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
各文字を特定のバイトにマッピングするUnicodeエンコーディングは、新しい言語においても未知の単語の出現を排除している。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本稿では,アダプティブ・マルチスケール・ハイド・アテンション(Ada-MSHA)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation [14.826948179996695]
サブワードトークン化はニューラル機械翻訳(NMT)モデルにおける語彙構築の一般的な方法である。
隠れ状態次元の異なる様々なスケールの文脈情報を学習するマルチスケールコンテキスト化(MSC)手法を提案する。
実験により、MSCはサブワードベースおよび他のバイトベースの手法を多言語およびドメイン外のシナリオで大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-05-29T17:19:04Z) - MPrompt: Exploring Multi-level Prompt Tuning for Machine Reading
Comprehension [19.12663587559988]
機械読取理解のためのマルチレベルプロンプトチューニング(MPrompt)手法を提案する。
タスク特化、ドメイン特化、コンテキスト特化レベルでのプロンプトを利用して、入力セマンティクスの理解を強化する。
各種QAフォーマットのベンチマーク12件について広範な実験を行い,最先端手法よりも平均1.94%向上した。
論文 参考訳(メタデータ) (2023-10-27T14:24:06Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。