論文の概要: Contextual Lensing of Universal Sentence Representations
- arxiv url: http://arxiv.org/abs/2002.08866v1
- Date: Thu, 20 Feb 2020 17:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:30:27.035302
- Title: Contextual Lensing of Universal Sentence Representations
- Title(参考訳): 普遍文表現の文脈レンズ化
- Authors: Jamie Kiros
- Abstract要約: 本研究ではコンテキスト指向の普遍文ベクトルを誘導する手法であるContextual Lensingを提案する。
我々は,言語類似性の概念を,コアとなる普遍行列表現を与えられた少数のレンズパラメータに焦点を合わせることが可能であることを示す。
- 参考スコア(独自算出の注目度): 4.847980206213336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What makes a universal sentence encoder universal? The notion of a generic
encoder of text appears to be at odds with the inherent contextualization and
non-permanence of language use in a dynamic world. However, mapping sentences
into generic fixed-length vectors for downstream similarity and retrieval tasks
has been fruitful, particularly for multilingual applications. How do we manage
this dilemma? In this work we propose Contextual Lensing, a methodology for
inducing context-oriented universal sentence vectors. We break the construction
of universal sentence vectors into a core, variable length, sentence matrix
representation equipped with an adaptable `lens' from which fixed-length
vectors can be induced as a function of the lens context. We show that it is
possible to focus notions of language similarity into a small number of lens
parameters given a core universal matrix representation. For example, we
demonstrate the ability to encode translation similarity of sentences across
several languages into a single weight matrix, even when the core encoder has
not seen parallel data.
- Abstract(参考訳): 普遍的な文エンコーダとは何か?
テキストの一般的なエンコーダの概念は、動的世界における言語使用の固有の文脈化と非永続性に反するように見える。
しかし、下流の類似性と検索タスクのための一般的な固定長ベクトルへの文のマッピングは、特に多言語アプリケーションにおいて実りある。
このジレンマをどのように管理しますか。
本研究ではコンテキスト指向の普遍文ベクトルを誘導する手法であるContextual Lensingを提案する。
固定長ベクトルをレンズコンテキストの関数として誘導できる適応可能な 'lens' を備えた,普遍文ベクトルの構成を,コア,可変長,文行列表現に分解する。
言語類似性の概念を、コアとなる普遍行列表現を与えられた少数のレンズパラメータに焦点を合わせることが可能であることを示す。
例えば、コアエンコーダが並列データを見ていない場合でも、複数の言語にわたる文の翻訳類似性を単一の重み行列にエンコードする能力を示す。
関連論文リスト
- On Affine Homotopy between Language Encoders [127.55969928213248]
言語エンコーダのエファフィンアライメント特性について検討する。
アフィンアライメントは基本的には類似性の非対称な概念であるが、外生的類似性についてはいまだに有益である。
論文 参考訳(メタデータ) (2024-06-04T13:58:28Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Discrete Cosine Transform as Universal Sentence Encoder [10.355894890759377]
我々は離散コサイン変換(DCT)を用いて、異なる言語に対する普遍的な文表現を生成する。
実験結果からDCT符号化の有効性が明らかとなった。
論文 参考訳(メタデータ) (2021-06-02T04:43:54Z) - A Simple Geometric Method for Cross-Lingual Linguistic Transformations
with Pre-trained Autoencoders [11.506062545971568]
複数の言語で訓練された強力な文エンコーダが増えている。
これらのシステムは、幅広い言語特性をベクトル表現に埋め込むことができる。
埋め込み空間における幾何写像を用いた言語特性の変換について検討する。
論文 参考訳(メタデータ) (2021-04-08T09:33:50Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Discovering Useful Sentence Representations from Large Pretrained
Language Models [8.212920842986689]
本稿では,事前学習した言語モデルをユニバーサルデコーダとして利用できるかどうかを考察する。
大量の英文で学習した大規模トランスフォーマーベース言語モデルに対して,そのような表現が容易に発見できるかどうかを考察する。
本稿では,変換器モデルに対する3つの表現注入手法と,この表現空間から文をマッピングする3つの随伴手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T16:03:51Z) - On Learning Language-Invariant Representations for Universal Machine
Translation [33.40094622605891]
ユニバーサル機械翻訳は、任意の言語間の翻訳を学ぶことを目的としている。
我々は、この取り組みのある種の不確実性を一般に証明し、データの追加的な(しかし自然な)構造の存在に肯定的な結果をもたらす。
我々は、我々の理論的な洞察と意味が、普遍機械翻訳のアルゴリズム設計に寄与すると信じている。
論文 参考訳(メタデータ) (2020-08-11T04:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。