論文の概要: Spontaneous Emerging Preference in Two-tower Language Model
- arxiv url: http://arxiv.org/abs/2210.07041v1
- Date: Thu, 13 Oct 2022 13:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:13:33.054174
- Title: Spontaneous Emerging Preference in Two-tower Language Model
- Title(参考訳): 2-tower言語モデルにおける自然発芽予測
- Authors: Zhengqi He, Taro Toyoizumi
- Abstract要約: 我々は、あるトークンが1つのタワーで、他のトークンが別のタワーで、一貫して予測される自然発生的嗜好現象について研究する。
この現象はモデル構成や型によらず定性的に安定であり、自然言語の本質的な性質として示唆される。
この研究は、自然言語の興味深い性質がまだ発見されるのを待っていることを示唆し、自然言語処理技術の今後の発展に役立つかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-growing size of the foundation language model has brought
significant performance gains in various types of downstream tasks. With the
existence of side-effects brought about by the large size of the foundation
language model such as deployment cost, availability issues, and environmental
cost, there is some interest in exploring other possible directions, such as a
divide-and-conquer scheme. In this paper, we are asking a basic question: are
language processes naturally dividable? We study this problem with a simple
two-tower language model setting, where two language models with identical
configurations are trained side-by-side cooperatively. With this setting, we
discover the spontaneous emerging preference phenomenon, where some of the
tokens are consistently better predicted by one tower while others by another
tower. This phenomenon is qualitatively stable, regardless of model
configuration and type, suggesting this as an intrinsic property of natural
language. This study suggests that interesting properties of natural language
are still waiting to be discovered, which may aid the future development of
natural language processing techniques.
- Abstract(参考訳): ファンデーション言語モデルのサイズは、様々なダウンストリームタスクにおいて大きなパフォーマンス向上をもたらしています。
デプロイメントコストやアベイラビリティの問題,環境コストといった基礎言語モデルの大規模化による副作用の存在から,配当方式など,他の可能性を探究することへの関心が高まっている。
本稿では,言語プロセスは自然に分割可能かという,基本的な問いを投げかけている。
本稿では,同じ構成の2つの言語モデルを協調的に訓練する,シンプルな2tower言語モデル設定を用いて,この問題を考察する。
この設定により、自発的に出現する選好現象を発見し、トークンのいくつかは、ある塔によって一貫して予測され、別の塔によって予測される。
この現象はモデル構成や型に関わらず定性的に安定であり、自然言語の本質的な性質として示唆される。
本研究は,自然言語処理技術の将来の発展に資する自然言語の興味深い性質がいまだに発見されるのを待っていることを示唆している。
関連論文リスト
- Finding Structure in Language Models [3.882018118763685]
この論文は、言語モデルが人間のものと似た文法構造を深く理解しているかどうかに関するものである。
我々は,大規模言語モデルの複雑な性質の理解を深める新しい解釈可能性技術を開発する。
論文 参考訳(メタデータ) (2024-11-25T14:37:24Z) - Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Examining the Inductive Bias of Neural Language Models with Artificial
Languages [42.699545862522214]
本稿では,人工言語を用いた言語モデルの帰納的バイアスを調査するための新しい手法を提案する。
これは完全に制御された因果関係のフレームワークを構成し、文法工学がニューラルモデルを分析するのに有用なツールであることを示す。
論文 参考訳(メタデータ) (2021-06-02T09:34:32Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。