論文の概要: Uncovering Constraint-Based Behavior in Neural Models via Targeted
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2106.01207v1
- Date: Wed, 2 Jun 2021 14:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:31:02.063189
- Title: Uncovering Constraint-Based Behavior in Neural Models via Targeted
Fine-Tuning
- Title(参考訳): ターゲット微調整による神経モデルの制約に基づく行動の解明
- Authors: Forrest Davis and Marten van Schijndel
- Abstract要約: 本研究は,言語知識が不明な言語内での競合する言語プロセスを示す。
人間の行動は言語間で類似していることがわかったが、モデル行動の言語間差異は見いだされている。
以上の結果から,言語における言語的制約と相対的ランクの双方をモデルが学習する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 9.391375268580806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing body of literature has focused on detailing the linguistic
knowledge embedded in large, pretrained language models. Existing work has
shown that non-linguistic biases in models can drive model behavior away from
linguistic generalizations. We hypothesized that competing linguistic processes
within a language, rather than just non-linguistic model biases, could obscure
underlying linguistic knowledge. We tested this claim by exploring a single
phenomenon in four languages: English, Chinese, Spanish, and Italian. While
human behavior has been found to be similar across languages, we find
cross-linguistic variation in model behavior. We show that competing processes
in a language act as constraints on model behavior and demonstrate that
targeted fine-tuning can re-weight the learned constraints, uncovering
otherwise dormant linguistic knowledge in models. Our results suggest that
models need to learn both the linguistic constraints in a language and their
relative ranking, with mismatches in either producing non-human-like behavior.
- Abstract(参考訳): 成長する文学組織は、大規模で事前訓練された言語モデルに埋め込まれた言語知識の詳細に焦点を当てている。
既存の研究により、モデルの非言語バイアスは、言語の一般化からモデルの振る舞いを遠ざけることが示されている。
非言語的モデルバイアスではなく、言語内で競合する言語プロセスが、基礎となる言語知識を曖昧にする可能性があると仮定した。
我々は、英語、中国語、スペイン語、イタリア語の4つの言語で1つの現象を探索することで、この主張を試した。
人間の行動は言語間で類似していることがわかったが、モデル行動の言語間差異は見いだされている。
言語における競合するプロセスがモデル行動の制約として機能し、ターゲットとなる微調整が学習された制約を再重み付けし、それ以外はモデルの休眠的言語知識を明らかにすることを実証する。
以上の結果から,モデルは言語における言語的制約と相対的ランキングの両方を学習する必要があることが示唆された。
関連論文リスト
- Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models [113.58052868898173]
我々は、モデルが予期しない方法でプロンプトから生成元に無関係な情報を漏らす現象を識別し、特徴付けする。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
論文 参考訳(メタデータ) (2024-08-12T22:30:55Z) - Modeling language contact with the Iterated Learning Model [0.0]
反復学習モデルは言語変化のエージェントベースモデルである。
最近導入された反復学習モデルであるSemi-Supervised ILMは、言語接触をシミュレートするために使われている。
論文 参考訳(メタデータ) (2024-06-11T01:43:23Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - A fine-grained comparison of pragmatic language understanding in humans
and language models [2.231167375820083]
言語モデルと人間を7つの現実的な現象で比較する。
最大のモデルでは精度が高く,人間の誤りパターンと一致していることがわかった。
モデルと人間が同様の言語的手がかりに敏感であるという予備的な証拠がある。
論文 参考訳(メタデータ) (2022-12-13T18:34:59Z) - Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Integrating Linguistic Theory and Neural Language Models [2.870517198186329]
理論的言語学とニューラル言語モデルが相互にどのように関係しているかを説明するためのケーススタディをいくつか提示する。
この論文は、言語モデルにおける構文意味インタフェースの異なる側面を探求する3つの研究に貢献する。
論文 参考訳(メタデータ) (2022-07-20T04:20:46Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。