論文の概要: Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence
- arxiv url: http://arxiv.org/abs/2405.15750v2
- Date: Tue, 6 Aug 2024 22:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 15:15:51.334813
- Title: Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence
- Title(参考訳): フィルタコーパストレーニング(FiCT)は、言語モデルが間接的証拠から一般化可能であることを示す
- Authors: Abhinav Patil, Jaap Jumelet, Yu Ying Chiu, Andy Lapastora, Peter Shen, Lexie Wang, Clevis Willrich, Shane Steinert-Threlkeld,
- Abstract要約: 本稿では,特定の言語構造をフィルタリングしてコーパス上で言語モデル(LM)を訓練するフィルタコーパストレーニングを紹介する。
本手法をLSTMとTransformer LMの両方に適用し,幅広い言語現象を対象とするフィルタコーパスを開発した。
以上の結果から,トランスフォーマーは(パープレキシティによって測定されるように)準LMよりも優れているが,両モデルとも言語一般化対策において等しく,驚くほどよく機能することがわかった。
- 参考スコア(独自算出の注目度): 5.597365985417171
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces Filtered Corpus Training, a method that trains language models (LMs) on corpora with certain linguistic constructions filtered out from the training data, and uses it to measure the ability of LMs to perform linguistic generalization on the basis of indirect evidence. We apply the method to both LSTM and Transformer LMs (of roughly comparable size), developing filtered corpora that target a wide range of linguistic phenomena. Our results show that while transformers are better qua LMs (as measured by perplexity), both models perform equally and surprisingly well on linguistic generalization measures, suggesting that they are capable of generalizing from indirect evidence.
- Abstract(参考訳): 本稿では,コーパス上の言語モデル(LM)を学習データから抽出した特定の言語構造を用いて訓練し,間接的証拠に基づく言語一般化を行うためのLMの能力を測定する方法であるフィルタコーパストレーニングを紹介する。
本手法をLSTMとTransformer LM(ほぼ同等の大きさ)に応用し,幅広い言語現象を対象とするフィルタコーパスを開発した。
以上の結果から,トランスフォーマーは(パープレキシティによって測定されるように)より優れた準LMでありながら,両モデルとも言語的一般化対策において等しく,驚くほど良好に機能し,間接的証拠から一般化できることが示唆された。
関連論文リスト
- From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models [57.225289079198454]
マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。
本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。
さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:44:26Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Cross-lingual Adaption Model-Agnostic Meta-Learning for Natural Language
Understanding [24.66203356497508]
メタ学習段階で直接言語間適応を行うXLA-MAMLを提案する。
自然言語推論と質問応答に関するゼロショットと少数ショットの実験を行った。
論文 参考訳(メタデータ) (2021-11-10T16:53:50Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Language Models Use Monotonicity to Assess NPI Licensing [8.856422030608188]
言語モデル(LM)の意味的知識について検討する。
本研究は、これらのLMが意味的単調性特性に基づいて言語環境のカテゴリを作成するかどうか、およびこれらのカテゴリが人間の言語理解と同様の役割を担っているかどうかに焦点を当てる。
論文 参考訳(メタデータ) (2021-05-28T13:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。