Fugu-MT 論文翻訳(概要): Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

論文の概要: Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

arxiv url: http://arxiv.org/abs/2601.03448v1
Date: Tue, 06 Jan 2026 22:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 02:15:23.085172
Title: Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks
Title（参考訳）: 言語学習課題による事前学習による言語モデルの言語能力向上
Authors: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras,
Abstract要約: 我々はL2Tを提案する。L2Tは言語学習タスクを統合した事前学習フレームワークである。人間の言語習得にインスパイアされたL2Tは、生テキストを構造化された入力出力ペアに変換し、明示的な言語刺激を提供する。
参考スコア（独自算出の注目度）: 31.93996004711539
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.
Abstract（参考訳）: 言語モデル(LM)は生のテキストデータセット上で事前訓練され、トークン・バイ・トークンを生成する。このアプローチは世界の知識と推論の学習を促進するが、言語能力に明示的に最適化するものではない。このギャップを埋めるため、我々はL2T(Language Learning Tasks)と標準の次世代予測を組み合わせた事前学習フレームワーク)を提案する。人間の言語習得にインスパイアされたL2Tは、生テキストを構造化された入力出力ペアに変換し、明示的な言語刺激を提供する。原文とL2Tデータの混合による事前学習は、言語能力ベンチマークの全体的な性能を向上するだけでなく、一般的な推論タスクにおける競争性能を維持しながら、その獲得を加速させる。

関連論文リスト

Cross-Lingual Interleaving for Speech Language Models [29.477655980414273]
音声言語モデル(SLM)は,個別単位を用いて言語能力を直接学習することを目的としている。本稿では,言語間で音声トークンを混在させる言語間相互補完手法を提案する。
論文参考訳（メタデータ） (2025-12-01T16:48:05Z)
Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文参考訳（メタデータ） (2025-07-30T14:49:30Z)
Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-19T12:26:57Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Bridging the Gap between Language Models and Cross-Lingual Sequence Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文参考訳（メタデータ） (2022-04-11T15:55:20Z)
Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文参考訳（メタデータ） (2021-07-27T06:51:13Z)
ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:35:22Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。