論文の概要: Multiple Choice Learning of Low Rank Adapters for Language Modeling
- arxiv url: http://arxiv.org/abs/2507.10419v1
- Date: Mon, 14 Jul 2025 16:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.36482
- Title: Multiple Choice Learning of Low Rank Adapters for Language Modeling
- Title(参考訳): 言語モデリングのための低ランク適応者の複数選択学習
- Authors: Victor Letzelter, Hugo Malard, Mathieu Fontaine, Gaël Richard, Slim Essid, Andrei Bursuc, Patrick Pérez,
- Abstract要約: 本稿では,言語モデルにおける次トーケン予測を拡張する学習手法であるLoRA-MCLを提案する。
本研究では,実環境における視覚的・音声的キャプションタスクについて広範な実験を行い,本手法が生成した出力の多様性と関連性を実証する。
- 参考スコア(独自算出の注目度): 40.380297530862656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose LoRA-MCL, a training scheme that extends next-token prediction in language models with a method designed to decode diverse, plausible sentence continuations at inference time. Traditional language modeling is an intrinsically ill-posed problem: given a context, multiple futures may be equally plausible. Our approach leverages Multiple Choice Learning (MCL) and the Winner-Takes-All (WTA) loss to efficiently handle ambiguity through Low-Rank Adaptation (LoRA). We provide a theoretical interpretation of applying Multiple Choice Learning to Language Modeling, assuming the data is generated from a mixture of distributions. To illustrate the proposed approach, we use data sampled from mixtures of Markov chains. We then demonstrate with extensive experiments on real-world visual and audio captioning tasks that our method achieves high diversity and relevance in generated outputs.
- Abstract(参考訳): 本稿では,言語モデルにおける次トーケン予測を拡張する学習手法であるLoRA-MCLを提案する。
伝統的な言語モデリングは本質的に不適切な問題である。
提案手法はMCL(Multiple Choice Learning)とWTA(Winner-Takes-All)の損失を利用して,Low-Rank Adaptation(LoRA)による曖昧さを効率的に処理する。
分布の混合からデータが生成されると仮定して、言語モデリングに多重選択学習を適用する理論的解釈を提供する。
提案手法を説明するために,マルコフ連鎖の混合物から採取したデータを用いる。
次に,実世界の視覚的・音声的キャプションタスクについて広範な実験を行い,本手法が生成した出力の多様性と関連性を実現することを実証した。
関連論文リスト
- The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters [21.19251212483406]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々な商用アプリケーションに応用範囲を広げている。
本稿では,投機的復号化における補助モデルのトレーニング手法について検討し,将来のトークンを目標LLMで検証する。
言語固有のドラフトモデルは,対象とする事前訓練とファイントゥン戦略によって最適化され,従来の手法に比べて推論時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2024-06-24T16:06:50Z) - RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations [38.79058788596755]
本稿では,解釈可能性法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVELを紹介する。
得られた概念的枠組みを用いて,マルチタスク分散アライメント探索の新しい手法を定義する。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-27T17:25:37Z) - Exploiting Multilingualism in Low-resource Neural Machine Translation
via Adversarial Learning [3.2258463207097017]
Generative Adversarial Networks (GAN) はニューラルマシン翻訳(NMT)に有望なアプローチを提供する
GANでは、バイリンガルモデルと同様に、マルチリンガルNTTはモデルトレーニング中に各文の参照翻訳を1つだけ考慮している。
本稿では,DAASI(Denoising Adversarial Auto-Encoder-based Sentence Interpolation)アプローチによる文計算を提案する。
論文 参考訳(メタデータ) (2023-03-31T12:34:14Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。