論文の概要: Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding
- arxiv url: http://arxiv.org/abs/2305.14592v2
- Date: Thu, 6 Jun 2024 03:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 01:09:36.902142
- Title: Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding
- Title(参考訳): 一般化可能な言語スタイル理解のための語彙知識を活用したメタチューニングLLM
- Authors: Ruohao Guo, Wei Xu, Alan Ritter,
- Abstract要約: 現在の大規模言語モデルは、微調整なしでいくつかの言語スタイルを捉えるのに苦労していることを示す。
我々は,LLMを代表語彙に基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 24.355564722047244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language style is often used by writers to convey their intentions, identities, and mastery of language. In this paper, we show that current large language models struggle to capture some language styles without fine-tuning. To address this challenge, we investigate whether LLMs can be meta-trained based on representative lexicons to recognize new styles they have not been fine-tuned on. Experiments on 13 established style classification tasks, as well as 63 novel tasks generated using LLMs, demonstrate that meta-training with style lexicons consistently improves zero-shot transfer across styles. We release the code and data at http://github.com/octaviaguo/Style-LLM .
- Abstract(参考訳): 言語スタイルは、作家が意図、アイデンティティ、言語の熟達を伝えるためにしばしば使われる。
本稿では,現在の大規模言語モデルにおいて,微調整を伴わずにいくつかの言語スタイルを捉えるのに苦労していることを示す。
この課題に対処するために,LLMを代表レキシコンに基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。
13の確立されたスタイル分類タスクと63の新規タスクの実験は、スタイルレキシコンを用いたメタトレーニングが、スタイル間のゼロショット転送を一貫して改善することを示した。
コードとデータはhttp://github.com/octaviaguo/Style-LLM で公開しています。
関連論文リスト
- Codebook LLMs: Adapting Political Science Codebooks for LLM Use and Adapting LLMs to Follow Codebooks [7.005758904228446]
有効な測定を気にする政治学者は、代わりにコードブック・コンストラクト・ラベルの仮定を行うべきだと論じる。
我々は,LLMがコードブック命令に準拠するかどうかを理解するために,一連の実験を行う。
オリジナルのコードブックを再構築することで、ゼロショットのパフォーマンスがわずかに向上することがわかった。
論文 参考訳(メタデータ) (2024-07-15T14:20:09Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - ICL Markup: Structuring In-Context Learning using Soft-Token Tags [8.211752085441923]
大規模事前訓練言語モデル(LLM)は、テキストからテキストへのアプローチによって、幅広いタスクに迅速に適応することができる。
HTMLのようなマークアップ言語にインスパイアされた我々は、プロンプトテンプレートを構成するためにソフトトークンタグを使用する方法に貢献する。
本手法はICLのためのメタラーニングの一種であり,パラメータ効率の良い微調整ウォームアッププロセスにおいて,事前にこれらのタグを学習する。
論文 参考訳(メタデータ) (2023-12-12T16:25:05Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Word Embeddings Are Steers for Language Models [57.83026781380927]
このようなステアをLM-Steersと呼び、すべてのサイズのLMに存在するものを見つけます。
言語モデルのデトックス化や感情制御といったタスクでは、LM-Steersは同等または優れたパフォーマンスを達成することができる。
LM-Steerは明示的な形式計算により異なる言語モデル間で転送可能である。
論文 参考訳(メタデータ) (2023-05-22T07:52:04Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。