論文の概要: Do Not (Always) Look Right: Investigating the Capabilities of
Decoder-Based Large Language Models for Sequence Labeling
- arxiv url: http://arxiv.org/abs/2401.14556v1
- Date: Thu, 25 Jan 2024 22:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:26:48.170071
- Title: Do Not (Always) Look Right: Investigating the Capabilities of
Decoder-Based Large Language Models for Sequence Labeling
- Title(参考訳): do not (always) look right: シーケンスラベリングのためのデコーダベースの大規模言語モデルの能力を調査する
- Authors: David Duki\'c, Jan \v{S}najder
- Abstract要約: 数十億のパラメータにデコーダモデルをスケールする最近のトレンドは、大きな言語モデル(LLM)を生み出した。
情報抽出タスクにおける「オープン」LLMのSL性能向上戦略について検討する。
以上の結果から,層依存性CM除去によるLLMは,N型エンコーダや命令調整型LLMよりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models based on masked language modeling (MLM) objective
excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based
encoders consistently outperform causal language modeling decoders of
comparable size, a recent trend of scaling decoder models to multiple billion
parameters resulted in large language models (LLMs), making them competitive
with MLM-based encoders. Although scale amplifies their prowess in NLU tasks,
LLMs fall short of SOTA results in information extraction (IE) tasks, many
framed as sequence labeling (SL). However, whether this is an intrinsic
limitation of LLMs or whether their SL performance can be improved remains
unclear. To address this, we explore strategies to enhance the SL performance
of "open" LLMs (Llama2 and Mistral) on IE tasks. We investigate bidirectional
information flow within groups of decoder blocks, applying layer-wise removal
or enforcement of the causal mask (CM) during LLM fine-tuning. This approach
yields performance gains competitive with SOTA SL models, matching or
outperforming the results of CM removal from all blocks. Our findings hold for
diverse SL tasks, proving that "open" LLMs with layer-dependent CM removal
outperform strong MLM-based encoders and instruction-tuned LLMs. However, we
observe no effect from CM removal on a small scale when maintaining an
equivalent model size, pre-training steps, and pre-training and fine-tuning
data.
- Abstract(参考訳): マスク付き言語モデリング(MLM)に基づく事前学習型言語モデルは、自然言語理解(NLU)タスクにおいて優れている。
微調整されたMLMベースのエンコーダは、因果言語モデリングデコーダを同等の大きさで一貫して上回っているが、最近のデコーダモデルを数十億のパラメータにスケールする傾向は、大きな言語モデル(LLM)を生み出し、MLMベースのエンコーダと競合する結果となった。
スケールはNLUタスクの長所を増幅するが、LSMはSOTAから外れて情報抽出(IE)タスクとなり、その多くがシーケンスラベリング(SL)としてフレーム化される。
しかし, LLMの本質的な限界であるのか, SL性能が向上したのかは不明である。
そこで我々は,IE タスクにおける LLM (Llama2 と Mistral) の SL 性能向上戦略について検討する。
LLM微調整中において,デコーダブロック群内の双方向情報の流れを解析し,階層的除去やCMの適用について検討した。
このアプローチはSOTA SLモデルと競合する性能向上をもたらし、全てのブロックからCM除去結果のマッチングや性能向上を行う。
その結果,層依存性CM除去を用いたLLMは,MLMベースのエンコーダや命令調整LLMよりも優れていた。
しかし, モデルサイズ, 事前学習ステップ, 事前学習および微調整データを維持する場合, CM除去による影響は小さい。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか?
我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。
提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文 参考訳(メタデータ) (2024-06-26T01:16:12Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。