論文の概要: Do Not (Always) Look Right: Investigating the Capabilities of
Decoder-Based Large Language Models for Sequence Labeling
- arxiv url: http://arxiv.org/abs/2401.14556v1
- Date: Thu, 25 Jan 2024 22:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:26:48.170071
- Title: Do Not (Always) Look Right: Investigating the Capabilities of
Decoder-Based Large Language Models for Sequence Labeling
- Title(参考訳): do not (always) look right: シーケンスラベリングのためのデコーダベースの大規模言語モデルの能力を調査する
- Authors: David Duki\'c, Jan \v{S}najder
- Abstract要約: 数十億のパラメータにデコーダモデルをスケールする最近のトレンドは、大きな言語モデル(LLM)を生み出した。
情報抽出タスクにおける「オープン」LLMのSL性能向上戦略について検討する。
以上の結果から,層依存性CM除去によるLLMは,N型エンコーダや命令調整型LLMよりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models based on masked language modeling (MLM) objective
excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based
encoders consistently outperform causal language modeling decoders of
comparable size, a recent trend of scaling decoder models to multiple billion
parameters resulted in large language models (LLMs), making them competitive
with MLM-based encoders. Although scale amplifies their prowess in NLU tasks,
LLMs fall short of SOTA results in information extraction (IE) tasks, many
framed as sequence labeling (SL). However, whether this is an intrinsic
limitation of LLMs or whether their SL performance can be improved remains
unclear. To address this, we explore strategies to enhance the SL performance
of "open" LLMs (Llama2 and Mistral) on IE tasks. We investigate bidirectional
information flow within groups of decoder blocks, applying layer-wise removal
or enforcement of the causal mask (CM) during LLM fine-tuning. This approach
yields performance gains competitive with SOTA SL models, matching or
outperforming the results of CM removal from all blocks. Our findings hold for
diverse SL tasks, proving that "open" LLMs with layer-dependent CM removal
outperform strong MLM-based encoders and instruction-tuned LLMs. However, we
observe no effect from CM removal on a small scale when maintaining an
equivalent model size, pre-training steps, and pre-training and fine-tuning
data.
- Abstract(参考訳): マスク付き言語モデリング(MLM)に基づく事前学習型言語モデルは、自然言語理解(NLU)タスクにおいて優れている。
微調整されたMLMベースのエンコーダは、因果言語モデリングデコーダを同等の大きさで一貫して上回っているが、最近のデコーダモデルを数十億のパラメータにスケールする傾向は、大きな言語モデル(LLM)を生み出し、MLMベースのエンコーダと競合する結果となった。
スケールはNLUタスクの長所を増幅するが、LSMはSOTAから外れて情報抽出(IE)タスクとなり、その多くがシーケンスラベリング(SL)としてフレーム化される。
しかし, LLMの本質的な限界であるのか, SL性能が向上したのかは不明である。
そこで我々は,IE タスクにおける LLM (Llama2 と Mistral) の SL 性能向上戦略について検討する。
LLM微調整中において,デコーダブロック群内の双方向情報の流れを解析し,階層的除去やCMの適用について検討した。
このアプローチはSOTA SLモデルと競合する性能向上をもたらし、全てのブロックからCM除去結果のマッチングや性能向上を行う。
その結果,層依存性CM除去を用いたLLMは,MLMベースのエンコーダや命令調整LLMよりも優れていた。
しかし, モデルサイズ, 事前学習ステップ, 事前学習および微調整データを維持する場合, CM除去による影響は小さい。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination
of Transformer Blocks [10.552149379573653]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer [27.63746419563747]
大規模言語モデル (LLM) には幅広い知識が与えられているが、そのタスク固有の性能は、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本研究では,より小さな言語モデル (SLM) でLLMを強化し,クライアント上でプライベートなタスク固有データを用いて学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T09:52:32Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。