論文の概要: Do Not (Always) Look Right: Investigating the Capabilities of
Decoder-Based Large Language Models for Sequence Labeling
- arxiv url: http://arxiv.org/abs/2401.14556v1
- Date: Thu, 25 Jan 2024 22:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:26:48.170071
- Title: Do Not (Always) Look Right: Investigating the Capabilities of
Decoder-Based Large Language Models for Sequence Labeling
- Title(参考訳): do not (always) look right: シーケンスラベリングのためのデコーダベースの大規模言語モデルの能力を調査する
- Authors: David Duki\'c, Jan \v{S}najder
- Abstract要約: 数十億のパラメータにデコーダモデルをスケールする最近のトレンドは、大きな言語モデル(LLM)を生み出した。
情報抽出タスクにおける「オープン」LLMのSL性能向上戦略について検討する。
以上の結果から,層依存性CM除去によるLLMは,N型エンコーダや命令調整型LLMよりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models based on masked language modeling (MLM) objective
excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based
encoders consistently outperform causal language modeling decoders of
comparable size, a recent trend of scaling decoder models to multiple billion
parameters resulted in large language models (LLMs), making them competitive
with MLM-based encoders. Although scale amplifies their prowess in NLU tasks,
LLMs fall short of SOTA results in information extraction (IE) tasks, many
framed as sequence labeling (SL). However, whether this is an intrinsic
limitation of LLMs or whether their SL performance can be improved remains
unclear. To address this, we explore strategies to enhance the SL performance
of "open" LLMs (Llama2 and Mistral) on IE tasks. We investigate bidirectional
information flow within groups of decoder blocks, applying layer-wise removal
or enforcement of the causal mask (CM) during LLM fine-tuning. This approach
yields performance gains competitive with SOTA SL models, matching or
outperforming the results of CM removal from all blocks. Our findings hold for
diverse SL tasks, proving that "open" LLMs with layer-dependent CM removal
outperform strong MLM-based encoders and instruction-tuned LLMs. However, we
observe no effect from CM removal on a small scale when maintaining an
equivalent model size, pre-training steps, and pre-training and fine-tuning
data.
- Abstract(参考訳): マスク付き言語モデリング(MLM)に基づく事前学習型言語モデルは、自然言語理解(NLU)タスクにおいて優れている。
微調整されたMLMベースのエンコーダは、因果言語モデリングデコーダを同等の大きさで一貫して上回っているが、最近のデコーダモデルを数十億のパラメータにスケールする傾向は、大きな言語モデル(LLM)を生み出し、MLMベースのエンコーダと競合する結果となった。
スケールはNLUタスクの長所を増幅するが、LSMはSOTAから外れて情報抽出(IE)タスクとなり、その多くがシーケンスラベリング(SL)としてフレーム化される。
しかし, LLMの本質的な限界であるのか, SL性能が向上したのかは不明である。
そこで我々は,IE タスクにおける LLM (Llama2 と Mistral) の SL 性能向上戦略について検討する。
LLM微調整中において,デコーダブロック群内の双方向情報の流れを解析し,階層的除去やCMの適用について検討した。
このアプローチはSOTA SLモデルと競合する性能向上をもたらし、全てのブロックからCM除去結果のマッチングや性能向上を行う。
その結果,層依存性CM除去を用いたLLMは,MLMベースのエンコーダや命令調整LLMよりも優れていた。
しかし, モデルサイズ, 事前学習ステップ, 事前学習および微調整データを維持する場合, CM除去による影響は小さい。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか?
我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。
提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文 参考訳(メタデータ) (2024-06-26T01:16:12Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks [9.958467179573237]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。