Fugu-MT 論文翻訳(概要): Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling

論文の概要: Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling

arxiv url: http://arxiv.org/abs/2401.14556v2
Date: Tue, 27 Feb 2024 16:48:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 21:18:54.300390
Title: Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling
Title（参考訳）: 正しい視線は時々正しい:シーケンスラベリングのためのデコーダのみのLCMの能力の検討
Authors: David Duki\'c, Jan \v{S}najder
Abstract要約: 最近のデコーダのみの大規模言語モデル(LLM)は、より小さなステートベースのエンコーダと同等に動作する。因果マスクを階層的に除去することで,IEタスク上でのオープンLLMのSL性能を向上させる手法について検討する。その結果,層依存性CM除去によるオープンLCMは,強いエンコーダや命令調整LDMよりも優れていた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained language models based on masked language modeling (MLM) excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based encoders consistently outperform causal language modeling decoders of comparable size, recent decoder-only large language models (LLMs) perform on par with smaller MLM-based encoders. Although their performance improves with scale, LLMs fall short of achieving state-of-the-art results in information extraction (IE) tasks, many of which are formulated as sequence labeling (SL). We hypothesize that LLMs' poor SL performance stems from causal masking, which prevents the model from attending to tokens on the right of the current token. Yet, how exactly and to what extent LLMs' performance on SL can be improved remains unclear. We explore techniques for improving the SL performance of open LLMs on IE tasks by applying layer-wise removal of the causal mask (CM) during LLM fine-tuning. This approach yields performance gains competitive with state-of-the-art SL models, matching or outperforming the results of CM removal from all blocks. Our findings hold for diverse SL tasks, demonstrating that open LLMs with layer-dependent CM removal outperform strong MLM-based encoders and even instruction-tuned LLMs.
Abstract（参考訳）: マスク付き言語モデリング(MLM)に基づく事前学習言語モデルは、自然言語理解(NLU)タスクに優れている。微調整されたMLMベースのエンコーダは、因果言語モデリングデコーダを同等の大きさで一貫して上回るが、最近のデコーダのみの大規模言語モデル(LLM)は、より小さなMLMベースのエンコーダと同等に動作する。その性能は規模によって向上するが、LLMは情報抽出(IE)タスクにおける最先端の成果を達成できず、その多くがシーケンスラベリング(SL)として定式化されている。 LLMの貧弱なSL性能は因果マスキングに起因すると仮定し、現在のトークンの右側のトークンにモデルが入らないようにする。しかし、slにおけるllmsのパフォーマンスがどの程度改善できるかは、まだ不明である。 LLMの微調整中にCM(Cousal mask)を階層的に除去することで,IEタスク上でのオープンLCMのSL性能を向上させる手法を検討する。このアプローチは、最先端のSLモデルと競合する性能向上をもたらし、全てのブロックからCM除去結果のマッチングや性能向上を行う。その結果,層依存性CM除去によるオープンLCMは,MLMベースのエンコーダや命令調整LDMよりも優れていた。

関連論文リスト

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders [73.18745837755758]
拡散言語モデルのための最初のSAEベースの解釈可能性フレームワークであるDLM-Scopeを提案する。訓練されたTop-K SAEが忠実に解釈可能な特徴を抽出できることを示す。また、DLM関連タスクやアルゴリズムにSAEを適用する大きな可能性を示す。
論文参考訳（メタデータ） (2026-02-05T16:41:25Z)
Supervised In-Context Fine-Tuning for Generative Sequence Labeling [1.5606248019654914]
生成SLのための教師付きインコンテキスト微調整(SIFT)を提案する。 SIFTは、SLタスクをLLMに自然に制約された応答生成としてキャストし、デモからコンテキスト内学習(ICL)と教師付き微調整を組み合わせた。 ICLとSIFTの両方において、長い文脈では生成SLの性能が損なわれるが、この欠損は命令を除去することで軽減できる。
論文参考訳（メタデータ） (2025-08-31T16:06:12Z)
LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching [16.725632407644884]
大規模言語モデルでは,より小さな言語モデルから学習する。具体的には,デコーダのみのLLMとより小さなエンコーダモデルとのアーキテクチャ的ギャップに対処する。金融および医療ベンチマークの実験は、実世界のアプリケーションと同様に、その有効性を確認している。
論文参考訳（メタデータ） (2025-07-08T02:54:15Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文参考訳（メタデータ） (2024-08-16T06:37:59Z)
Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか? 我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文参考訳（メタデータ） (2024-06-26T01:16:12Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。 GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文参考訳（メタデータ） (2024-05-27T11:39:59Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks [9.958467179573237]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。 SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文参考訳（メタデータ） (2024-02-14T09:01:13Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。 LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文参考訳（メタデータ） (2023-10-02T13:53:03Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。