Fugu-MT 論文翻訳(概要): Flash normalization: fast RMSNorm for LLMs

関連論文リスト

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文参考訳（メタデータ） (2025-06-19T15:38:21Z)
TeleLoRA: Teleporting Model-Specific Alignment Across LLMs [13.551164842422484]
TeleLoRAは、複数の大規模言語モデルにまたがるモデル固有のアライメントデータを相乗化するフレームワークである。複数のLLMにまたがる局所的なアクティベーション情報を活用することで、LoRAアダプタウェイトを統一的に生成する。 LLMトロイジャン緩和ベンチマークの実験は、TeleLoRAが攻撃成功率を効果的に減少させることを示した。
論文参考訳（メタデータ） (2025-03-26T04:46:31Z)
Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels [14.756974816917584]
ゲーティングを備えた線形RNNは、最近、言語モデリングにおけるトランスフォーマーと比較して、競合する性能を示した。本稿では,線形RNNのための新しいカーネルアルゴリズムである Tiled Flash Linear Attention (TFLA) について述べる。高速化ベンチマークでは、TFLAに基づく新しいmLSTMカーネルが、高度に最適化されたFlashアテンション、線形アテンション、およびMambaカーネルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-18T16:09:47Z)
Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。我々は新しい方法を提案する。効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文参考訳（メタデータ） (2025-03-03T11:15:50Z)
NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs [21.975885198257664]
エッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを微調整する必要がある。既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。我々は新しいNVCiM支援PTフレームワークを導入し、コア演算を行列行列乗法に絞り込む。
論文参考訳（メタデータ） (2024-11-12T23:43:20Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU [14.719538667881311]
Inf-MLLMはマルチモーダル大言語モデル(MLLM)のための効率的な推論フレームワークである Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
論文参考訳（メタデータ） (2024-09-11T12:44:12Z)
Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文参考訳（メタデータ） (2024-08-08T11:51:45Z)
rLLM: Relational Table Learning with LLMs [17.960347297159323]
本稿では,Large Language Models (LLM) を用いたテーブルラーニング (RTL) 用に設計された PyTorch ライブラリ rLLM (reLLM) を紹介する。中心となる考え方は、最先端のニューラルネットワーク、LLM、テーブルネットワークを標準化されたモジュールに分解することである。 rLLM の使用法を説明するため,bftextBRIDGE というシンプルな RTL 手法を提案する。
論文参考訳（メタデータ） (2024-07-29T16:33:40Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。 Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文参考訳（メタデータ） (2024-07-17T09:40:15Z)
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。 InverseCoder というコード LLM のシリーズを提示する。これは、広範囲のベンチマークにおいて、元のコード LLM のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。 Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文参考訳（メタデータ） (2024-05-30T09:46:36Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
LoTR: Low Tensor Rank Weight Adaptation [47.4904143988667]
大規模言語モデル(LLM)のパラメータ効率向上のための新しいアプローチであるLoTRを導入する。 LoTRはテンソル分解の形でパラメータの勾配更新を表す。低ランクテンソル表現を持つ層列の同時圧縮により、LoTRはより優れたパラメータ効率をアーカイブできる。
論文参考訳（メタデータ） (2024-02-02T13:00:38Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文参考訳（メタデータ） (2023-10-05T03:47:57Z)
InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models [117.92988284226765]
大規模言語モデル(LLM)は命令従者であるが、異なる状況に最適な命令を見つけることは困難である。我々は,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。 InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。
論文参考訳（メタデータ） (2023-06-05T17:55:22Z)
A Study on ReLU and Softmax in Transformer [51.0740713922741]
Transformerアーキテクチャは、キーバリューメモリと見なせる自己アテンションとフィードフォワードネットワーク(FFN)で構成されている。まず、FFNとキー値メモリの接続をReLUとSoftmaxの広範な研究により再構築する。さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
論文参考訳（メタデータ） (2023-02-13T15:41:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Flash normalization: fast RMSNorm for LLMs

関連論文リスト