Fugu-MT 論文翻訳(概要): RevMUX: Data Multiplexing with Reversible Adapters for Efficient LLM Batch Inference

論文の概要: RevMUX: Data Multiplexing with Reversible Adapters for Efficient LLM Batch Inference

arxiv url: http://arxiv.org/abs/2410.04519v1
Date: Sun, 6 Oct 2024 15:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 06:56:10.208582
Title: RevMUX: Data Multiplexing with Reversible Adapters for Efficient LLM Batch Inference
Title（参考訳）: RevMUX: 効率的なLLMバッチ推論のための可逆アダプタによるデータ多重化
Authors: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao,
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)コミュニティに大きなブレークスルーをもたらした。データ多重化は、複数の入力を1つの複合入力にマージすることでこの問題に対処する。 RevMUXはパラメータ効率のよいデータ多重化フレームワークで、多重化に可逆設計を組み込んでいる。
参考スコア（独自算出の注目度）: 48.28847964704554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have brought a great breakthrough to the natural language processing (NLP) community, while leading the challenge of handling concurrent customer queries due to their high throughput demands. Data multiplexing addresses this by merging multiple inputs into a single composite input, allowing more efficient inference through a shared forward pass. However, as distinguishing individuals from a composite input is challenging, conventional methods typically require training the entire backbone, yet still suffer from performance degradation. In this paper, we introduce RevMUX, a parameter-efficient data multiplexing framework that incorporates a reversible design in the multiplexer, which can be reused by the demultiplexer to perform reverse operations and restore individual samples for classification. Extensive experiments on four datasets and three types of LLM backbones demonstrate the effectiveness of RevMUX for enhancing LLM inference efficiency while retaining a satisfactory classification performance.
Abstract（参考訳）: 大きな言語モデル(LLM)は、自然言語処理(NLP)コミュニティに大きなブレークスルーをもたらしました。データ多重化は、複数の入力を1つの複合入力にマージすることでこの問題に対処し、共有フォワードパスによるより効率的な推論を可能にする。しかしながら、複合入力と個人を区別することは難しいため、従来の手法ではバックボーン全体をトレーニングする必要があるが、性能劣化に悩まされている。本稿では,パラメータ効率のよいデータ多重化フレームワークであるRevMUXについて紹介する。 4種類のLLMバックボーンと3種類のLLMバックボーンの大規模な実験により,良好な分類性能を維持しつつ,LLM推論効率を向上させるRevMUXの有効性が示された。

関連論文リスト

DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。 dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文参考訳（メタデータ） (2026-02-13T02:18:14Z)
MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model [57.89395815934156]
Multi-Turn Contrastive Learning (MuCo)は、このプロセスを再考する対話にインスパイアされたフレームワークである。新たな5Mマルチモーダルマルチターンデータセット(M3T)による MuCo の表示実験
論文参考訳（メタデータ） (2026-02-06T05:18:33Z)
ReMatch: Boosting Representation through Matching for Multimodal Retrieval [29.610030065465793]
ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。組込みMLLMをチャット形式の生成マッチングステージで訓練する。実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
論文参考訳（メタデータ） (2025-11-24T16:28:49Z)
Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2025-09-16T11:33:20Z)
Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。 MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。 3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文参考訳（メタデータ） (2025-09-02T07:02:29Z)
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Efficient Single-Pass Training for Multi-Turn Reasoning [13.831457888508892]
マルチターン推論データセット上での微調整大型言語モデルには,ユニークな課題がある。本稿では、応答トークン複製とカスタムアテンションマスクにより、この制限を克服する新しいアプローチを提案する。提案手法はトレーニング時間を著しく短縮し,マルチターン推論データセットの高精度な微調整を可能にする。
論文参考訳（メタデータ） (2025-04-25T10:46:56Z)
PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。 Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文参考訳（メタデータ） (2025-02-17T18:43:41Z)
Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning [19.16587730306472]
大規模言語モデル(LLM)の重要な機能として、インコンテキスト学習(ICL)が登場複数の実演のロジットベースアンサンブルを用いてICLを強化する新しいフレームワークであるLogit Arithmetic Reweighting Approach (LARA)を提案する。
論文参考訳（メタデータ） (2024-10-14T01:34:16Z)
Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。 textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-02T07:44:48Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文参考訳（メタデータ） (2024-06-22T03:20:10Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
Efficient and Responsible Adaptation of Large Language Models for Robust Top-k Recommendations [11.004673022505566]
何百万というユーザの長いクエリは、大規模言語モデルのパフォーマンスを低下させ、推奨することができる。本稿では,大規模言語モデルと従来のレコメンデーションシステムの両方の機能を利用するハイブリッドタスク割り当てフレームワークを提案する。実世界の3つのデータセットによる結果から,弱い利用者の減少と,サブ人口に対するRSのロバスト性の向上が示唆された。
論文参考訳（メタデータ） (2024-05-01T19:11:47Z)
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (2022-08-16T08:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。