論文の概要: Bhasha-Rupantarika: Algorithm-Hardware Co-design approach for Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2510.10676v1
- Date: Sun, 12 Oct 2025 16:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.938644
- Title: Bhasha-Rupantarika: Algorithm-Hardware Co-design approach for Multilingual Neural Machine Translation
- Title(参考訳): Bhasha-Rupantarika:多言語ニューラルマシン翻訳のためのアルゴリズムとハードウェアの共同設計手法
- Authors: Mukul Lokhande, Tanushree Dewangan, Mohd Sharik Mansoori, Tejas Chaudhari, Akarsh J., Damayanti Lokhande, Adam Teman, Santosh Kumar Vishvakarma,
- Abstract要約: 本稿では,リソース制限設定のためのアルゴリズム・ハードウェア・コードサインによって調整された,軽量かつ効率的な多言語翻訳システムであるBhasha-Rupantarikaを紹介する。
本手法は, モデルサイズ(FP4)の4.1倍, 推論速度の4.2倍のスピードアップを示す実験結果を用いて, サブオクテット精度レベル(FP8, INT8, INT4, FP4)におけるモデル展開について検討した。
- 参考スコア(独自算出の注目度): 0.10486135378491267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Bhasha-Rupantarika, a light and efficient multilingual translation system tailored through algorithm-hardware codesign for resource-limited settings. The method investigates model deployment at sub-octet precision levels (FP8, INT8, INT4, and FP4), with experimental results indicating a 4.1x reduction in model size (FP4) and a 4.2x speedup in inference speed, which correlates with an increased throughput of 66 tokens/s (improvement by 4.8x). This underscores the importance of ultra-low precision quantization for real-time deployment in IoT devices using FPGA accelerators, achieving performance on par with expectations. Our evaluation covers bidirectional translation between Indian and international languages, showcasing its adaptability in low-resource linguistic contexts. The FPGA deployment demonstrated a 1.96x reduction in LUTs and a 1.65x decrease in FFs, resulting in a 2.2x enhancement in throughput compared to OPU and a 4.6x enhancement compared to HPTA. Overall, the evaluation provides a viable solution based on quantisation-aware translation along with hardware efficiency suitable for deployable multilingual AI systems. The entire codes [https://github.com/mukullokhande99/Bhasha-Rupantarika/] and dataset for reproducibility are publicly available, facilitating rapid integration and further development by researchers.
- Abstract(参考訳): 本稿では,リソース制限設定のためのアルゴリズム・ハードウエア・コードサインによって調整された,軽量かつ効率的な多言語翻訳システムであるBhasha-Rupantarikaを紹介する。
この手法は、サブオクテット精度レベル(FP8, INT8, INT4, FP4)におけるモデル配置を調査し、モデルサイズ(FP4)の4.1倍の削減と推論速度の4.2倍のスピードアップを示す実験結果を示した。
これにより、FPGAアクセラレータを使用したIoTデバイスのリアルタイムデプロイメントにおいて、超低精度の量子化の重要性が強調され、期待値と同等のパフォーマンスが達成される。
インド語と国際語間の双方向翻訳について検討し、低リソース言語文脈における適応性を示す。
FPGAの展開により、LUTの1.96倍、FFの1.65倍、OPUの2.2倍、HPTAの4.6倍のスループットが向上した。
全体として、評価は、量子化対応翻訳に基づく実行可能なソリューションと、デプロイ可能な多言語AIシステムに適したハードウェア効率を提供する。
コード全体[https://github.com/mukullokhande99/Bhasha-Rupantarika/]と再現性のためのデータセットが公開されている。
関連論文リスト
- Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - An Inquiry into Datacenter TCO for LLM Inference with FP8 [18.01919466758935]
大規模言語モデル(LLM)の計算特性をTCOの観点から解析する。
我々は、Intel(Gaudi 2 & 3)とNVIDIA(H100 & H200)のAIアクセラレーターにおけるTCOに影響を与える重要なワークロード特性について検討する。
ガウディHPUは,特にFP8量子化モデルにおいて,薄型GEMMよりも優れた利用率が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:26:22Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric
Algorithm-System Co-Design [30.594788583458893]
6ビット量子化(FP6)は、大きな言語モデル(LLM)のサイズを効果的に削減できる。
既存のシステムは、FP6量子化のCoreサポートを提供していない。
各種量子化ビット幅に対するフロートポイント重みのコアサポートを統一した最初のフルスタックGPUカーネル設計スキームであるTCFPxを提案する。
論文 参考訳(メタデータ) (2024-01-25T11:46:38Z) - ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric
Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。
タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。
最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文 参考訳(メタデータ) (2023-12-14T01:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。