Fugu-MT 論文翻訳(概要): Adaptive Skeleton Graph Decoding

論文の概要: Adaptive Skeleton Graph Decoding

arxiv url: http://arxiv.org/abs/2402.12280v1
Date: Mon, 19 Feb 2024 16:47:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 15:36:17.203629
Title: Adaptive Skeleton Graph Decoding
Title（参考訳）: 適応スケルトングラフ復号法
Authors: Shuowei Jin, Yongji Wu, Haizhong Zheng, Qingzhao Zhang, Matthew Lentz, Z. Morley Mao, Atul Prakash, Feng Qian, Danyang Zhuo
Abstract要約: Skeleton Graph Decoding (SGD) はサブプロブレム間の依存関係を公開し、依存サブプロブレム間の情報転送をサポートする。通常の自己回帰生成やSoTと比較して、SGDは1.69倍のスピードアップを実現し、品質を最大51%向上させる。
参考スコア（独自算出の注目度）: 18.515146557054116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have seen significant adoption for natural language tasks, owing their success to massive numbers of model parameters (e.g., 70B+); however, LLM inference incurs significant computation and memory costs. Recent approaches propose parallel decoding strategies, such as Skeleton-of-Thought (SoT), to improve performance by breaking prompts down into sub-problems that can be decoded in parallel; however, they often suffer from reduced response quality. Our key insight is that we can request additional information, specifically dependencies and difficulty, when generating the sub-problems to improve both response quality and performance. In this paper, we propose Skeleton Graph Decoding (SGD), which uses dependencies exposed between sub-problems to support information forwarding between dependent sub-problems for improved quality while exposing parallelization opportunities for decoding independent sub-problems. Additionally, we leverage difficulty estimates for each sub-problem to select an appropriately-sized model, improving performance without significantly reducing quality. Compared to standard autoregressive generation and SoT, SGD achieves a 1.69x speedup while improving quality by up to 51%.
Abstract（参考訳）: 大規模言語モデル(llm)は、大量のモデルパラメータ(例えば70b+)の成功によって、自然言語タスクにかなりの採用が見られたが、llm推論は、かなりの計算量とメモリコストを伴っている。最近のアプローチでは、stoel-of-thought(sot)のような並列デコード戦略を提案し、プロンプトを並列にデコードできるサブプロンプトに分割することでパフォーマンスを向上させるが、応答品質の低下に苦しむことが多い。私たちの重要な洞察は、サブプロブレムを生成して応答品質とパフォーマンスの両方を改善する際に、追加の情報、特に依存関係と困難を要求できるということです。本稿では,サブプロブレム間の依存関係を公開して,依存サブプロブレム間の情報転送を支援するSkeleton Graph Decoding (SGD)を提案する。さらに,各サブプロブレムの難易度推定を活用して,適切なサイズモデルを選択し,品質を著しく低下させることなく性能を向上させる。 sgdは標準のオートレグレッシブ・ジェネレーションとsotと比較して1.59倍のスピードアップを達成し、品質は最大51%向上した。

関連論文リスト

Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models [11.012474205717178]
大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。本稿では,文脈要約を保存・再利用するためのセマンティックキャッシング手法を提案する。本手法は,全文書処理に匹敵する解の精度を維持しつつ,冗長計算を最大50～60%削減する。
論文参考訳（メタデータ） (2025-05-16T14:04:31Z)
Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。 APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文参考訳（メタデータ） (2025-04-21T22:29:02Z)
Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文参考訳（メタデータ） (2025-02-27T08:20:03Z)
Hybrid Offline-online Scheduling Method for Large Language Model Inference Optimization [6.910292009760109]
大規模言語モデル(LLM)をデプロイするサービスシステムの推論最適化について検討する。推論最適化問題を混合整数プログラミング(MIP)モデルとして定式化し,ハイブリッドオフライン方式をソリューションとして提案する。 LLaMA-65BモデルとGSM8Kデータセットの実際のデータを用いた実験では、システム利用率が80.2%から89.1%に改善され、総推定時間は201.00から190.58秒に短縮された。
論文参考訳（メタデータ） (2025-02-14T16:00:00Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)
EEE-QA: Exploring Effective and Efficient Question-Answer Representations [7.764629726412793]
疑問に答えるための現在のアプローチは、RoBERTaのような事前訓練された言語モデル(PLM)に依存している。この研究は、既存の質問応答符号化規約に挑戦し、より微細な表現を探求する。
論文参考訳（メタデータ） (2024-03-04T16:21:13Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文参考訳（メタデータ） (2023-10-10T15:33:51Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。 FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文参考訳（メタデータ） (2022-06-11T16:21:17Z)
An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文参考訳（メタデータ） (2021-08-19T07:03:22Z)
Distributed Learning and Democratic Embeddings: Polynomial-Time Source Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文参考訳（メタデータ） (2021-03-13T00:04:11Z)
Reversible Action Design for Combinatorial Optimization with Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文参考訳（メタデータ） (2021-02-14T18:05:42Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)
AutoPhase: Juggling HLS Phase Orderings in Random Forests with Deep Reinforcement Learning [17.584552398664737]
AutoPhaseは、プログラムを受け取り、深い強化学習を使用して、実行時間を最小限にするコンパイルパスのシーケンスを見つけるフレームワークである。本稿では,-O3コンパイラフラグを使用する場合と比較して,AutoPhaseは回路性能を28%向上することを示す。既存の最先端のソリューションとは異なり、我々の深層強化学習ソリューションは、実際のベンチマークを一般化する有望な結果を示している。
論文参考訳（メタデータ） (2020-03-02T05:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。