Fugu-MT 論文翻訳(概要): Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction

論文の概要: Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction

arxiv url: http://arxiv.org/abs/2501.05336v1
Date: Thu, 09 Jan 2025 16:02:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.541628
Title: Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction
Title（参考訳）: Stream Aligner: 分散誘導による効率的な文レベルアライメント
Authors: Hantao Lou, Jiaming Ji, Kaile Wang, Yaodong Yang,
Abstract要約: Stream Alignerは,生成プロセスを通じて,効率性とさまざまなタスクのパフォーマンス向上を両立させる。 Alignerと比較して、Stream Alignerは追加モデルの能力への依存を減らし、LCMの推論能力を高め、ユーザインタラクションのレイテンシを低減します。
参考スコア（独自算出の注目度）: 6.624814871290537
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of large language models (LLMs) has led to significant improvements in their capabilities, but also to increased concerns about their alignment with human values and intentions. Current alignment strategies, including adaptive training and inference-time methods, have demonstrated potential in this area. However, these approaches still struggle to balance deployment complexity and capability across various tasks and difficulties. In this work, we introduce the Streaming Distribution Induce Aligner (Stream Aligner), a novel alignment paradigm that combines efficiency with enhanced performance in various tasks throughout the generation process. Stream Aligner achieves dynamic sentence-level correction by using a small model to learn the preferences of the suffix sentence, iteratively correcting the suffix sentence output by the upstream model, and then using the corrected sentence to replace the suffix sentence in subsequent generations. Compared to Aligner, our experiments demonstrate that Stream Aligner reduces reliance on the capabilities of additional models, enhances the reasoning abilities of LLMs, and decreases latency during user interaction. Specifically, Stream Aligner-2B model has achieved an improvement of 76.1% in helpfulness, 36.0% in harmlessness on the tested Llama2-70B-chat model, and Stream Aligner-8B has achieved an improvement of 3.5% on the math ability of the tested Llama3-70B-Instruct model.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、その能力を大幅に向上させただけでなく、人間の価値観や意図との整合性への懸念も高まった。現在のアライメント戦略は、適応トレーニングや推論時間法を含む、この分野におけるポテンシャルを実証している。しかしながら、これらのアプローチは、さまざまなタスクや困難に対して、デプロイメントの複雑さと能力のバランスをとるのに依然として苦労しています。本稿では,ストリーム配信誘導アリグナー(Stream Aligner,Streaming Distribution Induce Aligner,Stream Aligner)について紹介する。ストリームアリグナーは、小さなモデルを用いて接尾辞文の嗜好を学習し、上流モデルによって出力される接尾辞文を反復的に修正し、修正された文を使用して接尾辞文を次の世代で置き換えることにより、動的な文レベルの補正を行う。 Alignerと比較すると、Stream Alignerは追加モデルの能力への依存を減らし、LCMの推論能力を高め、ユーザインタラクションのレイテンシを低減する。具体的には、Stream Aligner-2Bモデルが76.1%、Llama2-70B-Chatモデルで36.0%改善され、Stream Aligner-8BはLlama3-70B-Instructモデルの数学能力で3.5%改善された。

関連論文リスト

ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models [9.509429747913519]
大規模言語モデル(LLM)は、情報が漸進的に提示されるとき、多ターン会話において顕著なパフォーマンス劣化を被る。本稿では,次のトークン分布に対するシャノンエントロピーによる内部不確かさの定量化を行うERGOを紹介する。 ERGOは言語とモデリングにおける可変性を採用し、不確実性を表現する。
論文参考訳（メタデータ） (2025-10-15T20:33:08Z)
Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文参考訳（メタデータ） (2025-06-07T21:23:00Z)
Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification [33.05591553169347]
トレーニング不要なアライメント拡張型投機的復号アルゴリズムを提案する。提案手法は,平均受理長を2.39まで,生成速度を2.23倍に向上させる。
論文参考訳（メタデータ） (2025-05-19T14:55:41Z)
ARIES: Stimulating Self-Refinement of Large Language Models by Iterative Preference Optimization [34.77238246296517]
真にインテリジェントなLarge Language Model (LLM) は、外部インタラクションを通じて応答のエラーを修正する能力を持つべきである。 ARIES: Adaptive Refinement and Iterative Enhancement Structure。 ARIESは、反復的に好みのトレーニングと自己修正に基づくデータ収集を行う。
論文参考訳（メタデータ） (2025-02-08T15:21:55Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。本稿では,この課題に初めて挑戦する。
論文参考訳（メタデータ） (2024-06-27T05:25:46Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文参考訳（メタデータ） (2024-02-04T09:24:51Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。 NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:54:53Z)
RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文参考訳（メタデータ） (2020-05-07T06:24:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。