論文の概要: Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2412.14780v1
- Date: Thu, 19 Dec 2024 12:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:02.053715
- Title: Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning
- Title(参考訳): 言語モデルファインチューニングのためのディエンタングリング推論トークンとボイルプレートトークン
- Authors: Ziang Ye, Zhenru Zhang, Yang Zhang, Jianxin Ma, Junyang Lin, Fuli Feng,
- Abstract要約: 特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。
本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。
SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
- 参考スコア(独自算出の注目度): 46.43130011147807
- License:
- Abstract: When using agent-task datasets to enhance agent capabilities for Large Language Models (LLMs), current methodologies often treat all tokens within a sample equally. However, we argue that tokens serving different roles - specifically, reasoning tokens versus boilerplate tokens (e.g., those governing output format) - differ significantly in importance and learning complexity, necessitating their disentanglement and distinct treatment. To address this, we propose a novel Shuffle-Aware Discriminator (SHAD) for adaptive token discrimination. SHAD classifies tokens by exploiting predictability differences observed after shuffling input-output combinations across samples: boilerplate tokens, due to their repetitive nature among samples, maintain predictability, whereas reasoning tokens do not. Using SHAD, we propose the Reasoning-highlighted Fine-Tuning (RFT) method, which adaptively emphasizes reasoning tokens during fine-tuning, yielding notable performance gains over common Supervised Fine-Tuning (SFT).
- Abstract(参考訳): エージェントタスクデータセットを使用して、LLM(Large Language Models)のエージェント機能を強化する場合、現在の方法論では、サンプル内のすべてのトークンを同じように扱うことが多い。
しかし、異なる役割(具体的には、トークンとボイラープレートトークン(例えば、出力フォーマットを管理するもの)の推論)を提供するトークンは、重要性と学習の複雑さに大きく異なり、それらの不絡み合いと異なる扱いを必要としている、と我々は論じている。
そこで本研究では,適応トークン識別のためのSHAD(Shuffle-Aware Discriminator)を提案する。
SHADは、サンプル間で入力と出力の組み合わせをシャッフルした後で観測された予測可能性の違いを利用してトークンを分類する。
SHADを用いて、ファインチューニング中の推論トークンを適応的に強調するReasoning-highlighted Fine-Tuning (RFT)法を提案する。
関連論文リスト
- Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks [13.600674179059238]
そこで本稿では,優先最適化トレーニングにおいて,各トークンに対応するKL分散と報酬の重み付けを自動的に学習する,フレキシブルな目標SparsePOを提案する。
提案手法では,目標タスクに応じて有意な重み付けを割り当て,所望の好みに応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。
論文 参考訳(メタデータ) (2024-10-07T15:01:29Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [20.979790612689992]
大規模視覚言語モデル(LVLM)の研究において、Mixture-of-Experts(MoE)が注目を集めている。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。
本稿ではトークンレベルの勾配解析に基づく新しい手法,すなわち解決トークンのグラディエント・コンフリクト(STGC)を提案する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。