論文の概要: Enhancing Chain-of-Thought Reasoning with Critical Representation Fine-tuning
- arxiv url: http://arxiv.org/abs/2507.10085v1
- Date: Mon, 14 Jul 2025 09:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.579992
- Title: Enhancing Chain-of-Thought Reasoning with Critical Representation Fine-tuning
- Title(参考訳): 批判的表現微調整による思考の連鎖強化
- Authors: Chenxi Huang, Shaotian Yan, Liang Xie, Binbin Lin, Sinan Fan, Yue Xin, Deng Cai, Chen Shen, Jieping Ye,
- Abstract要約: Representation Fine-tuning (ReFT) は、表現空間のみを編集することでパラメータ効率を大幅に向上させることで、広く注目を集めている。
本稿では,情報フロー解析によりこれらの重要な表現を識別し,最適化する新しい手法であるCritical Representation Fine-Tuning(CRFT)を提案する。
LLaMAとMistralモデルファミリを用いて,算術的および常識的推論のための8つのベンチマークで検証を行った。
- 参考スコア(独自算出の注目度): 37.16998362490576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation Fine-tuning (ReFT), a recently proposed Parameter-Efficient Fine-Tuning (PEFT) method, has attracted widespread attention for significantly improving parameter efficiency by editing representation space alone. In this work, we investigate applying ReFT to complex reasoning tasks. However, directly using the native ReFT method, which modifies fixed representations at the beginning and end of each layer, yields suboptimal performance, as these fixed-position representations have uncertain impact on the outputs. We observe that, in complex reasoning tasks, there often exist certain critical representations. These representations either integrate significant information from preceding layers or regulate subsequent layer representations. Through layer-by-layer propagation, they exert a substantial influence on the final output. Naturally, fine-tuning these critical representations has the potential to greatly enhance reasoning performance. Building upon these insights, we propose Critical Representation Fine-Tuning (CRFT), a novel method that identifies and optimizes these critical representations through information flow analysis. CRFT operates within a supervised learning framework, dynamically optimizing critical representations in a low-rank linear subspace while freezing the base model. The effectiveness and efficiency of our method are validated across eight benchmarks for arithmetic and commonsense reasoning, using LLaMA and Mistral model families. Furthermore, our method also adapts effectively to few-shot settings, boosting one-shot accuracy by 16.4%. Our work highlights the untapped potential of representation-level optimization for CoT reasoning, offering a lightweight yet powerful alternative to traditional PEFT methods.
- Abstract(参考訳): Representation Fine-Tuning (ReFT) は,最近提案されたパラメータ効率の高いファインチューニング (PEFT) 法であり,表現空間のみを編集することでパラメータ効率を大幅に向上させる手法として広く注目を集めている。
本研究では,複雑な推論タスクに対するReFTの適用について検討する。
しかし、各層の始端における固定表現を修正したネイティブReFT法を直接使用すると、これらの固定配置表現が出力に不確実な影響を与えるため、準最適性能が得られる。
我々は、複雑な推論タスクにおいて、しばしば批判的な表現が存在することを観察する。
これらの表現は、前のレイヤから重要な情報を統合するか、後のレイヤ表現を規制する。
層間伝播により、最終出力に大きな影響を及ぼす。
当然、これらの重要な表現を微調整することは推論性能を大幅に向上させる可能性がある。
これらの知見に基づいて,情報フロー解析によりこれらの重要な表現を識別し,最適化する新しい手法であるCritical Representation Fine-Tuning(CRFT)を提案する。
CRFTは教師付き学習フレームワーク内で動作し、ベースモデルを凍結しながら低ランク線形部分空間における臨界表現を動的に最適化する。
LLaMAとMistralモデルファミリを用いて,算術的および常識的推論のための8つのベンチマークにおいて,本手法の有効性と効率を検証した。
さらに,本手法はショット数に効果的に対応し,ワンショット精度を16.4%向上させる。
我々の研究は、従来のPEFT法に代わる軽量で強力な代替手段を提供する、CoT推論のための表現レベル最適化の未解決の可能性を強調している。
関連論文リスト
- Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Next Token Perception Score: Analytical Assessment of your LLM Perception Skills [12.093755170926762]
Next Token Perception Score (NTPS) は、自己回帰的特徴空間と知覚的特徴部分空間の重なりを測定する線形設定の下で導出されるスコアである。
NTPSはローランク適応(LoRA)ファインチューニング後に増加し,特に大規模モデルでは顕著である。
本研究は, 理論的知見と, 知覚能力の分析的評価を行うための実践的ツールの両方を提供する。
論文 参考訳(メタデータ) (2025-05-22T17:18:51Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - Efficient Model-agnostic Alignment via Bayesian Persuasion [13.42367964190663]
本稿では,モデル非依存かつ軽量なベイズ型説得アライメントフレームワークを提案する。
説得プロセスでは、小さなモデル(アドバイザ)が情報項目(すなわち状態)を観察し、大きなモデル(Receiver)を説得して、改善された応答を引き出す。
GPT-2は様々なモデルの性能を大幅に向上させ,数学的推論能力の平均16.1%,コード生成能力は13.7%向上した。
論文 参考訳(メタデータ) (2024-05-29T02:57:07Z) - LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-25T07:09:10Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。