論文の概要: Unveiling Markov Heads in Pretrained Language Models for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.06985v2
- Date: Fri, 06 Jun 2025 19:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 01:40:32.482111
- Title: Unveiling Markov Heads in Pretrained Language Models for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための事前学習言語モデルにおけるマルコフの解答
- Authors: Wenhao Zhao, Qiushui Xu, Linjie Xu, Lei Song, Jinyu Wang, Chunlai Zhou, Jiang Bian,
- Abstract要約: 我々は,事前学習言語モデル(PLM)から決定変換器(DT)への知識が,オフライン強化学習(RL)において大きな注目を集めていることを示す。
PLMはRLタスクでうまく機能し、興味深い疑問を提起します。
本稿では,事前学習したDTとMoA(Mixture of Attention)を併用したGPT2-DTMAを提案する。
- 参考スコア(独自算出の注目度): 10.631495275246428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, incorporating knowledge from pretrained language models (PLMs) into decision transformers (DTs) has generated significant attention in offline reinforcement learning (RL). These PLMs perform well in RL tasks, raising an intriguing question: what kind of knowledge from PLMs has been transferred to RL to achieve such good results? This work first dives into this problem by analyzing each head quantitatively and points out Markov head, a crucial component that exists in the attention heads of PLMs. It leads to extreme attention on the last-input token and performs well only in short-term environments. Furthermore, we prove that this extreme attention cannot be changed by re-training embedding layer or fine-tuning. Inspired by our analysis, we propose a general method GPT2-DTMA, which equips a pretrained DT with Mixture of Attention (MoA), to accommodate diverse attention requirements during fine-tuning. Extensive experiments corroborate our theorems and demonstrate the effectiveness of GPT2-DTMA: it achieves comparable performance in short-term environments while significantly narrowing the performance gap in long-term environments.
- Abstract(参考訳): 近年,事前学習言語モデル(PLM)からの知識を意思決定変換器(DT)に組み込むことで,オフライン強化学習(RL)に大きな注目を集めている。
これらのPLMはRLタスクでうまく機能し、興味深い疑問を提起します。
この研究はまず、各頭部を定量的に分析し、PLMの注目ヘッドに存在する重要な成分であるマルコフヘッドを指摘した。
これは、最後の入力トークンに極端に注意を向け、短期環境でのみうまく機能する。
さらに, 組込み層や微調整を再訓練することで, この極端な注意を変更できないことを示す。
そこで本研究では,事前学習したDTとMixture of Attention (MoA)を併用したGPT2-DTMAを提案する。
GPT2-DTMAは短期環境では同等の性能を示しながら、長期環境では性能ギャップを著しく狭めている。
関連論文リスト
- Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection [9.555955025064895]
本研究では、推論集約型事前学習データを特定するために、注意の影響を提案する。
我々のアプローチは、簡単な注意頭マスキング操作により、訓練済みの小さな言語モデルを強力なデータセレクタとして機能させることができる。
実験結果から,知識集約型および推論重度ベンチマークにおいて,1.4ppから3.5ppまでの大幅な改善が得られた。
論文 参考訳(メタデータ) (2025-05-12T07:25:51Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models [52.8949080772873]
本稿では,ER-APTと呼ばれる進化型領域逆アプティブチューニング手法を提案する。
各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。
次に、AEsを最適化するために、選択、突然変異、交差を含む遺伝的進化機構を適用する。
最終進化型AEは、従来の単点対向的な高速チューニングの代わりに、地域ベースの対向最適化を実現するために用いられる。
論文 参考訳(メタデータ) (2025-03-17T07:08:47Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretraining [34.93043212352875]
TapWeightはタスク適応型事前学習フレームワークで、各事前学習対象の最適な重要性を自動的に決定する。
我々はTapWeightを分子特性予測と自然言語理解タスクの両方に適用し,ベースライン法をはるかに上回った。
論文 参考訳(メタデータ) (2024-10-13T20:56:13Z) - Meta-TTT: A Meta-learning Minimax Framework For Test-Time Training [5.9631503543049895]
テスト時ドメイン適応は、推論中に制限された未ラベルのターゲットデータに事前訓練されたモデルを適用することを目的とした、困難なタスクである。
本稿では,バッチ正規化レイヤ上でのテスト時間トレーニングを行うためのメタラーニングミニマックスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:16:05Z) - How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Evolving Domain Adaptation of Pretrained Language Models for Text
Classification [24.795214770636534]
進化するドメインシフト(EDS)の中で、時系列テキスト分類に事前訓練された言語モデル(PLM)を適用することは、スタンス検出のようなアプリケーションにおける精度を維持するために重要である。
本研究では, 自己学習, ドメイン・アドバイザリ・トレーニング, ドメイン・アダプティブ・プレトレーニングなど, 進化するドメイン適応(EDA)戦略の有効性を, 漸進的な自己学習手法に焦点をあてて評価する。
論文 参考訳(メタデータ) (2023-11-16T08:28:00Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - PGTRNet: Two-phase Weakly Supervised Object Detection with Pseudo Ground
Truth Refining [10.262660606897974]
画像レベルのアノテーションだけで検知器を訓練することを目的とした弱い監視対象検出(WSOD)が注目されている。
現在の最先端のアプローチは、主に2段階のトレーニング戦略に従い、完全な教師付き検出器(FSD)と純粋なWSODモデルを統合する。
2相WSODアプローチの性能を阻害する主な問題は2つある。すなわち、不十分な学習問題と、WSODモデルによって生成されたFSDと擬似基底真理との厳密な依存である。
本稿では, 単純かつ効果的な手法である擬似基底真理改善ネットワーク(PGTRNet)を提案する。
論文 参考訳(メタデータ) (2021-08-25T19:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。