論文の概要: History-Aware Cross-Attention Reinforcement: Self-Supervised Multi Turn and Chain-of-Thought Fine-Tuning with vLLM
- arxiv url: http://arxiv.org/abs/2506.11108v1
- Date: Sun, 08 Jun 2025 01:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.46788
- Title: History-Aware Cross-Attention Reinforcement: Self-Supervised Multi Turn and Chain-of-Thought Fine-Tuning with vLLM
- Title(参考訳): 歴史を意識したクロスアテンション強化:vLLMによる自己監督型マルチターンとチェーンオブソートファインタニング
- Authors: Andrew Kiruluta, Andreas Lemos, Priscilla Burity,
- Abstract要約: 本稿では,CAGSR-vLLM-MTC(Self-Supervised Cross-Attention-Guided Reinforcement)フレームワークの拡張版について述べる。
VLLMのC++/CUDAカーネルを最初に実装し、生成時に層ごと、頭ごとのクロスアテンション重みを非同期にキャプチャした。
次に、自己指導型報酬関数を一般化し、会話履歴全体と中間連鎖ステップに注意信号を蓄積する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CAGSR-vLLM-MTC, an extension of our Self-Supervised Cross-Attention-Guided Reinforcement (CAGSR) framework, now implemented on the high-performance vLLM runtime, to address both multi-turn dialogue and chain-of-thought reasoning. Building upon our original single-turn approach, we first instrumented vLLM's C++/CUDA kernels to asynchronously capture per-layer, per-head cross-attention weights during generation. We then generalized our self-supervised reward function to accumulate attention signals over entire conversation histories and intermediate chain-of-thought steps. We discuss practical trade-offs, including an entropy-based clamping mechanism to prevent attention collapse on early context, and outline future directions for multi-party dialogues and hierarchical reasoning.
- Abstract(参考訳): 本稿では,高速なvLLMランタイム上に実装されているCAGSR-vLLM-MTC(Self-Supervised Cross-Attention-Guided Reinforcement)フレームワークの拡張について述べる。
VLLMのC++/CUDAカーネルを最初に実装し、生成時に層毎、頭毎のクロスアテンション重みを非同期にキャプチャした。
次に、自己指導型報酬関数を一般化し、会話履歴全体と中間連鎖ステップに注意信号を蓄積する。
本稿では,エントロピーに基づくクラッピング機構によって早期の文脈における注意の崩壊を防止し,多人数対話や階層的推論の今後の方向性を概説する。
関連論文リスト
- A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals [0.0]
本稿では,ループフィードバックにおいて人間に依存しない大規模言語モデルのための新しい強化学習フレームワークを提案する。
代わりに、我々のアプローチでは、モデル自体内のクロスアテンション信号を使用して、自己教師付き報酬を導き出す。
論文 参考訳(メタデータ) (2025-02-14T01:44:04Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Reasoning over Hybrid Chain for Table-and-Text Open Domain QA [69.8436986668218]
我々はChAin中心の推論と事前学習フレームワーク(CARP)を提案する。
CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。
また,クロスモダリティ推論プロセスの同定において,事前学習モデルを強化するために,新しいチェーン中心の事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T16:11:55Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。