論文の概要: AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching
- arxiv url: http://arxiv.org/abs/2603.01006v1
- Date: Sun, 01 Mar 2026 09:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.458579
- Title: AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching
- Title(参考訳): AG-REPA:音声フローマッチングにおける表現アライメントのための因果層選択
- Authors: Pengfei Zhang, Tianxin Xie, Minghao Yang, Li Liu,
- Abstract要約: 本稿では,音声フローマッチングにおける表現アライメントのための新しい因果層選択戦略であるAG-REPAを紹介する。
セマンティック/音響情報を最もよく保存する層は、必ずしも生成を駆動する速度場に最も寄与する層であるとは限らない。
この知見を実用的なトレーニングガイダンスに変換するために,各レイヤの因果寄与を定量化するフォワードオンリーゲートアブレーション(FoG-A)を提案する。
- 参考スコア(独自算出の注目度): 14.922065513695294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: REPresentation Alignment (REPA) improves the training of generative flow models by aligning intermediate hidden states with pretrained teacher features, but its effectiveness in token-conditioned audio Flow Matching critically depends on the choice of supervised layers, which is typically made heuristically based on the depth. In this work, we introduce Attribution-Guided REPresentation Alignment (AG-REPA), a novel causal layer selection strategy for representation alignment in audio Flow Matching. Firstly, we find that layers that best store semantic/acoustic information (high teacher-space similarity) are not necessarily the layers that contribute most to the velocity field that drives generation, and we call it Store-Contribute Dissociation (SCD). To turn this insight into an actionable training guidance, we propose a forward-only gate ablation (FoG-A) that quantifies each layer's causal contribution via the induced change in the predicted velocity field, enabling sparse layer selection and adaptive weighting for alignment. Across unified speech and general-audio training (LibriSpeech + AudioSet) under different token-conditioning topologies, AG-REPA consistently outperforms REPA baselines. Overall, our results show that alignment is most effective when applied to the causally dominant layers that drive the velocity field, rather than to layers that are representationally rich but functionally passive.
- Abstract(参考訳): RePresentation Alignment (REPA) は、中間隠れ状態と事前訓練された教師の特徴を整合させることで、生成フローモデルのトレーニングを改善するが、トークン条件付き音声のフローマッチングの有効性は、一般に深さに基づいてヒューリスティックに作成される教師層の選択に大きく依存する。
本研究では,Attribution-Guided RePresentation Alignment (AG-REPA)を提案する。
まず、セマンティック/音響情報を最もよく保存する層(高教師空間の類似性)は、必ずしも生成を駆動する速度場に最も寄与する層ではないことを発見し、それをストア・コントリビュート・ディソシエーション(Store-Contribute Dissociation, SCD)と呼ぶ。
この知見を実行可能なトレーニングガイダンスに変換するために,予測速度場の変化による各層の因果寄与を定量化するフォワードオンリーゲートアブレーション(FoG-A)を提案し,スパース層選択とアライメントの適応重み付けを可能にする。
AG-REPAは、異なるトークン条件トポロジの下で、統一されたスピーチと一般オーディオトレーニング(LibriSpeech + AudioSet)を通じて、REPAベースラインを一貫して上回る。
以上の結果から,速度場を駆動する因果的に支配的な層にアライメントを適用すれば,表現的にリッチだが機能的に受動的である層よりも,アライメントが最も効果的であることが示唆された。
関連論文リスト
- General and Efficient Steering of Unconditional Diffusion [25.225845714398364]
非条件拡散を効率的に操るレシピを提案する。
推測中は 勾配誘導なしで
本手法は拡散モデル構造に関する2つの観測に基づいて構築されている。
CIFAR-10、ImageNet、CelebAの実験では、精度/品質のオーバーベース勾配ガイダンスが改善された。
論文 参考訳(メタデータ) (2026-02-11T21:58:26Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation [32.72685791637924]
オンラインクロスモーダル自己蒸留を行う統合アライメントフレームワークであるCORDを提案する。
具体的には、音声条件の推論とテキスト条件の推論を統一モデル内で一致させる。
複数のベンチマークにまたがる実験結果から、CORDは音声条件推論を一貫して強化することが示された。
論文 参考訳(メタデータ) (2026-01-23T08:31:24Z) - Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。
具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。
グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文 参考訳(メタデータ) (2025-10-14T00:58:34Z) - Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient [61.440209025381016]
ポリシー強化学習は、ディープニューラルネットワーク(DNN)を使用して、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。
特定の制約下では、我々はAction Collapse (AC)と呼ばれる神経崩壊に似た構造が出現する。
本稿では,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
論文 参考訳(メタデータ) (2025-09-02T18:33:11Z) - Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification [49.128847336227636]
EmoSphere-SERは球面VAD領域の分類を統合してVAD回帰を導出するジョイントモデルである。
本フレームワークでは,VAD値を複数の球面領域に分割した球面座標に変換し,各点がどの球面領域に属しているかを予測する。
論文 参考訳(メタデータ) (2025-05-26T08:50:23Z) - Self-Attention Generative Adversarial Network for Speech Enhancement [37.14341228976058]
音声強調のための既存のGAN(Generative Adversarial Network)は、畳み込み操作のみに依存している。
音声強調GANの畳み込み層, 畳み込み層, 畳み込み層, 畳み込み層と、非局所的な注意から適応した自己注意層を提案する。
実験の結果,SEGANに自己注意を導入することで,改善性能の客観的評価指標が一貫した改善につながることが示された。
論文 参考訳(メタデータ) (2020-10-18T22:59:07Z) - Speaker-change Aware CRF for Dialogue Act Classification [0.0]
ダイアログ法(DA)の分類における最近の研究は、シーケンスラベリング問題としてタスクにアプローチしている。
本稿では,話者変化を考慮したCRF層の簡易な修正を提案する。
論文 参考訳(メタデータ) (2020-04-06T18:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。