論文の概要: X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs
- arxiv url: http://arxiv.org/abs/2603.24596v2
- Date: Mon, 30 Mar 2026 04:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.03272
- Title: X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs
- Title(参考訳): X-OPD:音声LLMにおける機能アライメントのためのクロスモーダルオンポリシィ蒸留
- Authors: Di Cao, Dongjie Fu, Hai Yu, Siqi Zheng, Xu Tan, Tao Jin,
- Abstract要約: X-OPDは、Speech LLMの機能をテキストベースのものと整合させるように設計された新しいフレームワークである。
X-OPDは、モデル固有の機能を維持しながら、複雑なタスクのギャップを著しく狭めます。
- 参考スコア(独自算出の注目度): 30.665122798466015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the shift from cascaded dialogue systems to end-to-end (E2E) speech Large Language Models (LLMs) improves latency and paralinguistic modeling, E2E models often exhibit a significant performance degradation compared to their text-based counterparts. The standard Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) training methods fail to close this gap. To address this, we propose X-OPD, a novel Cross-Modal On-Policy Distillation framework designed to systematically align the capabilities of Speech LLMs to their text-based counterparts. X-OPD enables the Speech LLM to explore its own distribution via on-policy rollouts, where a text-based teacher model evaluates these trajectories and provides token-level feedback, effectively distilling teacher's capabilities into student's multi-modal representations. Extensive experiments across multiple benchmarks demonstrate that X-OPD significantly narrows the gap in complex tasks while preserving the model's inherent capabilities.
- Abstract(参考訳): ケースド・ダイアログ・システムからエンド・ツー・エンド(E2E)音声へのシフトにより、Large Language Models (LLM) はレイテンシとパラ言語的モデリングを改善するが、E2Eモデルはテキストベースのモデルに比べて大きなパフォーマンス劣化を示すことが多い。
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) のトレーニング手法は、このギャップを埋めることができない。
そこで本研究では,音声LPMの機能をテキストベースのものと体系的に整合させる新しいクロスモーダル・オン・ポリシィ蒸留フレームワークであるX-OPDを提案する。
X-OPDは、テキストベースの教師モデルでこれらの軌跡を評価し、トークンレベルのフィードバックを提供することで、教師の能力を学生のマルチモーダル表現に効果的に蒸留することができる。
複数のベンチマークにわたる大規模な実験により、X-OPDはモデル固有の能力を保ちながら複雑なタスクのギャップを著しく狭めることを示した。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time [12.659582318581606]
Vision Foundation Models (VFM) や Multimodal Large Language Models (MLLM) といった現在のアプローチでは意味理解が強化されているが、微調整時に高い計算オーバーヘッドと限られたクロスドメイン転送性に悩まされている。
本稿では,直接類似度スコアリングのためのガイダンスベースの手法を用いて,視覚言語アライメント機能を活用したテスト時間スケーリング(TTS)を用いた新しいフレームワークを提案する。
提案手法では,長さ制御可能なスコアアウトプットを生成する構造的プロンプトを用いることで,2段階処理を除去する。
論文 参考訳(メタデータ) (2025-09-02T09:25:13Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring [0.0]
本稿では,第二言語学習における適応型チューターとしてのLarge Language Models(LLMs)の可能性について検討する。
スペイン語の教師と学生の対話を,7Bから12Bまでの大きさの命令調整型オープンソースのLLMを用いてシミュレートした。
次に、チューターモデルからの出力を用いて、3つの習熟度レベルにわたるテキストの難易度を制御するCEFRベースのプロンプトの有効性を評価する。
論文 参考訳(メタデータ) (2025-05-13T08:50:57Z) - Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。
そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。
コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-01T09:10:27Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。