論文の概要: ECR: Manifold-Guided Semantic Cues for Compact Language Models
- arxiv url: http://arxiv.org/abs/2601.00543v1
- Date: Fri, 02 Jan 2026 03:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.506541
- Title: ECR: Manifold-Guided Semantic Cues for Compact Language Models
- Title(参考訳): ECR:コンパクト言語モデルのためのマニフォールドガイドセマンティックキュー
- Authors: Chung-Wei Victor Yuan,
- Abstract要約: 埋め込み整合性規制(ECR)と呼ばれる新しい枠組み
ECRは一貫してトレーニングを安定させ、タスクや言語間のセマンティック構造を保存する。
また、よりコンパクトでタスク対応の表現空間も生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compact models often lose the structure of their embedding space. The issue shows up when the capacity is tight or the data spans several languages. Such collapse makes it difficult for downstream tasks to build on the resulting representation. Existing compression methods focus on aligning model outputs at a superficial level but fail to preserve the underlying manifold structure. This mismatch often leads to semantic drift in the compact model, causing both task behavior and linguistic properties to deviate from the reference model. To address those issues, we provide a new framework called Embedding Consistency Regulation (ECR). This framework first derives a set of semantic anchors from teacher embeddings (computed once offline). Then, the compact model learns to maintain consistent geometry around these anchors, without relying on matching logits or internal features. ECR adds only a small projection step at inference, without altering the decoding architecture or its runtime behavior. In experiments on a 100K multilingual corpus, ECR consistently stabilizes training and preserves semantic structure across tasks and languages. It also produces a more compact and task-aligned representation space, enabling low-capacity models to learn cleaner manifolds than conventional baselines. ECR works without teacher outputs and is compatible with, but independent of, distillation. Taken together, our results show that ECR helps compact models better follow task requirements and makes them easier to deploy under strict efficiency or privacy limits.
- Abstract(参考訳): コンパクトモデルは、しばしば埋め込み空間の構造を失う。
問題は、キャパシティが厳しかったり、データが複数の言語にまたがった場合に現れる。
このような崩壊は、ダウンストリームタスクが結果の表現の上に構築するのを難しくする。
既存の圧縮法は表面レベルでのモデル出力の整合に重点を置いているが、基礎となる多様体構造を保存できない。
このミスマッチは、しばしばコンパクトモデルのセマンティックドリフトを引き起こし、タスクの振る舞いと言語特性の両方が参照モデルから逸脱する。
これらの問題に対処するため、私たちはEmbedding Consistency Regulation(ECR)と呼ばれる新しいフレームワークを提供しています。
このフレームワークはまず、教師の埋め込み(オフラインで計算された)からセマンティックアンカーのセットを導出する。
そして、コンパクトモデルは、ロジットや内部的特徴にマッチすることなく、これらのアンカーの周りで一貫した幾何を維持することを学習する。
ECRは、デコードアーキテクチャや実行時の振る舞いを変更することなく、推論時に小さなプロジェクションステップのみを追加する。
100Kの多言語コーパスの実験では、ECRは一貫してトレーニングを安定させ、タスクや言語間のセマンティック構造を保存する。
また、よりコンパクトでタスク対応の表現空間を生成し、低容量モデルが従来のベースラインよりもクリーンな多様体を学習できるようにする。
ECRは教師の出力なしで動作し、蒸留とは独立しているが互換性がある。
まとめると、ECRはコンパクトモデルがタスク要求に従うのに役立つことを示し、厳格な効率性やプライバシの制限下でのデプロイを容易にする。
関連論文リスト
- RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs [0.08594140167290097]
大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。
このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-29T04:47:14Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents [0.0]
既存のフレームワークは認知、記憶、制御をひとつのプロンプトで混ぜることが多く、一貫性と予測可能性を減らす。
構造化認知ループ (Structured Cognitive Loop, SCL) は、これらの機能を分離する代替アーキテクチャとして提案されている。
SCLの平均タスク成功率は86.3%であり、ベースラインは70.5から76.8%である。
論文 参考訳(メタデータ) (2025-09-23T17:43:17Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - SRKD: Towards Efficient 3D Point Cloud Segmentation via Structure- and Relation-aware Knowledge Distillation [25.38025028623991]
3Dポイントクラウドセグメンテーションは、大規模トランスフォーマーベースのモデルの計算複雑性とデプロイメント制限のため、現実的な課題に直面している。
SRKDと呼ばれる新しい構造と関係を意識した知識蒸留フレームワークを提案する。このフレームワークは、リッチな幾何学的および意味的な知識を、大きな凍結教師モデルから軽量の学生モデルに伝達する。
提案手法は,実世界の展開シナリオにおいて,モデル複雑性を大幅に低減し,その有効性と効率を実証する。
論文 参考訳(メタデータ) (2025-06-16T07:32:58Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。
SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。