論文の概要: Similarity-Distance-Magnitude Language Models
- arxiv url: http://arxiv.org/abs/2510.26183v1
- Date: Thu, 30 Oct 2025 06:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.68598
- Title: Similarity-Distance-Magnitude Language Models
- Title(参考訳): 類似-距離-マグニチュード言語モデル
- Authors: Allen Schmaltz,
- Abstract要約: 我々は、SDM言語モデル(LM)を紹介する。
LMは、命令追従のバイナリ分類に使用される最終層SDM活性化層によって分割された、よく校正された高確率領域における世代の割合を最大化するために微調整されたシーケンス予測モデルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Similarity-Distance-Magnitude (SDM) language models (LMs), which are sequence prediction models fine-tuned to maximize the proportion of generations in the well-calibrated, high-probability region partitioned by a final-layer SDM activation layer used for binary classification of instruction-following. We demonstrate that existing pre-trained decoder-only Transformer LMs can be readily converted into SDM LMs via supervised fine-tuning, using the final-layer SDM activation layer during training to estimate a change-of-base for a supervised next-token loss over a contrastive input encoding scheme, with additional hard negative examples generated online during training. This results in reduced abstentions (i.e., improved statistical efficiency) compared to strong supervised baselines.
- Abstract(参考訳): 命令追従のバイナリ分類に使用する最終層SDMアクティベーション層によって分割された、よく校正された高確率領域における世代の割合を最大化するために微調整されたシーケンス予測モデルであるSDM言語モデル(Simisity-Distance-Magnitude)を導入する。
我々は,既存のトレーニング済みデコーダのみのトランスフォーマーLMを,教師付き微調整により簡単にSDM LMに変換できることを示し,トレーニング中に,教師付き次トーケンの損失に対するベース変更を,対照的な入力符号化方式で推定するために最終層SDMアクティベーション層を用いて,トレーニング中にオンラインに生成する付加的な負の例を示す。
この結果、強い教師付きベースラインに比べて禁忌率(統計効率の向上)が低下する。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Advancing Sequential Numerical Prediction in Autoregressive Models [26.759068834681738]
本稿では,このギャップに対処するため,数値トークン積分損失(NTIL)を提案する。
NTIL は、(1) トークンレベル、(2) 数値間の順序関係を維持するためにアース・モーバーの距離(EMD)を延ばし、(2) シーケンスレベル、(2) 予測されたシーケンスと実際のシーケンス間の全体的な不一致を罰する。
論文 参考訳(メタデータ) (2025-05-19T13:11:28Z) - Tuning Language Models by Mixture-of-Depths Ensemble [23.10522891268232]
Transformer-based Large Language Models (LLMs) は伝統的に、トレーニングのための最終層損失と予測のための最終層表現に依存している。
中間層にトレーニングを集中させることで、最終層に匹敵するトレーニング損失が得られることが分かりました。
我々は,後期層を最終ロジットに寄与するアンサンブルとして訓練する新しいチューニングフレームワークであるMixture-of-Depths(MoD)を導入する。
論文 参考訳(メタデータ) (2024-10-16T22:51:45Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - An ML-assisted OTFS vs. OFDM adaptable modem [1.8492669447784602]
OTFSおよびOFDM波形は、レガシーアーキテクチャの再利用、レシーバ設計の単純さ、低複雑さ検出の利点を享受する。
本稿では,送信機におけるOTFSまたはOFDM信号処理チェーンと受信機とを切り替えて,平均二乗誤差(MSE)性能を最適化するディープニューラルネットワーク(DNN)に基づく適応方式を提案する。
論文 参考訳(メタデータ) (2023-09-04T02:33:44Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - A Multi-Scale Tensor Network Architecture for Classification and
Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。
我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。
ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文 参考訳(メタデータ) (2020-01-22T21:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。