論文の概要: Harmonic Loss Trains Interpretable AI Models
- arxiv url: http://arxiv.org/abs/2502.01628v2
- Date: Thu, 10 Jul 2025 04:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:07.773815
- Title: Harmonic Loss Trains Interpretable AI Models
- Title(参考訳): Harmonic Loss Trainsの解釈可能なAIモデル
- Authors: David D. Baek, Ziming Liu, Riya Tyagi, Max Tegmark,
- Abstract要約: ニューラルネットワークと大規模言語モデルの訓練のための代替信号として調和損失を導入する。
まず、アルゴリズム、ビジョン、言語データセット間での調和モデルの性能を検証する。
a) 解釈可能性の向上, (b) 一般化のために少ないデータを必要とすること, (c) グルーキングを減らすことによる。
- 参考スコア(独自算出の注目度): 13.745919535064429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce harmonic loss as an alternative supervisory signal for training neural networks and large language models (LLMs). Harmonic loss differs from standard cross-entropy loss by (a) replacing the usual SoftMax normalization with a scale-invariant HarMax function and (b) computing logits via Euclidean distance rather than a dot product. Harmonic loss enables improved interpretability and faster convergence, owing to its scale invariance and finite convergence point by design, which can be interpreted as a class center. We first validate the performance of harmonic models across algorithmic, vision, and language datasets. Through extensive experiments, we demonstrate that models trained with harmonic loss perform better than standard models by: (a) enhancing interpretability, (b) requiring less data for generalization, and (c) reducing grokking. Moreover, we compare a GPT-2 model trained with harmonic loss to the standard GPT-2, illustrating that the harmonic model develops more interpretable representations. Looking forward, we believe harmonic loss may become a valuable tool in domains with limited data availability or in high-stakes applications where interpretability and reliability are paramount, paving the way for more robust and efficient neural network models.
- Abstract(参考訳): 本稿では,ニューラルネットワークと大規模言語モデル(LLM)を訓練するための代替信号として調和損失を導入する。
高調波損失は標準エントロピー損失と異なる
(a) 通常のSoftMax正規化をスケール不変なHarMax関数に置き換える
b) ドット積ではなくユークリッド距離によるロジットの計算。
調和損失は、そのスケール不変性とクラス中心として解釈できる設計による有限収束点により、解釈可能性の向上と高速収束を可能にする。
まず、アルゴリズム、ビジョン、言語データセット間での調和モデルの性能を検証する。
広範にわたる実験を通して、調和損失で訓練されたモデルが標準モデルより優れていることを示す。
(a)解釈可能性を高めること
b) 一般化のために少ないデータを必要とすること、
(c)グルーキングを減らす。
さらに、調和損失を訓練したGPT-2モデルを標準GPT-2と比較し、調和モデルの方がより解釈可能な表現を発達させることを示した。
今後は、データ可用性が制限されたドメインや、解釈可能性と信頼性が最優先される高レベルのアプリケーションにおいて、ハーモニック損失が貴重なツールになり、より堅牢で効率的なニューラルネットワークモデルへの道を開くだろう、と私たちは考えています。
関連論文リスト
- Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。
ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。
収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文 参考訳(メタデータ) (2025-06-23T15:20:58Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Harmonic Machine Learning Models are Robust [3.263224198355111]
我々は、任意の機械学習モデルの堅牢性をテストするための強力で直感的な方法であるハーモニックロバストネスを紹介する。
これは高調波平均値特性からの関数的偏差に基づいており、不安定性と説明可能性の欠如を示している。
論文 参考訳(メタデータ) (2024-04-29T16:07:36Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Towards interpretable-by-design deep learning algorithms [11.154826546951414]
I という名前のフレームワークは、標準教師付き分類問題をトレーニングデータから派生したプロトタイプのセットに類似した関数に再キャストする。
本稿では,そのようなDLモデルを概念的にシンプルで説明可能なプロトタイプモデルにすることができることを示す。
論文 参考訳(メタデータ) (2023-11-19T18:40:49Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - Outlier-robust neural network training: variation regularization meets trimmed loss to prevent functional breakdown [2.5628953713168685]
我々は,高度に表現力のあるニューラルネットワークを用いた外乱予測モデリングの課題に取り組む。
提案手法は,(1)変換トリミング損失(TTL)と(2)高次変動正規化(HOVR)の2つの重要な要素を統合し,予測関数に滑らかさの制約を課す。
論文 参考訳(メタデータ) (2023-08-04T12:57:13Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - On the failure of variational score matching for VAE models [3.8073142980733]
本稿では,多様なデータセットやネットワークアーキテクチャ上での破滅的な障害を示す,既存の変分SM目標に対する批判的研究について述べる。
可変オートエンコーダ (VAE) モデルを最適化する際に, 等価な自動エンコード損失から目的に関する理論的知見が直接現れる。
論文 参考訳(メタデータ) (2022-10-24T16:43:04Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Shaping Deep Feature Space towards Gaussian Mixture for Visual
Classification [74.48695037007306]
視覚分類のためのディープニューラルネットワークのためのガウス混合損失関数(GM)を提案する。
分類マージンと可能性正規化により、GM損失は高い分類性能と特徴分布の正確なモデリングの両方を促進する。
提案したモデルは、追加のトレーニング可能なパラメータを使わずに、簡単かつ効率的に実装できる。
論文 参考訳(メタデータ) (2020-11-18T03:32:27Z) - Supervised Contrastive Learning for Pre-trained Language Model
Fine-tuning [23.00300794016583]
最先端の自然言語理解分類モデルは2段階に従う。
微調整段階に対する教師付きコントラスト学習(SCL)の目的を提案する。
提案した微調整目的は、微調整訓練データにおいて、異なるレベルのノイズに対してより堅牢なモデルに導かれる。
論文 参考訳(メタデータ) (2020-11-03T01:10:39Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。