論文の概要: Streaming Anchor Loss: Augmenting Supervision with Temporal Significance
- arxiv url: http://arxiv.org/abs/2310.05886v2
- Date: Thu, 18 Apr 2024 06:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:49:22.924865
- Title: Streaming Anchor Loss: Augmenting Supervision with Temporal Significance
- Title(参考訳): ストリーミングアンカー損失:時間的意味を持つスーパービジョンの増大
- Authors: Utkarsh Oggy Sarawgi, John Berkowitz, Vineet Garg, Arnav Kundu, Minsik Cho, Sai Srujana Buddi, Saurabh Adya, Ahmed Tewfik,
- Abstract要約: 様々な音声や知覚信号に対する高速なフレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。
本稿では,学習能力の向上を目的とした新たな損失SAL(Streaming Anchor Loss)を提案する。
- 参考スコア(独自算出の注目度): 5.7654216719335105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming neural network models for fast frame-wise responses to various speech and sensory signals are widely adopted on resource-constrained platforms. Hence, increasing the learning capacity of such streaming models (i.e., by adding more parameters) to improve the predictive power may not be viable for real-world tasks. In this work, we propose a new loss, Streaming Anchor Loss (SAL), to better utilize the given learning capacity by encouraging the model to learn more from essential frames. More specifically, our SAL and its focal variations dynamically modulate the frame-wise cross entropy loss based on the importance of the corresponding frames so that a higher loss penalty is assigned for frames within the temporal proximity of semantically critical events. Therefore, our loss ensures that the model training focuses on predicting the relatively rare but task-relevant frames. Experimental results with standard lightweight convolutional and recurrent streaming networks on three different speech based detection tasks demonstrate that SAL enables the model to learn the overall task more effectively with improved accuracy and latency, without any additional data, model parameters, or architectural changes.
- Abstract(参考訳): 様々な音声や知覚信号に対する高速なフレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。
したがって、予測能力を向上させるために、そのようなストリーミングモデルの学習能力(すなわち、より多くのパラメータを追加することで)を増大させることは、現実世界のタスクでは不可能である。
本研究では,学習能力の向上を目的とした新たな損失SAL(Streaming Anchor Loss)を提案する。
より具体的には、我々のSALとその焦点変動は、対応するフレームの重要度に基づいてフレーム単位のクロスエントロピー損失を動的に変調し、セマンティッククリティカルイベントの時間的近接におけるフレームにより高い損失ペナルティを割り当てる。
したがって、モデルトレーニングが比較的稀だがタスク関連フレームの予測に重点を置いていることが保証される。
3つの異なる音声ベース検出タスクにおける標準的な軽量畳み込みおよび繰り返しストリーミングネットワークによる実験結果から、SALは、追加のデータやモデルパラメータ、アーキテクチャの変更なしに、精度とレイテンシを改善して、モデルが全体的なタスクをより効率的に学習できることを示した。
関連論文リスト
- ODEStream: A Buffer-Free Online Learning Framework with ODE-based Adaptor for Streaming Time Series Forecasting [11.261457967759688]
ODEStreamはバッファフリーの継続的学習フレームワークで、データに時間的依存関係を統合する時間的分離レイヤを備えている。
提案手法は,履歴データの動的および分布が時間とともにどのように変化するかを学ぶことに焦点を当て,ストリーミングシーケンスの直接処理を容易にする。
ベンチマーク実世界のデータセットによる評価は、ODEStreamが最先端のオンライン学習とストリーミング分析のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-11T22:36:33Z) - TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Interference Cancellation GAN Framework for Dynamic Channels [74.22393885274728]
チャネルのあらゆる変更に適応できるオンライントレーニングフレームワークを導入します。
我々のフレームワークは、非常にダイナミックなチャネル上での最近のニューラルネットワークモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-08-17T02:01:18Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - Enabling Continual Learning with Differentiable Hebbian Plasticity [18.12749708143404]
連続学習は、獲得した知識を保護しながら、新しいタスクや知識を順次学習する問題である。
破滅的な忘れ物は、そのような学習プロセスを実行するニューラルネットワークにとって、大きな課題となる。
微分可能なヘビアン塑性からなるヘビアンコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2020-06-30T06:42:19Z) - Network Diffusions via Neural Mean-Field Dynamics [52.091487866968286]
本稿では,ネットワーク上の拡散の推論と推定のための新しい学習フレームワークを提案する。
本研究の枠組みは, ノード感染確率の正確な進化を得るために, モリ・ズワンジッヒ形式から導かれる。
我々のアプローチは、基礎となる拡散ネットワークモデルのバリエーションに対して多用途で堅牢である。
論文 参考訳(メタデータ) (2020-06-16T18:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。