このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220409となっている論文です。

PDF登録状況(公開日: 20220409)

TitleAuthorsAbstract論文公表日・翻訳日
# エッジTPU上でのオンデバイスMLのための効率的なニューラルネットワークの探索

Searching for Efficient Neural Architectures for On-Device ML on Edge TPUs ( http://arxiv.org/abs/2204.14007v1 )

ライセンス: Link先を確認
Berkin Akin, Suyog Gupta, Yun Long, Anton Spiridonov, Zhuo Wang, Marie White, Hao Xu, Ping Zhou, Yanqi Zhou(参考訳) オンデバイスMLアクセラレータは、現代のモバイルシステムオンチップ(SoC)において標準になっている。 neural architecture search (nas)は、これらのアクセラレータによって提供される高い計算スループットを効率的に利用するために救助される。 しかし、既存のNASフレームワークは、複数のタスクと異なるターゲットプラットフォームへのスケーリングにおいて、いくつかの実用的な制限がある。 本研究では,この課題に対する2つのアプローチを提案します。 一 モデルコスト評価、検索空間設計及びNASアルゴリズムを分離し、様々なデバイス上でのMLタスクを迅速にターゲットするNAS対応基盤 (II)グループ畳み込みに基づく逆ボトルネック(IBN)による探索空間は、MLアクセラレーター上で柔軟な品質/性能トレードオフを提供し、既存の完全および深度畳み込みに基づくISNを補完する。 このアプローチを使用することで、最先端のモバイルプラットフォームであるGoogle Tensor SoCをターゲットとし、さまざまなコンピュータビジョン(分類、検出、セグメンテーション)や自然言語処理タスクのクオリティ-パフォーマンスのパレートフロンティアを改善するニューラルネットワークを実証する。

On-device ML accelerators are becoming a standard in modern mobile system-on-chips (SoC). Neural architecture search (NAS) comes to the rescue for efficiently utilizing the high compute throughput offered by these accelerators. However, existing NAS frameworks have several practical limitations in scaling to multiple tasks and different target platforms. In this work, we provide a two-pronged approach to this challenge: (i) a NAS-enabling infrastructure that decouples model cost evaluation, search space design, and the NAS algorithm to rapidly target various on-device ML tasks, and (ii) search spaces crafted from group convolution based inverted bottleneck (IBN) variants that provide flexible quality/performance trade-offs on ML accelerators, complementing the existing full and depthwise convolution based IBNs. Using this approach we target a state-of-the-art mobile platform, Google Tensor SoC, and demonstrate neural architectures that improve the quality-performance pareto frontier for various computer vision (classification, detection, segmentation) as well as natural language processing tasks.
翻訳日:2022-05-16 01:10:30 公開日:2022-04-09
# 物理インフォームドニューラルネットワーク(PINN)を用いた2次元土壌固化予測のための深層学習手法

A Deep Learning Approach for Predicting Two-dimensional Soil Consolidation Using Physics-Informed Neural Networks (PINN) ( http://arxiv.org/abs/2205.05710v1 )

ライセンス: Link先を確認
Yue Lu, Gang Mei, Francesco Piccialli(参考訳) 地盤の固化は、地盤工学的な建物や基礎の浸透、安定性、沈降と密接に関連しており、上層構造物の使用と安全性に直接影響している。 現在、土壌の一方向収束理論は特定の条件や近似計算に広く用いられている。 土壌固化の多方向理論は、実際的な応用における一方向理論よりも妥当であるが、指数決定と解の点でより複雑である。 そこで本論文では,2次元地盤の固化に伴う間隙水圧の予測のために,物理インフォームドニューラルネットワーク(pinn)を用いた深層学習法を提案する。 提案手法では,(1)完全に連結されたニューラルネットワークを構築し,(2)計算領域,偏微分方程式(PDE),および制約を定義してモデルトレーニングのためのデータを生成し,(3)2次元の土壌凝縮のPDEとニューラルネットワークのモデルとを接続してモデルの損失を低減する。 提案手法の有効性をPDEの数値解との比較により検証した。 この手法により, 余剰の細孔水圧を簡便かつ効率的に予測できる。 また,中国天津港の実例において,基礎地における土壌の細孔水圧を推定するために,本手法を適用した。 提案した深層学習手法は, 大規模かつ複雑な多方向土壌統合の研究に利用できる。

Soil consolidation is closely related to seepage, stability, and settlement of geotechnical buildings and foundations, and directly affects the use and safety of superstructures. Nowadays, the unidirectional consolidation theory of soils is widely used in certain conditions and approximate calculations. The multi-directional theory of soil consolidation is more reasonable than the unidirectional theory in practical applications, but it is much more complicated in terms of index determination and solution. To address the above problem, in this paper, we propose a deep learning method using physics-informed neural networks (PINN) to predict the excess pore water pressure of two-dimensional soil consolidation. In the proposed method, (1) a fully connected neural network is constructed, (2) the computational domain, partial differential equation (PDE), and constraints are defined to generate data for model training, and (3) the PDE of two-dimensional soil consolidation and the model of the neural network is connected to reduce the loss of the model. The effectiveness of the proposed method is verified by comparison with the numerical solution of PDE for two-dimensional consolidation. Using this method, the excess pore water pressure could be predicted simply and efficiently. In addition, the method was applied to predict the soil excess pore water pressure in the foundation in a real case at Tianjin port, China. The proposed deep learning approach can be used to investigate the large and complex multi-directional soil consolidation.
翻訳日:2022-05-16 01:10:10 公開日:2022-04-09
# (参考訳) スパイクニューラルネットワークとニューラルネットワークの紹介:生物学的知性から人工知能まで [全文訳有]

An Introductory Review of Spiking Neural Network and Artificial Neural Network: From Biological Intelligence to Artificial Intelligence ( http://arxiv.org/abs/2204.07519v1 )

ライセンス: CC BY 4.0
Shengjie Zheng, Lang Qian, Pingsheng Li, Chenggang He, Xiaoqin Qin, Xiaojian Li(参考訳) 近年、パターン認識、ロボティクス、バイオインフォマティクスで大きな成功を収めた人工知能の急速な発展に起因して、神経科学も飛躍的な進歩を遂げている。 生物学的に解釈可能なスパイキングニューラルネットワークが徐々に注目され始めており、このタイプのニューラルネットワークは汎用人工知能への方向の1つと見なされている。 本稿では, スパイキングニューロンの生物学的背景, 理論的基礎, 異なるニューロンモデル, 神経回路の接続性, 主流のニューラルネットワーク学習機構, ネットワークアーキテクチャなどを紹介する。 このレビューは、さまざまな研究者を惹きつけ、脳にインスパイアされた知性と人工知能の開発を進めたいと考えている。

Recently, stemming from the rapid development of artificial intelligence, which has gained expansive success in pattern recognition, robotics, and bioinformatics, neuroscience is also gaining tremendous progress. A kind of spiking neural network with biological interpretability is gradually receiving wide attention, and this kind of neural network is also regarded as one of the directions toward general artificial intelligence. This review introduces the following sections, the biological background of spiking neurons and the theoretical basis, different neuronal models, the connectivity of neural circuits, the mainstream neural network learning mechanisms and network architectures, etc. This review hopes to attract different researchers and advance the development of brain-inspired intelligence and artificial intelligence.
翻訳日:2022-04-24 18:41:35 公開日:2022-04-09
# 重畳性雑音環境に対する協調最適化パラメータを用いたロバストスパルシリティアウェアrlsアルゴリズムの検討

Study of Robust Sparsity-Aware RLS algorithms with Jointly-Optimized Parameters for Impulsive Noise Environments ( http://arxiv.org/abs/2204.08990v1 )

ライセンス: Link先を確認
Y. Yu, L. Lu, Y. Zakharov, R. C. de Lamare and B. Chen(参考訳) 本稿では, インパルス雑音下でのスパースシステムの同定のための, 再帰最小二乗法(S-RRLS)アルゴリズムを提案する。 提案手法はロバスト性やスパース性に配慮したペナルティの基準を置き換えることで,複数のアルゴリズムを一般化する。 さらに, 誤り調整が低いだけでなく, スパース系の急激な変化を追尾できる共同最適化S-RRLS (JO-S-RRLS) アルゴリズムを開発した。 インパルスノイズシナリオのシミュレーションにより、提案したS-RRLSアルゴリズムとJO-S-RRLSアルゴリズムが既存の手法より優れていることを示す。

This paper proposes a unified sparsity-aware robust recursive least-squares RLS (S-RRLS) algorithm for the identification of sparse systems under impulsive noise. The proposed algorithm generalizes multiple algorithms only by replacing the specified criterion of robustness and sparsity-aware penalty. Furthermore, by jointly optimizing the forgetting factor and the sparsity penalty parameter, we develop the jointly-optimized S-RRLS (JO-S-RRLS) algorithm, which not only exhibits low misadjustment but also can track well sudden changes of a sparse system. Simulations in impulsive noise scenarios demonstrate that the proposed S-RRLS and JO-S-RRLS algorithms outperform existing techniques.
翻訳日:2022-04-24 16:11:15 公開日:2022-04-09
# (参考訳) 運動負荷下での2足歩行の同時学習 [全文訳有]

Sim-to-Real Learning for Bipedal Locomotion Under Unsensed Dynamic Loads ( http://arxiv.org/abs/2204.04340v1 )

ライセンス: CC BY 4.0
Jeremy Dao, Kevin Green, Helei Duan, Alan Fern, Jonathan Hurst(参考訳) 両足歩行のシミュレート・トゥ・リアル学習に関する最近の研究は、様々な地形における新しい強靭性と俊敏性を示している。 しかし、その作業と、それ以前の二足歩行作業は、システム全体のダイナミクスに大きな影響を与える様々な外部負荷の下での移動を考慮していない。 多くのアプリケーションでは、ロボットは、カートを引っ張る、液体をスローする大きな容器を運ぶなど、幅広い動的負荷の下で頑健なロコモーションを維持する必要がある。 本研究は,2足歩行動作に対する強化学習(RL)とsim-to-realトランスファーの能力について,主観的フィードバックのみを用いた動的負荷下での検討である。 負荷のないロコモーションのためにトレーニングされた以前のRLポリシーは、いくつかの負荷に対してフェールし、負荷の文脈でのトレーニングだけでは、成功し、改善されたポリシーを実現するには十分であることを示す。 また、各負荷に対するトレーニング専用のポリシーと、考慮されたすべての負荷に対する単一のポリシーを比較し、その結果の歩行が、異なる負荷に対応するためにどのように変化するかを分析する。 最後に, 従来の未負荷作業よりも広義のsim-to-realトランスファーを実証し, 今後の研究の成果を示す。

Recent work on sim-to-real learning for bipedal locomotion has demonstrated new levels of robustness and agility over a variety of terrains. However, that work, and most prior bipedal locomotion work, have not considered locomotion under a variety of external loads that can significantly influence the overall system dynamics. In many applications, robots will need to maintain robust locomotion under a wide range of potential dynamic loads, such as pulling a cart or carrying a large container of sloshing liquid, ideally without requiring additional load-sensing capabilities. In this work, we explore the capabilities of reinforcement learning (RL) and sim-to-real transfer for bipedal locomotion under dynamic loads using only proprioceptive feedback. We show that prior RL policies trained for unloaded locomotion fail for some loads and that simply training in the context of loads is enough to result in successful and improved policies. We also compare training specialized policies for each load versus a single policy for all considered loads and analyze how the resulting gaits change to accommodate different loads. Finally, we demonstrate sim-to-real transfer, which is successful but shows a wider sim-to-real gap than prior unloaded work, which points to interesting future research.
翻訳日:2022-04-15 08:12:04 公開日:2022-04-09
# (参考訳) マルチモーダルグラウンドにおけるカラカフレームワークの重要性について [全文訳有]

On the Importance of Karaka Framework in Multi-modal Grounding ( http://arxiv.org/abs/2204.04347v1 )

ライセンス: CC BY 4.0
Sai Kiran Gorthi, Radhika Mamidi(参考訳) 計算パニアン文法モデルは、一連の修飾子修飾関係として自然言語表現を復号化するのに役立ち、通常のスタンフォードの依存関係関係と比較して、言語(コンテキスト)のセマンティクスに近い依存関係関係を識別するのに役立つ。 しかし、マルチモーダルビジョンや言語応用の文脈では、このCPG依存性スキームの重要性は研究されていない。 IIIT Hyderabadでは、視覚言語ナビゲーションタスク設定におけるCPGフレームワークの潜在的な利点とデメリットを探求する新たな研究を行う予定である。

Computational Paninian Grammar model helps in decoding a natural language expression as a series of modifier-modified relations and therefore facilitates in identifying dependency relations closer to language (context) semantics compared to the usual Stanford dependency relations. However, the importance of this CPG dependency scheme has not been studied in the context of multi-modal vision and language applications. At IIIT Hyderabad, we plan to perform a novel study to explore the potential advantages and disadvantages of CPG framework in a vision-language navigation task setting, a popular and challenging multi-modal grounding task.
翻訳日:2022-04-15 07:57:53 公開日:2022-04-09
# (参考訳) 意味的セグメンテーションのための注意誘導グローバルエンハンスメントと局所改善ネットワーク [全文訳有]

Attention guided global enhancement and local refinement network for semantic segmentation ( http://arxiv.org/abs/2204.04363v1 )

ライセンス: CC BY 4.0
Jiangyun Li, Sen Zha, Chen Chen, Meng Ding, Tianxiang Zhang, and Hong Yu(参考訳) エンコーダ-デコーダアーキテクチャは軽量なセグメンテーションネットワークとして広く使われている。 しかし、2つの大きな問題に対してよく設計されたDilated-FCNモデルと比較して、限られた性能に苦しむ。 まず、補間やデコンボリューションのようなデコーダでよく使われるアップサンプリング手法は、グローバルコンテキストをエンコードできない局所的な受容領域に悩まされる。 第二に、低レベルの機能は、初期エンコーダ層におけるセマンティックな概念の不適切な接続をスキップすることで、ネットワークデコーダにノイズをもたらす可能性がある。 これらの課題に対処するために,高レベル特徴マップからグローバル情報を集約し,異なるデコーダ層に適応的に分散し,アップサンプリングプロセスにおけるグローバルコンテキストの不足を軽減するグローバル拡張手法を提案する。 さらに、ローカルリファインメントモジュールは、デコーダ機能をセマンティックガイダンスとして利用して、これらの2つの融合前にノイズの多いエンコーダ機能を洗練させる(デコーダ機能とエンコーダ機能)。 次に,この2つの手法をContext Fusion Blockに統合し,それに基づいてAGLN(Atention Guided Global enhancement and Local refinement Network)を精巧に設計する。 PASCAL Context、ADE20K、PASCAL VOC 2012データセットに関する大規模な実験は、提案手法の有効性を実証した。 特に、バニラResNet-101バックボーンにより、AGLNはPASCALコンテキストデータセット上で最先端の結果(56.23%はIoU)を達成する。 コードはhttps://github.com/z hasen1996/aglnで入手できる。

The encoder-decoder architecture is widely used as a lightweight semantic segmentation network. However, it struggles with a limited performance compared to a well-designed Dilated-FCN model for two major problems. First, commonly used upsampling methods in the decoder such as interpolation and deconvolution suffer from a local receptive field, unable to encode global contexts. Second, low-level features may bring noises to the network decoder through skip connections for the inadequacy of semantic concepts in early encoder layers. To tackle these challenges, a Global Enhancement Method is proposed to aggregate global information from high-level feature maps and adaptively distribute them to different decoder layers, alleviating the shortage of global contexts in the upsampling process. Besides, a Local Refinement Module is developed by utilizing the decoder features as the semantic guidance to refine the noisy encoder features before the fusion of these two (the decoder features and the encoder features). Then, the two methods are integrated into a Context Fusion Block, and based on that, a novel Attention guided Global enhancement and Local refinement Network (AGLN) is elaborately designed. Extensive experiments on PASCAL Context, ADE20K, and PASCAL VOC 2012 datasets have demonstrated the effectiveness of the proposed approach. In particular, with a vanilla ResNet-101 backbone, AGLN achieves the state-of-the-art result (56.23% mean IoU) on the PASCAL Context dataset. The code is available at https://github.com/z hasen1996/AGLN.
翻訳日:2022-04-15 07:52:16 公開日:2022-04-09
# (参考訳) 量子化アウェアトレーニングにおけるチャネルプルーニング : 適応的投射-勾配降下-シュリンカゲ-スプリッティング法 [全文訳有]

Channel Pruning In Quantization-aware Training: An Adaptive Projection-gradient Descent-shrinkage-sp litting Method ( http://arxiv.org/abs/2204.04375v1 )

ライセンス: CC BY 4.0
Zhijian Li and Jack Xin(参考訳) 本稿では, ペナルティに基づくチャネルプルーニングを量子化学習(QAT)に統合するために, 適応的プロジェクション勾配降下収縮分離法(APGDSSM)を提案する。 APGDSSMは、量子化された部分空間とスパース部分空間の両方で重みを同時に検索する。 APGDSSMはスリッサージ演算子とスプリッティング法を用いてスパースウェイトを生成するとともに、グループラッソペナルティを用いて、ウェイトスパーシをチャネルスパーシティにプッシュする。 さらに, 過度圧縮のトレーニングを安定させるために, 補間変換型l1ペナルティを提案する。

We propose an adaptive projection-gradient descent-shrinkage-sp litting method (APGDSSM) to integrate penalty based channel pruning into quantization-aware training (QAT). APGDSSM concurrently searches weights in both the quantized subspace and the sparse subspace. APGDSSM uses shrinkage operator and a splitting technique to create sparse weights, as well as the Group Lasso penalty to push the weight sparsity into channel sparsity. In addition, we propose a novel complementary transformed l1 penalty to stabilize the training for extreme compression.
翻訳日:2022-04-15 07:25:48 公開日:2022-04-09
# (参考訳) PSP:Few-Shot Abstractive Summarizationのための事前訓練ソフトプロンプト [全文訳有]

PSP: Pre-trained Soft Prompts for Few-Shot Abstractive Summarization ( http://arxiv.org/abs/2204.04413v1 )

ライセンス: CC0 1.0
Xiaochen Liu, Yu Bai, Jiawei Li, Yinan Hu and Yang Gao(参考訳) 少数の抽象要約は自然言語生成において難しい課題となっている。 これを支援するために、我々は、非常に軽量なパラメータのみをチューニングするプロンプト事前学習と微調整パラダイムを組み合わせた、新しいソフトプロンプトアーキテクチャを設計した。 ソフトプロンプトには、エンコーダ全体にわたる連続入力埋め込みと、生成モデルの構造に適合するデコーダが含まれる。 文書レベルの情報を取り込むために,テキスト内に新しいインナープロンプトを導入することが重要である。 目的は、モデルにドキュメント関連コンテンツを生成するよう促す文書を理解することに注力することである。 要約手続きの最初のステップは、自己教師付き擬似データで即興事前トレーニングを行うことである。 これはモデルの基本要約能力を教えます。 モデルは、わずかな例で微調整される。 cnn/dailymailとxsumデータセットの実験結果は、パラメータのわずか0.1%で、すべてのモデルパラメータがチューニングされるフルモデルのチューニングよりも優れていることを示している。 また、Prompt Tuningを大きなマージンで上回り、パラメータの3%でPrefix-Tuningと競合する結果をもたらす。

Few-shot abstractive summarization has become a challenging task in natural language generation. To support it, we designed a novel soft prompts architecture coupled with a prompt pre-training plus fine-tuning paradigm that is effective and tunes only extremely light parameters. The soft prompts include continuous input embeddings across an encoder and a decoder to fit the structure of the generation models. Importantly, a novel inner-prompt placed in the text is introduced to capture document-level information. The aim is to devote attention to understanding the document that better prompts the model to generate document-related content. The first step in the summarization procedure is to conduct prompt pre-training with self-supervised pseudo-data. This teaches the model basic summarizing capabilities. The model is then fine-tuned with few-shot examples. Experimental results on the CNN/DailyMail and XSum datasets show that our method, with only 0.1% of the parameters, outperforms full-model tuning where all model parameters are tuned. It also surpasses Prompt Tuning by a large margin and delivers competitive results against Prefix-Tuning with 3% of the parameters.
翻訳日:2022-04-15 07:17:30 公開日:2022-04-09
# (参考訳) 半監督的アプローチによる衛星画像からの仮設スラムのマッピング [全文訳有]

Mapping Temporary Slums from Satellite Imagery using a Semi-Supervised Approach ( http://arxiv.org/abs/2204.04419v1 )

ライセンス: CC BY 4.0
M. Fasi ur Rehman, Izza Ali, Waqas Sultani, Mohsen Ali(参考訳) 世界中の10億人がスラムに住んでおり、これらの地域の文書化と分析は難しい課題だ。 通常のスラムと比較して、一時的なスラムの小さな、散らばった、一時的な性質は、データの収集とラベル付けを退屈で時間を要する。 この一時的なスラム検出の課題に対処するため、ゼロラベルデータ設定における初期シード画像の検出戦略を用いて、半教師付きディープラーニングセグメンテーションに基づくアプローチを提案する。 時間的変化を解析し,手動でセグメンテーションと表現学習モジュールのトレーニングを行うことで,種子サンプルの小さなセット(この場合は32)が自動的に検出される。 セグメンテーションモジュールは高次元画像表現を収集し、表現学習モジュールは画像表現を埋め込みベクトルに変換する。 その後、スコアリングモジュールは埋め込みベクトルを使用して、未ラベル画像の大きなプールから画像をサンプリングし、サンプル画像の擬似ラベルを生成する。 これらのサンプル画像を擬似ラベルでトレーニングセットに追加し、セグメンテーションと表現学習モジュールを反復的に更新する。 本手法の有効性を分析するため,一時スラムの地理的にマークされた大規模データセットを構築した。 このデータセットは、パキスタンの12大都市から6万8千枚の画像を収集し、200以上の仮スラム位置(2.28平方キロメートル)が発見された。 さらに,提案手法は,類似の設定において,いくつかの競合的半教師付き意味セグメンテーションベースラインを上回っている。 コードとデータセットは公開される予定だ。

One billion people worldwide are estimated to be living in slums, and documenting and analyzing these regions is a challenging task. As compared to regular slums; the small, scattered and temporary nature of temporary slums makes data collection and labeling tedious and time-consuming. To tackle this challenging problem of temporary slums detection, we present a semi-supervised deep learning segmentation-based approach; with the strategy to detect initial seed images in the zero-labeled data settings. A small set of seed samples (32 in our case) are automatically discovered by analyzing the temporal changes, which are manually labeled to train a segmentation and representation learning module. The segmentation module gathers high dimensional image representations, and the representation learning module transforms image representations into embedding vectors. After that, a scoring module uses the embedding vectors to sample images from a large pool of unlabeled images and generates pseudo-labels for the sampled images. These sampled images with their pseudo-labels are added to the training set to update the segmentation and representation learning modules iteratively. To analyze the effectiveness of our technique, we construct a large geographically marked dataset of temporary slums. This dataset constitutes more than 200 potential temporary slum locations (2.28 square kilometers) found by sieving sixty-eight thousand images from 12 metropolitan cities of Pakistan covering 8000 square kilometers. Furthermore, our proposed method outperforms several competitive semi-supervised semantic segmentation baselines on a similar setting. The code and the dataset will be made publicly available.
翻訳日:2022-04-15 06:58:43 公開日:2022-04-09
# (参考訳) 心電図信号処理のためのディープラーニングベンチマークの検討 [全文訳有]

Investigating Deep Learning Benchmarks for Electrocardiography Signal Processing ( http://arxiv.org/abs/2204.04420v1 )

ライセンス: CC BY 4.0
Wen Hao and Kang Jingsu(参考訳) 近年、深層学習は心電図処理(ECG)の分野で花を咲かせており、分類、QRS検出、波のデライン化など、様々なタスクにおいて従来の信号処理方法よりも優れている。 文献では多くのニューラルアーキテクチャが提案されているが、ECGディープラーニングのための体系的な研究やオープンソースライブラリが不足している。 本稿では,様々なECG処理タスクに対して,文学と小説の両方から多数のニューラルネットワークを収集するディープラーニングフレームワークである「texttt{torch\_ecg}」を提案する。 ネットワークの自動構築とフレキシブルなスケーリングのための便利でモジュール化された方法を確立し、前処理手順の整理とモデルの入力データを準備するための拡張手法を統一した方法を確立します。 さらに、 \texttt{torch\_ecg} は最新のデータベースを使用してベンチマーク研究を行い、ECG処理タスクの解決と文献からの結果を再現するための原則とパイプラインを解説している。 \texttt{torch\_ecg} は、ディープラーニング技術の応用に対する需要の高まりに対応する強力なツールをECG研究コミュニティに提供する。

In recent years, deep learning has witnessed its blossom in the field of Electrocardiography (ECG) processing, outperforming traditional signal processing methods in various tasks, for example, classification, QRS detection, wave delineation. Although many neural architectures have been proposed in the literature, there is a lack of systematic studies and open-source libraries for ECG deep learning. In this paper, we propose a deep learning framework, named \texttt{torch\_ecg}, which gathers a large number of neural networks, both from literature and novel, for various ECG processing tasks. It establishes a convenient and modular way for automatic building and flexible scaling of the networks, as well as a neat and uniform way of organizing the preprocessing procedures and augmentation techniques for preparing the input data for the models. Besides, \texttt{torch\_ecg} provides benchmark studies using the latest databases, illustrating the principles and pipelines for solving ECG processing tasks and reproducing results from the literature. \texttt{torch\_ecg} offers the ECG research community a powerful tool meeting the growing demand for the application of deep learning techniques.
翻訳日:2022-04-15 06:48:07 公開日:2022-04-09
# (参考訳) 関係抽出のための多面的階層的特徴のモデル化 [全文訳有]

Modeling Multi-Granularity Hierarchical Features for Relation Extraction ( http://arxiv.org/abs/2204.04437v1 )

ライセンス: CC BY 4.0
Xinnian Liang, Shuangzhi Wu, Mu Li, Zhoujun Li(参考訳) 関係抽出は自然言語処理(NLP)において重要な課題であり、与えられたテキストからエンティティペア間の関係を抽出することを目的としている。 近年,ディープニューラルネットワークの開発により,関係抽出(re)が著しい進歩を遂げている。 既存の研究は、知識グラフや依存性ツリーといった外部知識を用いた明示的な構造的特徴の構築に重点を置いている。 本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。 外部の知識がなくても効果的な構造化機能が得られることを示す。 入力文に基づく3種類の特徴が十分に活用されており、エンティティ参照レベル、セグメントレベル、文レベルである。 これら3つは共に階層的にモデル化されている。 本手法を,SemEval 2010 Task 8, Tacred, Tacred Revisitedの3つの公開ベンチマークで評価した。 本手法の有効性を検証するため,LSTMやBERTなどの異なるエンコーダに適用する。 実験結果から,本手法は外部知識を用いた既存の最先端モデルよりも優れていた。 広範な分析により,マルチグラニュラリティ特徴のキャプチャと階層構造のモデルにより,モデルの性能が向上することが示された。 コードとデータは \url{https://github.com/x nliang98/sms} で入手できる。

Relation extraction is a key task in Natural Language Processing (NLP), which aims to extract relations between entity pairs from given texts. Recently, relation extraction (RE) has achieved remarkable progress with the development of deep neural networks. Most existing research focuses on constructing explicit structured features using external knowledge such as knowledge graph and dependency tree. In this paper, we propose a novel method to extract multi-granularity features based solely on the original input sentences. We show that effective structured features can be attained even without external knowledge. Three kinds of features based on the input sentences are fully exploited, which are in entity mention level, segment level, and sentence level. All the three are jointly and hierarchically modeled. We evaluate our method on three public benchmarks: SemEval 2010 Task 8, Tacred, and Tacred Revisited. To verify the effectiveness, we apply our method to different encoders such as LSTM and BERT. Experimental results show that our method significantly outperforms existing state-of-the-art models that even use external knowledge. Extensive analyses demonstrate that the performance of our model is contributed by the capture of multi-granularity features and the model of their hierarchical structure. Code and data are available at \url{https://github.com/x nliang98/sms}.
翻訳日:2022-04-15 06:23:53 公開日:2022-04-09
# (参考訳) 分散最適化におけるトポロジーの意義--不均一データに基づく再収束とトポロジー学習 [全文訳有]

Yes, Topology Matters in Decentralized Optimization: Refined Convergence and Topology Learning under Heterogeneous Data ( http://arxiv.org/abs/2204.04452v1 )

ライセンス: CC BY 4.0
B. Le Bars and A. Bellet and M. Tommasi and AM. Kermarrec(参考訳) 連合学習と分散学習の重要な課題の1つは、エージェント間の高度に異質なデータ分散を効率的に扱うアルゴリズムを設計することである。 本稿では,分散化確率勾配降下アルゴリズム (d-sgd) の解析を,データの不均一性のもとで再検討する。 我々は,d-sgdの収束速度において,近傍の不均一性と呼ばれる新しい量によって果たす重要な役割を示す。 以前の仕事とは異なり、近傍の不均一性はグラフトポロジー内のエージェントの近傍のレベルで測定される。 エージェント分布のトポロジとヘテロジニティを結合することにより、分散学習におけるこれらの2つの概念間の不十分な相互作用に光を当てる。 次に,d-sgdの収束時間に対するデータ不均質性の影響を減少させる(かつ排除できる)スパースなデータ依存トポロジを学習するための自然な基準を近傍不均質性が与えていると論じる。 ラベルスキューを用いた分類の重要な場合について,frank-wolfeアルゴリズムを用いて解くような扱いやすい最適化問題として,適切なトポロジーを学習する問題を定式化する。 提案手法は,データヘテロジニティ下でのD-SGDの反復数と着手間通信コストのバランスをとる,疎位相を設計する手法である。

One of the key challenges in federated and decentralized learning is to design algorithms that efficiently deal with highly heterogeneous data distributions across agents. In this paper, we revisit the analysis of Decentralized Stochastic Gradient Descent algorithm (D-SGD), a popular decentralized learning algorithm, under data heterogeneity. We exhibit the key role played by a new quantity, that we call neighborhood heterogeneity, on the convergence rate of D-SGD. Unlike prior work, neighborhood heterogeneity is measured at the level of the neighborhood of an agent in the graph topology. By coupling the topology and the heterogeneity of the agents' distributions, our analysis sheds light on the poorly understood interplay between these two concepts in decentralized learning. We then argue that neighborhood heterogeneity provides a natural criterion to learn sparse data-dependent topologies that reduce (and can even eliminate) the otherwise detrimental effect of data heterogeneity on the convergence time of D-SGD. For the important case of classification with label skew, we formulate the problem of learning such a good topology as a tractable optimization problem that we solve with a Frank-Wolfe algorithm. Our approach provides a principled way to design a sparse topology that balances the number of iterations and the per-iteration communication costs of D-SGD under data heterogeneity.
翻訳日:2022-04-15 06:08:13 公開日:2022-04-09
# (参考訳) foveated renderingにおけるノイズベース強調 [全文訳有]

Noise-based Enhancement for Foveated Rendering ( http://arxiv.org/abs/2204.04455v1 )

ライセンス: CC BY 4.0
Taimoor Tariq, Cara Tursun and Piotr Didyk(参考訳) 空間的詳細に対する人間の視覚感度は周囲に向かって低下する。 フェーベレートレンダリングと呼ばれる新しい画像合成技術は、この観測を生かし、周囲の合成画像の空間分解能を低減し、視聴者が認識しない高空間周波数の細部を合成することを避ける。 しかし、現代技術は、再生しなければならない空間周波数の範囲と省略できる周波数の範囲を明確に区別するものではない。 所定の偏心性については、検出できるが解決できない周波数の範囲がある。 これらの周波数の正確な再現は必要ないが、観測者は完全に省略すればその欠如を検出することができる。 この観測結果を用いて、既存のフェーベレートレンダリング技術の性能を向上する。 画像内容や人間の知覚にパラメータを注意深く調整した手続き的雑音に、この特定の周波数範囲を効率的に置き換えることができることを示す。 その結果、これらの周波数はレンダリング中に合成される必要がなく、より積極的なフェーベーションが可能となり、より安価な後処理ステップで発生するノイズに置き換えられ、レンダリングシステムの性能が向上する。 我々の主な貢献は、拡張と校正に必要なノイズのパラメータを導出する知覚にインスパイアされた技法である。 この方法は、出力をレンダリングし、4K解像度で200FPSを超える速度で動作し、VRやARデバイス用のリアルタイムフェーベレートレンダリングシステムとの統合に適している。 その結果を検証し,ユーザ実験で既存のコントラスト強調手法と比較した。

Human visual sensitivity to spatial details declines towards the periphery. Novel image synthesis techniques, so-called foveated rendering, exploit this observation and reduce the spatial resolution of synthesized images for the periphery, avoiding the synthesis of high-spatial-frequen cy details that are costly to generate but not perceived by a viewer. However, contemporary techniques do not make a clear distinction between the range of spatial frequencies that must be reproduced and those that can be omitted. For a given eccentricity, there is a range of frequencies that are detectable but not resolvable. While the accurate reproduction of these frequencies is not required, an observer can detect their absence if completely omitted. We use this observation to improve the performance of existing foveated rendering techniques. We demonstrate that this specific range of frequencies can be efficiently replaced with procedural noise whose parameters are carefully tuned to image content and human perception. Consequently, these frequencies do not have to be synthesized during rendering, allowing more aggressive foveation, and they can be replaced by noise generated in a less expensive post-processing step, leading to improved performance of the rendering system. Our main contribution is a perceptually-inspire d technique for deriving the parameters of the noise required for the enhancement and its calibration. The method operates on rendering output and runs at rates exceeding 200FPS at 4K resolution, making it suitable for integration with real-time foveated rendering systems for VR and AR devices. We validate our results and compare them to the existing contrast enhancement technique in user experiments.
翻訳日:2022-04-15 04:22:23 公開日:2022-04-09
# (参考訳) 時間空間交通図の精細化:多重線形回帰モデル [全文訳有]

Refining time-space traffic diagrams: A multiple linear regression model ( http://arxiv.org/abs/2204.04457v1 )

ライセンス: CC BY 4.0
Zhengbing He(参考訳) 時間空間トラフィック(TS)図は、時間空間セルのトラフィック状態を色で表示するもので、最も重要なトラフィック分析と可視化ツールの1つである。 交通研究や工学における重要性はあるものの、既存のtsダイアグラムのほとんどが、現在の情報技術や交通インフラ投資の限界のために、詳細な交通動態を示すには粗末すぎる。 本稿では,TSダイアグラムの解像度を向上し,さらにトラフィックの詳細を提示するために,TSダイアグラムの改良問題を導入し,その問題を解決するための線形回帰モデルを提案する。 提案モデルの性能を評価するために,tsダイアグラムの解像度を4倍と16倍に増やそうとする2つのテストを行った。 異なる時間、異なる場所、そして異なる国から収集されたデータは、提案モデルの精度と転送性を完全に評価する。 各種データを用いた厳密な試験結果から,提案手法は形式的には単純ではあるが,高い精度と信頼性を有するTSダイアグラムを改良可能であることが示された。 提案したリファインメントモデルは、既存のTSダイアグラムをぼやけた「顔」から"セーブ"し、TSダイアグラムからさらにトラフィックの詳細を学習できるようにする。

A time-space traffic (TS) diagram that presents traffic states in time-space cells with colors is one of the most important traffic analysis and visualization tools. Despite its importance for transportation research and engineering, most TS diagrams that have already existed or are being produced are too coarse to exhibit detailed traffic dynamics due to the limitation of the current information technology and traffic infrastructure investment. To increase the resolution of a TS diagram and make it present more traffic details, this paper introduces a TS diagram refinement problem and proposes a multiple linear regression-based model to solve the problem. Two tests, which attempt to increase the resolution of a TS diagram for 4 and 16 times, respectively, are carried out to evaluate the performance of the proposed model. The data collected from different time, different location and even different country is involved to thoroughly evaluate the accuracy and transferability of the proposed model. The strict tests with diverse data show that the proposed model, although it is simple in form, is able to refine a TS diagram with a promising accuracy and reliable transferability. The proposed refinement model will "save" those widely-existing TS diagrams from their blurry "faces" and make it possible to learn more traffic details from those TS diagrams.
翻訳日:2022-04-15 03:56:02 公開日:2022-04-09
# (参考訳) テキスト分類における分布外サンプルと逆サンプルの理解・検出・分離 [全文訳有]

Understanding, Detecting, and Separating Out-of-Distribution Samples and Adversarial Samples in Text Classification ( http://arxiv.org/abs/2204.04458v1 )

ライセンス: CC BY 4.0
Cheng-Han Chiang and Hung-yi Lee(参考訳) 本稿では,テキスト分類モデルの性能を損なう統計的にアウト・オブ・ディストリビューション(OOD)サンプルと対数的(Adv)サンプルの違いと共通点について検討する。 入力特性,モデルの各層における隠れ表現,分類器の出力確率分布の3つの側面から,2種類の異常(oodとadvサンプル)と分布内分布(id)の比較を行う。 oodサンプルが第1層から収差を露呈するのに対し,advサンプルの異常はモデルのより深い層まで出現しない。 また,advサンプルに対するモデルの出力確率は,より信頼できない傾向がみられた。 そこで本研究では,隠れ表現と出力確率を用いて,ID,OOD,Advのサンプルを分離する簡単な手法を提案する。 提案手法は,ID,OODデータセット,Adv攻撃の複数組み合わせに対して,ID,OOD,Advサンプルの識別に優れた結果を示す。

In this paper, we study the differences and commonalities between statistically out-of-distribution (OOD) samples and adversarial (Adv) samples, both of which hurting a text classification model's performance. We conduct analyses to compare the two types of anomalies (OOD and Adv samples) with the in-distribution (ID) ones from three aspects: the input features, the hidden representations in each layer of the model, and the output probability distributions of the classifier. We find that OOD samples expose their aberration starting from the first layer, while the abnormalities of Adv samples do not emerge until the deeper layers of the model. We also illustrate that the models' output probabilities for Adv samples tend to be more unconfident. Based on our observations, we propose a simple method to separate ID, OOD, and Adv samples using the hidden representations and output probabilities of the model. On multiple combinations of ID, OOD datasets, and Adv attacks, our proposed method shows exceptional results on distinguishing ID, OOD, and Adv samples.
翻訳日:2022-04-15 03:43:36 公開日:2022-04-09
# (参考訳) 超音波信号処理:モデルからディープラーニングへ

Ultrasound Signal Processing: From Models to Deep Learning ( http://arxiv.org/abs/2204.04466v1 )

ライセンス: CC BY 4.0
Ben Luijten, Nishith Chennakeshava, Yonina C. Eldar, Massimo Mischi, Ruud J.G. van Sloun(参考訳) 医用超音波画像は、信頼性と解釈可能な画像再構成を提供するための高品質な信号処理アルゴリズムに大きく依存している。 手作りの再現法は、しばしば基礎となる測定モデルの近似に基づいており、実際は有用であるが、画質の面では遅れている。 統計的モデリング、慎重なパラメータチューニング、あるいはモデル複雑性の増大に基づくより洗練されたソリューションは、異なる環境に敏感である。 近年,ディープラーニングベースの手法が普及し,データ駆動型に最適化されている。 これらのモデルに依存しない手法は、しばしば汎用的なモデル構造に依存し、強固なソリューションに収束するために膨大なトレーニングデータを必要とする。 比較的新しいパラダイムは、データ駆動ディープラーニングの活用とドメイン知識の活用という2つの力を組み合わせたものです。 これらのモデルベースのソリューションは高い堅牢性をもたらし、トレーニング可能なパラメータとトレーニングデータを従来のニューラルネットワークよりも少なくする。 本稿では,これらの手法の概要を最近の文献から紹介し,様々な超音波応用について論じる。 我々は,この領域のさらなる研究を読者に促し,超音波信号処理の分野における機会に対処することを目的としている。 医用超音波応用のためのモデルベース深層学習技術について,今後の展望を述べる。

Medical ultrasound imaging relies heavily on high-quality signal processing algorithms to provide reliable and interpretable image reconstructions. Hand-crafted reconstruction methods, often based on approximations of the underlying measurement model, are useful in practice, but notoriously fall behind in terms of image quality. More sophisticated solutions, based on statistical modelling, careful parameter tuning, or through increased model complexity, can be sensitive to different environments. Recently, deep learning based methods have gained popularity, which are optimized in a data-driven fashion. These model-agnostic methods often rely on generic model structures, and require vast training data to converge to a robust solution. A relatively new paradigm combines the power of the two: leveraging data-driven deep learning, as well as exploiting domain knowledge. These model-based solutions yield high robustness, and require less trainable parameters and training data than conventional neural networks. In this work we provide an overview of these methods from the recent literature, and discuss a wide variety of ultrasound applications. We aim to inspire the reader to further research in this area, and to address the opportunities within the field of ultrasound signal processing. We conclude with a future perspective on these model-based deep learning techniques for medical ultrasound applications.
翻訳日:2022-04-15 03:23:39 公開日:2022-04-09
# (参考訳) スパイクマトリックスモデルにおけるランゲヴィンダイナミクスの高次元漸近 [全文訳有]

High-dimensional Asymptotics of Langevin Dynamics in Spiked Matrix Models ( http://arxiv.org/abs/2204.04476v1 )

ライセンス: CC BY 4.0
Tengyuan Liang, Subhabrata Sen, Pragya Sur(参考訳) スパイク行列モデルにおける植込み信号の回復のためのランゲヴィンダイナミクスについて検討する。 本稿では,Langevinアルゴリズムの出力と植込み信号との重なりの「パスワイズ」特性について述べる。 この重なり合いは、スピングラス文学における積分微分方程式の自己整合系(通常、Crisanti-Horner-Somm ers-Cugliandolo-Kurc han (CHSCK)方程式)によって特徴づけられる。 第2の貢献として, 拡散における信号対雑音比と注入雑音の観点から, 限界重なりの明示式を導出する。 これは鋭い位相遷移を露呈する - ある状態では、制限重複は厳密に正であり、他方では、注入されたノイズが信号を克服し、制限重複はゼロである。

We study Langevin dynamics for recovering the planted signal in the spiked matrix model. We provide a "path-wise" characterization of the overlap between the output of the Langevin algorithm and the planted signal. This overlap is characterized in terms of a self-consistent system of integro-differential equations, usually referred to as the Crisanti-Horner-Somm ers-Cugliandolo-Kurc han (CHSCK) equations in the spin glass literature. As a second contribution, we derive an explicit formula for the limiting overlap in terms of the signal-to-noise ratio and the injected noise in the diffusion. This uncovers a sharp phase transition -- in one regime, the limiting overlap is strictly positive, while in the other, the injected noise overcomes the signal, and the limiting overlap is zero.
翻訳日:2022-04-15 03:22:38 公開日:2022-04-09
# (参考訳) FoundationLayerNorm: BERTとGPTを1,000層にスケーリング [全文訳有]

FoundationLayerNorm: Scaling BERT and GPT to 1,000 Layers ( http://arxiv.org/abs/2204.04477v1 )

ライセンス: CC BY 4.0
Dezhou Shen(参考訳) 主流のBERT/GPTモデルは10層から20層しか含んでおらず、深部BERT/GPTのトレーニングについて議論する文献はほとんどない。 本稿では,BERT と GPT のトレーニングを安定化するための簡易かつ効果的な手法を提案する。 我々はBERTとGPTを1000層にスケールアップすることに成功し、これは以前のBERTとGPTよりも桁違いに深い。 提案手法であるfoundationlayer normalizationは,ディープニューラルネットワークの効率的なトレーニングを可能にし,1000層規模で検証する。

The mainstream BERT/GPT model contains only 10 to 20 layers, and there is little literature to discuss the training of deep BERT/GPT. This paper proposes a simple yet effective method to stabilize BERT and GPT training. We successfully scale up BERT and GPT to 1,000 layers, which is an order of magnitude deeper than previous BERT and GPT. The proposed method FoundationLayerNorma lization enables efficient training of deep neural networks and is validated at the 1000-layer scale.
翻訳日:2022-04-15 02:51:28 公開日:2022-04-09
# (参考訳) KUCST@LT-EDI-ACL2022 :ソーシャルメディアテキストからの抑うつの兆候の検出 [全文訳有]

KUCST@LT-EDI-ACL2022 : Detecting Signs of Depression from Social Media Text ( http://arxiv.org/abs/2204.04481v1 )

ライセンス: CC BY-SA 4.0
Manex Agirrezabal, Janek Amann(参考訳) 本稿では,ソーシャルメディアのテキストからうつ病の兆候を検出する手法を提案する。 我々のモデルは,単語ユニグラム,部分音声タグ,可読性尺度,第1,第2,第3者の使用,単語数に依存している。 ベストモデルは31チーム中25位にランクインした0.439のマクロF1スコアを得た。 さらに,ロジスティック回帰モデルの解釈可能性を活用し,モデル係数の解釈を試みた。

In this paper we present our approach for detecting signs of depression from social media text. Our model relies on word unigrams, part-of-speech tags, readabilitiy measures and the use of first, second or third person and the number of words. Our best model obtained a macro F1-score of 0.439 and ranked 25th, out of 31 teams. We further take advantage of the interpretability of the Logistic Regression model and we make an attempt to interpret the model coefficients with the hope that these will be useful for further research on the topic.
翻訳日:2022-04-15 02:45:51 公開日:2022-04-09
# (参考訳) ポーランド・ワルシャワにおけるバス輸送行動予測のための機械学習の適用 [全文訳有]

Applying machine learning to predict behavior of bus transport in Warsaw, Poland ( http://arxiv.org/abs/2204.04515v1 )

ライセンス: CC BY 4.0
{\L}ukasz Pa{\l}ys, Maria Ganzha, Marcin Paprzycki(参考訳) 現在、公共交通機関の動きを正確に記述したデータを収集することが可能である。 具体的には、各バス(または路面電車)の位置データを定期的に収集することができる。 これにはポーランドのワルシャワのすべてのバスのデータが含まれる。 さらに、このデータはダウンロードして分析することができる。 この文脈では、最も単純な質問の1つは、モデルを構築してバスの振る舞いを表現し、遅延を予測することができることである。 この研究は私たちのこの質問に答える試みの最初の結果を提供する。

Nowadays, it is possible to collect precise data describing movements of public transport. Specifically, for each bus (or tram) geoposition data can be regularly collected. This includes data for all buses in Warsaw, Poland. Moreover, this data can be downloaded and analyzed. In this context, one of the simplest questions is: can a model be build to represent behavior of busses, and predict their delays. This work provides initial results of our attempt to answer this question.
翻訳日:2022-04-15 02:40:11 公開日:2022-04-09
# (参考訳) ドメイン特化事前訓練言語モデルを用いたソーシャルメディアにおける公衆衛生監視タスクのベンチマーク [全文訳有]

Benchmarking for Public Health Surveillance tasks on Social Media with a Domain-Specific Pretrained Language Model ( http://arxiv.org/abs/2204.04521v1 )

ライセンス: CC BY 4.0
Usman Naseem, Byoung Chan Lee, Matloob Khushi, Jinman Kim, Adam G. Dunn(参考訳) ソーシャルメディア上のユーザ生成テキストにより、医療従事者は、情報の追跡、発生可能性の特定、疾患の動向の予測、緊急事態の監視、疾病の認識と公式の健康対応の確認が可能になる。 このソーシャルメディア上の健康情報の交換は、公衆衛生監視(PHS)を強化する試みとみなされている。 その可能性にもかかわらず、この技術はまだ初期段階にあり、広く応用される準備ができていない。 プレトレーニング言語モデル(PLM)の進歩は、いくつかのドメイン固有のPLMや様々な下流アプリケーションの開発を促進する。 しかし、PHSに関わるソーシャルメディアタスクのためのPLMは存在しない。 我々は,ソーシャルメディア上の公衆衛生監視に関するタスクを特定するために,トランスフォーマーベースのplmであるphs-bertを提示し,公開する。 PHS-BERTのパフォーマンスを、7つの異なるPHSタスクに関連する異なるソーシャルメディアプラットフォームから25のデータセットで比較,ベンチマークした。 PHS-BERTは、主に限られたタスクで評価されている既存のPLMと比較して、25の試験データセットで最先端のパフォーマンスを達成した。 PHS-BERT を利用可能にすることで,計算コストを削減し,様々な PHS 関連タスクにまたがる今後の作業に新たなベースラインを導入することを目的としている。

A user-generated text on social media enables health workers to keep track of information, identify possible outbreaks, forecast disease trends, monitor emergency cases, and ascertain disease awareness and response to official health correspondence. This exchange of health information on social media has been regarded as an attempt to enhance public health surveillance (PHS). Despite its potential, the technology is still in its early stages and is not ready for widespread application. Advancements in pretrained language models (PLMs) have facilitated the development of several domain-specific PLMs and a variety of downstream applications. However, there are no PLMs for social media tasks involving PHS. We present and release PHS-BERT, a transformer-based PLM, to identify tasks related to public health surveillance on social media. We compared and benchmarked the performance of PHS-BERT on 25 datasets from different social medial platforms related to 7 different PHS tasks. Compared with existing PLMs that are mainly evaluated on limited tasks, PHS-BERT achieved state-of-the-art performance on all 25 tested datasets, showing that our PLM is robust and generalizable in the common PHS tasks. By making PHS-BERT available, we aim to facilitate the community to reduce the computational cost and introduce new baselines for future works across various PHS-related tasks.
翻訳日:2022-04-15 02:17:34 公開日:2022-04-09
# (参考訳) 画像分類ニューラルネットワークのための知識フリーブラックボックス透かしと所有権証明 [全文訳有]

Knowledge-Free Black-Box Watermark and Ownership Proof for Image Classification Neural Networks ( http://arxiv.org/abs/2204.04522v1 )

ライセンス: CC BY 4.0
Fangqi Li and Shilin Wang(参考訳) ウォーターマーキングは、ディープニューラルネットワークの所有権検証と知的財産保護の有力な候補となっている。 画像分類ニューラルネットワークでは、現在の透かしスキームはバックドアトリガーに一様に頼っている。 しかしながら、ニューラルネットワークにバックドアを注入するには、トレーニングデータセットに関する知識が必要になる。 一方、確立された透かし方式は、オーナシップ検証と透かしアルゴリズム自体が暴露された証拠の潜在的な損傷を監督する。 これらの懸念は、産業用途からの現在の透かしスキームを減少させる。 これらの課題に対処すべく,画像分類ニューラルネットワークのための知識のないブラックボックス透かし方式を提案する。 データフリー蒸留工程から得られた画像生成装置を利用してバックドア注入時のネットワークの性能を安定化する。 微妙なエンコーディングと検証プロトコルは、このスキームが既知の敵に対して安全であることを保証するように設計されている。 また,透かし方式の能力に関する先駆的な分析を行った。 実験の結果,提案する透かし方式の機能維持能力と安全性が実証された。

Watermarking has become a plausible candidate for ownership verification and intellectual property protection of deep neural networks. Regarding image classification neural networks, current watermarking schemes uniformly resort to backdoor triggers. However, injecting a backdoor into a neural network requires knowledge of the training dataset, which is usually unavailable in the real-world commercialization. Meanwhile, established watermarking schemes oversight the potential damage of exposed evidence during ownership verification and the watermarking algorithms themselves. Those concerns decline current watermarking schemes from industrial applications. To confront these challenges, we propose a knowledge-free black-box watermarking scheme for image classification neural networks. The image generator obtained from a data-free distillation process is leveraged to stabilize the network's performance during the backdoor injection. A delicate encoding and verification protocol is designed to ensure the scheme's security against knowledgable adversaries. We also give a pioneering analysis of the capacity of the watermarking scheme. Experiment results proved the functionality-preser ving capability and security of the proposed watermarking scheme.
翻訳日:2022-04-15 02:02:20 公開日:2022-04-09
# (参考訳) ドメイン外スコープの拡張:複数のサブドメインにおけるQAモデルの検討 [全文訳有]

Extending the Scope of Out-of-Domain: Examining QA models in multiple subdomains ( http://arxiv.org/abs/2204.04534v1 )

ライセンス: CC BY 4.0
Chenyang Lyu, Jennifer Foster, Yvette Graham(参考訳) QAシステムのドメイン外性能を調べる過去の研究は、主に一般的なドメイン(ニュースドメイン、wikipediaドメインなど)に焦点を当てており、QAデータセットの内部特性によって定義されるサブドメインの重要性を過小評価している。 本稿では,QA例を質問タイプ,テキストの長さ,回答位置などの内部的特徴に応じて,サブドメインに分割することで,ドメイン外の範囲を拡大する。 次に、異なるサブドメインのデータに基づいてトレーニングされたQAシステムの性能について検討する。 実験の結果,列車データと試験データが異なるサブドメインから来る場合,QAシステムの性能は著しく低下することがわかった。 これらの結果は、複数のサブドメインにおける現在のQAシステムの一般化可能性に疑問を呈し、QAデータセットの内部特性から生じるバイアスに対処する必要性を示唆している。

Past works that investigate out-of-domain performance of QA systems have mainly focused on general domains (e.g. news domain, wikipedia domain), underestimating the importance of subdomains defined by the internal characteristics of QA datasets. In this paper, we extend the scope of "out-of-domain" by splitting QA examples into different subdomains according to their several internal characteristics including question type, text length, answer position. We then examine the performance of QA systems trained on the data from different subdomains. Experimental results show that the performance of QA systems can be significantly reduced when the train data and test data come from different subdomains. These results question the generalizability of current QA systems in multiple subdomains, suggesting the need to combat the bias introduced by the internal characteristics of QA datasets.
翻訳日:2022-04-15 01:46:42 公開日:2022-04-09
# (参考訳) KOBEST:韓国の重要課題のバランス評価 [全文訳有]

KOBEST: Korean Balanced Evaluation of Significant Tasks ( http://arxiv.org/abs/2204.04541v1 )

ライセンス: CC BY 4.0
Dohyeong Kim, Myeongjun Jang, Deuk Sin Kwon, Eric Davis(参考訳) 自然言語処理(NLP)分野の進歩を加速させる上では、多種多様なモデルの客観的かつ正確な評価を可能にするため、適切に構成されたベンチマークが重要な役割を果たす。 現代の言語モデル(LM)はより精巧で洗練されたものとなり、言語知識と推論を必要とするより難しいベンチマークが提案されている。 しかし、これらのベンチマークのほとんどは英語のみをサポートしており、他の低リソース言語のベンチマークを構築するには多大な労力が必要である。 そこで本研究では,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。 韓国の専門言語学者は、高度な韓国語の知識を必要とするタスクを設計した。 さらに、我々のデータは人間によって純粋に注釈付けされ、高いデータ品質を保証するために徹底的にレビューされる。 また、ベースラインモデルと人間のパフォーマンス結果も提供します。 当社のデータセットはhughingfaceで利用可能です。

A well-formulated benchmark plays a critical role in spurring advancements in the natural language processing (NLP) field, as it allows objective and precise evaluation of diverse models. As modern language models (LMs) have become more elaborate and sophisticated, more difficult benchmarks that require linguistic knowledge and reasoning have been proposed. However, most of these benchmarks only support English, and great effort is necessary to construct benchmarks for other low resource languages. To this end, we propose a new benchmark named Korean balanced evaluation of significant tasks (KoBEST), which consists of five Korean-language downstream tasks. Professional Korean linguists designed the tasks that require advanced Korean linguistic knowledge. Moreover, our data is purely annotated by humans and thoroughly reviewed to guarantee high data quality. We also provide baseline models and human performance results. Our dataset is available on the Huggingface.
翻訳日:2022-04-15 01:32:04 公開日:2022-04-09
# (参考訳) サバイバルseq2seq : sequence to sequence architectureに基づくサバイバルモデル [全文訳有]

Survival Seq2Seq: A Survival Model based on Sequence to Sequence Architecture ( http://arxiv.org/abs/2204.04542v1 )

ライセンス: CC BY 4.0
Ebrahim Pourjafari, Navid Ziaei, Mohammad R. Rezaei, Amir Sameizadeh, Mohammad Shafiee, Mohammad Alavinia, Mansour Abolghasemian, Nick Sajadi(参考訳) 本稿では,検閲データと競合するリスクの存在下での時間-事象(生存分析)を推定する,新しい非パラメトリック深層モデルを提案する。 このモデルはSeq2Seqアーキテクチャに基づいて設計されており、Survival Seq2Seqと呼ぶ。 我々のモデルエンコーダの最初のリカレントニューラルネットワーク(RNN)層は、GRU-D(Gated Recurrent Unit with Decay)細胞からなる。 これらの細胞は、電子健康記録(EHR)のような非常に高い欠落率を持つ長手データセットの非欠失ランダム値を効果的に説明することができる。 Survival Seq2Seqのデコーダは、リスクの事前分布を仮定することなく、競合するリスクごとに確率分布関数(PDF)を生成する。 RNN細胞を利用して、デコーダはスムーズで事実上スパイクフリーなPDFを生成することができる。 これは、生存分析のための既存の非パラメトリック深層モデルの能力を超えている。 人工的および医学的なデータセットのトレーニング結果から、Survival Seq2Seqは、予測の精度と生成されたPDFの品質の観点から、既存の深層生存モデルを上回ることが証明された。

This paper introduces a novel non-parametric deep model for estimating time-to-event (survival analysis) in presence of censored data and competing risks. The model is designed based on the sequence-to-sequence (Seq2Seq) architecture, therefore we name it Survival Seq2Seq. The first recurrent neural network (RNN) layer of the encoder of our model is made up of Gated Recurrent Unit with Decay (GRU-D) cells. These cells have the ability to effectively impute not-missing-at-rando m values of longitudinal datasets with very high missing rates, such as electronic health records (EHRs). The decoder of Survival Seq2Seq generates a probability distribution function (PDF) for each competing risk without assuming any prior distribution for the risks. Taking advantage of RNN cells, the decoder is able to generate smooth and virtually spike-free PDFs. This is beyond the capability of existing non-parametric deep models for survival analysis. Training results on synthetic and medical datasets prove that Survival Seq2Seq surpasses other existing deep survival models in terms of the accuracy of predictions and the quality of generated PDFs.
翻訳日:2022-04-15 01:13:56 公開日:2022-04-09
# (参考訳) マルチタスク学習によるC-Spine Radiologyレポートからの病理の効率的な抽出 [全文訳有]

Efficient Extraction of Pathologies from C-Spine Radiology Reports using Multi-Task Learning ( http://arxiv.org/abs/2204.04544v1 )

ライセンス: CC BY 4.0
Arijit Sehanobish, Nathaniel Brown, Ishita Daga, Jayashri Pawar, Danielle Torres, Anasuya Das, Murray Becker, Richard Herzog, Benjamin Odry, Ron Vianu(参考訳) ドメイン固有コーパスを微調整した事前学習型トランスフォーマーモデルにより,NLPの景観が変化した。 一般に、あるデータセットに複数のタスクがある場合、異なるモデルを微調整したり、タスク固有のアダプタを使用する。 本研究では,マルチタスクモデルが,様々なタスクに微調整された複数のBERTベースのモデルと,BERTベースのモデルを付加した各種タスク固有アダプタの性能に勝ったり、達成できることを示す。 内科放射線科医の頚椎に関する報告データから, 当法を検証した。 タスクはセマンティックに近づき、関連するため、マルチタスク学習者は強力な分類器である。 本研究は, 放射線技師による様々な身体部位の報告に本手法を用いることの範囲を広げるものである。

Pretrained Transformer based models finetuned on domain specific corpora have changed the landscape of NLP. Generally, if one has multiple tasks on a given dataset, one may finetune different models or use task specific adapters. In this work, we show that a multi-task model can beat or achieve the performance of multiple BERT-based models finetuned on various tasks and various task specific adapter augmented BERT-based models. We validate our method on our internal radiologist's report dataset on cervical spine. We hypothesize that the tasks are semantically close and related and thus multitask learners are powerful classifiers. Our work opens the scope of using our method to radiologist's reports on various body parts.
翻訳日:2022-04-15 01:00:35 公開日:2022-04-09
# (参考訳) bootstrap your own latentを用いたロバスト表現学習のための自己ラベルの改良 [全文訳有]

Self-Labeling Refinement for Robust Representation Learning with Bootstrap Your Own Latent ( http://arxiv.org/abs/2204.04545v1 )

ライセンス: CC BY 4.0
Siddhant Garg and Dhruval Jain(参考訳) この作業では、2つの大きな目標に向けて取り組みました。 まず,Bootstrap Your Own Latent (BYOL)と呼ばれる非競合表現学習フレームワークにおけるバッチ正規化(BN)層の重要性を検討した。 BYOLにおける表現学習にはBN層は必要ないと結論付けるために,いくつかの実験を行った。 さらに、BYOLは肯定的なイメージペアからのみ学習するが、同じ入力バッチ内の他の意味論的に類似したイメージは無視する。 2つ目の目的として,画像の同一入力バッチにおける意味的に類似するペアを判定し,それらの表現間の距離を小さくするために,新たな損失関数を2つ導入した。 これらの損失関数は、CCSL(Cross-Cosine similarity Loss)とCSSL(Cross-Sigmoid similarity Loss)である。 提案した損失関数を用いて、STL10データセット上でCCSL損失(76.87%)を使用してBYOLフレームワークをトレーニングすることにより、Vanilla BYOL(71.04%)のパフォーマンスを上回ることができる。 CSSL損失を使用してトレーニングされたBYOLは、Vanilla BYOLと互換性がある。

In this work, we have worked towards two major goals. Firstly, we have investigated the importance of Batch Normalisation (BN) layers in a non-contrastive representation learning framework called Bootstrap Your Own Latent (BYOL). We conducted several experiments to conclude that BN layers are not necessary for representation learning in BYOL. Moreover, BYOL only learns from the positive pairs of images but ignores other semantically similar images in the same input batch. For the second goal, we have introduced two new loss functions to determine the semantically similar pairs in the same input batch of images and reduce the distance between their representations. These loss functions are Cross-Cosine Similarity Loss (CCSL) and Cross-Sigmoid Similarity Loss (CSSL). Using the proposed loss functions, we are able to surpass the performance of Vanilla BYOL (71.04%) by training the BYOL framework using CCSL loss (76.87%) on the STL10 dataset. BYOL trained using CSSL loss performs comparably with Vanilla BYOL.
翻訳日:2022-04-15 00:48:46 公開日:2022-04-09
# 強化学習を用いたハードウェアトロイの木馬挿入

Hardware Trojan Insertion Using Reinforcement Learning ( http://arxiv.org/abs/2204.04350v1 )

ライセンス: Link先を確認
Amin Sarihi, Ahmad Patooghy, Peter Jamieson, Abdel-Hameed A. Badawy(参考訳) 本稿では,ハードウェアトロイの木馬(ht)挿入プロセスを自動化する手段として強化学習(rl)を用いて,頑健なht検出手法の開発を制限する固有バイアスを除去する。 RLエージェントが設計空間を探索し、挿入されたHTを隠蔽するのに最適な回路位置を見つける。 これを実現するために、RLエージェントが累積報酬を最大化するようにHTを挿入する環境にデジタル回路を変換する。 我々のツールセットは、組み合わせHTをISCAS-85ベンチマークスイートに挿入することができる。 実験結果から,ツールセットは高い入力カバレッジ率(2つのベンチマーク回路で100\%)を実現し,その有効性を確認した。 また、挿入されたHTは最小のフットプリントと稀な活性化確率を示した。

This paper utilizes Reinforcement Learning (RL) as a means to automate the Hardware Trojan (HT) insertion process to eliminate the inherent human biases that limit the development of robust HT detection methods. An RL agent explores the design space and finds circuit locations that are best for keeping inserted HTs hidden. To achieve this, a digital circuit is converted to an environment in which an RL agent inserts HTs such that the cumulative reward is maximized. Our toolset can insert combinational HTs into the ISCAS-85 benchmark suite with variations in HT size and triggering conditions. Experimental results show that the toolset achieves high input coverage rates (100\% in two benchmark circuits) that confirms its effectiveness. Also, the inserted HTs have shown a minimal footprint and rare activation probability.
翻訳日:2022-04-12 19:04:38 公開日:2022-04-09
# 学習する多様性を受け入れるニューラルネットワーク

Neural networks embrace learned diversity ( http://arxiv.org/abs/2204.04348v1 )

ライセンス: Link先を確認
Anshul Choudhary, Anil Radhakrishnan, John F. Lindner, Sudeshna Sinha, William L. Ditto(参考訳) 多様性は自然界の利点をもたらすが、均質なニューロンは通常、ニューラルネットワークの層を構成する。 ここでは、ニューロンが自身の活性化機能を学習し、迅速に多様化し、その後に同質なニューロンを上回るニューラルネットワークを構築する。 サブネットワークは、特に非線形応答のメタ学習を行うニューロンをインスタンス化する。 このような学習された多様性は、一様性よりも多様性を選択し、自然および人工システムにおける多様性の役割を解明する力学システムの例を提供する。

Diversity conveys advantages in nature, yet homogeneous neurons typically comprise the layers of artificial neural networks. Here we construct neural networks from neurons that learn their own activation functions, quickly diversify, and subsequently outperform their homogeneous counterparts. Sub-networks instantiate the neurons, which meta-learn especially efficient sets of nonlinear responses. Such learned diversity provides examples of dynamical systems selecting diversity over uniformity and elucidates the role of diversity in natural and artificial systems.
翻訳日:2022-04-12 18:12:44 公開日:2022-04-09
# 説明しろ! 人間とロボットのインタラクションにおける説明の効果

Explain yourself! Effects of Explanations in Human-Robot Interaction ( http://arxiv.org/abs/2204.04501v1 )

ライセンス: Link先を確認
Jakob Ambsdorf, Alina Munir, Yiyao Wei, Klaas Degkwitz, Harm Matthias Harms, Susanne Stannek, Kyra Ahrens, Dennis Becker, Erik Strahl, Tom Weber, Stefan Wermter(参考訳) ロボットの意思決定の説明は、ユーザーの知覚に影響を与え、信頼性を正当化し、信頼を高める可能性がある。 しかし、その決定を説明するロボットの人間の知覚への影響は十分に研究されていない。 説明可能なロボットの効果を分析するため、2つの模擬ロボットが競争ボードゲームをする研究を行った。 1台のロボットがその動きを説明するが、もう1台のロボットはそれを発表するだけだ。 その行動の説明を提供するだけでは、ロボットの能力、知性、類似性、安全性の評価を変えるには不十分だった。 しかし、その結果、動きを説明するロボットはより生き生きと人間らしく感じられることが判明した。 本研究は,人間とロボットの相互作用を説明する必要性と可能性を示し,その効果を新たな研究方向としてより広く評価する。

Recent developments in explainable artificial intelligence promise the potential to transform human-robot interaction: Explanations of robot decisions could affect user perceptions, justify their reliability, and increase trust. However, the effects on human perceptions of robots that explain their decisions have not been studied thoroughly. To analyze the effect of explainable robots, we conduct a study in which two simulated robots play a competitive board game. While one robot explains its moves, the other robot only announces them. Providing explanations for its actions was not sufficient to change the perceived competence, intelligence, likeability or safety ratings of the robot. However, the results show that the robot that explains its moves is perceived as more lively and human-like. This study demonstrates the need for and potential of explainable human-robot interaction and the wider assessment of its effects as a novel research direction.
翻訳日:2022-04-12 18:12:36 公開日:2022-04-09
# MR-iNet Gym: 組み込みソフトウェア定義無線における深層強化学習のエッジ展開のためのフレームワーク

MR-iNet Gym: Framework for Edge Deployment of Deep Reinforcement Learning on Embedded Software Defined Radio ( http://arxiv.org/abs/2204.04507v1 )

ライセンス: Link先を確認
Jithin Jagannath, Kian Hamedani, Collin Farquhar, Keyvan Ramezanpour, Anu Jagannath(参考訳) 動的リソース割り当ては、次世代のインテリジェント無線通信システムにおいて重要な役割を果たす。 機械学習は、この領域で前進するための強力なツールとして活用されている。 ほとんどの場合、この進歩は、これらのソリューションのハードウェア展開が困難な性質のため、シミュレーションに限定されている。 本稿では,GPU組込みソフトウェア定義無線(SDR)上での深部強化学習(DRL)に基づく電力制御エージェントの設計と展開を行う。 この目的のために,シミュレーションスイートと組込みSDR開発が協調して実際の実装ハードルを克服する,エンドツーエンドフレームワーク(MR-iNet Gym)を提案する。 実現可能性を証明するため,コード分割多重アクセス(DS-CDMA)に基づくLPI/Dトランシーバにおける分散電力制御の問題を検討する。 我々はまず,OpenAI Gym環境と対話するDS-CDMA ns3モジュールを構築する。 次に、このns3-gymシミュレーション環境における電力制御DRLエージェントを、ハードウェアテストベッドを複製するシナリオで訓練する。 次に、edge (embedded on-device)デプロイメントでは、トレーニングされたモデルはパフォーマンスを損なうことなくリアルタイム操作に最適化される。 ハードウェアに基づく評価は、従来の分散制約電力制御(DCPC)アルゴリズムよりもDRLエージェントの効率を検証する。 さらに重要なのは、これが、次世代のGPU組み込み無線に最適化された分散リソースアロケーションを提供するためにDRLをデプロイする可能性を確立した最初の作業である。

Dynamic resource allocation plays a critical role in the next generation of intelligent wireless communication systems. Machine learning has been leveraged as a powerful tool to make strides in this domain. In most cases, the progress has been limited to simulations due to the challenging nature of hardware deployment of these solutions. In this paper, for the first time, we design and deploy deep reinforcement learning (DRL)-based power control agents on the GPU embedded software defined radios (SDRs). To this end, we propose an end-to-end framework (MR-iNet Gym) where the simulation suite and the embedded SDR development work cohesively to overcome real-world implementation hurdles. To prove feasibility, we consider the problem of distributed power control for code-division multiple access (DS-CDMA)-based LPI/D transceivers. We first build a DS-CDMA ns3 module that interacts with the OpenAI Gym environment. Next, we train the power control DRL agents in this ns3-gym simulation environment in a scenario that replicates our hardware testbed. Next, for edge (embedded on-device) deployment, the trained models are optimized for real-time operation without loss of performance. Hardware-based evaluation verifies the efficiency of DRL agents over traditional distributed constrained power control (DCPC) algorithm. More significantly, as the primary goal, this is the first work that has established the feasibility of deploying DRL to provide optimized distributed resource allocation for next-generation of GPU-embedded radios.
翻訳日:2022-04-12 18:12:24 公開日:2022-04-09
# 深層学習による単一チャネル超音波rf信号の超解像マイクロバブル局在

Super-Resolved Microbubble Localization in Single-Channel Ultrasound RF Signals Using Deep Learning ( http://arxiv.org/abs/2204.04537v1 )

ライセンス: Link先を確認
Nathan Blanken, Jelmer M. Wolterink, Herv\'e Delingette, Christoph Brune, Michel Versluis, Guillaume Lajoinie(参考訳) 近年,超音波ローカライゼーション顕微鏡(ULM)を用いた超高分解能超音波画像が注目されている。 しかし、ulmは血管内のマイクロバブルの濃度が低いため、最終的には長い獲得期間を要した。 本稿では,一次元拡張畳み込みニューラルネットワーク(cnn)を用いた単一チャネル超音波高周波(rf)信号の直接デコンボリューションに基づく新しい超解像法を提案する。 この研究は、単分散マイクロバブルの密集した雲(平均エコー重なり94%に相当する測定体積の最大1000マイクロバブル)の深部イメージングのための低周波超音波(1.7mhz)に焦点を当てている。 データは、幅広い音響圧力(5-250 kPa)を使用し、共鳴した脂質被覆マイクロバブルの完全な非線形応答をキャプチャするシミュレータで生成される。 ネットワークは、分類損失と回帰損失の両方の要素を特徴とする新しい二重損失関数で訓練され、出力の検出-局所化特性を改善する。 ローカライズ耐性を0に設定すると検出基準が低くなるが、波長の4%に対応するローカライズ耐性を付与すると、0.90の精度とリコールが得られる。 さらに、音圧の増加とともに検出が改善され、マイクロバブル密度の増加とともに劣化する。 超高分解能超音波イメージングへの提案手法のポテンシャルは、非畳み込み素子データによる遅延・サマー再構成によって示される。 得られた画像は,非処理要素データを用いた遅延・サム再構成と比較して,軸分解能が桁違いに向上することを示す。

Recently, super-resolution ultrasound imaging with ultrasound localization microscopy (ULM) has received much attention. However, ULM relies on low concentrations of microbubbles in the blood vessels, ultimately resulting in long acquisition times. Here, we present an alternative super-resolution approach, based on direct deconvolution of single-channel ultrasound radio-frequency (RF) signals with a one-dimensional dilated convolutional neural network (CNN). This work focuses on low-frequency ultrasound (1.7 MHz) for deep imaging (10 cm) of a dense cloud of monodisperse microbubbles (up to 1000 microbubbles in the measurement volume, corresponding to an average echo overlap of 94%). Data are generated with a simulator that uses a large range of acoustic pressures (5-250 kPa) and captures the full, nonlinear response of resonant, lipid-coated microbubbles. The network is trained with a novel dual-loss function, which features elements of both a classification loss and a regression loss and improves the detection-localizati on characteristics of the output. Whereas imposing a localization tolerance of 0 yields poor detection metrics, imposing a localization tolerance corresponding to 4% of the wavelength yields a precision and recall of both 0.90. Furthermore, the detection improves with increasing acoustic pressure and deteriorates with increasing microbubble density. The potential of the presented approach to super-resolution ultrasound imaging is demonstrated with a delay-and-sum reconstruction with deconvolved element data. The resulting image shows an order-of-magnitude gain in axial resolution compared to a delay-and-sum reconstruction with unprocessed element data.
翻訳日:2022-04-12 18:12:02 公開日:2022-04-09
# 学習ダイナミクスのニューラルネットワーク勾配を用いた軌道最適化

Trajectory Optimization Using Neural Network Gradients of Learned Dynamics ( http://arxiv.org/abs/2204.04558v1 )

ライセンス: Link先を確認
Nathanael K\"ohler, Bhavya Sukhija, Miguel Zamora, Simon Zimmermann, Stelian Coros(参考訳) 近年,軌道最適化手法は現実世界のロボットに対して極めて高い性能を達成している。 これらの手法は正確な物理シミュレータに大きく依存するが、摩擦のような物理世界のいくつかの側面は、ほとんどのシミュレータによってしか捉えられない。 本研究の目的は, 正確な物理シミュレータを使わずに, ロボットシステムを用いて高度に動的かつ複雑なタスクを行うための軌道最適化の活用である。 これは、データからシステムの微分可能なダイナミクスモデルを学ぶために機械学習技術を適用することで達成される。 RCカーの例では,自動車との人間操作によるインタラクションの15分で収集されたデータから,トラクションの喪失やドリフトなどの非線形挙動をニューラルネットワークでモデル化できることが示されている。 さらに,オフライン環境とオンライン環境での勾配に基づく軌道最適化を行うために,ニューラルネットワークの解析勾配を用いる。 我々の学習モデルではドリフトのような複雑な物理的挙動を表現でき、軌道最適化手法と組み合わせて前例のない性能が得られる。

Trajectory optimization methods have achieved an exceptional level of performance on real-world robots in recent years. These methods heavily rely on accurate physics simulators, yet some aspects of the physical world, such as friction, can only be captured to a limited extent by most simulators. The goal of this paper is to leverage trajectory optimization for performing highly dynamic and complex tasks with robotic systems in absence of an accurate physics simulator. This is achieved by applying machine learning techniques to learn a differentiable dynamics model of the system from data. On the example of a RC car, we show that from data collected in only 15 minutes of human-operated interactions with the car, a neural network is able to model highly nonlinear behaviors such as loss of traction and drifting. Furthermore, we use the analytical gradients of the neural network to perform gradient-based trajectory optimization, both in an offline and online setting. We find that our learned model is able to represent complex physical behavior, like drifting and gives unprecedented performance in combination with trajectory optimization methods.
翻訳日:2022-04-12 18:11:35 公開日:2022-04-09
# デジタル病理学における信頼度予測を可能にする不確かさインフォームドディープラーニングモデル

Uncertainty-Informed Deep Learning Models Enable High-Confidence Predictions for Digital Histopathology ( http://arxiv.org/abs/2204.04516v1 )

ライセンス: Link先を確認
James M Dolezal, Andrew Srisuwananukorn, Dmitry Karpeyev, Siddhi Ramesh, Sara Kochanny, Brittany Cody, Aaron Mansfield, Sagar Rakshit, Radhika Bansa, Melanie Bois, Aaron O Bungum, Jefree J Schulte, Everett E Vokes, Marina Chiara Garassino, Aliya N Husain, Alexander T Pearson(参考訳) モデルが独自の予測の不確実性を表現する能力は、計算バイオマーカーが現実世界の医療環境に配備されるため、臨床ユーザーの信頼を維持する上で不可欠な属性である。 がんデジタル組織病理学の領域では,全スライド画像に対する不確実性定量化(uq)に対する新しい臨床指向アプローチ,ドロップアウトを用いた不確実性の推定,トレーニングデータにおける閾値の算出,低信頼・高信頼予測のためのカットオフの確立について述べる。 肺腺癌と扁平上皮癌を鑑別するモデルを訓練し、複数の施設にまたがる2つの大きな外部データセットのクロスバリデーションと試験において、高い信頼度予測がUQなしで予測を上回ることを示す。 テスト戦略は,教師なし,無注釈のスライド上で所定のしきい値を用いて予測を行い,実世界のアプリケーションと密接に近似する。 さらに, uq閾値は領域シフトの設定に信頼性があり, 非lung癌コホートに対する腺癌と扁平上皮癌の高信頼度予測も高い値を示した。

A model's ability to express its own predictive uncertainty is an essential attribute for maintaining clinical user confidence as computational biomarkers are deployed into real-world medical settings. In the domain of cancer digital histopathology, we describe a novel, clinically-oriented approach to uncertainty quantification (UQ) for whole-slide images, estimating uncertainty using dropout and calculating thresholds on training data to establish cutoffs for low- and high-confidence predictions. We train models to identify lung adenocarcinoma vs. squamous cell carcinoma and show that high-confidence predictions outperform predictions without UQ, in both cross-validation and testing on two large external datasets spanning multiple institutions. Our testing strategy closely approximates real-world application, with predictions generated on unsupervised, unannotated slides using predetermined thresholds. Furthermore, we show that UQ thresholding remains reliable in the setting of domain shift, with accurate high-confidence predictions of adenocarcinoma vs. squamous cell carcinoma for out-of-distribution, non-lung cancer cohorts.
翻訳日:2022-04-12 18:05:14 公開日:2022-04-09
# 超スペクトル超解像へのデュアルステージアプローチ

Dual-Stage Approach Toward Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2204.04387v1 )

ライセンス: Link先を確認
Qiang Li, Yuan Yuan, Xiuping Jia, and Qi Wang(参考訳) ハイパースペクトル画像は空間分解能を犠牲にして高スペクトル分解能を生成する。 スペクトル分解能を下げることなく、空間領域の分解能を改善することは、非常に難しい問題である。 本稿では,隣接帯域間の高類似性を示す超スペクトル画像の発見を動機とし,超スペクトル画像の超解像(dualsr)のための新しい構造を探索し,粗いステージと細かいステージの2段階設計へと導く。 粗い段階では、あるスペクトル範囲で類似度の高い5つのバンドを3つのグループに分け、現在のバンドを誘導して潜在的な知識を研究する。 代替スペクトル融合機構の作用により、粗いSR画像はバンド単位で超分解される。 大域的な視点からモデルを構築するため、スペクトル角制約による拡張バックプロジェクション法をファインステージで開発し、空間スペクトル一貫性の内容を学び、性能向上を図る。 大規模実験により提案した粗い段階と細い段階の有効性が示された。 さらに,ネットワークは,空間再構成とスペクトル忠実性の観点から,既存の作品に対して最先端の成果を創出する。

Hyperspectral image produces high spectral resolution at the sacrifice of spatial resolution. Without reducing the spectral resolution, improving the resolution in the spatial domain is a very challenging problem. Motivated by the discovery that hyperspectral image exhibits high similarity between adjacent bands in a large spectral range, in this paper, we explore a new structure for hyperspectral image super-resolution (DualSR), leading to a dual-stage design, i.e., coarse stage and fine stage. In coarse stage, five bands with high similarity in a certain spectral range are divided into three groups, and the current band is guided to study the potential knowledge. Under the action of alternative spectral fusion mechanism, the coarse SR image is super-resolved in band-by-band. In order to build model from a global perspective, an enhanced back-projection method via spectral angle constraint is developed in fine stage to learn the content of spatial-spectral consistency, dramatically improving the performance gain. Extensive experiments demonstrate the effectiveness of the proposed coarse stage and fine stage. Besides, our network produces state-of-the-art results against existing works in terms of spatial reconstruction and spectral fidelity.
翻訳日:2022-04-12 17:43:42 公開日:2022-04-09
# HSTR-Net: 広域監視のための高空間分解能ビデオ生成

HSTR-Net: High Spatio-Temporal Resolution Video Generation For Wide Area Surveillance ( http://arxiv.org/abs/2204.04435v1 )

ライセンス: Link先を確認
H. Umut Suluhan, Hasan F. Ates, Bahadir K. Gunturk(参考訳) 広域監視には多くの応用があり、観測対象の追跡は重要な課題であり、高精度な時空間分解能(HSTR)ビデオを必要とすることが多い。 本稿では,参照ベーススーパーレゾリューション(RefSR)の拡張として,HSTRビデオの生成に複数のビデオフィードを使用することを提案する。 1つのフィードは低フレームレート(HSLF)で高空間解像度でビデオをキャプチャし、もう1つのフィードは同じシーンで低空間解像度と高フレームレート(LSHF)ビデオを同時にキャプチャする。 主な目的は、HSLFとLSHFビデオの融合によるHSTRビデオを作成することである。 本稿では,両ビデオフィードからの入力を組み合わせて,光フロー推定とフレーム再構成を行う,エンドツーエンドのトレーニング可能な深層ネットワークを提案する。 提案アーキテクチャは,PSNRとSSIMの客観的指標から既存のビデオフレーム補間とRefSR技術を大幅に改善する。

Wide area surveillance has many applications and tracking of objects under observation is an important task, which often needs high spatio-temporal resolution (HSTR) video for better precision. This paper presents the usage of multiple video feeds for the generation of HSTR video as an extension of reference based super resolution (RefSR). One feed captures video at high spatial resolution with low frame rate (HSLF) while the other captures low spatial resolution and high frame rate (LSHF) video simultaneously for the same scene. The main purpose is to create an HSTR video from the fusion of HSLF and LSHF videos. In this paper we propose an end-to-end trainable deep network that performs optical flow estimation and frame reconstruction by combining inputs from both video feeds. The proposed architecture provides significant improvement over existing video frame interpolation and RefSR techniques in terms of objective PSNR and SSIM metrics.
翻訳日:2022-04-12 17:43:22 公開日:2022-04-09
# A3CLNN:マルチソースリモートセンシングデータ分類のための空間,スペクトル,マルチスケールアテンション ConvLSTM ニューラルネットワーク

A3CLNN: Spatial, Spectral and Multiscale Attention ConvLSTM Neural Network for Multisource Remote Sensing Data Classification ( http://arxiv.org/abs/2204.04462v1 )

ライセンス: Link先を確認
Heng-Chao Li, Wen-Shuai Hu, Wei Li, Jun Li, Qian Du, and Antonio Plaza(参考訳) 複数のデータソースを効果的に活用する問題は、リモートセンシングにおける関連するが困難な研究課題となっている。 本稿では,高スペクトル画像(HSI)と光検出・測光(LiDAR)という2つのデータソースの相補性を利用する新しい手法を提案する。 具体的には、マルチソースリモートセンシングデータの特徴抽出と分類を行うために、新しいデュアルチャネル空間、スペクトル、マルチスケールアテンション畳み込み長短期記憶ニューラルネットワーク(デュアルチャネルA3CLNN)を開発した。 空間的, スペクトル的, マルチスケールなアテンション機構は, HSI と LiDAR のデータに対して, スペクトル的, 空間的特徴表現を学習し, 異なるクラスのマルチスケール情報を表現するために設計されている。 設計した融合ネットワークでは、これら2つのデータソースの機能を完全に統合するために、新しい複合注意学習機構(3レベル融合戦略と組み合わせた)が使用される。 最後に、転校学習のアイデアに触発されて、新しい段階的トレーニング戦略が最終的な分類結果を得るように設計されている。 複数のマルチソースリモートセンシングデータセットを用いた実験により,新たに提案するデュアルチャネルa3clnnが,他の最先端手法よりも優れた特徴表現能力(より競争力の高い分類性能に導かれる)を示すことを示した。

The problem of effectively exploiting the information multiple data sources has become a relevant but challenging research topic in remote sensing. In this paper, we propose a new approach to exploit the complementarity of two data sources: hyperspectral images (HSIs) and light detection and ranging (LiDAR) data. Specifically, we develop a new dual-channel spatial, spectral and multiscale attention convolutional long short-term memory neural network (called dual-channel A3CLNN) for feature extraction and classification of multisource remote sensing data. Spatial, spectral and multiscale attention mechanisms are first designed for HSI and LiDAR data in order to learn spectral- and spatial-enhanced feature representations, and to represent multiscale information for different classes. In the designed fusion network, a novel composite attention learning mechanism (combined with a three-level fusion strategy) is used to fully integrate the features in these two data sources. Finally, inspired by the idea of transfer learning, a novel stepwise training strategy is designed to yield a final classification result. Our experimental results, conducted on several multisource remote sensing data sets, demonstrate that the newly proposed dual-channel A3CLNN exhibits better feature representation ability (leading to more competitive classification performance) than other state-of-the-art methods.
翻訳日:2022-04-12 17:43:06 公開日:2022-04-09
# 看護活動認識のためのマルチモーダルトランスフォーマー

Multimodal Transformer for Nursing Activity Recognition ( http://arxiv.org/abs/2204.04564v1 )

ライセンス: Link先を確認
Momal Ijaz, Renato Diaz, Chen Chen(参考訳) 高齢化社会では、高齢者の安全が病院や老人ホームの主要な関心事であり、介護の増加が求められている。 看護師の活動認識を行うことで、全ての患者が平等に望むケアを受けることができるだけでなく、看護師が手作業で行う活動の文書から解放することもでき、高齢者にとって公平で安全なケア場所へと繋がる。 本研究では,骨格関節と加速度データから特徴を抽出し,それらを融合して看護活動認識を行うマルチモーダルトランスフォーマーネットワークを提案する。 本手法は,看護ケア活動認識チャレンジから得られた看護活動認識のためのベンチマークデータセットにおいて,81.8%の精度で最先端のパフォーマンスを実現する。 我々は,この融合モデルが(加速度や骨格関節データのみを用いて)単一モダリティトランスフォーマティブより優れていることを示すため,アブレーション研究を行う。 我々のソリューションは、NCRCデータセット上で、最先端のST-GCN、GRUおよびその他の手作り機能ベースの分類器のマージンを1.6%上回る。 コードは \url{https://github.com/m omilijaz96/mmt_for_n crc} で入手できる。

In an aging population, elderly patient safety is a primary concern at hospitals and nursing homes, which demands for increased nurse care. By performing nurse activity recognition, we can not only make sure that all patients get an equal desired care, but it can also free nurses from manual documentation of activities they perform, leading to a fair and safe place of care for the elderly. In this work, we present a multimodal transformer-based network, which extracts features from skeletal joints and acceleration data, and fuses them to perform nurse activity recognition. Our method achieves state-of-the-art performance of 81.8% accuracy on the benchmark dataset available for nurse activity recognition from the Nurse Care Activity Recognition Challenge. We perform ablation studies to show that our fusion model is better than single modality transformer variants (using only acceleration or skeleton joints data). Our solution also outperforms state-of-the-art ST-GCN, GRU and other classical hand-crafted-feature -based classifier solutions by a margin of 1.6%, on the NCRC dataset. Code is available at \url{https://github.com/M omilijaz96/MMT_for_N CRC}.
翻訳日:2022-04-12 17:42:38 公開日:2022-04-09
# なぜ失敗したの? ロボット故障の説明を見つけるための因果的手法

Why did I fail? A Causal-based Method to Find Explanations for Robot Failures ( http://arxiv.org/abs/2204.04483v1 )

ライセンス: Link先を確認
Maximilian Diehl and Karinne Ramirez-Amaro(参考訳) 人間中心の環境でのロボットの失敗は避けられない。 したがって、このような失敗を説明するロボットの能力は、人間との対話が信頼と透明性を高める上で最重要である。 このスキルを達成するために,本稿では,環境の因果効果モデルを学ぶのに十分なデータを取得し,そのモデルに基づく因果説明を生成するという課題について述べる。 i)シミュレーションデータから因果ベイズネットワークを学習することで対処する。 そこで本研究では,ロボットがタスク障害に対して,対照的な説明を生成できる新しい手法を提案する。 この説明は、学習因果モデルから得られた成功予測に基づいて、広義の探索によって見つかる実行を成功させる最も近い状態とは対照的に、失敗状態を設定することに基づいている。 立方体積み重ねシナリオにおける因果モデルのsim2real転送性を評価する。 2つの異なる具体化ロボットによる実世界の実験に基づいて、適応や再訓練なしに、シム2リアルの精度70%を達成する。 これにより、実際のロボットが「上立方体が高すぎ、下立方体の右に近づきすぎる」などの故障説明を行えるようになった。

Robot failures in human-centered environments are inevitable. Therefore, the ability of robots to explain such failures is paramount for interacting with humans to increase trust and transparency. To achieve this skill, the main challenges addressed in this paper are I) acquiring enough data to learn a cause-effect model of the environment and II) generating causal explanations based on that model. We address I) by learning a causal Bayesian network from simulation data. Concerning II), we propose a novel method that enables robots to generate contrastive explanations upon task failures. The explanation is based on setting the failure state in contrast with the closest state that would have allowed for successful execution, which is found through breadth-first search and is based on success predictions from the learned causal model. We assess the sim2real transferability of the causal model on a cube stacking scenario. Based on real-world experiments with two differently embodied robots, we achieve a sim2real accuracy of 70% without any adaptation or retraining. Our method thus allowed real robots to give failure explanations like, 'the upper cube was dropped too high and too far to the right of the lower cube.'
翻訳日:2022-04-12 17:25:54 公開日:2022-04-09
# MINER:情報理論から見た語彙外エンティティ認識の改善

MINER: Improving Out-of-Vocabulary Named Entity Recognition from an Information Theoretic Perspective ( http://arxiv.org/abs/2204.04391v1 )

ライセンス: Link先を確認
Xiao Wang, Shihan Dou, Limao Xiong, Yicheng Zou, Qi Zhang, Tao Gui, Liang Qiao, Zhanzhan Cheng, Xuanjing Huang(参考訳) NERモデルは標準のNERベンチマークで有望な性能を達成した。 しかし、近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabular y)エンティティ認識の性能が低下する可能性があることが示されている。 本研究では,情報理論的な視点からこの問題を解決すべく,新しいner学習フレームワークであるminrを提案する。 提案手法は2つの相互情報に基づく学習目標を含む。 一 文脈及び実体面形態の深い理解を通じて表現を強化する情報最大化の一般化 二 実体名を暗記し、又はデータに偏りのある手がかりを悪用することを妨げる超流動情報最小化 さまざまな設定とデータセットの実験では、OOVエンティティの予測におけるパフォーマンスの向上が示されている。

NER model has achieved promising performance on standard NER benchmarks. However, recent studies show that previous approaches may over-rely on entity mention information, resulting in poor performance on out-of-vocabulary (OOV) entity recognition. In this work, we propose MINER, a novel NER learning framework, to remedy this issue from an information-theoreti c perspective. The proposed approach contains two mutual information-based training objectives: i) generalizing information maximization, which enhances representation via deep understanding of context and entity surface forms; ii) superfluous information minimization, which discourages representation from rote memorizing entity names or exploiting biased cues in data. Experiments on various settings and datasets demonstrate that it achieves better performance in predicting OOV entities.
翻訳日:2022-04-12 17:06:36 公開日:2022-04-09
# 肯定的および否定的フィードバックを伴うニュースレコメンデーションのためのニューラルニューラルネットワーク

Denoising Neural Network for News Recommendation with Positive and Negative Implicit Feedback ( http://arxiv.org/abs/2204.04397v1 )

ライセンス: Link先を確認
Yunfan Hu and Zhaopeng Qiu and Xian Wu(参考訳) ニュースレコメンデーションは通常、人々がニュースをグレードしないため、映画やeコマースレコメンデーションとは異なる。 したがって、ニュースに対するユーザのフィードバックは常に暗黙的(クリック行動、読み込み時間など)である。 必然的に、暗黙のフィードバックにはノイズがある。 一方、ユーザはニュースコンテンツを嫌っているときにニュースをクリックしてすぐに立ち去り、肯定的な暗黙的なフィードバックにノイズを残し、一方、ユーザは同時に複数の興味深いニュースを推薦され、そのうちの1つだけをクリックして、否定的な暗黙的なフィードバックのノイズを生み出すことができる。 暗黙的なフィードバックは、より統合されたユーザの好みを構築し、ノイズの影響を最小限に抑えるのに役立つ。 ニュースレコメンデーションに関する以前の研究は、肯定的なフィードバックのみを使用し、ノイズの影響に悩まされていた。 本稿では,DRPNという肯定的かつ否定的なフィードバックを持つニューズレコメンデーションのためのニューラルネットを提案する。 DRPNは、モジュールとのリコメンデーションに両方のフィードバックを利用し、肯定的なフィードバックと否定的なフィードバックの両方を識別し、パフォーマンスをさらに向上させる。 DRPNの最先端性能を実世界の大規模データセットで実証した。

News recommendation is different from movie or e-commercial recommendation as people usually do not grade the news. Therefore, user feedback for news is always implicit (click behavior, reading time, etc). Inevitably, there are noises in implicit feedback. On one hand, the user may exit immediately after clicking the news as he dislikes the news content, leaving the noise in his positive implicit feedback; on the other hand, the user may be recommended multiple interesting news at the same time and only click one of them, producing the noise in his negative implicit feedback. Opposite implicit feedback could construct more integrated user preferences and help each other to minimize the noise influence. Previous works on news recommendation only used positive implicit feedback and suffered from the noise impact. In this paper, we propose a denoising neural network for news recommendation with positive and negative implicit feedback, named DRPN. DRPN utilizes both feedback for recommendation with a module to denoise both positive and negative implicit feedback to further enhance the performance. Experiments on the real-world large-scale dataset demonstrate the state-of-the-art performance of DRPN.
翻訳日:2022-04-12 17:06:23 公開日:2022-04-09
# 心電図データの増大

Data Augmentation for Electrocardiograms ( http://arxiv.org/abs/2204.04360v1 )

ライセンス: Link先を確認
Aniruddh Raghu, Divya Shanmugam, Eugene Pomerantsev, John Guttag, Collin M. Stultz(参考訳) ニューラルネットワークモデルは、12誘導心電図(ECG)の病態と結果を予測するのに顕著な性能を示した。 しかし、これらのモデルは大きなラベル付きデータセットでトレーニングする必要があることが多く、多くの予測タスクで利用できない。 本研究では,データスカース心電図予測問題の性能向上のために,トレーニング時間データ拡張手法が有効かどうかを実証研究する。 心電図から心臓異常を検出する際に,データ拡張戦略がモデル性能に与える影響について検討した。 既存の拡張戦略の有効性がタスク依存に大きく依存していることから,タスクごとに最適化されたフレキシブルな拡張ポリシーを定義する新しい方法であるTaskAugを導入する。 ネスト最適化と暗黙差分法における最近の研究を生かした,効率的な学習アルゴリズムを概説する。 実験では、3つのデータセットと8つの予測タスクを考慮すると、TaskAugは以前の作業と競合するか、改善していることがわかった。 実験結果から重要な知見を抽出し,ECG予測問題にデータ拡張を適用するためのベストプラクティスのセットを生成する。

Neural network models have demonstrated impressive performance in predicting pathologies and outcomes from the 12-lead electrocardiogram (ECG). However, these models often need to be trained with large, labelled datasets, which are not available for many predictive tasks of interest. In this work, we perform an empirical study examining whether training time data augmentation methods can be used to improve performance on such data-scarce ECG prediction problems. We investigate how data augmentation strategies impact model performance when detecting cardiac abnormalities from the ECG. Motivated by our finding that the effectiveness of existing augmentation strategies is highly task-dependent, we introduce a new method, TaskAug, which defines a flexible augmentation policy that is optimized on a per-task basis. We outline an efficient learning algorithm to do so that leverages recent work in nested optimization and implicit differentiation. In experiments, considering three datasets and eight predictive tasks, we find that TaskAug is competitive with or improves on prior work, and the learned policies shed light on what transformations are most effective for different tasks. We distill key insights from our experimental evaluation, generating a set of best practices for applying data augmentation to ECG prediction problems.
翻訳日:2022-04-12 17:05:38 公開日:2022-04-09
# 機械学習の新型コロナウイルス感染拡大予測への応用

Application of machine learning for predicting the spread of COVID-19 ( http://arxiv.org/abs/2204.04364v1 )

ライセンス: Link先を確認
Xiaoxu Zhong and Yukun Ye(参考訳) 病気の流行は長年研究されてきたが、新型コロナウイルスの感染拡大により近年は特に注目されている。 研究によると、COVID-19の拡散は、(隔離と社会的距離の維持のため)封じ込め係数を持つSIRD(Susceptible-Inf ectious-Recovered-De ceased)モデルによって特徴づけられる。 このプロジェクトは、新型コロナウイルス(covid-19)の重症度と隔離の影響、社会的距離の維持、在宅勤務、マスク着用の予測に機械学習技術を適用することを目的としている。 本研究は, 疾病感染の理解を深め, 今後の政策の重要性を明らかにするものである。

The spread of diseases has been studied for many years, but it receives a particular focus recently due to the outbreak and spread of COVID-19. Studies show that the spread of COVID-19 can be characterized by the Susceptible-Infectio us-Recovered-Decease d (SIRD) model with containment coefficients (due to quarantine and keeping social distance). This project aims to apply the machine learning technique to predict the severity of COVID-19 and the effect of quarantine, keeping social distance, working from home, and wearing masks on the transmission of the disease. This work deepens our understanding of disease transmission and reveals the importance of following policies.
翻訳日:2022-04-12 17:05:18 公開日:2022-04-09
# ディープニューラルネットワークがより軽量になる:Beyond 5Gネットワークの自動RF変調認識における深部圧縮手法の事例研究

Deep neural network goes lighter: A case study of deep compression techniques on automatic RF modulation recognition for Beyond 5G networks ( http://arxiv.org/abs/2204.04390v1 )

ライセンス: Link先を確認
Anu Jagannath, Jithin Jagannath, Yanzhi Wang, and Tommaso Melodia(参考訳) 自動RF変調認識(Automatic RF modulation recognition)は、物理層認証機構として機能し、5G以上の通信網や軍用ネットワークのための信号処理方式として機能する一次信号インテリジェンス(SIGINT)技術である。 既存の研究の多くは、RF変調認識を可能にするためにディープニューラルネットワークアーキテクチャを採用することに依存している。 無線領域、特に自動RF変調分類への深部圧縮の適用は、まだ初期段階にある。 軽量ニューラルネットワークは、リソース制約のあるプラットフォーム上でエッジ計算能力を維持するための鍵となる。 本稿では,5gネットワークのエッジ配置に重点を置いた,最先端のディープ圧縮とアクセラレーション技術の詳細なビューを提供する。 最後に,自動レーダ変調分類のケーススタディとして代表加速度法を広範囲に分析し,数値メトリクスを用いて評価する。

Automatic RF modulation recognition is a primary signal intelligence (SIGINT) technique that serves as a physical layer authentication enabler and automated signal processing scheme for the beyond 5G and military networks. Most existing works rely on adopting deep neural network architectures to enable RF modulation recognition. The application of deep compression for the wireless domain, especially automatic RF modulation classification, is still in its infancy. Lightweight neural networks are key to sustain edge computation capability on resource-constrained platforms. In this letter, we provide an in-depth view of the state-of-the-art deep compression and acceleration techniques with an emphasis on edge deployment for beyond 5G networks. Finally, we present an extensive analysis of the representative acceleration approaches as a case study on automatic radar modulation classification and evaluate them in terms of the computational metrics.
翻訳日:2022-04-12 17:05:09 公開日:2022-04-09
# 2つの頭は1と同じか? 公平ニューラルネットワークにおける異種処理の同定

Are Two Heads the Same as One? Identifying Disparate Treatment in Fair Neural Networks ( http://arxiv.org/abs/2204.04440v1 )

ライセンス: Link先を確認
Michael Lohaus, Matth\"aus Kleindessner, Krishnaram Kenthapadi, Francesco Locatello, Chris Russell(参考訳) 人口格差を満足する深層ニューラルネットワークは、人種や性意識の形でそれを実現し、ネットワークを公平に強制すればするほど、ネットワークの内部状態から人種や性別を回復できることを示した。 この観測に基づいて、フェアネスを強制する簡単な2段階の解法を提案する。 まず、元のタスクと並んで保護された属性(人種や性別など)を予測するために、2つの頭部ネットワークをトレーニングし、第2に、頭部の重み付けをすることで、人口の平等を強制する。 最終的に、このアプローチは、元のネットワークと同じバックボーンアーキテクチャを持つシングルヘッドネットワークを生成する。 提案手法は,従来の正規化法や前処理法とほぼ同等の性能を持つが,より安定性が高く,精度も高い。 これら2つの手法の関連性を強化するため、公平な分類器と保護属性を予測する分類器を重み付けして、不公平かつ最適な分類器を復元できることを示す。 我々は、公正なアプローチと明示的な定式化の両方が異なる扱いを示しており、その結果、米国法の下で広範囲のシナリオで違法である可能性が高いと論じる。

We show that deep neural networks that satisfy demographic parity do so through a form of race or gender awareness, and that the more we force a network to be fair, the more accurately we can recover race or gender from the internal state of the network. Based on this observation, we propose a simple two-stage solution for enforcing fairness. First, we train a two-headed network to predict the protected attribute (such as race or gender) alongside the original task, and second, we enforce demographic parity by taking a weighted sum of the heads. In the end, this approach creates a single-headed network with the same backbone architecture as the original network. Our approach has near identical performance compared to existing regularization-based or preprocessing methods, but has greater stability and higher accuracy where near exact demographic parity is required. To cement the relationship between these two approaches, we show that an unfair and optimally accurate classifier can be recovered by taking a weighted sum of a fair classifier and a classifier predicting the protected attribute. We use this to argue that both the fairness approaches and our explicit formulation demonstrate disparate treatment and that, consequentially, they are likely to be unlawful in a wide range of scenarios under the US law.
翻訳日:2022-04-12 17:03:45 公開日:2022-04-09
# funnscope: 全連結ニューラルネットワークの損失景観をインタラクティブに探索する視覚顕微鏡

FuNNscope: Visual microscope for interactively exploring the loss landscape of fully connected neural networks ( http://arxiv.org/abs/2204.04511v1 )

ライセンス: Link先を確認
Aleksandar Doknic and Torsten M\"oller(参考訳) 様々な分野で有効利用されているにもかかわらず、ニューラルネットワークの多くの側面は理解されていない。 ニューラルネットワークの特徴を調べるための重要な方法は、損失の風景を探索することである。 しかし、ほとんどのモデルは、可視化が難しい高次元の非凸景観を作り出す。 本研究では,1次元2次元スライシングに基づく既存の可視化手法を,解釈可能な軸を持つチャートを用いて,実際の損失地形形状を近似する新しい手法で論じ,拡張する。 小さなニューラルネットワークの観測がより複雑なシステムに一般化し、有益な洞察を与えるという仮定に基づいて、我々は、計算的に安価な実験と対話型ダッシュボードの使用を可能にする、数十重みの範囲の小さなモデルに焦点を当てる。 ゼロベクトルまわりの対称性,グローバルランドスケープへの異なる層の影響,最小化器まわりの異なる重み感性,そして勾配勾配が高損失障害物をいかにナビゲートするかを観察する。 ユーザ調査の結果,改善提案を伴う平均susスコアが得られ,オートエンコーダやアンサンブルネットワークなど,考えられる多くのアプリケーションシナリオが開放された。

Despite their effective use in various fields, many aspects of neural networks are poorly understood. One important way to investigate the characteristics of neural networks is to explore the loss landscape. However, most models produce a high-dimensional non-convex landscape which is difficult to visualize. We discuss and extend existing visualization methods based on 1D- and 2D slicing with a novel method that approximates the actual loss landscape geometry by using charts with interpretable axes. Based on the assumption that observations on small neural networks can generalize to more complex systems and provide us with helpful insights, we focus on small models in the range of a few dozen weights, which enables computationally cheap experiments and the use of an interactive dashboard. We observe symmetries around the zero vector, the influence of different layers on the global landscape, the different weight sensitivities around a minimizer, and how gradient descent navigates high-loss obstacles. The user study resulted in an average SUS (System Usability Scale) score with suggestions for improvement and opened up a number of possible application scenarios, such as autoencoders and ensemble networks.
翻訳日:2022-04-12 17:03:12 公開日:2022-04-09
# 地下水予測のための代理モデルとしての注意U-Net

Attention U-Net as a surrogate model for groundwater prediction ( http://arxiv.org/abs/2204.04518v1 )

ライセンス: Link先を確認
Maria Luisa Taccari, Jonathan Nuttall, Xiaohui Chen, He Wang, Bennie Minnema and Peter K.Jimack(参考訳) 地下水流動の数値シミュレーションを用いて, 基礎地下水物理方程式の解を近似することにより, 帯水層系の状態変化に対する応答を解析・予測する。 有限差分法(英語版)(fd)や有限要素法(英語版)(fe)のような最もよく使われる古典的手法は、計算コストの高い反復解法を用いる。 本研究では,地下水系の応答を高速に計算するための代理モデルとして,物理に基づく畳み込みエンコーダ・デコーダニューラルネットワークを提案する。 クロスドメインマッピングにおいて強い保証を持つエンコーダデコーダネットワークは、物理システムの複雑な入出力マッピングを学習するために応用できる。 本論文は, 地下水システムの基本的な入出力関係を捉え, 物理パラメータと境界条件の組を与えられた領域全体の油圧ヘッドの解を生成する, 注意力u-netモデルを提案する。 このモデルは,最大3つの井戸の位置と水位計の頭部を入力として,高度に均一な地下水系の定常応答を正確に予測する。 ネットワークは、ドメインの関連部分のみに注意を払うことを学び、生成された油圧ヘッドフィールドは、ターゲットサンプルに非常に詳細に対応する。 粗い有限差分近似と比較しても,提案モデルの方が比較的高速であることが示され,地下水予測のための代理モデルとして提示されたネットワークをさらに発展させる基盤となる。

Numerical simulations of groundwater flow are used to analyze and predict the response of an aquifer system to its change in state by approximating the solution of the fundamental groundwater physical equations. The most used and classical methodologies, such as Finite Difference (FD) and Finite Element (FE) Methods, use iterative solvers which are associated with high computational cost. This study proposes a physics-based convolutional encoder-decoder neural network as a surrogate model to quickly calculate the response of the groundwater system. Holding strong promise in cross-domain mappings, encoder-decoder networks are applicable for learning complex input-output mappings of physical systems. This manuscript presents an Attention U-Net model that attempts to capture the fundamental input-output relations of the groundwater system and generates solutions of hydraulic head in the whole domain given a set of physical parameters and boundary conditions. The model accurately predicts the steady state response of a highly heterogeneous groundwater system given the locations and piezometric head of up to 3 wells as input. The network learns to pay attention only in the relevant parts of the domain and the generated hydraulic head field corresponds to the target samples in great detail. Even relative to coarse finite difference approximations the proposed model is shown to be significantly faster than a comparative state-of-the-art numerical solver, thus providing a base for further development of the presented networks as surrogate models for groundwater prediction.
翻訳日:2022-04-12 17:02:53 公開日:2022-04-09
# 単一チャネル脳波とfNIRS信号からの運動アーチファクトの正準相関解析による新しいウェーブレットパケット分解

Motion Artifacts Correction from Single-Channel EEG and fNIRS Signals using Novel Wavelet Packet Decomposition in Combination with Canonical Correlation Analysis ( http://arxiv.org/abs/2204.04533v1 )

ライセンス: Link先を確認
Md Shafayet Hossain, Muhammad E. H. Chowdhury, Mamun Bin Ibne Reaz, Sawal H. M. Ali, Ahmad Ashrif A. Bakar, Serkan Kiranyaz, Amith Khandakar, Mohammed Alhatou, Rumana Habib, Muhammad Maqsud Hossain(参考訳) 脳波(eeg)と機能的近赤外分光(fnirs)信号は、非常に非定常で、ウェアラブルセンサーを用いて記録されている間、運動アーチファクトに非常に苦しむ。 本稿では2つのロバストな方法を提案する。 一 ウェーブレットパケット分解(WPD)及び 二 単一チャネル脳波及びfNIRS信号からの運動アーチファクト補正のための標準相関解析(WPD-CCA)と組み合わせて行うこと。 提案手法の有効性をベンチマークデータセットを用いて検証し,提案手法の性能を2つの確立された性能行列を用いて測定した。 一 信号対雑音比({\delta}snr)の差及び 二 モーションアーティファクト({\eta})の比率の低下 提案手法は, Db2ウェーブレットパケットが組み込まれた場合, Db1ウェーブレットパケット(53.48%)が利用可能な23のEEG記録すべてに対して, db1ウェーブレットパケット(53.48%)を使用する場合, デルタ平均SNR(29.44dB)を生成する。 提案手法は,db1ウェーブレットパケットを用いたWPD-CCA法を用いて,各脳波記録の平均値が30.76dB,59.51%の2段階動作アーチファクト補正手法である。 一方、2段階の運動アーティファクト除去技術、すなわち wpd-cca は最高の平均 {\delta}snr (16.55 db、db1 wavelet packet) と最大の平均 {\eta} (41.40%、fk8 wavelet packet) を生み出した。 単一ステージのアーティファクト除去技術 (WPD) を用いた最も平均的な {\Delta}SNR と {\eta} は、それぞれ 16.11 dB と 26.40% であり、fk4 ウェーブレットパケットを用いた全ての fNIRS 信号に対してである。 EEGとfNIRSの両モードでは、2段階のPD-CCA技術を採用すると、運動アーティファクトの減少率は11.28%、56.82%増加する。

The electroencephalogram (EEG) and functional near-infrared spectroscopy (fNIRS) signals, highly non-stationary in nature, greatly suffers from motion artifacts while recorded using wearable sensors. This paper proposes two robust methods: i) Wavelet packet decomposition (WPD), and ii) WPD in combination with canonical correlation analysis (WPD-CCA), for motion artifact correction from single-channel EEG and fNIRS signals. The efficacy of these proposed techniques is tested using a benchmark dataset and the performance of the proposed methods is measured using two well-established performance matrices: i) Difference in the signal to noise ratio ({\Delta}SNR) and ii) Percentage reduction in motion artifacts ({\eta}). The proposed WPD-based single-stage motion artifacts correction technique produces the highest average {\Delta}SNR (29.44 dB) when db2 wavelet packet is incorporated whereas the greatest average {\eta} (53.48%) is obtained using db1 wavelet packet for all the available 23 EEG recordings. Our proposed two-stage motion artifacts correction technique i.e. the WPD-CCA method utilizing db1 wavelet packet has shown the best denoising performance producing an average {\Delta}SNR and {\eta} values of 30.76 dB and 59.51%, respectively for all the EEG recordings. On the other hand, the two-stage motion artifacts removal technique i.e. WPD-CCA has produced the best average {\Delta}SNR (16.55 dB, utilizing db1 wavelet packet) and largest average {\eta} (41.40%, using fk8 wavelet packet). The highest average {\Delta}SNR and {\eta} using single-stage artifacts removal techniques (WPD) are found as 16.11 dB and 26.40%, respectively for all the fNIRS signals using fk4 wavelet packet. In both EEG and fNIRS modalities, the percentage reduction in motion artifacts increases by 11.28% and 56.82%, respectively when two-stage WPD-CCA techniques are employed.
翻訳日:2022-04-12 17:02:30 公開日:2022-04-09
# 地域をまたがるセグメンテーション:衛星画像を用いた公平な転送学習の必要性

Segmenting across places: The need for fair transfer learning with satellite imagery ( http://arxiv.org/abs/2204.04358v1 )

ライセンス: Link先を確認
Miao Zhang, Harvineet Singh, Lazarus Chok, Rumi Chunara(参考訳) 高解像度衛星画像の可用性が高まり、機械学習を利用して土地被覆計測や政策立案を支援するようになった。 しかし、衛星画像のラベリングは高価であり、一部の場所でのみ利用可能である。 これにより、データ豊富な場所から他の場所へのモデル適応にトランスファーラーニングを使用することが促される。 衛星画像の地理学的応用の可能性を考えると、転送学習の意義に関する体系的な評価が求められる。 本研究では,土地被覆セグメント化の課題を考察し,場所をまたいだモデル転送の公平性について検討する。 我々は18地区(9都市と9農村)の5987枚の画像を用いた大規模な衛星画像分割ベンチマークを利用する。 公平度メトリクスは、2つの軸に沿ったモデルパフォーマンスの格差を定量化します。 その結果,非教師付きドメイン適応手法が都市と農村に学習を伝達し,公平性ギャップを拡大することで,農村部に比べて最先端のモデルの方が総合的精度が向上することがわかった。 これらの理由を分析した結果, 都市部に比べて, 原産地と対象地域とでは, 生衛星画像が相違点が多いことがわかった。 本研究は,衛星画像セグメンテーションモデルにおける公平性分析の必要性を浮き彫りにして,地域,特に都市と農村の格差を解消するために,公平な転校学習手法の開発を動機付けるものである。

The increasing availability of high-resolution satellite imagery has enabled the use of machine learning to support land-cover measurement and inform policy-making. However, labelling satellite images is expensive and is available for only some locations. This prompts the use of transfer learning to adapt models from data-rich locations to others. Given the potential for high-impact applications of satellite imagery across geographies, a systematic assessment of transfer learning implications is warranted. In this work, we consider the task of land-cover segmentation and study the fairness implications of transferring models across locations. We leverage a large satellite image segmentation benchmark with 5987 images from 18 districts (9 urban and 9 rural). Via fairness metrics we quantify disparities in model performance along two axes -- across urban-rural locations and across land-cover classes. Findings show that state-of-the-art models have better overall accuracy in rural areas compared to urban areas, through unsupervised domain adaptation methods transfer learning better to urban versus rural areas and enlarge fairness gaps. In analysis of reasons for these findings, we show that raw satellite images are overall more dissimilar between source and target districts for rural than for urban locations. This work highlights the need to conduct fairness analysis for satellite imagery segmentation models and motivates the development of methods for fair transfer learning in order not to introduce disparities between places, particularly urban and rural locations.
翻訳日:2022-04-12 16:08:34 公開日:2022-04-09
# 3dシーンストリーミングとハンドインタラクションを用いたarによるロボット手術遠隔指導

Robotic Surgery Remote Mentoring via AR with 3D Scene Streaming and Hand Interaction ( http://arxiv.org/abs/2204.04377v1 )

ライセンス: Link先を確認
Yonghao Long, Chengkun Li, and Qi Dou(参考訳) ロボット手術の普及に伴い、患者の安全のためには、教育がますます重要かつ緊急に必要となる。 しかし、経験豊富な外科医は、多忙な臨床スケジュールや遠く離れた都市で働くため、初心者に十分な教育資源を提供できない。 リモートメンタリングは、効果的な方法でこの問題を解決するのに役立つが、従来の手法は、直感的でも鮮明でもない、平易なテキスト、オーディオ、あるいは2Dビデオに限られる。 さまざまな教育シナリオで広く利用されている拡張現実(ar)は、視覚体験とインタラクティブな教育の新しい可能性を提供することを約束している。 本稿では,3次元シーンの効率的な可視化と自然な3次元手操作による遠隔指導システムを提案する。 ヘッドマウントディスプレイ(HoloLens)を使用して、メンターは訓練者の操作側から流れる手順を遠隔で監視することができる。 メンターは、インターンで研修生に送信され、手術コンソールでガイダンスとして見られる手振りでフィードバックを直接提供することもできる。 実際の手術ステレオビデオと、ロボットの一般的な訓練タスク(ペグ転送と縫合)のvivoシナリオの両方において、システムを総合的に検証する。 遠隔メンタリングシステム全体において,ストリーム映像の忠実度,手作業によるフィードバックの精度,各コンポーネントの低遅延性について有望な結果が得られた。 この研究は、ロボット外科教育に対する信頼性、柔軟性、低コストのソリューションにAR技術を活用する可能性を示し、臨床応用に大きな可能性を秘めている。

With the growing popularity of robotic surgery, education becomes increasingly important and urgently needed for the sake of patient safety. However, experienced surgeons have limited accessibility due to their busy clinical schedule or working in a distant city, thus can hardly provide sufficient education resources for novices. Remote mentoring, as an effective way, can help solve this problem, but traditional methods are limited to plain text, audio, or 2D video, which are not intuitive nor vivid. Augmented reality (AR), a thriving technique being widely used for various education scenarios, is promising to offer new possibilities of visual experience and interactive teaching. In this paper, we propose a novel AR-based robotic surgery remote mentoring system with efficient 3D scene visualization and natural 3D hand interaction. Using a head-mounted display (i.e., HoloLens), the mentor can remotely monitor the procedure streamed from the trainee's operation side. The mentor can also provide feedback directly with hand gestures, which is in-turn transmitted to the trainee and viewed in surgical console as guidance. We comprehensively validate the system on both real surgery stereo videos and ex-vivo scenarios of common robotic training tasks (i.e., peg-transfer and suturing). Promising results are demonstrated regarding the fidelity of streamed scene visualization, the accuracy of feedback with hand interaction, and the low-latency of each component in the entire remote mentoring system. This work showcases the feasibility of leveraging AR technology for reliable, flexible and low-cost solutions to robotic surgical education, and holds great potential for clinical applications.
翻訳日:2022-04-12 16:08:09 公開日:2022-04-09
# 3DMMを超えて: 高忠実度3D顔形状をキャプチャする学習

Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape ( http://arxiv.org/abs/2204.04379v1 )

ライセンス: Link先を確認
Xiangyu Zhu, Chang Yu, Di Huang, Zhen Lei, Hao Wang, Stan Z. Li(参考訳) 3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。 しかし, 既往の3次元顔は, 微粒な形状の欠如による視力低下に悩まされており, 地上3次元形状の不足, 信頼できない訓練戦略, 3DMMの限られた表現力による。 この問題を軽減するため,本稿では,パーソナライズされた形状を捉えて,復元した形状が対応する人物と同一に見えるようにする方法を提案する。 具体的には、入力として2d画像が与えられると、元の画像形状を維持しながらポーズの変動を正規化するために、画像を複数のキャリブレーションビューで仮想的にレンダリングする。 多対一の砂時計網は、多視点特徴を融合させ、細粒度形状として頂点変位を生成するエンコードデコーダとして機能する。 さらに、視覚効果を直接最適化してニューラルネットワークを訓練し、2つの3d形状を比較し、形状から描画された多視点画像間の類似性を測定する。 最後に,rgb-d画像を登録し,ポーズと形状拡張を行い,ネットワークトレーニングに十分なデータを提供することにより,地上3次元形状を生成することを提案する。 いくつかの難解なプロトコルに関する実験は、顔の形状に関する提案の優れた再構成精度を示している。

3D Morphable Model (3DMM) fitting has widely benefited face analysis due to its strong 3D priori. However, previous reconstructed 3D faces suffer from degraded visual verisimilitude due to the loss of fine-grained geometry, which is attributed to insufficient ground-truth 3D shapes, unreliable training strategies and limited representation power of 3DMM. To alleviate this issue, this paper proposes a complete solution to capture the personalized shape so that the reconstructed shape looks identical to the corresponding person. Specifically, given a 2D image as the input, we virtually render the image in several calibrated views to normalize pose variations while preserving the original image geometry. A many-to-one hourglass network serves as the encode-decoder to fuse multiview features and generate vertex displacements as the fine-grained geometry. Besides, the neural network is trained by directly optimizing the visual effect, where two 3D shapes are compared by measuring the similarity between the multiview images rendered from the shapes. Finally, we propose to generate the ground-truth 3D shapes by registering RGB-D images followed by pose and shape augmentation, providing sufficient data for network training. Experiments on several challenging protocols demonstrate the superior reconstruction accuracy of our proposal on the face shape.
翻訳日:2022-04-12 16:07:41 公開日:2022-04-09
# 社会クラスター行動研究のための屋内及び屋外におけるアリコロニー運動軌跡のデータセット

A dataset of ant colonies motion trajectories in indoor and outdoor scenes for social cluster behavior study ( http://arxiv.org/abs/2204.04380v1 )

ライセンス: Link先を確認
Meihong Wu, Xiaoyan Cao, Xiaoyu Cao, Shihui Guo(参考訳) 群集のメカニズムを理解するために、多くの研究者によって社会昆虫(アリなど)の運動と相互作用が研究されている。 アリの行動に関するほとんどの研究は屋内環境にのみ焦点が当てられているが、屋外環境はまだ未調査である。 本稿では,屋内および屋外の異なるシーンから,アリコロニーの10本の映像を収集する。 また,映像中のアリのアノテーションを提供するvisualmarkdataという画像シーケンスマーキングソフトウェアを開発した。 全5354フレームにおいて、各アリの位置情報と識別番号を合計712のアリと114112のアノテーションに記録する。 さらに,データの技術的品質と再現性を評価し,検証するためのビジュアル分析ツールを提供する。 このデータセットはantコロニーの挙動のより深い調査に寄与することが期待されている。

Motion and interaction of social insects (such as ants) have been studied by many researchers to understand the clustering mechanism. Most studies in the field of ant behavior have only focused on indoor environments, while outdoor environments are still underexplored. In this paper, we collect 10 videos of ant colonies from different indoor and outdoor scenes. And we develop an image sequence marking software named VisualMarkData, which enables us to provide annotations of ants in the video. In all 5354 frames, the location information and the identification number of each ant are recorded for a total of 712 ants and 114112 annotations. Moreover, we provide visual analysis tools to assess and validate the technical quality and reproducibility of our data. It is hoped that this dataset will contribute to a deeper exploration on the behavior of the ant colony.
翻訳日:2022-04-12 16:07:17 公開日:2022-04-09
# E^2TAD:エネルギー効率の高い追従型アクション検出器

E^2TAD: An Energy-Efficient Tracking-based Action Detector ( http://arxiv.org/abs/2204.04416v1 )

ライセンス: Link先を確認
Xin Hu, Zhenyu Wu, Hao-Yu Miao, Siqi Fan, Taiyu Long, Zhenyu Hu, Pengcheng Pi, Yi Wu, Zhou Ren, Zhangyang Wang, Gang Hua(参考訳) 映像行動検出(spatio-temporal action localization)は、映像の人間中心のインテリジェントな分析の出発点である。 ロボット工学、セキュリティ、ヘルスケアなど、多くのアプリケーションに対して、非常に実用的な影響があります。 Faster R-CNNの2段階のパラダイムは、オブジェクト検出におけるビデオアクション検出の標準パラダイム、すなわち、まず人の提案を生成し、次にアクションを分類する。 しかし、既存のソリューションでは、"who-when-where-what& quot;レベルに対してきめ細かいアクション検出ができない。 本稿では,(関連する目標idと位置の予測によって)空間的および(正確なフレームインデックスの時間を予測することにより)時間的に,予め定義されたキーアクションを正確にかつ効率的にローカライズするトラッキングベースソリューションを提案する。 このソリューションは2021年のUAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で初登場した。

Video action detection (spatio-temporal action localization) is usually the starting point for human-centric intelligent analysis of videos nowadays. It has high practical impacts for many applications across robotics, security, healthcare, etc. The two-stage paradigm of Faster R-CNN inspires a standard paradigm of video action detection in object detection, i.e., firstly generating person proposals and then classifying their actions. However, none of the existing solutions could provide fine-grained action detection to the "who-when-where-what& quot; level. This paper presents a tracking-based solution to accurately and efficiently localize predefined key actions spatially (by predicting the associated target IDs and locations) and temporally (by predicting the time in exact frame indices). This solution won first place in the UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC).
翻訳日:2022-04-12 16:05:51 公開日:2022-04-09
# ManiTrans:Token-wise Semantic Alignment and Generationによるエンティティレベルテキストガイド画像操作

ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation ( http://arxiv.org/abs/2204.04428v1 )

ライセンス: Link先を確認
Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Chunjing Xu and Yanwei Fu(参考訳) 既存のテキストガイド画像操作手法は、画像の外観を変更したり、仮想的あるいは単純なシナリオでいくつかのオブジェクトを編集することを目的としている。 本研究では,実世界の実体レベルでのテキスト誘導画像操作に関する新しい課題について検討する。 このタスクでは,(1)テキスト記述に一致するエンティティを編集する,(2)テキスト関連領域を保存すること,(3)操作されたエンティティを自然にイメージにマージすること,の3つの基本的な要件が課されている。 そこで本研究では,2段階画像合成法である「textbf{ManiTrans}」に基づくトランスフォーマーベースの新しいフレームワークを提案する。 我々のフレームワークは、操作対象の画像領域を特定するためのセマンティックアライメントモジュールと、視覚と言語の関係を調整するのに役立つセマンティックロスを組み込んでいる。 実際のデータセット、CUB、オックスフォード、COCOのデータセットについて広範な実験を行い、本手法が関連する領域と無関係領域を識別し、ベースライン法と比較してより正確で柔軟な操作を実現できることを検証した。 プロジェクトのホームページは \url{https://jawang19.git hub.io/manitrans}。

Existing text-guided image manipulation methods aim to modify the appearance of the image or to edit a few objects in a virtual or simple scenario, which is far from practical application. In this work, we study a novel task on text-guided image manipulation on the entity level in the real world. The task imposes three basic requirements, (1) to edit the entity consistent with the text descriptions, (2) to preserve the text-irrelevant regions, and (3) to merge the manipulated entity into the image naturally. To this end, we propose a new transformer-based framework based on the two-stage image synthesis method, namely \textbf{ManiTrans}, which can not only edit the appearance of entities but also generate new entities corresponding to the text guidance. Our framework incorporates a semantic alignment module to locate the image regions to be manipulated, and a semantic loss to help align the relationship between the vision and language. We conduct extensive experiments on the real datasets, CUB, Oxford, and COCO datasets to verify that our method can distinguish the relevant and irrelevant regions and achieve more precise and flexible manipulation compared with baseline methods. The project homepage is \url{https://jawang19.git hub.io/manitrans}.
翻訳日:2022-04-12 16:05:38 公開日:2022-04-09
# サブアパーチャ分解による深層学習の指導--SAR画像からの海洋パターン

Guided deep learning by subaperture decomposition: ocean patterns from SAR imagery ( http://arxiv.org/abs/2204.04438v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Andrei Anghel, Mihai Datcu, Bertrand Chapron(参考訳) 宇宙空間の合成開口レーダーは、ほぼ全ての気象条件下で、日夜の海面の粗さを計測できる。 これにより、多くの物理応用にとってユニークな資産となる。 センチネル1 SAR 波動モードのヴィグネットは、2014年以来、多くの重要な海洋現象や大気現象を捉えてきた。 しかし、提供されるデータ量を考えると、拡張アプリケーションは自動的に物理パラメータを処理し抽出する戦略を必要とする。 本研究では,SAR深層学習モデルの事前処理段階としてサブアパーチャ分解を適用することを提案する。 我々のデータセントリング手法は,TenGeoPSARwvデータセット上でのテクニックの状態を0.7に越えた。 さらに,非教師付きセグメンテーション法において,クラスタ数を増大させることにより,サブアパーチャ分解が元のウィグネットに付加情報をもたらすことを示した。 全体として、データ中心化アプローチの開発を奨励し、データ前処理が既存のディープラーニングモデルよりも大幅なパフォーマンス向上をもたらすことを示した。

Spaceborne synthetic aperture radar can provide meters scale images of the ocean surface roughness day or night in nearly all weather conditions. This makes it a unique asset for many geophysical applications. Sentinel 1 SAR wave mode vignettes have made possible to capture many important oceanic and atmospheric phenomena since 2014. However, considering the amount of data provided, expanding applications requires a strategy to automatically process and extract geophysical parameters. In this study, we propose to apply subaperture decomposition as a preprocessing stage for SAR deep learning models. Our data centring approach surpassed the baseline by 0.7, obtaining state of the art on the TenGeoPSARwv data set. In addition, we empirically showed that subaperture decomposition could bring additional information over the original vignette, by rising the number of clusters for an unsupervised segmentation method. Overall, we encourage the development of data centring approaches, showing that, data preprocessing could bring significant performance improvements over existing deep learning models.
翻訳日:2022-04-12 16:05:16 公開日:2022-04-09
# s4od:単段物体検出のための半教師付き学習

S4OD: Semi-Supervised learning for Single-Stage Object Detection ( http://arxiv.org/abs/2204.04492v1 )

ライセンス: Link先を確認
Yueming Zhang, Xingxu Yao, Chao Liu, Feng Chen, Xiaolin Song, Tengfei Xing, Runbo Hu, Hua Chai, Pengfei Xu, and Guoshan Zhang(参考訳) 単段検出器は極度のフォアグラウンドバックグラウンドクラス不均衡に苦しむが、2段検出器はそうではない。 したがって、半教師対象検出において、2段検出器は、分類スコアに基づいて高品質な擬似ラベルを選択するだけで優れた性能が得られる。 しかし、この戦略を単段検出器に直接適用すると、クラス不均衡はより少ない正のサンプルで悪化する。 したがって、単段検出器は擬似ラベルの品質と量を同時に考慮する必要がある。 本稿では,分類分野における動的自己適応しきい値(DSAT)戦略を設計し,擬似ラベルを自動的に選択し,品質と量の間の最適なトレードオフを実現する。 また,単段検出器における擬似ラベルの回帰品質を評価するために,非最大抑制に基づくボックスの回帰不確かさを計算するモジュールを提案する。 COCOからのラベル付きデータの10%しか利用できないため、この手法はアンカーフリー検出器(FCOS)で35.0%AP、アンカーベース検出器(RetinaNet)で32.9%APを達成した。

Single-stage detectors suffer from extreme foreground-backgroun d class imbalance, while two-stage detectors do not. Therefore, in semi-supervised object detection, two-stage detectors can deliver remarkable performance by only selecting high-quality pseudo labels based on classification scores. However, directly applying this strategy to single-stage detectors would aggravate the class imbalance with fewer positive samples. Thus, single-stage detectors have to consider both quality and quantity of pseudo labels simultaneously. In this paper, we design a dynamic self-adaptive threshold (DSAT) strategy in classification branch, which can automatically select pseudo labels to achieve an optimal trade-off between quality and quantity. Besides, to assess the regression quality of pseudo labels in single-stage detectors, we propose a module to compute the regression uncertainty of boxes based on Non-Maximum Suppression. By leveraging only 10% labeled data from COCO, our method achieves 35.0% AP on anchor-free detector (FCOS) and 32.9% on anchor-based detector (RetinaNet).
翻訳日:2022-04-12 16:04:59 公開日:2022-04-09
# deepliif:臨床病理スライドの定量化のためのオンラインプラットフォーム

DeepLIIF: An Online Platform for Quantification of Clinical Pathology Slides ( http://arxiv.org/abs/2204.04494v1 )

ライセンス: Link先を確認
Parmida Ghahremani, Joseph Marino, Ricardo Dodds and Saad Nadeem(参考訳) クリニックでは、切除された組織サンプルをヘマトキシリン・アンド・エオシン(h&e)および/または免疫組織化学(ihc)染色で染色し、ガラススライド上の病理学者または疾患進行の診断および評価のためのデジタルスキャンとして提示する。 IHCタンパク質の発現評価などの細胞レベルの定量化は、極めて非効率で主観的である。 deepliif(https://dee pliif.org)は、効率良く再現可能なiccスコアリングのための、最初の無料のオンラインプラットフォームである。 DeepLIIFは、より有意義な多重蛍光蛍光染色による臨床IHCスライドを仮想的に保持することで、最先端のアプローチ(手動のエラー原因アノテーションに基づく)より優れている。 当社のDeepLIIFクラウドネイティブプラットフォームは,(1)Bio-Formats標準による150以上のプロプライエタリ/非プロプライエタリな入力フォーマット,(2)IHC定量化結果とそれに付随する画像のインタラクティブな調整,可視化,ダウンロード,(3)QuPath/ImageJなどのオープンソーススライドイメージビューア用のインタラクティブプラグインによる公開ワークフローAPIの利用,(4)GPUリソースをユーザの要求に応じて効率的にスケールするための自動スケーリングをサポートする。

In the clinic, resected tissue samples are stained with Hematoxylin-and-Eosi n (H&E) and/or Immunhistochemistry (IHC) stains and presented to the pathologists on glass slides or as digital scans for diagnosis and assessment of disease progression. Cell-level quantification, e.g. in IHC protein expression scoring, can be extremely inefficient and subjective. We present DeepLIIF (https://deepliif.or g), a first free online platform for efficient and reproducible IHC scoring. DeepLIIF outperforms current state-of-the-art approaches (relying on manual error-prone annotations) by virtually restaining clinical IHC slides with more informative multiplex immunofluorescence staining. Our DeepLIIF cloud-native platform supports (1) more than 150 proprietary/non-prop rietary input formats via the Bio-Formats standard, (2) interactive adjustment, visualization, and downloading of the IHC quantification results and the accompanying restained images, (3) consumption of an exposed workflow API programmatically or through interactive plugins for open source whole slide image viewers such as QuPath/ImageJ, and (4) auto scaling to efficiently scale GPU resources based on user demand.
翻訳日:2022-04-12 16:04:41 公開日:2022-04-09
# ディープフェイクモデル認識の爆発について

On the Exploitation of Deepfake Model Recognition ( http://arxiv.org/abs/2204.04513v1 )

ライセンス: Link先を確認
Luca Guarnera (1), Oliver Giudice (2), Matthias Niessner (3), Sebastiano Battiato (1) ((1) University of Catania, (2) Applied Research Team, IT dept., Banca d'Italia, Italy, (3) Technical University of Munich, Germany)(参考訳) 近年のGAN(Generative Adversarial Networks)の発展にもかかわらず、Deepfake現象に特化して説明可能性や関連するモデルの認識に関しても明確な理解が得られていない。 特に、同じ生成的アーキテクチャ(例えばStyleGAN)によって生成された他の多くのモデルと比較してディープフェイク画像を生成する特定のGANモデルの認識は、最先端技術においてまだ完全に対処されていないタスクである。 本研究では,Deepfakeモデル認識のための分析指紋のポイントアウトの可能性を評価する頑健な処理パイプラインを提案する。 生成した画像の深度解析により,50種類のモデルの潜時空間をわずかに利用した後,適切なエンコーダを訓練し,これらのモデルの識別精度を96%以上とした。 極端に類似した画像を識別する可能性を示すと、潜在空間で発見された洞察を利用する専用のメトリクスが導入された。 本研究は、トレーニング段階では使用されていないモデルから生成した画像に対するモデル認識タスクの94%以上の最終精度を達成することにより、マルチメディア法医学分野で採用されているもの(例えば、カメラソース識別タスク、画像弾道タスクなど)に類似した何らかのシグネチャを導入するディープフェイク現象に対抗する上で重要なステップを踏み出す。

Despite recent advances in Generative Adversarial Networks (GANs), with special focus to the Deepfake phenomenon there is no a clear understanding neither in terms of explainability nor of recognition of the involved models. In particular, the recognition of a specific GAN model that generated the deepfake image compared to many other possible models created by the same generative architecture (e.g. StyleGAN) is a task not yet completely addressed in the state-of-the-art. In this work, a robust processing pipeline to evaluate the possibility to point-out analytic fingerprints for Deepfake model recognition is presented. After exploiting the latent space of 50 slightly different models through an in-depth analysis on the generated images, a proper encoder was trained to discriminate among these models obtaining a classification accuracy of over 96%. Once demonstrated the possibility to discriminate extremely similar images, a dedicated metric exploiting the insights discovered in the latent space was introduced. By achieving a final accuracy of more than 94% for the Model Recognition task on images generated by models not employed in the training phase, this study takes an important step in countering the Deepfake phenomenon introducing a sort of signature in some sense similar to those employed in the multimedia forensics field (e.g. for camera source identification task, image ballistics task, etc).
翻訳日:2022-04-12 16:04:14 公開日:2022-04-09
# 高速動き推定のための適応探索領域

Adaptive search area for fast motion estimation ( http://arxiv.org/abs/2204.04546v1 )

ライセンス: Link先を確認
S.M.Reza Soroushmehr, Shadrokh Samavi, Shahram Shirani(参考訳) 本稿では,ブロックマッチングに基づく動き推定アルゴリズムの探索領域を決定する新しい手法を提案する。 提案手法では,各フレームブロックの探索領域を適応的に探索する。 この検索領域はフルサーチ(FS)アルゴリズムに似ているが、フレームのほとんどのブロックでは小さい。 したがって、提案アルゴリズムは正則性の点でFSに似ているが、計算複雑性ははるかに少ない。 探索領域を求めるためにブロックの運動ベクトル間の時間的および空間的相関を用いる。 一致したブロックは、予測ベクトルが設定した矩形領域から選択される。 シミュレーションの結果,提案アルゴリズムの速度はFSアルゴリズムの少なくとも7倍であることがわかった。

This paper suggests a new method for determining the search area for a motion estimation algorithm based on block matching. The search area is adaptively found in the proposed method for each frame block. This search area is similar to that of the full search (FS) algorithm but smaller for most blocks of a frame. Therefore, the proposed algorithm is analogous to FS in terms of regularity but has much less computational complexity. The temporal and spatial correlations among the motion vectors of blocks are used to find the search area. The matched block is chosen from a rectangular area that the prediction vectors set out. Simulation results indicate that the speed of the proposed algorithm is at least seven times better than the FS algorithm.
翻訳日:2022-04-12 16:03:50 公開日:2022-04-09
# カーネルクラスの$\varepsilon$-エントロピーのスペクトル境界

Spectral bounds of the $\varepsilon$-entrop y of kernel classes ( http://arxiv.org/abs/2204.04512v1 )

ライセンス: Link先を確認
Rustem Takhanov(参考訳) 我々は、マーサーカーネル $k$ によって誘導される再生核ヒルベルト空間における単位球の $\varepsilon$-エントロピー上の新しい上限と下限を開発する。 我々の境界は対応する積分作用素の固有値の振る舞いに基づいている。 提案手法では, RKHS における単位球の楕円形構造と, Dumer, Pinsker, Prelov により得られたユークリッド空間における楕円形の数被覆に関する以前の研究を利用する。 我々は、ガウス核の実際上重要な場合に対する厳密性など、我々の主境界の多くの応用を示す。 さらに、RKHS内の球の被覆数と、コサンビー・カルフネン・ローブ変換によるカーネル$K$に対応するガウスランダム場の量子化との接続から確立できる$\varepsilon$-エントロピー上の下界のシリーズを開発する。

We develop new upper and lower bounds on the $\varepsilon$-entrop y of a unit ball in a reproducing kernel Hilbert space induced by some Mercer kernel $K$. Our bounds are based on the behaviour of eigenvalues of a corresponding integral operator. In our approach we exploit an ellipsoidal structure of a unit ball in RKHS and a previous work on covering numbers of an ellipsoid in the euclidean space obtained by Dumer, Pinsker and Prelov. We present a number of applications of our main bound, such as its tightness for a practically important case of the Gaussian kernel. Further, we develop a series of lower bounds on the $\varepsilon$-entrop y that can be established from a connection between covering numbers of a ball in RKHS and a quantization of a Gaussian Random Field that corresponds to the kernel $K$ by the Kosambi-Karhunen-Lo\ `eve transform.
翻訳日:2022-04-12 15:59:54 公開日:2022-04-09
# 低リソース言語のための中国語中心のニューラルマシン翻訳

Towards Better Chinese-centric Neural Machine Translation for Low-resource Languages ( http://arxiv.org/abs/2204.04344v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Fei Xia, Hanjun Deng(参考訳) 過去10年間、科学と技術の大幅な改善が見られ、各国の経済・文化交流の需要が増大している。 ニューラルネットワーク翻訳(NMT)システムの構築は,特に低リソース環境において急激なトレンドとなっている。 しかし、最近の研究は、英語を中心とした低リソース言語のためのNMTシステムを研究する傾向があり、中国語など他の言語を中心とした低リソースNMTシステムに焦点を当てる研究はほとんどない。 これを実現するために、2021 iFLYTEK AI Developer Competitionの低リソース多言語翻訳課題は、提供された低リソースサンプルに基づいてNMTシステムを構築するために、中国中心の多言語低リソースNTTタスクを提供する。 本稿では,データエンハンスメント,バイリンガルカリキュラム学習,コントラスト的再ランキングといった単言語単語の組込みを活用した優勝コンペティションシステムを提案する。 さらに、トレーニング中の従来のクロスエントロピー損失を置き換えるために、新しい不完全信頼損失関数が提案されている。 実験結果は,これらの概念の実装が,他の最先端手法よりも優れた性能をもたらすことを示した。 実験コードはすべて、https://github.com/W ENGSYX/Low-resource- text-translationでリリースされている。

The last decade has witnessed enormous improvements in science and technology, stimulating the growing demand for economic and cultural exchanges in various countries. Building a neural machine translation (NMT) system has become an urgent trend, especially in the low-resource setting. However, recent work tends to study NMT systems for low-resource languages centered on English, while few works focus on low-resource NMT systems centered on other languages such as Chinese. To achieve this, the low-resource multilingual translation challenge of the 2021 iFLYTEK AI Developer Competition provides the Chinese-centric multilingual low-resource NMT tasks, where participants are required to build NMT systems based on the provided low-resource samples. In this paper, we present the winner competition system that leverages monolingual word embeddings data enhancement, bilingual curriculum learning, and contrastive re-ranking. In addition, a new Incomplete-Trust (In-trust) loss function is proposed to replace the traditional cross-entropy loss when training. The experimental results demonstrate that the implementation of these ideas leads better performance than other state-of-the-art methods. All the experimental codes are released at: https://github.com/W ENGSYX/Low-resource- text-translation.
翻訳日:2022-04-12 15:55:27 公開日:2022-04-09
# ドメイン指向プレフィックスチューニング:ゼロショット対話要約のための効率的かつ一般化可能な微調整を目指して

Domain-Oriented Prefix-Tuning: Towards Efficient and Generalizable Fine-tuning for Zero-Shot Dialogue Summarization ( http://arxiv.org/abs/2204.04362v1 )

ライセンス: Link先を確認
Lulu Zhao, Fujia Zheng, Weihao Zeng, Keqing He, Weiran Xu, Huixing Jiang, Wei Wu, Yanan Wu(参考訳) 最も先進的な抽象対話要約器は、新しいドメインの一般化能力に欠けており、要約におけるドメイン適応に関する既存の研究は、一般に大規模な事前学習に依存している。 本稿では,対話要約のドメイン適応のための軽量な微調整手法を検討するために,ドメイン語の初期化プレフィックスモジュールを用いてドメインの絡み合いを緩和し,離散的なプロンプトを適用し,対話の重要コンテンツに焦点を当て,モデルの一般化を促進する,効率的で汎用的なドメイン指向プレフィックスチューニングモデルを提案する。 マルチドメイン対話要約データセットであるTODSumとQMSumでゼロショット実験を行い、ドメイン適応ベンチマークを構築した。 実験と定性解析は,本手法の有効性を実証する。

The most advanced abstractive dialogue summarizers lack generalization ability on new domains and the existing researches for domain adaptation in summarization generally rely on large-scale pre-trainings. To explore the lightweight fine-tuning methods for domain adaptation of dialogue summarization, in this paper, we propose an efficient and generalizable Domain-Oriented Prefix-tuning model, which utilizes a domain word initialized prefix module to alleviate domain entanglement and adopts discrete prompts to guide the model to focus on key contents of dialogues and enhance model generalization. We conduct zero-shot experiments and build domain adaptation benchmarks on two multi-domain dialogue summarization datasets, TODSum and QMSum. Adequate experiments and qualitative analysis prove the effectiveness of our methods.
翻訳日:2022-04-12 15:55:05 公開日:2022-04-09
# 事前学習型言語モデルに対するコントラスト的デモチューニング

Contrastive Demonstration Tuning for Pre-trained Language Models ( http://arxiv.org/abs/2204.04392v1 )

ライセンス: Link先を確認
Xiaozhuan Liang, Ningyu Zhang, Siyuan Cheng, Zhen Bi, Zhenru Zhang, Chuanqi Tan, Songfang Huang, Fei Huang, Huajun Chen(参考訳) 事前訓練された言語モデルは、特に低データシナリオにおいて、テキストプロンプトやデモによって効果的に刺激することができる。 最近の研究では、離散的または連続的なプロンプトや最適化された動詞化子の自動検索に焦点が当てられているが、デモのための研究はまだ限られている。 具体的には、実演例はプロンプトチューニングの優れた最終性能に不可欠である。 本稿では,実演サンプリングの不要な,新しいプラグ可能な,拡張性,効率的な手法であるコントラスト・デモ・チューニングを提案する。 さらに,提案手法は次のとおりである。 (i) 前回のプロンプト・チューニング・アプローチに差し込む。 (ii)多種多様な分類課題に拡張した。 16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。 コードはhttps://github.com/z junlp/PromptKG/tree/ main/research/Demo-T uningで入手できる。

Pretrained language models can be effectively stimulated by textual prompts or demonstrations, especially in low-data scenarios. Recent works have focused on automatically searching discrete or continuous prompts or optimized verbalizers, yet studies for the demonstration are still limited. Concretely, the demonstration examples are crucial for an excellent final performance of prompt-tuning. In this paper, we propose a novel pluggable, extensible, and efficient approach named contrastive demonstration tuning, which is free of demonstration sampling. Furthermore, the proposed approach can be: (i) Plugged to any previous prompt-tuning approaches; (ii) Extended to widespread classification tasks with a large number of categories. Experimental results on 16 datasets illustrate that our method integrated with previous approaches LM-BFF and P-tuning can yield better performance. Code is available in https://github.com/z junlp/PromptKG/tree/ main/research/Demo-T uning.
翻訳日:2022-04-12 15:54:50 公開日:2022-04-09
# TANet:抽象会話要約のためのスレッド対応事前学習

TANet: Thread-Aware Pretraining for Abstractive Conversational Summarization ( http://arxiv.org/abs/2204.04504v1 )

ライセンス: Link先を確認
Ze Yang, Liran Wang, Zhoujin Tian, Wei Wu, Zhoujun Li(参考訳) プレトレーニング言語モデル(PLM)は、NLPにおいて大きな成功を収め、マイルストーンとなったが、抽象的な会話の要約は難しいが、研究の少ない課題である。 その難しさは二つの側面にある。 ひとつは、大規模な会話要約データがないことだ。 このタスクに既存の事前学習モデルを適用するのは、会話の構造的依存や非公式な表現などのために難しい。 本研究ではまず,Redditコミュニティの多人数ディスカッションに基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。 次に,スレッド対応トランスフォーマーネットワークTANetを提案する。 会話を文列として扱う既存の事前学習モデルとは異なり、発話間の固有の文脈依存は会話全体を理解する上で不可欠な役割を担っており、このモデルに構造情報を組み込むための2つの新しい手法を提案する。 1つ目はスレッド認識注意であり、発話内の文脈依存性を考慮して計算される。 第2に,スレッド予測損失を適用し,発話間の関係を予測する。 我々は、実際の会話の4つのデータセット、会議記録、顧客サービス記録、フォーラムスレッドのタイプについてモデルを評価した。 実験結果から,TANETは自動評価と人的判断の両面で,新たな最先端技術を実現していることが示された。

Although pre-trained language models (PLMs) have achieved great success and become a milestone in NLP, abstractive conversational summarization remains a challenging but less studied task. The difficulty lies in two aspects. One is the lack of large-scale conversational summary data. Another is that applying the existing pre-trained models to this task is tricky because of the structural dependence within the conversation and its informal expression, etc. In this work, we first build a large-scale (11M) pretraining dataset called RCS, based on the multi-person discussions in the Reddit community. We then present TANet, a thread-aware Transformer-based network. Unlike the existing pre-trained models that treat a conversation as a sequence of sentences, we argue that the inherent contextual dependency among the utterances plays an essential role in understanding the entire conversation and thus propose two new techniques to incorporate the structural information into our model. The first is thread-aware attention which is computed by taking into account the contextual dependency within utterances. Second, we apply thread prediction loss to predict the relations between utterances. We evaluate our model on four datasets of real conversations, covering types of meeting transcripts, customer-service records, and forum threads. Experimental results demonstrate that TANET achieves a new state-of-the-art in terms of both automatic evaluation and human judgment.
翻訳日:2022-04-12 15:53:03 公開日:2022-04-09
# 最悪の場合の訓練の2次元と領域外一般化への統合効果

The Two Dimensions of Worst-case Training and the Integrated Effect for Out-of-domain Generalization ( http://arxiv.org/abs/2204.04384v1 )

ライセンス: Link先を確認
Zeyi Huang, Haohan Wang, Dong Huang, Yong Jae Lee, Eric P. Xing(参考訳) データの"ハード・トゥ・ラーン(hard-to-learn)" ;コンポーネントに重点を置いたトレーニングは、マシンラーニングモデルの一般化を改善する効果的な方法として証明されている。 この「難解な」概念について議論する既存の文献は、主に標本の次元や特徴の次元に沿って拡張されている。 本稿では,これら2つの次元をマージしたシンプルなビューを導入し,サンプルと特徴の両面において最悪のケースを強調することによって,機械学習モデルをトレーニングするための,新しい,シンプルで効果的かつヒューリスティックな方法を提案する。 我々は,W2D法を「2次元に沿ったWorst-case」という概念に従って命名した。 我々はその考え方を検証し、標準ベンチマークよりも経験的強度を実証する。

Training with an emphasis on "hard-to-learn" components of the data has been proven as an effective method to improve the generalization of machine learning models, especially in the settings where robustness (e.g., generalization across distributions) is valued. Existing literature discussing this "hard-to-learn" concept are mainly expanded either along the dimension of the samples or the dimension of the features. In this paper, we aim to introduce a simple view merging these two dimensions, leading to a new, simple yet effective, heuristic to train machine learning models by emphasizing the worst-cases on both the sample and the feature dimensions. We name our method W2D following the concept of "Worst-case along Two Dimensions". We validate the idea and demonstrate its empirical strength over standard benchmarks.
翻訳日:2022-04-12 15:02:33 公開日:2022-04-09
# フェデレーション非教師なし領域適応による顔認識

Federated Unsupervised Domain Adaptation for Face Recognition ( http://arxiv.org/abs/2204.04382v1 )

ライセンス: Link先を確認
Weiming Zhuang, Xin Gan, Yonggang Wen, Xuesen Zhang, Shuai Zhang, Shuai Yi(参考訳) ソースドメイン内のラベル付きデータを考えると、データ分布が異なるターゲットドメイン内のラベルなしデータのモデルを一般化するために、教師なしドメイン適応が広く採用されている。 しかし、既存の作品は、ドメイン間でセンシティブな顔画像を共有する必要があるため、プライバシー制約下での顔認識には不適格である。 この問題に対処するために,フェデレーション付き非教師付きドメイン適応(FedFR)を提案する。 FedFRはクラスタリングベースのドメイン適応とフェデレーション学習を共同で最適化し、ターゲットドメインのパフォーマンスを向上する。 具体的には,対象領域におけるラベルなしデータに対して,距離制約のあるクラスタリングアルゴリズムを拡張し,予測された擬似ラベルの品質を向上させる。 さらに、フェデレーション学習におけるソースドメイントレーニングを規則化する新しいドメイン制約損失(dcl)を提案する。 新しく構築されたベンチマークに関する広範囲な実験により、fedfrは、異なる評価指標で、ターゲットドメインのベースラインとクラシックメソッドを3%から14%上回っていることが示されている。

Given labeled data in a source domain, unsupervised domain adaptation has been widely adopted to generalize models for unlabeled data in a target domain, whose data distributions are different. However, existing works are inapplicable to face recognition under privacy constraints because they require sharing of sensitive face images between domains. To address this problem, we propose federated unsupervised domain adaptation for face recognition, FedFR. FedFR jointly optimizes clustering-based domain adaptation and federated learning to elevate performance on the target domain. Specifically, for unlabeled data in the target domain, we enhance a clustering algorithm with distance constrain to improve the quality of predicted pseudo labels. Besides, we propose a new domain constraint loss (DCL) to regularize source domain training in federated learning. Extensive experiments on a newly constructed benchmark demonstrate that FedFR outperforms the baseline and classic methods on the target domain by 3% to 14% on different evaluation metrics.
翻訳日:2022-04-12 14:59:13 公開日:2022-04-09
# p300を用いたスマートホームインタラクションのための脳-コンピュータインタフェースにおけるファジィ時間畳み込みニューラルネットワーク

Fuzzy temporal convolutional neural networks in P300-based Brain-computer interface for smart home interaction ( http://arxiv.org/abs/2204.04338v1 )

ライセンス: Link先を確認
Christian Flores Vega, Jonathan Quevedo, Elmer Escand\'on, Mehrin Kiani, Weiping Ding, Javier Andreu-Perez(参考訳) 脳波信号(EEG)の処理と分類は、畳み込みニューラルネットワーク(CNN)のような深層学習フレームワークを用いて、脳データから抽象的な特徴を生成し、顕著な分類技術への道を開いた。 しかし、脳波パターンはノイズによる時間的変動と不確実性を示す。 p300ベースのbci(brain computer interface)では、スマートホームインタラクションのために対処すべき重要な問題である。 付加的なノイズがしばしば発生する非最適自然環境で動作する。 本研究では,脳波信号,LSTM細胞,ファジィニューラルブロック(FNB)に修飾された時間畳み込みネットワーク(TCN)の逐次統合を提案し,これをEEG-TCFNetと呼ぶ。 ファジィ成分はノイズ条件に対する高い耐性を可能にする。 我々は,ブロックFNBを用いてP300波を分類し,健常者やポストストローク者とのスマートホームインタラクションのためのBCIを構築する3つの異なるアーキテクチャを適用した。 対象に依存しない戦略と対象に依存しない戦略において,脳波-TCFNetを用いた最大分類精度は98.6%,74.3%であった。 全体として、3つのCNNトポロジにおけるFNBの使用はFNBのないものよりも優れていた。 さらに,FNBの付加を他の最先端手法と比較し,FNBとの統合により高い分類精度を得た。 提案モデルであるEEG-TCFNetと他の分類器へのファジィユニットの一般的な統合により、自然環境におけるスマートホームインタラクションのためのP300ベースのBCIが強化される。

The processing and classification of electroencephalograp hic signals (EEG) are increasingly performed using deep learning frameworks, such as convolutional neural networks (CNNs), to generate abstract features from brain data, automatically paving the way for remarkable classification prowess. However, EEG patterns exhibit high variability across time and uncertainty due to noise. It is a significant problem to be addressed in P300-based Brain Computer Interface (BCI) for smart home interaction. It operates in a non-optimal natural environment where added noise is often present. In this work, we propose a sequential unification of temporal convolutional networks (TCNs) modified to EEG signals, LSTM cells, with a fuzzy neural block (FNB), which we called EEG-TCFNet. Fuzzy components may enable a higher tolerance to noisy conditions. We applied three different architectures comparing the effect of using block FNB to classify a P300 wave to build a BCI for smart home interaction with healthy and post-stroke individuals. Our results reported a maximum classification accuracy of 98.6% and 74.3% using the proposed method of EEG-TCFNet in subject-dependent strategy and subject-independent strategy, respectively. Overall, FNB usage in all three CNN topologies outperformed those without FNB. In addition, we compared the addition of FNB to other state-of-the-art methods and obtained higher classification accuracies on account of the integration with FNB. The remarkable performance of the proposed model, EEG-TCFNet, and the general integration of fuzzy units to other classifiers would pave the way for enhanced P300-based BCIs for smart home interaction within natural settings.
翻訳日:2022-04-12 14:58:00 公開日:2022-04-09
# オープンソース再現性のサイレン歌

A Siren Song of Open Source Reproducibility ( http://arxiv.org/abs/2204.04372v1 )

ライセンス: Link先を確認
Edward Raff, Andrew L. Farris(参考訳) 再現性が大きな関心事になるにつれ、カンファレンスはレビュアーにコードが提出に添付されているかどうかを指示する戦略に集約されている。 これは、想定された理想に基づいた行動を取るというより大きなトレンドの一部であり、これらの行動が望ましい結果をもたらすかどうかを研究せずにいる。 我々の主張は、再現可能な研究の状況を改善したい場合、複製のためのコードに焦点をあてることは誤解される。 この焦点は有害な場合もあります -- コードを提出するよう強制すべきではありません。 再現性を奨励し、報酬する会議が行う効果的な行動の証拠が不足している。 今日、再現可能な機械学習研究を進めるためには、会場がもっと行動を起こす必要があると我々は主張している。

As reproducibility becomes a greater concern, conferences have largely converged to a strategy of asking reviewers to indicate whether code was attached to a submission. This is part of a larger trend of taking action based on assumed ideals, without studying if those actions will yield the desired outcome. Our argument is that this focus on code for replication is misguided if we want to improve the state of reproducible research. This focus can be harmful -- we should not force code to be submitted. There is a lack of evidence for effective actions taken by conferences to encourage and reward reproducibility. We argue that venues must take more action to advance reproducible machine learning research today.
翻訳日:2022-04-12 14:57:30 公開日:2022-04-09
# サブグラフからノードへの翻訳によるサブグラフの効率的な表現学習

Efficient Representation Learning of Subgraphs by Subgraph-To-Node Translation ( http://arxiv.org/abs/2204.04510v1 )

ライセンス: Link先を確認
Dongkwan Kim and Alice Oh(参考訳) サブグラフは、様々な現実世界の問題を表現できるデータ構造である。 サブグラフの表現を効率的に学習する新しい定式化であるSubgraph-To-Node (S2N) 変換を提案する。 具体的には、グローバルグラフのサブグラフの集合が与えられた場合、サブグラフをノードに粗く変換することで、新しいグラフを構築する。 この翻訳により,ノードレベルのタスクとしてサブグラフレベルのタスクを実行する。 これにより、トレーニングと推論の両方において、メモリと計算コストを大幅に削減できる。 実世界の4つのデータセットの実験を行い、性能と効率を評価する。 実験の結果,S2N翻訳モデルの方が最先端モデルより効率が良く,性能が大幅に低下しないことがわかった。

A subgraph is a data structure that can represent various real-world problems. We propose Subgraph-To-Node (S2N) translation, which is a novel formulation to efficiently learn representations of subgraphs. Specifically, given a set of subgraphs in the global graph, we construct a new graph by coarsely transforming subgraphs into nodes. We perform subgraph-level tasks as node-level tasks through this translation. By doing so, we can significantly reduce the memory and computational costs in both training and inference. We conduct experiments on four real-world datasets to evaluate performance and efficiency. Our experiments demonstrate that models with S2N translation are more efficient than state-of-the-art models without substantial performance decrease.
翻訳日:2022-04-12 14:57:21 公開日:2022-04-09
# 非形式的入力特徴と対実的不変性:自然言語の純粋相関に関する2つの視点

Uninformative Input Features and Counterfactual Invariance: Two Perspectives on Spurious Correlations in Natural Language ( http://arxiv.org/abs/2204.04487v1 )

ライセンス: Link先を確認
Jacob Eisenstein(参考訳) スプリアス相関は自然言語処理システムの信頼性に対する脅威であり、それらを特定し排除する方法の研究の動機となっている。 gardner et al (2021) は、言語の構成的性質から、ラベルと個々の入力特徴の相関関係は散発的であると主張している。 本稿では,この提案をおもちゃの例の文脈で分析し,簡単なPCFGにおいて特徴ラベル相関を生じさせる3つの異なる条件を示す。 おもちゃの例を構造化因果モデルにリンクすると,(1)ラベルが特徴への介入に不変である場合でも特徴ラベル相関が生じることが示され,(2)ラベルが特徴への介入に敏感である場合でも特徴ラベル相関は欠落する可能性がある。 入力特徴はラベルと非常に稀な状況において個別に相関するので、真の堅牢性を脅かす刺激的な相関を識別するためにドメイン知識を適用する必要がある。

Spurious correlations are a threat to the trustworthiness of natural language processing systems, motivating research into methods for identifying and eliminating them. Gardner et al (2021) argue that the compositional nature of language implies that \emph{all} correlations between labels and individual input features are spurious. This paper analyzes this proposal in the context of a toy example, demonstrating three distinct conditions that can give rise to feature-label correlations in a simple PCFG. Linking the toy example to a structured causal model shows that (1) feature-label correlations can arise even when the label is invariant to interventions on the feature, and (2) feature-label correlations may be absent even when the label is sensitive to interventions on the feature. Because input features will be individually correlated with labels in all but very rare circumstances, domain knowledge must be applied to identify spurious correlations that pose genuine robustness threats.
翻訳日:2022-04-12 14:34:48 公開日:2022-04-09
# IDPG:インスタンス依存型プロンプト生成手法

IDPG: An Instance-Dependent Prompt Generation Method ( http://arxiv.org/abs/2204.04497v1 )

ライセンス: Link先を確認
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Rui Hou, Yuxiao Dong, V.G.Vinod Vydiswaran, Hao Ma(参考訳) プロンプトチューニングは、モデルトレーニングステージ中に各入力インスタンスにタスク固有のプロンプトを追加する、新しい効率的なnlp転送学習パラダイムである。 トレーニング済みの言語モデルを凍結し、タスク固有のプロンプトのみを最適化する。 本稿では,インスタンス依存型プロンプト生成(IDPG)と呼ばれる入力インスタンス毎にプロンプトを生成する条件付きプロンプト生成手法を提案する。 固定プロンプトを使用する従来のプロンプトチューニングとは異なり、IDPGは軽量でトレーニング可能なコンポーネントを導入し、各入力文に基づいてプロンプトを生成する。 10個の自然言語理解(nlu)タスクに関する広範な実験は、提案手法が様々なプロンプトチューニングベースラインを一貫して上回っており、より少ないモデルパラメータをチューニングしながら、compacterのような他の効率的な転送学習方法と同等であることを示している。

Prompt tuning is a new, efficient NLP transfer learning paradigm that adds a task-specific prompt in each input instance during the model training stage. It freezes the pre-trained language model and only optimizes a few task-specific prompts. In this paper, we propose a conditional prompt generation method to generate prompts for each input instance, referred to as the Instance-Dependent Prompt Generation (IDPG). Unlike traditional prompt tuning methods that use a fixed prompt, IDPG introduces a lightweight and trainable component to generate prompts based on each input sentence. Extensive experiments on ten natural language understanding (NLU) tasks show that the proposed strategy consistently outperforms various prompt tuning baselines and is on par with other efficient transfer learning methods such as Compacter while tuning far fewer model parameters.
翻訳日:2022-04-12 14:34:27 公開日:2022-04-09
# これをツイートしましょうか? Twitter上での公衆衛生メッセージの受信予測のための生成応答モデル

Should we tweet this? Generative response modeling for predicting reception of public health messaging on Twitter ( http://arxiv.org/abs/2204.04353v1 )

ライセンス: Link先を確認
Abraham Sanders, Debjani Ray-Majumder, John S. Erickson, Kristin P. Bennett(参考訳) ソーシャルメディア上で公衆衛生機関からメッセージに反応する方法は、特にCOVID-19のような世界的な危機において、重要な健康問題に対する公衆の認識に洞察を与えることができる。 米国疾病予防管理センター(cdc)や世界保健機関(who)のようなハイインパクトな組織にとって、これらの認識がメッセージの受信と健康政策の推奨にどのように影響するかを理解するのに有用である。 公衆衛生メッセージの2つのデータセットと、covid-19とワクチンに関するtwitterからの回答を収集し、これらのメッセージの受信可能性を調べるための予測方法を紹介する。 具体的には、生成モデル(GPT-2)を用いて、予測可能な将来の反応を直接予測し、重要な健康ガイダンスの受信を最適化する方法を実証する。 最後に,本モデルが実際の公衆衛生反応における意味と感情を捉えていることを結論付けるために,広範な統計テストを用いた新しい評価手法を提案する。

The way people respond to messaging from public health organizations on social media can provide insight into public perceptions on critical health issues, especially during a global crisis such as COVID-19. It could be valuable for high-impact organizations such as the US Centers for Disease Control and Prevention (CDC) or the World Health Organization (WHO) to understand how these perceptions impact reception of messaging on health policy recommendations. We collect two datasets of public health messages and their responses from Twitter relating to COVID-19 and Vaccines, and introduce a predictive method which can be used to explore the potential reception of such messages. Specifically, we harness a generative model (GPT-2) to directly predict probable future responses and demonstrate how it can be used to optimize expected reception of important health guidance. Finally, we introduce a novel evaluation scheme with extensive statistical testing which allows us to conclude that our models capture the semantics and sentiment found in actual public health responses.
翻訳日:2022-04-12 14:30:56 公開日:2022-04-09
# 共同分布問題:マイトショット分類のための深ブラウン距離共分散

Joint Distribution Matters: Deep Brownian Distance Covariance for Few-Shot Classification ( http://arxiv.org/abs/2204.04567v1 )

ライセンス: Link先を確認
Jiangtao Xie, Fei Long, Jiaming Lv, Qilong Wang, Peihua Li(参考訳) 少数ショットの分類は難しい問題であり、新しいタスク毎にトレーニング例が与えられるのはごくわずかである。 この課題に対処する有効な研究の1つは、クエリイメージと一部のクラスのサポートイメージとの類似性による深層表現の学習に焦点を当てている。 統計的には、これは高次元埋め込み空間におけるランダムベクトルと見なされる画像特徴の依存性を測定する。 従来の方法は、ジョイント分布を考慮せずに限界分布のみを使用するか、限定的な表現能力に苦しむか、ジョイント分布を利用して計算的に高価である。 本稿では, 深さブラウン距離共分散法(deepbdc法)を提案する。 DeepBDCの中心となる考え方は、組込み特徴関数と辺縁積との相違を計測して画像表現を学ぶことである。 BDC計量は分離されるので、高度にモジュール化され効率的な層として定式化する。 さらに、DeepBDCを2つの異なるショット分類フレームワークでインスタンス化する。 一般的なオブジェクト認識,細粒度分類,クロスドメイン分類を含む,6つの標準の少数ショット画像ベンチマーク実験を行った。 広範囲な評価から、DeepBDCは、新たな最先端の結果を確立しながら、その成果を大きく上回っていることが分かる。 ソースコードはhttp://www.peihuali. org/DeepBDCで入手できる。

Few-shot classification is a challenging problem as only very few training examples are given for each new task. One of the effective research lines to address this challenge focuses on learning deep representations driven by a similarity measure between a query image and few support images of some class. Statistically, this amounts to measure the dependency of image features, viewed as random vectors in a high-dimensional embedding space. Previous methods either only use marginal distributions without considering joint distributions, suffering from limited representation capability, or are computationally expensive though harnessing joint distributions. In this paper, we propose a deep Brownian Distance Covariance (DeepBDC) method for few-shot classification. The central idea of DeepBDC is to learn image representations by measuring the discrepancy between joint characteristic functions of embedded features and product of the marginals. As the BDC metric is decoupled, we formulate it as a highly modular and efficient layer. Furthermore, we instantiate DeepBDC in two different few-shot classification frameworks. We make experiments on six standard few-shot image benchmarks, covering general object recognition, fine-grained categorization and cross-domain classification. Extensive evaluations show our DeepBDC significantly outperforms the counterparts, while establishing new state-of-the-art results. The source code is available at http://www.peihuali. org/DeepBDC
翻訳日:2022-04-12 13:52:40 公開日:2022-04-09
# 物体ナビゲーションのための非バイアス指向オブジェクト注意グラフ

Unbiased Directed Object Attention Graph for Object Navigation ( http://arxiv.org/abs/2204.04421v1 )

ライセンス: Link先を確認
Ronghao Dang, Zhuofan Shi, Liuyi Wang, Zongtao He, Chengju Liu, Qijun Chen(参考訳) オブジェクトナビゲーションタスクは、エージェントが視覚情報に基づいて未知の環境で特定のオブジェクトを見つける必要がある。 以前は、グラフ畳み込みはオブジェクト間の関係を暗黙的に探究するために使われていました。 しかしながら、オブジェクト間の可視性の違いから、オブジェクトの注意のバイアスを発生させるのが容易である。 そこで本稿では,対象間の注意関係を明示的に学習し,対象の注意バイアスを低減するために,エージェントを誘導する対象注意グラフを提案する。 特に、DOAグラフを用いて、対象物の特徴に対して非バイアス適応物体注意(UAOA)を、原画像上では非バイアス適応画像注意(UAIA)をそれぞれ行う。 異なる枝の特徴を識別するために,簡潔な適応分岐エネルギー分布(abed)法を提案する。 我々はAI2-Thorデータセットを用いて手法を評価する。 最新技術(sota)法と比較して,成功率(sr)は7.4%,8.1%,17.6%,経路長重み付け成功(spl),行動効率重み付け成功(sae)をそれぞれ報告した。

Object navigation tasks require agents to locate specific objects in unknown environments based on visual information. Previously, graph convolutions were used to implicitly explore the relationships between objects. However, due to differences in visibility among objects, it is easy to generate biases in object attention. Thus, in this paper, we propose a directed object attention (DOA) graph to guide the agent in explicitly learning the attention relationships between objects, thereby reducing the object attention bias. In particular, we use the DOA graph to perform unbiased adaptive object attention (UAOA) on the object features and unbiased adaptive image attention (UAIA) on the raw images, respectively. To distinguish features in different branches, a concise adaptive branch energy distribution (ABED) method is proposed. We assess our methods on the AI2-Thor dataset. Compared with the state-of-the-art (SOTA) method, our method reports 7.4%, 8.1% and 17.6% increase in success rate (SR), success weighted by path length (SPL) and success weighted by action efficiency (SAE), respectively.
翻訳日:2022-04-12 13:49:16 公開日:2022-04-09
# ダイバージェンスを意識した自己教師付き学習

Divergence-aware Federated Self-Supervised Learning ( http://arxiv.org/abs/2204.04385v1 )

ライセンス: Link先を確認
Weiming Zhuang, Yonggang Wen, Shuai Zhang(参考訳) 自己教師付き学習(SSL)は、中央で利用可能なデータから顕著な表現を学習することができる。 最近の研究はSSLによるフェデレーション学習を実装し、急速に成長する分散化されていない画像(例えばカメラや携帯電話から)から学習する。 Siameseネットワークに基づくSSLアプローチには、大きな注目を集めている。 しかし、このような取り組みは、federated self-supervised learning (fedssl)アーキテクチャのさまざまな基本的な構成要素に対する深い洞察をまだ明らかにしていない。 我々は,このギャップを詳細な実証研究を通じて埋めることを目指しており,非独立的かつ同一に分散された非IIDデータ問題に対処する新しい手法を提案する。 まず,Siameseネットワークをベースとした既存のSSLメソッドを取り入れたFedSSLフレームワークを紹介する。 このフレームワークでは、サーバが複数のクライアントをコーディネートしてSSLトレーニングを行い、集約されたグローバルモデルでクライアントのローカルモデルを定期的に更新する。 このフレームワークを使って、我々の研究はFedSSLのユニークな洞察を明らかにした。 1) 従来は必須とされていた停止段階の操作は,必ずしもFedSSLで必要ではない。 2) FedSSLにおけるクライアントのローカル知識を維持することは、非IIDデータにとって特に有益である。 この知見に触発されて、モデル更新のための新しいアプローチであるFederated Divergence-aware Exponential moving Average update (FedEMA)を提案する。 FedEMAはグローバルモデルのEMAを用いてクライアントのローカルモデルを適応的に更新する。 大規模な実験により、FedEMAは線形評価において既存の手法よりも3.4%優れていた。 この研究が今後の研究に役立つことを願っている。

Self-supervised learning (SSL) is capable of learning remarkable representations from centrally available data. Recent works further implement federated learning with SSL to learn from rapidly growing decentralized unlabeled images (e.g., from cameras and phones), often resulted from privacy constraints. Extensive attention has been paid to SSL approaches based on Siamese networks. However, such an effort has not yet revealed deep insights into various fundamental building blocks for the federated self-supervised learning (FedSSL) architecture. We aim to fill in this gap via in-depth empirical study and propose a new method to tackle the non-independently and identically distributed (non-IID) data problem of decentralized data. Firstly, we introduce a generalized FedSSL framework that embraces existing SSL methods based on Siamese networks and presents flexibility catering to future methods. In this framework, a server coordinates multiple clients to conduct SSL training and periodically updates local models of clients with the aggregated global model. Using the framework, our study uncovers unique insights of FedSSL: 1) stop-gradient operation, previously reported to be essential, is not always necessary in FedSSL; 2) retaining local knowledge of clients in FedSSL is particularly beneficial for non-IID data. Inspired by the insights, we then propose a new approach for model update, Federated Divergence-aware Exponential Moving Average update (FedEMA). FedEMA updates local models of clients adaptively using EMA of the global model, where the decay rate is dynamically measured by model divergence. Extensive experiments demonstrate that FedEMA outperforms existing methods by 3-4% on linear evaluation. We hope that this work will provide useful insights for future research.
翻訳日:2022-04-12 13:32:26 公開日:2022-04-09
# 高速かつ通信効率の良いフェデレーション学習のための適応微分フィルタ

Adaptive Differential Filters for Fast and Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2204.04424v1 )

ライセンス: Link先を確認
Daniel Becking and Heiner Kirchhoffer and Gerhard Tech and Paul Haase and Karsten M\"uller and Heiko Schwarz and Wojciech Samek(参考訳) フェデレーション学習(fl)のシナリオは、クライアントとサーバ間でニューラルネットワークのアップデートを頻繁に送信することで、本質的に大きな通信オーバーヘッドを生み出す。 通信コストを最小限に抑えるため、差分更新とともに疎結合を導入することが一般的な手法である。 しかし、スパースモデル更新は収束速度を遅くしたり、例えば、エラーの蓄積が適切に対処されていない場合、学習した機能などの特定の更新側面を意図せずにスキップする。 本研究では,畳み込みフィルタの粒度を考慮した新しいスケーリング手法を提案する。 1)flプロセスにおける高度にスパースな更新を補償する。 2)フィルタ空間の機能強化による局所モデルを新たなデータ領域に適応させるとともに,他の部分も減少させる。 3)更新の余分なばらつきを動機付け、それによって圧縮率、すなわちデータ転送全体の節約を達成する。 コンピュータビジョンタスク(Pascal VOC, CIFAR10, Chest X-Ray)とニューラルネットワーク(ResNets, MobileNets, VGGs)の単方向, 双方向, 部分的な更新設定における実験結果から, 提案手法はより高速に収束し, 送信データ総量を最大377倍に削減し, 中央サーバモデルの性能を向上させることを示す。

Federated learning (FL) scenarios inherently generate a large communication overhead by frequently transmitting neural network updates between clients and server. To minimize the communication cost, introducing sparsity in conjunction with differential updates is a commonly used technique. However, sparse model updates can slow down convergence speed or unintentionally skip certain update aspects, e.g., learned features, if error accumulation is not properly addressed. In this work, we propose a new scaling method operating at the granularity of convolutional filters which 1) compensates for highly sparse updates in FL processes, 2) adapts the local models to new data domains by enhancing some features in the filter space while diminishing others and 3) motivates extra sparsity in updates and thus achieves higher compression ratios, i.e., savings in the overall data transfer. Compared to unscaled updates and previous work, experimental results on different computer vision tasks (Pascal VOC, CIFAR10, Chest X-Ray) and neural networks (ResNets, MobileNets, VGGs) in uni-, bidirectional and partial update FL settings show that the proposed method improves the performance of the central server model while converging faster and reducing the total amount of transmitted data by up to 377 times.
翻訳日:2022-04-12 13:32:02 公開日:2022-04-09