このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210724となっている論文です。

PDF登録状況(公開日: 20210724)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 深層学習に基づくメタモデルによる機械駆動フルフィールド量の予測 [全文訳有]

Predicting Mechanically Driven Full-Field Quantities of Interest with Deep Learning-Based Metamodels ( http://arxiv.org/abs/2108.03995v1 )

ライセンス: CC BY-SA 4.0
S. Mohammadzadeh and E. Lejeune(参考訳) 不均質材料の力学挙動の予測にシミュレーションを用いることで、トポロジー最適化からマルチスケール構造解析まで応用できる。 しかし、有限要素解析のような完全忠実度シミュレーション技術は、不均質材料の大規模な入力パラメータ空間を探索するために用いられる場合、計算コストが禁じられる。 そのため、機械学習に基づくモデルに大きな関心が寄せられ、一度訓練すれば計算コストのごく一部で機械的挙動を予測できる。 過去数年間、この分野の研究は主に1つの興味の量(QoIs)の予測に焦点を当ててきた。 しかし近年,機械的問題に対する完全体QoI(変位・ひずみ場,損傷場など)の予測という,より困難な問題への関心が高まっている。 フルフィールド情報の追加により、単一QoI問題でよく機能するネットワークアーキテクチャは、フルフィールドQoI問題設定では性能が悪くなる可能性がある。 この論文で示された仕事は2つある。 まず,全フィールドQoI予測の検証を可能にするために,MNISTデータセットの大幅な拡張を行った。 具体的には, 位相場法による異種材料中の準静的脆性破壊の有限要素シミュレーション結果を加えた。 第2に,MultiRes-WNetアーキテクチャを用いたフルフィールドQoI予測のための強力なベースライン性能を確立した。 本論文で得られた結果に加えて,オープンソースライセンス下でのモデル実装とMechanical MNIST Crack Pathデータセットもリリースした。 今後の研究者は,本論文で確立した全フィールドQoI予測のベースライン性能を超越した,関連するデータセットと潜在的設計モデルに直接,我々のモデルアーキテクチャを利用することを期待している。

Using simulation to predict the mechanical behavior of heterogeneous materials has applications ranging from topology optimization to multi-scale structural analysis. However, full-fidelity simulation techniques such as Finite Element Analysis can be prohibitively computationally expensive when they are used to explore the massive input parameter space of heterogeneous materials. Therefore, there has been significant recent interest in machine learning-based models that, once trained, can predict mechanical behavior at a fraction of the computational cost. Over the past several years, research in this area has been focused mainly on predicting single Quantities of Interest (QoIs). However, there has recently been an increased interest in a more challenging problem: predicting full-field QoI (e.g., displacement/strain fields, damage fields) for mechanical problems. Due to the added complexity of full-field information, network architectures that perform well on single QoI problems may perform poorly in the full-field QoI problem setting. The work presented in this paper is twofold. First, we made a significant extension to the Mechanical MNIST dataset designed to enable the investigation of full field QoI prediction. Specifically, we added Finite Element simulation results of quasi-static brittle fracture in a heterogeneous material captured with the phase-field method. Second, we established strong baseline performance for predicting full-field QoI with MultiRes-WNet architecture. In addition to presenting the results in this paper, we have released our model implementation and the Mechanical MNIST Crack Path dataset under open-source licenses. We anticipate that future researchers will directly use our model architecture on related datasets and potentially design models that exceed the baseline performance for predicting full-field QoI established in this paper.
翻訳日:2021-08-15 15:26:57 公開日:2021-07-24
# (参考訳) MDQE: 機械翻訳品質推定のためのより正確な事前トレーニング [全文訳有]

MDQE: A More Accurate Direct Pretraining for Machine Translation Quality Estimation ( http://arxiv.org/abs/2107.14600v1 )

ライセンス: CC BY 4.0
Lei Lin(参考訳) 通常、機械翻訳(mt)の結果を評価するのは高価である。 機械翻訳品質推定(英: Machine Translation Quality Estimation、QE)とは、機械翻訳の品質を基準に頼らずに予測するタスクである。 近年,予測器を特徴抽出器として,推定器をQE予測器として訓練する予測器・推定器フレームワークが出現し,事前学習言語モデル(PLM)が有望なQE性能を達成した。 しかしながら、データ品質とトレーニング目標の両方において、予測者と推定者の間にはまだギャップがあり、qeモデルが多数の並列コーパスから直接恩恵を受けることを妨げると主張している。 ギャップをある程度緩和した先行研究に基づいて,より正確なqeタスクの事前学習を実現するための新しいフレームワークを提案する。 このフレームワークでは、生成器が実際のQEデータに近い擬似データを生成するように訓練され、これらのデータに対して、QEタスクと同じ新しい目的を持つ推定器が事前訓練される。 提案するフレームワークは,BERTなどの事前学習モデルを用いることなく,既存の手法よりも優れていることを示す。

It is expensive to evaluate the results of Machine Translation(MT), which usually requires manual translation as a reference. Machine Translation Quality Estimation (QE) is a task of predicting the quality of machine translations without relying on any reference. Recently, the emergence of predictor-estimator framework which trains the predictor as a feature extractor and estimator as a QE predictor, and pre-trained language models(PLM) have achieved promising QE performance. However, we argue that there are still gaps between the predictor and the estimator in both data quality and training objectives, which preclude QE models from benefiting from a large number of parallel corpora more directly. Based on previous related work that have alleviated gaps to some extent, we propose a novel framework that provides a more accurate direct pretraining for QE tasks. In this framework, a generator is trained to produce pseudo data that is closer to the real QE data, and a estimator is pretrained on these data with novel objectives that are the same as the QE task. Experiments on widely used benchmarks show that our proposed framework outperforms existing methods, without using any pretraining models such as BERT.
翻訳日:2021-08-08 11:27:17 公開日:2021-07-24
# (参考訳) 抑うつ検出のための話者埋め込みと時間文脈の意義 [全文訳有]

Significance of Speaker Embeddings and Temporal Context for Depression Detection ( http://arxiv.org/abs/2107.13969v1 )

ライセンス: CC BY 4.0
Sri Harsha Dumpala, Sebastian Rodriguez, Sheri Rempel, Rudolf Uher, Sageev Oore(参考訳) 近年,音声による抑うつ検出が注目されている。 しかし, 抑うつ検出における話者固有情報の重要性は未だ調査されていない。 本研究では,音声からの抑うつ検出作業における話者埋め込みの重要性を分析する。 実験結果から, 話者埋め込みは, 抑うつ検出における最先端性能を実現するための重要な手がかりとなることがわかった。 また,補完情報を持つ従来のOpenSMILEとCOVAREPの機能と話者埋め込みを組み合わせることで,抑うつ検出性能が向上することを示す。 本稿では,抑うつ検出のための深層学習モデルの訓練における時間的文脈の重要性について述べる。

Depression detection from speech has attracted a lot of attention in recent years. However, the significance of speaker-specific information in depression detection has not yet been explored. In this work, we analyze the significance of speaker embeddings for the task of depression detection from speech. Experimental results show that the speaker embeddings provide important cues to achieve state-of-the-art performance in depression detection. We also show that combining conventional OpenSMILE and COVAREP features, which carry complementary information, with speaker embeddings further improves the depression detection performance. The significance of temporal context in the training of deep learning models for depression detection is also analyzed in this paper.
翻訳日:2021-08-01 11:35:28 公開日:2021-07-24
# (参考訳) コンボリューティブブラインド音源分離におけるFastICAの改質 [全文訳有]

Modifications of FastICA in Convolutive Blind Source Separation ( http://arxiv.org/abs/2107.14135v1 )

ライセンス: CC BY 4.0
YunPeng Li(参考訳) コンボリューティブブラインドソース分離(BSS)は、そのコンボリューティブ混合物から未知の成分を回収することを目的としている。 瞬時に使用されるコントラスト関数とは対照的に、畳み込みの文脈で空間-時間-プレホワイトニングステージとパラユニタリフィルタ制約を実装するのが困難である。 本稿では,これらの問題を軽減するために,FastICAのいくつかの修正を提案する。 本手法は,分離前のコンボルチブ混合物の単純な前白化処理を行い,単一値分解(SVD)により実装された対角化制約の下でコントラスト関数を最適化する。 提案手法の性能を検証するために数値シミュレーションを行った。

Convolutive blind source separation (BSS) is intended to recover the unknown components from their convolutive mixtures. Contrary to the contrast functions used in instantaneous cases, the spatial-temporal prewhitening stage and the para-unitary filters constraint are difficult to implement in a convolutive context. In this paper, we propose several modifications of FastICA to alleviate these difficulties. Our method performs the simple prewhitening step on convolutive mixtures prior to the separation and optimizes the contrast function under the diagonalization constraint implemented by single value decomposition (SVD). Numerical simulations are implemented to verify the performance of the proposed method.
翻訳日:2021-08-01 11:20:22 公開日:2021-07-24
# パーソナライズされた画像セマンティックセグメンテーション

Personalized Image Semantic Segmentation ( http://arxiv.org/abs/2107.13978v1 )

ライセンス: Link先を確認
Yu Zhang and Chang-Bin Zhang and Peng-Tao Jiang and Feng Mao and Ming-Ming Cheng(参考訳) 公開データセットでトレーニングされたセマンティックセグメンテーションモデルは近年大きな成功を収めている。 しかし,これらのモデルは,実際には重要ではあるがセグメンテーションのパーソナライズ問題を考慮しなかった。 本稿では,パーソナライズされた画像分割の問題に対処する。 その目的は、データのパーソナライズされた特徴を調べることによって、ラベルのないパーソナライズされた画像のより正確なセグメンテーション結果を生成することである。 そこで本研究では,PSS(Personalized Image Semantic Segmentation)と呼ばれる,ユーザのパーソナライズされた画像を含む大規模なデータセットを収集する。 また、この問題に関する最近の研究を調査し、その性能をデータセットで報告する。 さらに,ユーザのパーソナライズされた画像間の相関を観察することにより,画像分割時に画像間コンテキストを組み込むベースライン手法を提案する。 実験の結果,提案手法は既存の手法よりも優れていることがわかった。 コードとpisデータセットは公開される予定だ。

Semantic segmentation models trained on public datasets have achieved great success in recent years. However, these models didn't consider the personalization issue of segmentation though it is important in practice. In this paper, we address the problem of personalized image segmentation. The objective is to generate more accurate segmentation results on unlabeled personalized images by investigating the data's personalized traits. To open up future research in this area, we collect a large dataset containing various users' personalized images called PIS (Personalized Image Semantic Segmentation). We also survey some recent researches related to this problem and report their performance on our dataset. Furthermore, by observing the correlation among a user's personalized images, we propose a baseline method that incorporates the inter-image context when segmenting certain images. Extensive experiments show that our method outperforms the existing methods on the proposed dataset. The code and the PIS dataset will be made publicly available.
翻訳日:2021-08-01 11:06:33 公開日:2021-07-24
# OFDMシステムにおける深層学習に基づく信号検出方式

A Signal Detection Scheme Based on Deep Learning in OFDM Systems ( http://arxiv.org/abs/2107.13423v1 )

ライセンス: Link先を確認
Guangliang Pan, Zitong Liu, Wei Wang, Minglei Li(参考訳) 直交周波数分割多重化(ofdm)システムにおけるエンドツーエンド通信の品質を保証するためには,チャネル推定と信号検出が不可欠である。 本稿では,OFDMシステムにおけるDDLSD(Data-driven Deep Learning for Signal Detection)手法を提案する。 まず、OFDMシステムモデルを確立する。 次に、長い短期記憶(LSTM)をOFDMシステムモデルに導入する。 シミュレーションにより無線チャネルデータが生成され、前処理された時系列特徴情報がLSTMに入力され、オフライントレーニングが完了する。 最後に、トレーニングされたモデルは送信信号のオンラインリカバリに使用される。 この方式と既存のOFDM受信機の違いは、明示的な推定チャネル状態情報(CSI)が見えない推定CSIに変換され、送信シンボルが直接復元されることである。 シミュレーションの結果,DDLSD方式はチャネル推定および信号検出性能の向上の観点から従来の手法よりも優れていた。

Channel estimation and signal detection are essential steps to ensure the quality of end-to-end communication in orthogonal frequency-division multiplexing (OFDM) systems. In this paper, we develop a DDLSD approach, i.e., Data-driven Deep Learning for Signal Detection in OFDM systems. First, the OFDM system model is established. Then, the long short-term memory (LSTM) is introduced into the OFDM system model. Wireless channel data is generated through simulation, the preprocessed time series feature information is input into the LSTM to complete the offline training. Finally, the trained model is used for online recovery of transmitted signal. The difference between this scheme and existing OFDM receiver is that explicit estimated channel state information (CSI) is transformed into invisible estimated CSI, and the transmit symbol is directly restored. Simulation results show that the DDLSD scheme outperforms the existing traditional methods in terms of improving channel estimation and signal detection performance.
翻訳日:2021-07-29 13:45:16 公開日:2021-07-24
# (参考訳) 学生/教師転送学習を用いた多目的/多タスクコロケーション物理型ニューラルネットワークの学習 [全文訳有]

Training multi-objective/mult i-task collocation physics-informed neural network with student/teachers transfer learnings ( http://arxiv.org/abs/2107.11496v1 )

ライセンス: CC BY 4.0
Bahador Bahmani and WaiChing Sun(参考訳) 本稿では,(1)物理形ニューラルネットワークのトレーニングを,ポイントクラウドに格納した補助データによる堅牢性向上のための事前学習ステップ,(2)ニューラルネットワークの重み初期化を改善するnet-to-net知識転送アルゴリズム,(3)競合する制約を持つ物理型ニューラルネットワークの性能を向上させる多目的最適化アルゴリズムを用いたピントレーニングフレームワークを提案する。 本研究では, 物理インフォームドニューラルネットワーク(PINN)の学習と多タスク学習を, 支配方程式, 境界条件, 熱力学的不等式, 対称性, 不変性などの物理制約が相反し, パレート最適解を求める必要のある点雲である多目的問題とみなす。 これらの状況では、重み付きノルムは複数の制約を扱うのに一般的に使われるが、他の多目的アルゴリズムは次元が増大するにつれてスケーラビリティが低下する可能性がある。 この技術的障壁を克服するために、ベクトル化対象関数の概念を採用し、矛盾する勾配問題に対処するために勾配降下法を変更する。 数値実験は、PINNで解決したベンチマーク境界値問題と比較する。 提案されたパラダイムの性能は、古典的な等重み付き規範アプローチと比較される。 数値実験の結果,いくつかのピン実装で示される脆性や頑健性の欠如は,提案手法で克服できることが示唆された。

This paper presents a PINN training framework that employs (1) pre-training steps that accelerates and improve the robustness of the training of physics-informed neural network with auxiliary data stored in point clouds, (2) a net-to-net knowledge transfer algorithm that improves the weight initialization of the neural network and (3) a multi-objective optimization algorithm that may improve the performance of a physical-informed neural network with competing constraints. We consider the training and transfer and multi-task learning of physics-informed neural network (PINN) as multi-objective problems where the physics constraints such as the governing equation, boundary conditions, thermodynamic inequality, symmetry, and invariant properties, as well as point cloud used for pre-training can sometimes lead to conflicts and necessitating the seek of the Pareto optimal solution. In these situations, weighted norms commonly used to handle multiple constraints may lead to poor performance, while other multi-objective algorithms may scale poorly with increasing dimensionality. To overcome this technical barrier, we adopt the concept of vectorized objective function and modify a gradient descent approach to handle the issue of conflicting gradients. Numerical experiments are compared the benchmark boundary value problems solved via PINN. The performance of the proposed paradigm is compared against the classical equal-weighted norm approach. Our numerical experiments indicate that the brittleness and lack of robustness demonstrated in some PINN implementations can be overcome with the proposed strategy.
翻訳日:2021-07-28 10:47:59 公開日:2021-07-24
# (参考訳) $\mu$darts: モデル不確かさを認識可能なアーキテクチャ検索 [全文訳有]

$\mu$DARTS: Model Uncertainty-Aware Differentiable Architecture Search ( http://arxiv.org/abs/2107.11500v1 )

ライセンス: CC BY 4.0
Biswadeep Chakraborty and Saibal Mukhopadhyay(参考訳) ニューラルネットワークを最適化し,高精度かつ低不確実性を同時に達成するモデル不確実性認識型微分ARchiTecture Search(\mu$DARTS)を提案する。 DARTSセル内にコンクリートドロップアウトを導入し,モンテカルロレギュレータをトレーニング損失に組み込んでコンクリートドロップアウト確率を最適化する。 検証損失に予測分散項を導入し、最小限のモデル不確実性を持つアーキテクチャの探索を可能にする。 CIFAR10, CIFAR100, SVHN, ImageNetの実験により, 既存のDARTS法と比較して精度の向上と不確実性の低減に$\mu$DARTSの有効性が検証された。 さらに、$\mu$DARTSから得られた最終アーキテクチャは、既存のDARTS法と比較して入力画像やモデルパラメータのノイズに対する堅牢性が高い。

We present a Model Uncertainty-aware Differentiable ARchiTecture Search ($\mu$DARTS) that optimizes neural networks to simultaneously achieve high accuracy and low uncertainty. We introduce concrete dropout within DARTS cells and include a Monte-Carlo regularizer within the training loss to optimize the concrete dropout probabilities. A predictive variance term is introduced in the validation loss to enable searching for architecture with minimal model uncertainty. The experiments on CIFAR10, CIFAR100, SVHN, and ImageNet verify the effectiveness of $\mu$DARTS in improving accuracy and reducing uncertainty compared to existing DARTS methods. Moreover, the final architecture obtained from $\mu$DARTS shows higher robustness to noise at the input image and model parameters compared to the architecture obtained from existing DARTS methods.
翻訳日:2021-07-28 10:21:08 公開日:2021-07-24
# (参考訳) 画像とテキストの周期的構成学習 [全文訳有]

Cycled Compositional Learning between Images and Text ( http://arxiv.org/abs/2107.11509v1 )

ライセンス: CC BY 4.0
Jongseok Kim, Youngjae Yu, Seunghwan Lee, GunheeKim(参考訳) 本稿では,画像テキスト埋め込みの構成の意味的距離を計測できるcycled composition networkという手法を提案する。 まず、コンポジションネットワークは、相対字幕を用いて埋め込み空間内の対象画像への参照画像を転送する。 次に、補正ネットワークは、埋め込み空間内の参照画像と検索対象画像との差を算出し、相対的なキャプションとマッチングする。 私たちの目標は、コンポジションネットワークでコンポジションマッピングを学ぶことです。 この一方向マッピングは高度に訓練不足であるため、補正ネットワークと逆関係学習を結合し、fashion iq 2020チャレンジに参加する与えられた画像に対してサイクル付き関係を導入し、モデルのアンサンブルで1位を獲得した。

We present an approach named the Cycled Composition Network that can measure the semantic distance of the composition of image-text embedding. First, the Composition Network transit a reference image to target image in an embedding space using relative caption. Second, the Correction Network calculates a difference between reference and retrieved target images in the embedding space and match it with a relative caption. Our goal is to learn a Composition mapping with the Composition Network. Since this one-way mapping is highly under-constrained, we couple it with an inverse relation learning with the Correction Network and introduce a cycled relation for given Image We participate in Fashion IQ 2020 challenge and have won the first place with the ensemble of our model.
翻訳日:2021-07-28 10:04:42 公開日:2021-07-24
# (参考訳) オンライン学習とオフライン学習を組み合わせたコンテキストバンディット支援 [全文訳有]

Combining Online Learning and Offline Learning for Contextual Bandits with Deficient Support ( http://arxiv.org/abs/2107.11533v1 )

ライセンス: CC BY 4.0
Hung Tran-The, Sunil Gupta, Thanh Nguyen-Tang, Santu Rana, Svetha Venkatesh(参考訳) 我々は,コンテキストバンディットにおけるログデータを用いたポリシー学習に対処する。 現在のオフライン政治学習アルゴリズムは、主に逆相対性スコア(IPS)重み付けに基づいており、ロギングポリシーは \emph{full support} を必要とする。 評価ポリシーの任意のコンテキスト/アクションに対する非ゼロ確率。 しかし、現実世界のシステムの多くは、特にアクションスペースが大きく、多くのアクションが報酬の不足や不足している場合に、そのようなロギングポリシーを保証しない。 このようなemph{ Support deficiency} では、オフライン学習は最適なポリシーを見つけるのに失敗する。 本稿では,オフライン学習とオンライン探索を組み合わせた新しいアプローチを提案する。 オンライン探索はログデータでサポートされたアクションを探索するために使用され、オフライン学習は不要な探索を避けるためにログデータからサポートされたアクションを利用する。 提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。 アルゴリズムの有効性を、さまざまなデータセットで実証的に示します。

We address policy learning with logged data in contextual bandits. Current offline-policy learning algorithms are mostly based on inverse propensity score (IPS) weighting requiring the logging policy to have \emph{full support} i.e. a non-zero probability for any context/action of the evaluation policy. However, many real-world systems do not guarantee such logging policies, especially when the action space is large and many actions have poor or missing rewards. With such \emph{support deficiency}, the offline learning fails to find optimal policies. We propose a novel approach that uses a hybrid of offline learning with online exploration. The online exploration is used to explore unsupported actions in the logged data whilst offline learning is used to exploit supported actions from the logged data avoiding unnecessary explorations. Our approach determines an optimal policy with theoretical guarantees using the minimal number of online explorations. We demonstrate our algorithms' effectiveness empirically on a diverse collection of datasets.
翻訳日:2021-07-28 09:58:37 公開日:2021-07-24
# (参考訳) MIPE: 効果的なコード混合NLG評価のためのメトリクス独立パイプライン [全文訳有]

MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG Evaluation ( http://arxiv.org/abs/2107.11534v1 )

ライセンス: CC BY 4.0
Ayush Garg, Sammed S Kagi, Vivek Srivastava, Mayank Singh(参考訳) コードミキシング(Code-mixing)は、2つ以上の言語の単語とフレーズを1つの発話で混合する現象である。 言語的多様性が高いため、コードミキシングは標準自然言語生成(NLG)タスクを評価する上でいくつかの課題をもたらす。 広く普及しているメトリクスは、コード混合nlgタスクでパフォーマンスが悪い。 この課題に対処するために、生成したコードミックステキストにおける評価指標と人的判断との相関性を大幅に改善するメトリクス独立評価パイプラインMIPEを提案する。 ユースケースとして,HinGEコーパスから生成したHinglish文(ヒンディー語と英語のコードミキシング)におけるMIPEの性能を示す。 提案した評価戦略を、他のコード混合言語ペア、NLGタスク、および評価指標に最小限の労力で拡張することができる。

Code-mixing is a phenomenon of mixing words and phrases from two or more languages in a single utterance of speech and text. Due to the high linguistic diversity, code-mixing presents several challenges in evaluating standard natural language generation (NLG) tasks. Various widely popular metrics perform poorly with the code-mixed NLG tasks. To address this challenge, we present a metric independent evaluation pipeline MIPE that significantly improves the correlation between evaluation metrics and human judgments on the generated code-mixed text. As a use case, we demonstrate the performance of MIPE on the machine-generated Hinglish (code-mixing of Hindi and English languages) sentences from the HinGE corpus. We can extend the proposed evaluation strategy to other code-mixed language pairs, NLG tasks, and evaluation metrics with minimal to no effort.
翻訳日:2021-07-28 09:24:45 公開日:2021-07-24
# (参考訳) 半監督的な人物の再識別にもっと深く取り組む [全文訳有]

Going Deeper into Semi-supervised Person Re-identification ( http://arxiv.org/abs/2107.11566v1 )

ライセンス: CC BY 4.0
Olga Moskvyak, Frederic Maire, Feras Dayoub, Mahsa Baktashmotlagh(参考訳) 人物再識別は、異なるカメラビューで人物を識別する困難なタスクである。 このタスクのために畳み込みニューラルネットワーク(CNN)をトレーニングするには、大規模なデータセットのアノテートが必要だ。 ラベル付きデータの必要性を低減するため、ラベル付けされるトレーニングデータのサブセットのみを必要とする半教師付きアプローチに焦点を当てる。 我々は,限定ラベルによる人物再同定の分野における包括的調査を行う。 この領域の既存の作品は、複数のcnnの機能を利用し、ラベルのないデータのid数を必要とするという意味で制限されている。 これらの制限を克服するため,ラベル空間の知識(アイデンティティの数)を必要とせず,単一のCNNから部分ベースの機能を採用することを提案する。 これにより,本手法は現実的なシナリオに適合し,計算資源の必要性を大幅に低減する。 また,半教師付き設定における疑似ラベル付けのための学習部分に基づく特徴の識別能力を向上させるpartmixup損失を提案する。 提案手法は,3つの大規模パーソンリidデータセットの最先端結果を上回り,ラベル付きidの3分の1しか持たない完全教師付きメソッドと同等の性能を達成している。

Person re-identification is the challenging task of identifying a person across different camera views. Training a convolutional neural network (CNN) for this task requires annotating a large dataset, and hence, it involves the time-consuming manual matching of people across cameras. To reduce the need for labeled data, we focus on a semi-supervised approach that requires only a subset of the training data to be labeled. We conduct a comprehensive survey in the area of person re-identification with limited labels. Existing works in this realm are limited in the sense that they utilize features from multiple CNNs and require the number of identities in the unlabeled data to be known. To overcome these limitations, we propose to employ part-based features from a single CNN without requiring the knowledge of the label space (i.e., the number of identities). This makes our approach more suitable for practical scenarios, and it significantly reduces the need for computational resources. We also propose a PartMixUp loss that improves the discriminative ability of learned part-based features for pseudo-labeling in semi-supervised settings. Our method outperforms the state-of-the-art results on three large-scale person re-id datasets and achieves the same level of performance as fully supervised methods with only one-third of labeled identities.
翻訳日:2021-07-28 09:15:09 公開日:2021-07-24
# (参考訳) IWSLT 2021のためのUSYD-JD音声翻訳システム [全文訳有]

The USYD-JD Speech Translation System for IWSLT 2021 ( http://arxiv.org/abs/2107.11572v1 )

ライセンス: CC0 1.0
Liang Ding, Di Wu, Dacheng Tao(参考訳) 本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。 我々はスワヒリ・イングリッシュ・コースに参加し,全参加者の中で最高のスカーレBLEU(25.3)スコアを得た。 私たちの制約のあるシステムはパイプラインフレームワークに基づいている。 ASRとNMT。 私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。 ASRシステムはオープンソースツールであるKaldiをベースにしており、この研究は主にNMTモデルを最大限に活用する方法を探求している。 ASRモデルにより生じる句読点誤差を低減するため,従来の作業であるSlotRefineを用いて句読点補正モデルを訓練した。 翻訳性能を向上させるため, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法を検討した。 モデル構造について, 自己回帰モデルと非自己回帰モデルを比較した。 さらに,新しいプリトレイン方式を2つ提案した。 データを十分に活用するための \textit{de-noising training} と \textit{bidirectional training} です。 大規模な実験により、上記の手法の追加はBLEUスコアを一貫して改善し、最終提出システムはベースライン(トランスフォーマーアンサンブルモデルでトレーニングされた元の並列データ)を約10.8 BLEUスコアで上回り、SOTAパフォーマンスを達成する。

This paper describes the University of Sydney& JD's joint submission of the IWSLT 2021 low resource speech translation task. We participated in the Swahili-English direction and got the best scareBLEU (25.3) score among all the participants. Our constrained system is based on a pipeline framework, i.e. ASR and NMT. We trained our models with the officially provided ASR and MT datasets. The ASR system is based on the open-sourced tool Kaldi and this work mainly explores how to make the most of the NMT models. To reduce the punctuation errors generated by the ASR model, we employ our previous work SlotRefine to train a punctuation correction model. To achieve better translation performance, we explored the most recent effective strategies, including back translation, knowledge distillation, multi-feature reranking and transductive finetuning. For model structure, we tried auto-regressive and non-autoregressive models, respectively. In addition, we proposed two novel pre-train approaches, i.e. \textit{de-noising training} and \textit{bidirectional training} to fully exploit the data. Extensive experiments show that adding the above techniques consistently improves the BLEU scores, and the final submission system outperforms the baseline (Transformer ensemble model trained with the original parallel data) by approximately 10.8 BLEU score, achieving the SOTA performance.
翻訳日:2021-07-28 08:56:15 公開日:2021-07-24
# (参考訳) 生成逆ネットワークを用いた散乱媒質による2つの隣接物体の画像再構成 [全文訳有]

Reconstructing Images of Two Adjacent Objects through Scattering Medium Using Generative Adversarial Network ( http://arxiv.org/abs/2107.11574v1 )

ライセンス: CC BY 4.0
Xuetian Lai, Qiongyao Li, Ziyang Chen, Xiaopeng Shao, and Jixiong Pu(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた画像再構成は,過去10年間で活発に研究されている。 これまで, ニューラルネットワークを用いた散乱媒質による単一物体のイメージング技術が開発されてきたが, 複数の物体の画像を同時に再構成する方法は, 実現が困難である。 本稿では,2つの隣接物体の画像を散乱媒体で再構成するために,gan(generative adversarial network)を用いて,そのアプローチを示す。 散乱媒質の背後にある2つの隣接する物体を撮像するイメージングシステムを構築する。 一般に、隣接する2つの物体画像の光場が散乱スラブを通過するとスペックルパターンが得られる。 画像を同時に再構築するためにYGANと呼ばれる設計された対向ネットワークが使用される。 トレーニングされたYGANに基づいて,隣接する2つの物体の画像を1つのスペックルパターンから高忠実度で再構成できることが示されている。 さらに, 対象画像の種類と隣接する2つの物体間の距離が再構成画像の忠実度に与える影響について検討した。 また、2つの物体の間に別の散乱媒質を挿入しても、高品質なスペックルから2つの物体の像を再構成することができる。 本研究で紹介される技術は, 医用画像分類, セグメンテーション, マルチオブジェクト散乱イメージングなどの医療画像解析分野への応用に利用できる。

Reconstruction of image by using convolutional neural networks (CNNs) has been vigorously studied in the last decade. Until now, there have being developed several techniques for imaging of a single object through scattering medium by using neural networks, however how to reconstruct images of more than one object simultaneously seems hard to realize. In this paper, we demonstrate an approach by using generative adversarial network (GAN) to reconstruct images of two adjacent objects through scattering media. We construct an imaging system for imaging of two adjacent objects behind the scattering media. In general, as the light field of two adjacent object images pass through the scattering slab, a speckle pattern is obtained. The designed adversarial network, which is called as YGAN, is employed to reconstruct the images simultaneously. It is shown that based on the trained YGAN, we can reconstruct images of two adjacent objects from one speckle pattern with high fidelity. In addition, we study the influence of the object image types, and the distance between the two adjacent objects on the fidelity of the reconstructed images. Moreover even if another scattering medium is inserted between the two objects, we can also reconstruct the images of two objects from a speckle with high quality. The technique presented in this work can be used for applications in areas of medical image analysis, such as medical image classification, segmentation, and studies of multi-object scattering imaging etc.
翻訳日:2021-07-28 08:43:52 公開日:2021-07-24
# (参考訳) x-ggm:ビジュアル質問応答における分散一般化のためのグラフ生成モデル [全文訳有]

X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question Answering ( http://arxiv.org/abs/2107.11576v1 )

ライセンス: CC BY 4.0
Jingjing Jiang, Ziyi Liu, Yifan Liu, Zhixiong Nan, and Nanning Zheng(参考訳) 近年、VQA(Visual Question Answering)への発展が進んでいるが、VQAモデルがアウト・オブ・ディストリビューション(OOD)のサンプルに適応的に一般化できることは依然として困難である。 直感的には、既存の視覚概念(すなわち属性とオブジェクト)の再構成はトレーニングセットで見えない構成を生成することができ、VQAモデルを促進してOODサンプルに一般化する。 本稿では,VQAにおけるOOD一般化を合成一般化問題として定式化し,その問題を暗黙的に扱うグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。 X-GGMはグラフ生成モデルを利用して、属性オブジェクト対をノードとして利用する事前定義されたグラフに対する関係行列とノード表現を反復的に生成する。 さらに,グラフ生成モデルにおける不安定なトレーニング問題を軽減するために,逆摂動と生成分布によるデータ分布を制約する勾配分布一貫性損失を提案する。 X-GGM方式でトレーニングされたベースラインVQAモデル(LXMERT)は、2つの標準VQA OODベンチマーク(VQA-CP v2とGQA-OOD)上で最先端のOOD性能を実現する。 広範なアブレーション研究はx-ggm成分の有効性を示している。

Encouraging progress has been made towards Visual Question Answering (VQA) in recent years, but it is still challenging to enable VQA models to adaptively generalize to out-of-distribution (OOD) samples. Intuitively, recompositions of existing visual concepts (i.e., attributes and objects) can generate unseen compositions in the training set, which will promote VQA models to generalize to OOD samples. In this paper, we formulate OOD generalization in VQA as a compositional generalization problem and propose a graph generative modeling-based training scheme (X-GGM) to handle the problem implicitly. X-GGM leverages graph generative modeling to iteratively generate a relation matrix and node representations for the predefined graph that utilizes attribute-object pairs as nodes. Furthermore, to alleviate the unstable training issue in graph generative modeling, we propose a gradient distribution consistency loss to constrain the data distribution with adversarial perturbations and the generated distribution. The baseline VQA model (LXMERT) trained with the X-GGM scheme achieves state-of-the-art OOD performance on two standard VQA OOD benchmarks, i.e., VQA-CP v2 and GQA-OOD. Extensive ablation studies demonstrate the effectiveness of X-GGM components.
翻訳日:2021-07-28 08:31:51 公開日:2021-07-24
# (参考訳) 機械翻訳におけるジェンダーバイアス発見のための課題セットの拡張:ステレオタイプ動詞と形容詞の影響 [全文訳有]

Extending Challenge Sets to Uncover Gender Bias in Machine Translation: Impact of Stereotypical Verbs and Adjectives ( http://arxiv.org/abs/2107.11584v1 )

ライセンス: CC BY 4.0
Jonas-Dario Troles, Ute Schmid(参考訳) 人間の性バイアスは言語とテキスト生産に反映される。 MT(State-of-the-art machine translation)システムは、主に人間が生成する大量のテキストコーパスに基づいて訓練されているため、MTにも性別バイアスがある。 例えば、職業が英語のような言語からドイツ語のような言語に翻訳される場合、職業には女性用と男性用を主に用いている場合、MTシステムによって決定を下さなければならない。 最近の研究では、MTシステムは職業のステレオタイプ翻訳に偏っていることが示されている。 2019年、MTシステムにおける性バイアスの程度を明示的に測定するために設計された最初の挑戦セットが公開された。 この集合におけるジェンダーバイアスの測定は、職業の翻訳のみに基づいている。 本稿では, ジェンダーバイアスのある形容詞と, ジェンダーバイアスのある動詞を含む文を付加した WiBeMT という課題の拡張について述べる。 結果の課題セットは70,000以上の文で構成され、DeepL Translator、Microsoft Translator、Google Translateの3つの商用MTシステムで翻訳されている。 結果は3つのmtシステムすべてにおいて性別バイアスを示した。 この性バイアスは形容詞の影響が大きく、動詞による影響は少ない。

Human gender bias is reflected in language and text production. Because state-of-the-art machine translation (MT) systems are trained on large corpora of text, mostly generated by humans, gender bias can also be found in MT. For instance when occupations are translated from a language like English, which mostly uses gender neutral words, to a language like German, which mostly uses a feminine and a masculine version for an occupation, a decision must be made by the MT System. Recent research showed that MT systems are biased towards stereotypical translation of occupations. In 2019 the first, and so far only, challenge set, explicitly designed to measure the extent of gender bias in MT systems has been published. In this set measurement of gender bias is solely based on the translation of occupations. In this paper we present an extension of this challenge set, called WiBeMT, with gender-biased adjectives and adds sentences with gender-biased verbs. The resulting challenge set consists of over 70, 000 sentences and has been translated with three commercial MT systems: DeepL Translator, Microsoft Translator, and Google Translate. Results show a gender bias for all three MT systems. This gender bias is to a great extent significantly influenced by adjectives and to a lesser extent by verbs.
翻訳日:2021-07-28 08:10:11 公開日:2021-07-24
# (参考訳) 2つのドラゴン:マルチモーダル・フュージョンとクロスモーダル・トランザクション [全文訳有]

Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions ( http://arxiv.org/abs/2107.11585v1 )

ライセンス: CC BY 4.0
Rupak Bose, Shivam Pande, Biplab Banerjee(参考訳) リモートセンシングの分野が発展するにつれて、マルチスペクトル(MS)、ハイパースペクトル(HSI)、LiDAR(LiDAR)など、様々なモードからの情報の蓄積が見られた。 これらのモダリティはそれぞれ独自の特性を持ち、相乗的に組み合わせると、認識と分類のタスクで非常によく機能する。 しかし, リモートセンシングにおける多重モードの活用は, ドメインの相違が大きいため煩雑である。 さらに、既存の手法ではクロスモーダル相互作用が容易ではない。 そこで本研究では,HSIとLiDARの新たな融合法を提案する。 このモデルは、HSIとLiDARのクロスキー-値ペアを利用するスタックされたオートエンコーダで構成されており、同時にCNNを使用して、HSIとLiDARからスペクトルと空間情報を抽出しながら、2つのモダリティ間の通信を確立する。 私たちは、ヒューストン(data fusion contest - 2013)とmuufl gulfportデータセットでモデルをテストし、競争力のある結果を得る。

As the field of remote sensing is evolving, we witness the accumulation of information from several modalities, such as multispectral (MS), hyperspectral (HSI), LiDAR etc. Each of these modalities possess its own distinct characteristics and when combined synergistically, perform very well in the recognition and classification tasks. However, fusing multiple modalities in remote sensing is cumbersome due to highly disparate domains. Furthermore, the existing methods do not facilitate cross-modal interactions. To this end, we propose a novel transformer based fusion method for HSI and LiDAR modalities. The model is composed of stacked auto encoders that harness the cross key-value pairs for HSI and LiDAR, thus establishing a communication between the two modalities, while simultaneously using the CNNs to extract the spectral and spatial information from HSI and LiDAR. We test our model on Houston (Data Fusion Contest - 2013) and MUUFL Gulfport datasets and achieve competitive results.
翻訳日:2021-07-28 07:57:09 公開日:2021-07-24
# (参考訳) モデルベースマイクロデータ強化学習:重要なモデル特性とどのモデルを選択するべきか? [全文訳有]

Model-based micro-data reinforcement learning: what are the crucial model properties and which model to choose? ( http://arxiv.org/abs/2107.11587v1 )

ライセンス: CC BY 4.0
Bal\'azs K\'egl, Gabriel Hurtado, Albert Thomas(参考訳) 我々は,固定型(ランダムシューティング)制御エージェントを用いて,一般的な生成モデルを比較することで,マイクロデータモデルに基づく強化学習(mbrl)に寄与する。 マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。 マルチモーダリティが要求されない場合、我々の驚くべき発見は確率論的後続予測が不要であるということである。 また,トレーニング時の非定常性は,おそらく正則化剤として機能し,より長い地平線での予測を改善することも見出した。 方法論的な面では,様々なモデルの評価に使用可能なメトリクスと実験プロトコルを設計し,制御問題で使用する際の漸近的性能を予測する。 このフレームワークを用いることで、通常考慮されるハイパーパラメータ間隔の外にあるアグレッシブトレーニングスケジュールを用いて、Acrobot上のMBRLの最先端サンプル複雑性を2~4倍に改善する。

We contribute to micro-data model-based reinforcement learning (MBRL) by rigorously comparing popular generative models using a fixed (random shooting) control agent. We find that on an environment that requires multimodal posterior predictives, mixture density nets outperform all other models by a large margin. When multimodality is not required, our surprising finding is that we do not need probabilistic posterior predictives: deterministic models are on par, in fact they consistently (although non-significantly) outperform their probabilistic counterparts. We also found that heteroscedasticity at training time, perhaps acting as a regularizer, improves predictions at longer horizons. At the methodological side, we design metrics and an experimental protocol which can be used to evaluate the various models, predicting their asymptotic performance when using them on the control problem. Using this framework, we improve the state-of-the-art sample complexity of MBRL on Acrobot by two to four folds, using an aggressive training schedule which is outside of the hyperparameter interval usually considered
翻訳日:2021-07-28 07:50:44 公開日:2021-07-24
# (参考訳) 機械学習に基づく口語アラビア語の感情分類における否定処理 [全文訳有]

Negation Handling in Machine Learning-Based Sentiment Classification for Colloquial Arabic ( http://arxiv.org/abs/2107.11597v1 )

ライセンス: CC0 1.0
Omar Al-Harbi(参考訳) 感情分析の重要な側面は否定処理であり、否定の発生は文の感情を反転させ、機械学習に基づく感情分類に悪影響を及ぼす。 アラビア語の感情分析における否定の役割は、特に口語アラビア語について限定的に研究されている。 本稿では,アラビア語における機械学習に基づく感情分類の否定問題について述べる。 そこで本研究では,問題に対処するための単純なルールベースアルゴリズムを提案する。 また、この目的のために単純な言語知識と感情辞書が用いられる。 また,提案アルゴリズムが異なる機械学習アルゴリズムの性能に与える影響についても検討した。 提案手法により得られた結果を3つのベースラインモデルと比較した。 実験結果から,提案アルゴリズムをベースラインと比較した場合,分類器の精度,精度,リコールに肯定的な影響が認められた。

One crucial aspect of sentiment analysis is negation handling, where the occurrence of negation can flip the sentiment of a sentence and negatively affects the machine learning-based sentiment classification. The role of negation in Arabic sentiment analysis has been explored only to a limited extent, especially for colloquial Arabic. In this paper, the author addresses the negation problem of machine learning-based sentiment classification for a colloquial Arabic language. To this end, we propose a simple rule-based algorithm for handling the problem; the rules were crafted based on observing many cases of negation. Additionally, simple linguistic knowledge and sentiment lexicon are used for this purpose. The author also examines the impact of the proposed algorithm on the performance of different machine learning algorithms. The results given by the proposed algorithm are compared with three baseline models. The experimental results show that there is a positive impact on the classifiers accuracy, precision and recall when the proposed algorithm is used compared to the baselines.
翻訳日:2021-07-28 07:24:32 公開日:2021-07-24
# (参考訳) 二元分類におけるベイズ誤差判定のためのモデル非依存アルゴリズム [全文訳有]

A Model-Agnostic Algorithm for Bayes Error Determination in Binary Classification ( http://arxiv.org/abs/2107.11609v1 )

ライセンス: CC BY 4.0
Umberto Michelucci, Michela Sperti, Dario Piga, Francesca Venturini, Marco A. Deriu(参考訳) 本稿では,AUC(ROC曲線の下での領域)と精度で測定し,使用したモデルの分類的特徴を問わない二項分類問題における特定のデータセットから得られる,最適性能を決定する新しい手法である内在限界決定アルゴリズム(ILD Algorithm)を提案する。 この限界、すなわちベイズ誤差は、使用するモデルとは完全に独立であり、データセットの固有の特性を記述する。 したがって、IDDアルゴリズムは、検討されたデータセットに適用した場合に、任意のバイナリ分類アルゴリズムの予測限界に関する重要な情報を提供する。 本稿では,アルゴリズムの詳細を述べるとともに,その実装を容易にするために,その数学的枠組み全体を提示し,擬似コードを与える。 最後に、実際のデータセットの例が与えられる。

This paper presents the intrinsic limit determination algorithm (ILD Algorithm), a novel technique to determine the best possible performance, measured in terms of the AUC (area under the ROC curve) and accuracy, that can be obtained from a specific dataset in a binary classification problem with categorical features {\sl regardless} of the model used. This limit, namely the Bayes error, is completely independent of any model used and describes an intrinsic property of the dataset. The ILD algorithm thus provides important information regarding the prediction limits of any binary classification algorithm when applied to the considered dataset. In this paper the algorithm is described in detail, its entire mathematical framework is presented and the pseudocode is given to facilitate its implementation. Finally, an example with a real dataset is given.
翻訳日:2021-07-28 07:10:05 公開日:2021-07-24
# (参考訳) 名前付きエンティティ認識における正規性バイアスの文脈対応型適応学習 [全文訳有]

Context-aware Adversarial Training for Name Regularity Bias in Named Entity Recognition ( http://arxiv.org/abs/2107.11610v1 )

ライセンス: CC BY 4.0
Abbas Ghaddar, Philippe Langlais, Ahmad Rashid, Mehdi Rezagholizadeh(参考訳) 本研究では,不明瞭な実体の型を予測する際に,NERモデルが文脈情報を利用する能力について検討する。 NERモデルの命名規則バイアスを慎重に診断するための新しいテストベッドであるNRBを紹介する。 BERTの微調整モデルでは,標準ベンチマークでは同等(時には低い)性能であったにもかかわらず,NRBでは機能ベース(LSTM-CRF)モデルよりも有意に優れていた。 このバイアスを軽減するために,いくつかのエンティティ参照に対して学習可能な敵対的ノイズを付加するモデル非依存なトレーニング手法を提案する。 データ拡張とパラメータ凍結という、他の2つのトレーニング戦略と組み合わせることで、さらなる向上につながります。

In this work, we examine the ability of NER models to use contextual information when predicting the type of an ambiguous entity. We introduce NRB, a new testbed carefully designed to diagnose Name Regularity Bias of NER models. Our results indicate that all state-of-the-art models we tested show such a bias; BERT fine-tuned models significantly outperforming feature-based (LSTM-CRF) ones on NRB, despite having comparable (sometimes lower) performance on standard benchmarks. To mitigate this bias, we propose a novel model-agnostic training method that adds learnable adversarial noise to some entity mentions, thus enforcing models to focus more strongly on the contextual signal, leading to significant gains on NRB. Combining it with two other training strategies, data augmentation and parameter freezing, leads to further gains.
翻訳日:2021-07-28 06:56:17 公開日:2021-07-24
# (参考訳) LAConv:画像融合のためのローカル適応変換 [全文訳有]

LAConv: Local Adaptive Convolution for Image Fusion ( http://arxiv.org/abs/2107.11617v1 )

ライセンス: CC BY 4.0
Zi-Rong Jin and Liang-Jian Deng and Tai-Xiang Jiang and Tian-Jing Zhang(参考訳) 畳み込み操作は特徴抽出のための強力なツールであり、コンピュータビジョンの分野において顕著な役割を果たす。 しかし、画像融合のようなピクセル単位のタスクをターゲットとする場合、均一な畳み込みカーネルが異なるパッチで使用される場合、画像内の各ピクセルの特異性を完全には認識できない。 本稿では,局所適応畳み込み(LAConv)を提案する。 laconvでは、ネットワークが学習プロセス内の特定のローカル領域に注意を払うことができる。 さらに、動的なバイアス(DYB)を導入して、機能描写の可能性を拡大し、ネットワークをより柔軟にする。 さらに,提案するlaconvとdybモジュールを用いた残差構造ネットワークの設計を行い,2つの画像融合タスクに適用する。 パンシャルペン法とハイパースペクトル画像超解像法(HISR)の実験は,他の最先端手法よりも提案手法が優れていることを示す。 LAConvは計算労力の少ない他の超高解像度タスクにも適している点に注意が必要だ。

The convolution operation is a powerful tool for feature extraction and plays a prominent role in the field of computer vision. However, when targeting the pixel-wise tasks like image fusion, it would not fully perceive the particularity of each pixel in the image if the uniform convolution kernel is used on different patches. In this paper, we propose a local adaptive convolution (LAConv), which is dynamically adjusted to different spatial locations. LAConv enables the network to pay attention to every specific local area in the learning process. Besides, the dynamic bias (DYB) is introduced to provide more possibilities for the depiction of features and make the network more flexible. We further design a residual structure network equipped with the proposed LAConv and DYB modules, and apply it to two image fusion tasks. Experiments for pansharpening and hyperspectral image super-resolution (HISR) demonstrate the superiority of our method over other state-of-the-art methods. It is worth mentioning that LAConv can also be competent for other super-resolution tasks with less computation effort.
翻訳日:2021-07-28 06:29:14 公開日:2021-07-24
# (参考訳) FedLab: 柔軟なフェデレーション学習フレームワーク [全文訳有]

FedLab: A Flexible Federated Learning Framework ( http://arxiv.org/abs/2107.11621v1 )

ライセンス: CC BY 4.0
Dun Zeng, Siqi Liang, Xiangjing Hu, Zenglin Xu(参考訳) フェデレートラーニング(FL)は、プライバシ保護規則に違反することなく、複数のパーティが共有モデルをトレーニングできるプライバシー問題に対するソリューションである。 近年,多くの優れたFLが提案されている。 PyTorchをベースとしたフレキシブルでモジュール化されたFLフレームワークであるFedLabを開発した。 本稿では,FedLabのアーキテクチャと機能を紹介する。 現在の一般的な研究ポイント:最適化と通信圧縮において、FedLabは機能インターフェースを提供し、一連のベースライン実装が利用可能であり、研究者は素早くアイデアを実装している。 さらに、FedLabはクライアントシミュレーションと分散通信の両方でスケールできます。

Federated learning (FL) is a solution for privacy challenge, which allows multiparty to train a shared model without violating privacy protection regulations. Many excellent works of FL have been proposed in recent years. To help researchers verify their ideas in FL, we designed and developed FedLab, a flexible and modular FL framework based on PyTorch. In this paper, we will introduce architecture and features of FedLab. For current popular research points: optimization and communication compression, FedLab provides functional interfaces and a series of baseline implementation are available, making researchers quickly implement ideas. In addition, FedLab is scale-able in both client simulation and distributed communication.
翻訳日:2021-07-28 06:17:48 公開日:2021-07-24
# (参考訳) ASOD60K:パノラマビデオにおけるオーディオ誘発唾液物検出 [全文訳有]

ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos ( http://arxiv.org/abs/2107.11629v1 )

ライセンス: CC BY 4.0
Yi Zhang, Fang-Yi Chao, Ge-Peng Ji, Deng-Ping Fan, Lu Zhang, Ling Shao(参考訳) 動的パノラマシーンで人間が注意を払うものを探すことは、小売業における拡張現実(AR)、ARによる採用、ビジュアル言語ナビゲーションなど、多くの基本的なアプリケーションにとって有用である。 この目標を念頭に置いて,パノラマビデオから有能なオブジェクトを分割する新しいタスクであるPV-SODを提案する。 既存の固定レベルやオブジェクトレベルのサリエンシ検出タスクとは対照的に,オーディオ・ビジュアル・キューの指導によるサリエント・オブジェクトの分割による人間の注意機構を模倣するマルチモーダル・サリエント・オブジェクト検出(SOD)に注目した。 このタスクをサポートするために、我々はasod60kと呼ばれる最初の大規模データセットを収集し、これは6レベル階層にアノテートされた4k解像度ビデオフレームを含んでいる。 具体的には、それぞれのシーケンスはスーパークラスとサブクラスの両方でマークされ、各サブクラスのオブジェクトは人間の眼固定、バウンディングボックス、オブジェクト/インスタンスレベルマスク、関連する属性(例えば幾何学的歪み)で注釈付けされる。 これらの粗いアノテーションは、PV-SODモデリングの詳細な分析、例えば既存のSODモデルの主な課題の決定、および人間の長期眼球固定行動を研究するためのスキャンパスの予測を可能にする。 我々は、ASOD60Kに11の代表的なアプローチを体系的にベンチマークし、いくつかの興味深い結果を得た。 この研究がSOD研究をパノラマビデオに進める出発点になることを期待している。

Exploring to what humans pay attention in dynamic panoramic scenes is useful for many fundamental applications, including augmented reality (AR) in retail, AR-powered recruitment, and visual language navigation. With this goal in mind, we propose PV-SOD, a new task that aims to segment salient objects from panoramic videos. In contrast to existing fixation-level or object-level saliency detection tasks, we focus on multi-modal salient object detection (SOD), which mimics human attention mechanism by segmenting salient objects with the guidance of audio-visual cues. To support this task, we collect the first large-scale dataset, named ASOD60K, which contains 4K-resolution video frames annotated with a six-level hierarchy, thus distinguishing itself with richness, diversity and quality. Specifically, each sequence is marked with both its super-/sub-class, with objects of each sub-class being further annotated with human eye fixations, bounding boxes, object-/instance-lev el masks, and associated attributes (e.g., geometrical distortion). These coarse-to-fine annotations enable detailed analysis for PV-SOD modeling, e.g., determining the major challenges for existing SOD models, and predicting scanpaths to study the long-term eye fixation behaviors of humans. We systematically benchmark 11 representative approaches on ASOD60K and derive several interesting findings. We hope this study could serve as a good starting point for advancing SOD research towards panoramic videos.
翻訳日:2021-07-28 06:11:11 公開日:2021-07-24
# (参考訳) ビュー間の相互情報最大化によるクラスタリング [全文訳有]

Clustering by Maximizing Mutual Information Across Views ( http://arxiv.org/abs/2107.11635v1 )

ライセンス: CC BY 4.0
Kien Do, Truyen Tran, Svetha Venkatesh(参考訳) 本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。 本手法は,同じバックボーンネットワークを共有する2つのヘッド – "表現学習"ヘッドと"クラスタリング"ヘッド – から構成される。 表現学習"ヘッドはインスタンスレベルでオブジェクトのきめ細かいパターンをキャプチャし、"クラスタリング"ヘッドのヒントとして、オブジェクトをクラスタに分離する粗い粒度の情報を抽出する。 モデル全体は、2つのヘッドの出力に適用される2つのサンプル指向のコントラスト損失の重み付け和を最小化し、エンドツーエンドで訓練される。 クラスタ化」ヘッドに対応するコントラスト損失が最適であることを保証するため,我々は「log-of-dot-product」と呼ばれる新しい批判機能を導入する。 CIFAR10/20, STL10, ImageNet-Dogsの精度を約5~7%向上し, 各種画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れた性能を示した。 さらに,本手法の「2段階」変種は,3つの課題であるImageNetサブセットのベースラインよりも優れた結果が得られる。

We propose a novel framework for image clustering that incorporates joint representation learning and clustering. Our method consists of two heads that share the same backbone network - a "representation learning" head and a "clustering" head. The "representation learning" head captures fine-grained patterns of objects at the instance level which serve as clues for the "clustering" head to extract coarse-grain information that separates objects into clusters. The whole model is trained in an end-to-end manner by minimizing the weighted sum of two sample-oriented contrastive losses applied to the outputs of the two heads. To ensure that the contrastive loss corresponding to the "clustering" head is optimal, we introduce a novel critic function called "log-of-dot-product&q uot;. Extensive experimental results demonstrate that our method significantly outperforms state-of-the-art single-stage clustering methods across a variety of image datasets, improving over the best baseline by about 5-7% in accuracy on CIFAR10/20, STL10, and ImageNet-Dogs. Further, the "two-stage" variant of our method also achieves better results than baselines on three challenging ImageNet subsets.
翻訳日:2021-07-28 05:25:53 公開日:2021-07-24
# (参考訳) 深層機械学習に基づくエジプト車両ナンバープレート認識システム [全文訳有]

Deep Machine Learning Based Egyptian Vehicle License Plate Recognition Systems ( http://arxiv.org/abs/2107.11640v1 )

ライセンス: CC BY 4.0
Mohamed Shehata, Mohamed Taha Abou-Kreisha, Hany Elnashar(参考訳) 自動車両免許プレート(VLP)の検出と認識は、最近になって重要な研究課題となった。 VLPのローカライゼーションと認識は、デジタル技術を用いたトラフィック管理において最も重要な技術である。 本稿では,エジプトの車両ナンバープレートを識別する4つのスマートシステムについて述べる。 2つのシステムは、文字認識(System1, Characters Recognition with Classical Machine Learning)と(System2, Characters Recognition with Deep Machine Learning)に基づいている。 他の2つのシステムは、全プレート認識(System3, Whole License Plate Recognition with Classical Machine Learning)と(System4, Whole License Plate Recognition with Deep Machine Learning)に基づいている。 物体検出アルゴリズムと機械学習に基づく物体認識アルゴリズムを用いる。 実験結果から, 深層学習法を用いて, VLPにおける検出精度が最良であることを実証した。 VLP検出精度は従来のシステムよりも32%向上した。 しかしながら、古典的手法を用いて、車両用ナンバープレートアラビア語文字(vlpac)の最良の検出精度を提供する。 VLPAC検出精度はディープラーニングベースシステムよりも6%向上した。 また, 深層学習は, VLP認識における古典的手法よりも優れていることを示す。 従来のシステムよりも認識精度が8%向上している。 最後に,統計的および深層機械学習に基づく堅牢なVLP認識システムを提案する。

Automated Vehicle License Plate (VLP) detection and recognition have ended up being a significant research issue as of late. VLP localization and recognition are some of the most essential techniques for managing traffic using digital techniques. In this paper, four smart systems are developed to recognize Egyptian vehicles license plates. Two systems are based on character recognition, which are (System1, Characters Recognition with Classical Machine Learning) and (System2, Characters Recognition with Deep Machine Learning). The other two systems are based on the whole plate recognition which are (System3, Whole License Plate Recognition with Classical Machine Learning) and (System4, Whole License Plate Recognition with Deep Machine Learning). We use object detection algorithms, and machine learning based object recognition algorithms. The performance of the developed systems has been tested on real images, and the experimental results demonstrate that the best detection accuracy rate for VLP is provided by using the deep learning method. Where the VLP detection accuracy rate is better than the classical system by 32%. However, the best detection accuracy rate for Vehicle License Plate Arabic Character (VLPAC) is provided by using the classical method. Where VLPAC detection accuracy rate is better than the deep learning-based system by 6%. Also, the results show that deep learning is better than the classical technique used in VLP recognition processes. Where the recognition accuracy rate is better than the classical system by 8%. Finally, the paper output recommends a robust VLP recognition system based on both statistical and deep machine learning.
翻訳日:2021-07-28 05:03:06 公開日:2021-07-24
# (参考訳) 肝病変分節に対するデュアルアテンション強化BDense-UNet [全文訳有]

Dual-Attention Enhanced BDense-UNet for Liver Lesion Segmentation ( http://arxiv.org/abs/2107.11645v1 )

ライセンス: CC BY 4.0
Wenming Cao, Philip L.H. Yu, Gilbert C.S. Lui, Keith W.H. Chiu, Ho-Ming Cheng, Yanwen Fang, Man-Fung Yuen, Wai-Kay Seto(参考訳) 本研究では,DA-BDense-UNetと呼ばれる,DenseUNetと双方向LSTMを統合した新たなセグメンテーションネットワークを提案する。 DenseUNetは十分な多様な特徴を学習し、情報フローを調節することでネットワークの代表的能力を高める。 双方向LSTMは、エンコードされた特徴とエンコードおよびデコードパスにおけるアップサンプリングされた特徴の関係を探索する責任がある。 一方,DenseUNetにアテンションゲート(AG)を導入し,無関係な背景領域の応答を減らし,顕著な領域の応答を増大させる。 さらに、双方向LSTMの注目点は、符号化された特徴とセグメント化改善におけるアップサンプル特徴の寄与差を考慮しており、これら2種類の特徴に対する適切な重み付けを調整できる。 複数の病院から収集した肝ct画像データセットを最先端のセグメンテーションモデルと比較して実験を行った。 実験の結果,提案手法のDA-BDense-UNetはダイス係数で比較性能が得られ,その有効性が示された。

In this work, we propose a new segmentation network by integrating DenseUNet and bidirectional LSTM together with attention mechanism, termed as DA-BDense-UNet. DenseUNet allows learning enough diverse features and enhancing the representative power of networks by regulating the information flow. Bidirectional LSTM is responsible to explore the relationships between the encoded features and the up-sampled features in the encoding and decoding paths. Meanwhile, we introduce attention gates (AG) into DenseUNet to diminish responses of unrelated background regions and magnify responses of salient regions progressively. Besides, the attention in bidirectional LSTM takes into account the contribution differences of the encoded features and the up-sampled features in segmentation improvement, which can in turn adjust proper weights for these two kinds of features. We conduct experiments on liver CT image data sets collected from multiple hospitals by comparing them with state-of-the-art segmentation models. Experimental results indicate that our proposed method DA-BDense-UNet has achieved comparative performance in terms of dice coefficient, which demonstrates its effectiveness.
翻訳日:2021-07-28 04:53:29 公開日:2021-07-24
# (参考訳) 配電GAN(TailGAN:TailGAN) :ジェネレーティブ・ディバイサル・ネットワークに基づく境界形成 [全文訳有]

Tail of Distribution GAN (TailGAN): Generative- Adversarial-Network- Based Boundary Formation ( http://arxiv.org/abs/2107.11658v1 )

ライセンス: CC BY 4.0
Nikolaos Dionelis(参考訳) GAN(Generative Adversarial Networks)は強力な手法であり、教師なしの異常検出に使用できる。 ganは一般に確率密度の存在を保証せず、モード崩壊の影響を受けやすいが、モード崩壊を減少させるために確率を使用するganは少ない。 本稿では,異常検出のためのGANを用いたテール生成モデル,TailGAN(Tail of Distribution GAN)を作成し,データ分布のテールにサンプルを生成し,サポート境界付近の異常を検出する。 tailganを用い,gansを用いて異常検出を行い,最大エントロピー正規化を行う。 基礎となる分布の確率を学習するGANを使用することで,境界サンプルのジェネレータを考案し,このモデルを用いて異常を特徴付けることにより,異常検出手法を改善することができる。 TailGANは分離されたコンポーネントをサポートし、画像上での競合性能を実現する。 我々は,OoD(Out-of-Distribu tion)データを特定するためにTailGANを評価し,MNIST,CIFAR-10,Baga ge X-Ray,OoDデータを用いて評価した。

Generative Adversarial Networks (GAN) are a powerful methodology and can be used for unsupervised anomaly detection, where current techniques have limitations such as the accurate detection of anomalies near the tail of a distribution. GANs generally do not guarantee the existence of a probability density and are susceptible to mode collapse, while few GANs use likelihood to reduce mode collapse. In this paper, we create a GAN-based tail formation model for anomaly detection, the Tail of distribution GAN (TailGAN), to generate samples on the tail of the data distribution and detect anomalies near the support boundary. Using TailGAN, we leverage GANs for anomaly detection and use maximum entropy regularization. Using GANs that learn the probability of the underlying distribution has advantages in improving the anomaly detection methodology by allowing us to devise a generator for boundary samples, and use this model to characterize anomalies. TailGAN addresses supports with disjoint components and achieves competitive performance on images. We evaluate TailGAN for identifying Out-of-Distribution (OoD) data and its performance evaluated on MNIST, CIFAR-10, Baggage X-Ray, and OoD data shows competitiveness compared to methods from the literature.
翻訳日:2021-07-28 04:47:04 公開日:2021-07-24
# (参考訳) 非構造的臨床ノートにおける自動表現の臨床的有用性: ICU 症例 [全文訳有]

Clinical Utility of the Automatic Phenotype Annotation in Unstructured Clinical Notes: ICU Use Cases ( http://arxiv.org/abs/2107.11665v1 )

ライセンス: CC BY 4.0
Jingqing Zhang, Luis Bolanos, Ashwani Tanwar, Albert Sokol, Julia Ive, Vibhor Gupta, Yike Guo(参考訳) 臨床ノートには、薬物反応や症状など、他の場所では存在しない情報が含まれており、いずれも急性期患者の重要な結果を予測する上で非常に重要である。 集中治療室(icu)における予後予測のための必須情報収集手段として,臨床ノートからの表現型自動アノテーションを提案する。 この情報は一般的に使われるバイタルサインや実験結果と相補的である。 24,000名以上の患者に対して, 院内死亡率, 生理的不補償, 滞在期間の予測に関する実験を行い, 検証を行った。 表現型情報を組み込んだ予測モデルは、バイタルサインと実験結果のみを活用するベースラインモデルより一貫して優れている。 さらに, 表現型が患者およびコホートレベルに有意な洞察を与えることを示す, 包括的解釈可能性調査を行った。 本手法は, icuの結果を表現型を用いて決定する可能性を示す。

Clinical notes contain information not present elsewhere, including drug response and symptoms, all of which are highly important when predicting key outcomes in acute care patients. We propose the automatic annotation of phenotypes from clinical notes as a method to capture essential information to predict outcomes in the Intensive Care Unit (ICU). This information is complementary to typically used vital signs and laboratory test results. We demonstrate and validate our approach conducting experiments on the prediction of in-hospital mortality, physiological decompensation and length of stay in the ICU setting for over 24,000 patients. The prediction models incorporating phenotypic information consistently outperform the baseline models leveraging only vital signs and laboratory test results. Moreover, we conduct a thorough interpretability study, showing that phenotypes provide valuable insights at the patient and cohort levels. Our approach illustrates the viability of using phenotypes to determine outcomes in the ICU.
翻訳日:2021-07-28 04:37:14 公開日:2021-07-24
# (参考訳) オブジェクト検出とインスタンス分割のためのランクとソート損失 [全文訳有]

Rank & Sort Loss for Object Detection and Instance Segmentation ( http://arxiv.org/abs/2107.11669v1 )

ライセンス: CC BY 4.0
Kemal Oksuz and Baris Can Cam and Emre Akbas and Sinan Kalkan(参考訳) 我々は、深層物体検出とインスタンス分割を訓練するためのランキングに基づく損失関数として、Rand & Sort (RS) Lossを提案する。 視覚検出器)。 RSロスは、これらの手法のサブネットワークである分類器を監督し、全ての陰性に対してそれぞれ正をランク付けし、(令)に関して正をソートする。 連続的な局所化特性(例) 交点交点 - iou)。 ランク付けとソートという不可分な性質に取り組むため、エラー駆動更新の組み込みをid更新としてバックプロパゲーションで再構成し、新たなソートエラーのモデル化を可能にした。 RS損失では、トレーニングを著しく単純化する: (i) ソート目的により、プラスは追加の補助ヘッド(例)なしで分類器によって優先順位付けされる。 中心性, IoU, mask-IoU, (ii) ランクベースの性質から, RSロスはクラス不均衡に対して頑健であり, サンプリングヒューリスティックは不要であり, (iii) 無調タスクバランス係数を用いた視覚検出器のマルチタスク特性に対処する。 RS損失を用いて、学習率を調整することによってのみ7つの多様な視覚検出器を訓練し、ベースラインを一貫して上回ることを示す。 RS損失は、(i)3ボックスAPとaLRPロス(上位ベースライン)で、COCOデータセットで、~2ボックスAPで、(ii)リピートファクタサンプリング(RFS)でMask R-CNNで、LVISデータセットで、3.5マスクAP(~7APで、レアクラスで、)で改善します。 https://github.com/k emaloksuz/RankSortLo ssで利用可能なコード

We propose Rank & Sort (RS) Loss, as a ranking-based loss function to train deep object detection and instance segmentation methods (i.e. visual detectors). RS Loss supervises the classifier, a sub-network of these methods, to rank each positive above all negatives as well as to sort positives among themselves with respect to (wrt.) their continuous localisation qualities (e.g. Intersection-over-Un ion - IoU). To tackle the non-differentiable nature of ranking and sorting, we reformulate the incorporation of error-driven update with backpropagation as Identity Update, which enables us to model our novel sorting error among positives. With RS Loss, we significantly simplify training: (i) Thanks to our sorting objective, the positives are prioritized by the classifier without an additional auxiliary head (e.g. for centerness, IoU, mask-IoU), (ii) due to its ranking-based nature, RS Loss is robust to class imbalance, and thus, no sampling heuristic is required, and (iii) we address the multi-task nature of visual detectors using tuning-free task-balancing coefficients. Using RS Loss, we train seven diverse visual detectors only by tuning the learning rate, and show that it consistently outperforms baselines: e.g. our RS Loss improves (i) Faster R-CNN by ~ 3 box AP and aLRP Loss (ranking-based baseline) by ~ 2 box AP on COCO dataset, (ii) Mask R-CNN with repeat factor sampling (RFS) by 3.5 mask AP (~ 7 AP for rare classes) on LVIS dataset; and also outperforms all counterparts. Code available at https://github.com/k emaloksuz/RankSortLo ss
翻訳日:2021-07-28 04:13:44 公開日:2021-07-24
# (参考訳) 敵の訓練は両刃の剣かもしれない [全文訳有]

Adversarial training may be a double-edged sword ( http://arxiv.org/abs/2107.11671v1 )

ライセンス: CC BY 4.0
Ali Rahmati, Seyed-Mohsen Moosavi-Dezfooli, Huaiyu Dai(参考訳) 敵対的トレーニングは、ホワイトボックス攻撃に対する画像分類器のロバスト性を改善する効果的なアプローチとして示されている。 しかし、ブラックボックス攻撃に対する効果はより曖昧である。 本研究では,ディープネットワークにおける決定境界に対する敵意学習の幾何的影響が,特定のブラックボックス攻撃に対するエッジを与えることを示す。 特に,ホワイトボックスのシナリオにおけるロバストネスを劇的に改善するための効果的な方法である一方で,より現実的な意思決定ベースのブラックボックス攻撃に対するロバストネスゲインを提供するものではないことを示すために,ロバストネスゲインと呼ばれる指標を定義した。 さらに,最小限の摂動型ホワイトボックス攻撃でさえ,通常の攻撃と比較して,敵に訓練されたニューラルネットワークに対してより早く収束できることを示す。

Adversarial training has been shown as an effective approach to improve the robustness of image classifiers against white-box attacks. However, its effectiveness against black-box attacks is more nuanced. In this work, we demonstrate that some geometric consequences of adversarial training on the decision boundary of deep networks give an edge to certain types of black-box attacks. In particular, we define a metric called robustness gain to show that while adversarial training is an effective method to dramatically improve the robustness in white-box scenarios, it may not provide such a good robustness gain against the more realistic decision-based black-box attacks. Moreover, we show that even the minimal perturbation white-box attacks can converge faster against adversarially-traine d neural networks compared to the regular ones.
翻訳日:2021-07-28 03:39:53 公開日:2021-07-24
# (参考訳) 高次擬似ブール関数に対する効率的なqubo変換 [全文訳有]

Efficient QUBO transformation for Higher Degree Pseudo Boolean Functions ( http://arxiv.org/abs/2107.11695v1 )

ライセンス: CC BY 4.0
Amit Verma, Mark Lewis, Gary Kochenberger(参考訳) Quadratic Unconstrained Binary Optimization (QUBO) は、幅広い問題をモデリングするための統一フレームワークとして認識されている。 QUBOを解くためにカスタマイズされた商用解決器で問題を解決でき、QUBOは次数2であるため、高次擬似ブール問題をQUBO形式に変換する方法が有用である。 標準変換アプローチでは、高次項ごとにペナルティ項によって支えられる追加補助変数が必要である。 本稿では, 加算変数数とペナルティ係数を最小化することにより, 既存の立方体-四方体変換法を改善する。 QUBOとしてモデル化されたMax 3-SATの大規模実験では、補助変数数の最小化に使用されるサブプロブレムサイズが約100%削減されている。

Quadratic Unconstrained Binary Optimization (QUBO) is recognized as a unifying framework for modeling a wide range of problems. Problems can be solved with commercial solvers customized for solving QUBO and since QUBO have degree two, it is useful to have a method for transforming higher degree pseudo-Boolean problems to QUBO format. The standard transformation approach requires additional auxiliary variables supported by penalty terms for each higher degree term. This paper improves on the existing cubic-to-quadratic transformation approach by minimizing the number of additional variables as well as penalty coefficient. Extensive experimental testing on Max 3-SAT modeled as QUBO shows a near 100% reduction in the subproblem size used for minimization of the number of auxiliary variables.
翻訳日:2021-07-28 03:32:38 公開日:2021-07-24
# (参考訳) コスタリカ地方診療所におけるマンモグラム分類のための半教師付き学習の実例 [全文訳有]

A Real Use Case of Semi-Supervised Learning for Mammogram Classification in a Local Clinic of Costa Rica ( http://arxiv.org/abs/2107.11696v1 )

ライセンス: CC BY 4.0
Saul Calderon-Ramirez, Diego Murillo-Hernandez, Kevin Rojas-Salazar, David Elizondo, Shengxiang Yang, Miguel Molina-Cabello(参考訳) マンモグラム画像分類のための深層学習型コンピュータ支援診断システムの実装は、患者の診断の正確性、信頼性、コストを改善するのに役立つ。 しかし、深層学習モデルの訓練には大量のラベル付き画像が必要であり、臨床医の時間と労力を必要とするため、コストがかかる可能性がある。 多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。 しかし、これらのデータセットでトレーニングされたモデルを使用して、異なる病院やクリニックから採取された画像の後での研究を行うことで、パフォーマンスが低下する可能性がある。 これは、異なる患者集団と画像取得プロトコルを含むデータセットの分布ミスマッチが原因である。 ラベル付きデータの不足は、これらのソースデータセットを使用してトレーニングされたモデルによる転送学習の応用にも課題をもたらす可能性がある。 本研究では,コスタリカンの民間診療所から採取した新たなターゲットデータセットを,ラベルが少なく,不均衡なデータを用いて実世界のシナリオで評価する。 2つの人気データセット(inbreastおよびcbis-ddsm)をソースデータとして使用して、新しいターゲットデータセットでモデルをトレーニングおよびテストし、評価する。 そこで,MixMatchと呼ばれる半教師付き深層学習手法を用いて,対象データセットからのラベルなしデータの利用法を提案し,評価した。 テストでは、重度データ不均衡条件下で分類器の性能を評価するために異なるメトリクスを使用して、モデルの性能を広範囲に測定する。 半教師付き深層学習と微調整を組み合わせることで,ラベル付き観測が不足している場合に有意義な利点が期待できる。 私たちはコミュニティの利益のために、新しいデータセットを利用可能にします。

The implementation of deep learning based computer aided diagnosis systems for the classification of mammogram images can help in improving the accuracy, reliability, and cost of diagnosing patients. However, training a deep learning model requires a considerable amount of labeled images, which can be expensive to obtain as time and effort from clinical practitioners is required. A number of publicly available datasets have been built with data from different hospitals and clinics. However, using models trained on these datasets for later work on images sampled from a different hospital or clinic might result in lower performance. This is due to the distribution mismatch of the datasets, which include different patient populations and image acquisition protocols. The scarcity of labeled data can also bring a challenge towards the application of transfer learning with models trained using these source datasets. In this work, a real world scenario is evaluated where a novel target dataset sampled from a private Costa Rican clinic is used, with few labels and heavily imbalanced data. The use of two popular and publicly available datasets (INbreast and CBIS-DDSM) as source data, to train and test the models on the novel target dataset, is evaluated. The use of the semi-supervised deep learning approach known as MixMatch, to leverage the usage of unlabeled data from the target dataset, is proposed and evaluated. In the tests, the performance of models is extensively measured, using different metrics to assess the performance of a classifier under heavy data imbalance conditions. It is shown that the use of semi-supervised deep learning combined with fine-tuning can provide a meaningful advantage when using scarce labeled observations. We make available the novel dataset for the benefit of the community.
翻訳日:2021-07-28 03:21:27 公開日:2021-07-24
# 一般化因子化双線型集計を用いたグラフ畳み込みネットワーク

Graph Convolutional Network with Generalized Factorized Bilinear Aggregation ( http://arxiv.org/abs/2107.11666v1 )

ライセンス: Link先を確認
Hao Zhu, Piotr Koniusz(参考訳) グラフ畳み込みネットワーク(GCN)は様々なアプリケーションでその力を実証しているが、GCNの最も重要なコンポーネントであるグラフ畳み込み層は依然として線形変換と単純なプーリングステップを使っている。 本稿では,GCNにおける特徴相互作用をモデル化するためのFB層の新たな一般化を提案する。 FB は2つの行列ベクトル乗法、すなわち重み行列を両側から隠れた特徴のベクトルの外積と乗算する。 しかし、fb層は、i.i.d.に違反する隠れ表現のチャネル間の相関により、係数の二次数、過剰フィッティング、スプリアス相関に苦しむ。 仮定だ そこで本研究では,二次項上に適用される収束作用素の族を定義することで,コンパクトなfb層を提案する。 提案するプーリング演算子を解析し,その利用を動機づける。 複数のデータセットに対する実験結果から,GFB-GCNは他のテキスト分類法と競合することを示した。

Although Graph Convolutional Networks (GCNs) have demonstrated their power in various applications, the graph convolutional layers, as the most important component of GCN, are still using linear transformations and a simple pooling step. In this paper, we propose a novel generalization of Factorized Bilinear (FB) layer to model the feature interactions in GCNs. FB performs two matrix-vector multiplications, that is, the weight matrix is multiplied with the outer product of the vector of hidden features from both sides. However, the FB layer suffers from the quadratic number of coefficients, overfitting and the spurious correlations due to correlations between channels of hidden representations that violate the i.i.d. assumption. Thus, we propose a compact FB layer by defining a family of summarizing operators applied over the quadratic term. We analyze proposed pooling operators and motivate their use. Our experimental results on multiple datasets demonstrate that the GFB-GCN is competitive with other methods for text classification.
翻訳日:2021-07-27 16:28:18 公開日:2021-07-24
# 生体医学的単語埋め込みのストレステスト評価

Stress Test Evaluation of Biomedical Word Embeddings ( http://arxiv.org/abs/2107.11652v1 )

ライセンス: Link先を確認
Vladimir Araujo, Andr\'es Carvallo, Carlos Aspillaga, Camilo Thorne, Denis Parra(参考訳) 事前訓練された単語埋め込みの成功は、バイオメディカルドメインにおける彼らの使用を動機付け、文脈的埋め込みはいくつかのバイオメディカルNLPタスクにおいて顕著な結果をもたらす。 しかし、厳しい「ストレス」シナリオ下での行動の定量化に関する研究が不足している。 本研究では,3つの言語モデルに対して,その頑健性を検証できる自動構築テスト(automatically built test)を体系的に評価する。 バイオメディカル名前付きエンティティ認識 (ner) タスクに着目したストレスシナリオとして, 綴り誤りに触発されたストレスシナリオと, 医学用語の同義語を用いたストレスシナリオの2つを提案する。 3つのベンチマークによる実験により,元のモデルの性能は著しく低下し,弱点や強度が明らかになった。 最後に, 敵対的学習はモデルの頑健さを向上させ, 場合によっては元のパフォーマンスを上回ることすらあることを示す。

The success of pretrained word embeddings has motivated their use in the biomedical domain, with contextualized embeddings yielding remarkable results in several biomedical NLP tasks. However, there is a lack of research on quantifying their behavior under severe "stress" scenarios. In this work, we systematically evaluate three language models with adversarial examples -- automatically constructed tests that allow us to examine how robust the models are. We propose two types of stress scenarios focused on the biomedical named entity recognition (NER) task, one inspired by spelling errors and another based on the use of synonyms for medical terms. Our experiments with three benchmarks show that the performance of the original models decreases considerably, in addition to revealing their weaknesses and strengths. Finally, we show that adversarial training causes the models to improve their robustness and even to exceed the original performance in some cases.
翻訳日:2021-07-27 16:26:13 公開日:2021-07-24
# Crosslink-Net:垂直および水平の畳み込みによるダブルブランチエンコーダセグメンテーションネットワーク

Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing Vertical and Horizontal Convolutions ( http://arxiv.org/abs/2107.11517v1 )

ライセンス: Link先を確認
Qian Yu, Lei Qi, Luping Zhou, Lei Wang, Yilong Yin, Yinghuan Shi, Wuzhang Wang, Yang Gao(参考訳) 正確な画像分割は医用画像解析において重要な役割を果たすが、様々な形状や大きさ、ぼやけた境界といった大きな課題に直面している。 これらの問題に対処するために、正方形カーネルベースのエンコーダ-デコーダアーキテクチャが提案され、広く使用されているが、その性能はまだ不十分である。 これらの課題にさらに対処すべく,新しいダブルブランチエンコーダアーキテクチャを提案する。 1) 正方形畳み込み型カーネルで学習した特徴の識別をさらに改善する必要があるため, 二重分岐エンコーダにおける非正方形垂直および水平畳み込み型カーネルの利用を提案する。 2) 空間的注意が大規模画像のターゲット領域により焦点を合わせるのに役立つことを考慮し, 小型画像のセグメンテーションをさらに強調するために, 注意損失を生じさせる。 上記の2つのスキームは、医療画像セグメンテーションのための新しいダブルブランチエンコーダセグメンテーションフレームワークであるCrosslink-Netを生み出している。 実験は、4つのデータセットにおけるモデルの有効性を検証する。 コードはhttps://github.com/q ianyu1226/crosslink- netでリリースされる。

Accurate image segmentation plays a crucial role in medical image analysis, yet it faces great challenges of various shapes, diverse sizes, and blurry boundaries. To address these difficulties, square kernel-based encoder-decoder architecture has been proposed and widely used, but its performance remains still unsatisfactory. To further cope with these challenges, we present a novel double-branch encoder architecture. Our architecture is inspired by two observations: 1) Since the discrimination of features learned via square convolutional kernels needs to be further improved, we propose to utilize non-square vertical and horizontal convolutional kernels in the double-branch encoder, so features learned by the two branches can be expected to complement each other. 2) Considering that spatial attention can help models to better focus on the target region in a large-sized image, we develop an attention loss to further emphasize the segmentation on small-sized targets. Together, the above two schemes give rise to a novel double-branch encoder segmentation framework for medical image segmentation, namely Crosslink-Net. The experiments validate the effectiveness of our model on four datasets. The code is released at https://github.com/Q ianyu1226/Crosslink- Net.
翻訳日:2021-07-27 16:25:12 公開日:2021-07-24
# 衣服交換者再識別のための意味誘導型画素サンプリング

Semantic-guided Pixel Sampling for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2107.11522v1 )

ライセンス: Link先を確認
Xiujun Shu, Ge Li, Xiao Wang, Weijian Ruan, Qi Tian(参考訳) 着替え者の再識別(re-id)は、着替えられた歩行者を検索することを目的とした新たな研究テーマである。 この課題は非常に困難であり、現在まで完全には研究されていない。 現在の作品は主に体型や輪郭スケッチに焦点が当てられているが、視界や姿勢の変化によって十分に頑丈ではない。 この作業の鍵は布の無関係な手がかりを利用することである。 本稿では,布交換者再識別タスクのための意味的誘導画素サンプリング手法を提案する。 我々は、どの特徴を抽出するかを明確に定義していないが、モデルに布の無関係な手がかりを自動的に学習させるよう強制する。 具体的には、まず歩行者の上着とズボンを認識し、他の歩行者のピクセルをサンプリングしてランダムに変更する。 変更されたサンプルは識別ラベルを保持するが、異なる歩行者の間で衣服やズボンのピクセルを交換する。 さらに、私たちは、学習した機能を変更前後で一貫性を保つために、損失関数を採用しています。 このように、モデルは上着やズボンとは無関係な手がかりを学ぶことを余儀なくされる。 最新のPRCCデータセットについて広範な実験を行った。 本手法は65.8%をランク1精度で達成し, 従来手法よりも高い差を示した。 コードはhttps://github.com/s huxjweb/pixel_sampli ng.gitで入手できる。

Cloth-changing person re-identification (re-ID) is a new rising research topic that aims at retrieving pedestrians whose clothes are changed. This task is quite challenging and has not been fully studied to date. Current works mainly focus on body shape or contour sketch, but they are not robust enough due to view and posture variations. The key to this task is to exploit cloth-irrelevant cues. This paper proposes a semantic-guided pixel sampling approach for the cloth-changing person re-ID task. We do not explicitly define which feature to extract but force the model to automatically learn cloth-irrelevant cues. Specifically, we first recognize the pedestrian's upper clothes and pants, then randomly change them by sampling pixels from other pedestrians. The changed samples retain the identity labels but exchange the pixels of clothes or pants among different pedestrians. Besides, we adopt a loss function to constrain the learned features to keep consistent before and after changes. In this way, the model is forced to learn cues that are irrelevant to upper clothes and pants. We conduct extensive experiments on the latest released PRCC dataset. Our method achieved 65.8% on Rank1 accuracy, which outperforms previous methods with a large margin. The code is available at https://github.com/s huxjweb/pixel_sampli ng.git.
翻訳日:2021-07-27 16:24:50 公開日:2021-07-24
# 最適化された教師なし異常検出を用いたマルチパースペクティブコンテンツ配信ネットワークセキュリティフレームワーク

Multi-Perspective Content Delivery Networks Security Framework Using Optimized Unsupervised Anomaly Detection ( http://arxiv.org/abs/2107.11514v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Moubayed, Abdallah Shami, Parisa Heidari, Amine Boukhtouta, Adel Larabi, Richard Brunner, Stere Preda, Daniel Migault(参考訳) コンテンツ配信ネットワーク(CDN)は、インターネット上で効率的なコンテンツ配信を提供する。 CDNはグローバル通信の接続性と効率を向上させるが、そのキャッシュ機構はサイバー攻撃によって破られる可能性がある。 セキュリティメカニズムの中で、効果的な異常検出はCDNセキュリティ強化の重要な部分を形成する。 本研究では,CDNにおける異常検出のためのマルチパースペクティブな教師なし学習フレームワークを提案する。 提案手法では,マルチパースペクティブ機能工学的アプローチ,分離フォレストとガウス混合モデルを利用した最適化された非教師なし異常検出モデル,マルチパースペクティブ検証手法を開発し,クライアントインターネットプロトコル(ip)とノード視点を中心にcdnの異常挙動を検出し,サービス拒否(dos)とキャッシュ汚染攻撃(cpa)パターンを同定する。 実験結果は,主要なCDNオペレーターが提供した実世界のCDNログデータの8日間の分析結果に基づいて行われた。 実験を通じて、異常な内容、不正なノード、悪意のあるIP、およびそれに対応する攻撃タイプが提案したフレームワークによって効果的に識別され、複数のサイバーセキュリティ専門家によって検証される。 実世界のCDNデータに適用した場合,提案手法の有効性を示す。

Content delivery networks (CDNs) provide efficient content distribution over the Internet. CDNs improve the connectivity and efficiency of global communications, but their caching mechanisms may be breached by cyber-attackers. Among the security mechanisms, effective anomaly detection forms an important part of CDN security enhancement. In this work, we propose a multi-perspective unsupervised learning framework for anomaly detection in CDNs. In the proposed framework, a multi-perspective feature engineering approach, an optimized unsupervised anomaly detection model that utilizes an isolation forest and a Gaussian mixture model, and a multi-perspective validation method, are developed to detect abnormal behaviors in CDNs mainly from the client Internet Protocol (IP) and node perspectives, therefore to identify the denial of service (DoS) and cache pollution attack (CPA) patterns. Experimental results are presented based on the analytics of eight days of real-world CDN log data provided by a major CDN operator. Through experiments, the abnormal contents, compromised nodes, malicious IPs, as well as their corresponding attack types, are identified effectively by the proposed framework and validated by multiple cybersecurity experts. This shows the effectiveness of the proposed method when applied to real-world CDN data.
翻訳日:2021-07-27 16:17:54 公開日:2021-07-24
# 敵の例を検知するのは、分類するのと同じくらい難しい

Detecting Adversarial Examples Is (Nearly) As Hard As Classifying Them ( http://arxiv.org/abs/2107.11630v1 )

ライセンス: Link先を確認
Florian Tram\`er(参考訳) 逆例に対する分類器の堅牢化は困難である。 したがって、多くのディフェンスは、摂動入力を検出するという一見簡単なタスクに取り組む。 私たちはこの目標への障壁を示します。 距離 {\epsilon} (ある計量では) での攻撃に対する頑健な検出器を与えられた場合、距離 {\epsilon}/2 での攻撃に対する同様に頑健な(しかし非効率的な)分類器を構築することができる。 この削減は計算効率が悪く,実用的な分類器の構築には使用できない。 むしろ、実験的な検出結果が予想する著者よりもはるかに強力な意味を持っているかどうかをテストするのに有用な健全性チェックである。 ここでは、13個の検出器の防御を再検討する。 11/13例において, 検出結果が非効率な分類器であり, 最先端をはるかに超えていることを示す。

Making classifiers robust to adversarial examples is hard. Thus, many defenses tackle the seemingly easier task of detecting perturbed inputs. We show a barrier towards this goal. We prove a general hardness reduction between detection and classification of adversarial examples: given a robust detector for attacks at distance {\epsilon} (in some metric), we can build a similarly robust (but inefficient) classifier for attacks at distance {\epsilon}/2. Our reduction is computationally inefficient, and thus cannot be used to build practical classifiers. Instead, it is a useful sanity check to test whether empirical detection results imply something much stronger than the authors presumably anticipated. To illustrate, we revisit 13 detector defenses. For 11/13 cases, we show that the claimed detection results would imply an inefficient classifier with robustness far beyond the state-of-the-art.
翻訳日:2021-07-27 16:15:05 公開日:2021-07-24
# 集合ガウス隠れマルコフモデルの推論

Inference of collective Gaussian hidden Markov models ( http://arxiv.org/abs/2107.11662v1 )

ライセンス: Link先を確認
Rahul Singh, Yongxin Chen(参考訳) 連続状態集団隠れマルコフモデルのクラスに対する推論問題を考える。そこでは、同じダイナミクスに従う多数の個体が生成する集約的(集合的)形式にデータが記録される。 我々は,最近提案されたシンクホーン信念伝播アルゴリズムを,ガウス密度を特徴とするモデルに拡張した集合ガウス前方回帰アルゴリズムを提案する。 我々のアルゴリズムは収束保証を楽しむ。 さらに、観測結果が単一の個人によって生成されると、標準カルマンフィルタに還元される。 提案アルゴリズムの有効性は, 複数実験により実証された。

We consider inference problems for a class of continuous state collective hidden Markov models, where the data is recorded in aggregate (collective) form generated by a large population of individuals following the same dynamics. We propose an aggregate inference algorithm called collective Gaussian forward-backward algorithm, extending recently proposed Sinkhorn belief propagation algorithm to models characterized by Gaussian densities. Our algorithm enjoys convergence guarantee. In addition, it reduces to the standard Kalman filter when the observations are generated by a single individual. The efficacy of the proposed algorithm is demonstrated through multiple experiments.
翻訳日:2021-07-27 16:13:45 公開日:2021-07-24
# TinyAction Challenge:ビデオにおける現実の低解像度活動を認識する

TinyAction Challenge: Recognizing Real-world Low-resolution Activities in Videos ( http://arxiv.org/abs/2107.11494v1 )

ライセンス: Link先を確認
Praveen Tirupattur, Aayush J Rana, Tushar Sangam, Shruti Vyas, Yogesh S Rawat, Mubarak Shah(参考訳) 本稿では,CVPR 2021のActivityNetワークショップで実施されたTinyActionチャレンジを要約する。 この課題は、ビデオに存在する現実の低解像度活動を認識することに焦点を当てている。 アクション認識タスクは、アクターとアクションがはっきりと見える高品質のビデオからアクションを分類することに焦点を当てている。 近年の研究では認識タスクに様々なアプローチが有効であることが示されているが、小さな領域でアクションが起きている低い解像度の動画は扱わないことが多い。 しかし、現実世界の多くのセキュリティビデオは、実際のアクションを小さな解像度でキャプチャし、小さな領域でのアクション認識を困難なタスクにすることが多い。 本研究では,低解像度動作を自然に発生するベンチマークデータセットであるtinyvirat-v2を提案する。 これはTinyVIRATデータセットの拡張であり、複数のラベルによるアクションで構成されている。 ビデオはセキュリティビデオから抽出され、よりリアルで難しいものになっている。 我々は、データセットの現在の最先端動作認識手法をベンチマークとして使用し、TinyAction Challengeを提案する。

This paper summarizes the TinyAction challenge which was organized in ActivityNet workshop at CVPR 2021. This challenge focuses on recognizing real-world low-resolution activities present in videos. Action recognition task is currently focused around classifying the actions from high-quality videos where the actors and the action is clearly visible. While various approaches have been shown effective for recognition task in recent works, they often do not deal with videos of lower resolution where the action is happening in a tiny region. However, many real world security videos often have the actual action captured in a small resolution, making action recognition in a tiny region a challenging task. In this work, we propose a benchmark dataset, TinyVIRAT-v2, which is comprised of naturally occuring low-resolution actions. This is an extension of the TinyVIRAT dataset and consists of actions with multiple labels. The videos are extracted from security videos which makes them realistic and more challenging. We use current state-of-the-art action recognition methods on the dataset as a benchmark, and propose the TinyAction Challenge.
翻訳日:2021-07-27 16:09:20 公開日:2021-07-24
# コントラスト学習によるマルチラベル画像分類

Multi-Label Image Classification with Contrastive Learning ( http://arxiv.org/abs/2107.11626v1 )

ライセンス: Link先を確認
Son D.Dao, Ethan Zhao, Dinh Phung, Jianfei Cai(参考訳) 近年,潜在表現を効果的に学習する方法として,様々な領域でコントラスト学習が普及し,成功を収めている。 シングルラベル分類におけるコンストラッシブラーニングの成功は、この学習フレームワークを活用する動機となり、マルチラベル画像分類における特徴性の向上と性能向上に寄与する。 本稿では,マルチラベルの場合,コントラスト学習の直接的な応用がほとんど改善できないことを示す。 そこで本研究では,画像の複数の表現を異なるラベルのコンテキスト下で学習する,コントラスト学習を伴う新しいマルチラベル分類フレームワークを提案する。 本システムでは,マルチラベル画像分類の性能向上のために,コントラスト学習を簡易かつ直感的にモデルに適応させる。 2つのベンチマークデータセットの大規模な実験により,提案フレームワークは,マルチラベル分類における高度な手法との比較において,最先端の性能を達成することが示された。

Recently, as an effective way of learning latent representations, contrastive learning has been increasingly popular and successful in various domains. The success of constrastive learning in single-label classifications motivates us to leverage this learning framework to enhance distinctiveness for better performance in multi-label image classification. In this paper, we show that a direct application of contrastive learning can hardly improve in multi-label cases. Accordingly, we propose a novel framework for multi-label classification with contrastive learning in a fully supervised setting, which learns multiple representations of an image under the context of different labels. This facilities a simple yet intuitive adaption of contrastive learning into our model to boost its performance in multi-label image classification. Extensive experiments on two benchmark datasets show that the proposed framework achieves state-of-the-art performance in the comparison with the advanced methods in multi-label classification.
翻訳日:2021-07-27 16:09:06 公開日:2021-07-24
# ビデオリスケーリングの自己条件付き確率的学習

Self-Conditioned Probabilistic Learning of Video Rescaling ( http://arxiv.org/abs/2107.11639v1 )

ライセンス: Link先を確認
Yuan Tian, Guo Lu, Xiongkuo Min, Zhaohui Che, Guangtao Zhai, Guodong Guo, Zhiyong Gao(参考訳) ビキュービックダウンスケーリング(bicubic downscaling)は、ビデオストレージの負担軽減や下流処理速度の高速化に使用される一般的なテクニックである。 しかし、逆アップスケーリングステップは非自明であり、ダウンスケールされたビデオもダウンストリームタスクの性能を低下させる可能性がある。 本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。 学習中,ダウンスケール映像内の強空間-時間優先情報に基づく確率条件を最大化することにより,ダウンスケールで失われた情報のエントロピーを低減する。 最適化後、我々のフレームワークによるダウンスケールされたビデオは、より意味のある情報を保存し、アップスケーリングステップと下流タスク、例えばビデオアクション認識タスクの両方に有益である。 さらに、このフレームワークを損失ビデオ圧縮システムに拡張し、このシステム全体のエンドツーエンドトレーニングのために、非微分産業損失コーデックの勾配推定器を提案する。 大規模な実験結果から,ビデオ再スケーリング,ビデオ圧縮,効率的な行動認識タスクへのアプローチの優位性が示された。

Bicubic downscaling is a prevalent technique used to reduce the video storage burden or to accelerate the downstream processing speed. However, the inverse upscaling step is non-trivial, and the downscaled video may also deteriorate the performance of downstream tasks. In this paper, we propose a self-conditioned probabilistic framework for video rescaling to learn the paired downscaling and upscaling procedures simultaneously. During the training, we decrease the entropy of the information lost in the downscaling by maximizing its probability conditioned on the strong spatial-temporal prior information within the downscaled video. After optimization, the downscaled video by our framework preserves more meaningful information, which is beneficial for both the upscaling step and the downstream tasks, e.g., video action recognition task. We further extend the framework to a lossy video compression system, in which a gradient estimator for non-differential industrial lossy codecs is proposed for the end-to-end training of the whole system. Extensive experimental results demonstrate the superiority of our approach on video rescaling, video compression, and efficient action recognition tasks.
翻訳日:2021-07-27 16:08:54 公開日:2021-07-24
# 鋳造品の欠陥検出のための不確実性を考慮した深層学習フレームワーク

An Uncertainty-Aware Deep Learning Framework for Defect Detection in Casting Products ( http://arxiv.org/abs/2107.11643v1 )

ライセンス: Link先を確認
Maryam Habibpour, Hassan Gharoun, AmirReza Tajally, Afshar Shamsi, Hamzeh Asgharnezhad, Abbas Khosravi, and Saeid Nahavandi(参考訳) 鋳造工程の複雑さにより、鋳造工程の欠陥は避けられない。 従来の鋳造品の視認検査は、大量生産では遅く非生産的であるが、自動的かつ信頼性の高い欠陥検出は品質管理プロセスを向上させるだけでなく、生産性を正に向上させる。 しかし, 鋳造欠陥検出は, 欠陥の外観の多様性や多様性から, 難しい課題である。 畳み込みニューラルネットワーク(CNN)は画像分類と欠陥検出の両方に広く応用されている。 しかし、頻繁な推測を持つCNNは、トレーニングするために大量のデータを必要とし、予測の不確実性に関する有益な見積もりを報告するのに不足している。 そこで、転送学習のパラダイムを活用して、まず4つの強力なCNNモデル(VGG16、ResNet50、DenseNet121、InceptionResNetV2)を小さなデータセットに適用し、意味のある特徴を抽出する。 抽出された特徴は、さまざまな機械学習アルゴリズムによって処理され、分類タスクを実行する。 シミュレーションにより, 鋳造画像の欠陥検出において, 線形支持ベクトルマシン (SVM) と多層パーセプトロン (MLP) が最も優れた性能を示した。 次に、4つの事前学習CNNから抽出した特徴を用いた不確実性定量化(UQ)手法(MLPモデルのアンサンブル)を用いて、信頼性の高い分類とてんかん不確実性の測定を行う。 また、UQ混乱行列と不確実性精度測定値を用いて予測不確実性推定を評価する。 包括的比較により、vgg16に基づくuqメソッドは他のメソッドよりも不確実性を取得する。 不確実性を認識した自動欠陥検出ソリューションは、鋳造品質保証を強化するだろう。

Defects are unavoidable in casting production owing to the complexity of the casting process. While conventional human-visual inspection of casting products is slow and unproductive in mass productions, an automatic and reliable defect detection not just enhances the quality control process but positively improves productivity. However, casting defect detection is a challenging task due to diversity and variation in defects' appearance. Convolutional neural networks (CNNs) have been widely applied in both image classification and defect detection tasks. Howbeit, CNNs with frequentist inference require a massive amount of data to train on and still fall short in reporting beneficial estimates of their predictive uncertainty. Accordingly, leveraging the transfer learning paradigm, we first apply four powerful CNN-based models (VGG16, ResNet50, DenseNet121, and InceptionResNetV2) on a small dataset to extract meaningful features. Extracted features are then processed by various machine learning algorithms to perform the classification task. Simulation results demonstrate that linear support vector machine (SVM) and multi-layer perceptron (MLP) show the finest performance in defect detection of casting images. Secondly, to achieve a reliable classification and to measure epistemic uncertainty, we employ an uncertainty quantification (UQ) technique (ensemble of MLP models) using features extracted from four pre-trained CNNs. UQ confusion matrix and uncertainty accuracy metric are also utilized to evaluate the predictive uncertainty estimates. Comprehensive comparisons reveal that UQ method based on VGG16 outperforms others to fetch uncertainty. We believe an uncertainty-aware automatic defect detection solution will reinforce casting productions quality assurance.
翻訳日:2021-07-27 16:08:36 公開日:2021-07-24
# 深部マルチタスク学習による手画像理解

Hand Image Understanding via Deep Multi-Task Learning ( http://arxiv.org/abs/2107.11646v1 )

ライセンス: Link先を確認
Zhang Xiong, Huang Hongsheng, Tan Jianchao, Xu Hongmin, Yang Cheng, Peng Guozhu, Wang Lei, Liu Ji(参考訳) 画像やビデオなどのマルチメディア資料から手元の情報を分析・理解することは、多くの現実世界のアプリケーションにとって重要であり、研究コミュニティで活発に活動している。 単一の画像から手情報を復元することに焦点を当てた様々な研究があるが、通常、手動マスクのセグメンテーション、2D/3D手動ポーズ推定、手動メッシュ再構成など、単一のタスクを解決し、困難なシナリオではうまく機能しない。 これらのタスクの性能をさらに高めるため,本論文では,ハンドオブジェクトの包括的情報を単一のrgb画像から抽出する新しいハンドイメージ理解(hiu)フレームワークを提案する。 この目的を達成するために、カスケードマルチタスク学習(mtl)バックボーンは、2次元ヒートマップを推定し、セグメンテーションマスクを学習し、中間の3次元情報エンコーディングを生成し、粗視学習パラダイムと自己教師付き学習戦略を実行する。 定性的な実験により,我々のアプローチは,困難な状況でも合理的なメッシュ表現を回収できることを示した。 本手法は,多種多様な評価指標を用いて,多種多様な用途のデータセットに対する最先端のアプローチを著しく上回っている。

Analyzing and understanding hand information from multimedia materials like images or videos is important for many real world applications and remains active in research community. There are various works focusing on recovering hand information from single image, however, they usually solve a single task, for example, hand mask segmentation, 2D/3D hand pose estimation, or hand mesh reconstruction and perform not well in challenging scenarios. To further improve the performance of these tasks, we propose a novel Hand Image Understanding (HIU) framework to extract comprehensive information of the hand object from a single RGB image, by jointly considering the relationships between these tasks. To achieve this goal, a cascaded multi-task learning (MTL) backbone is designed to estimate the 2D heat maps, to learn the segmentation mask, and to generate the intermediate 3D information encoding, followed by a coarse-to-fine learning paradigm and a self-supervised learning strategy. Qualitative experiments demonstrate that our approach is capable of recovering reasonable mesh representations even in challenging situations. Quantitatively, our method significantly outperforms the state-of-the-art approaches on various widely-used datasets, in terms of diverse evaluation metrics.
翻訳日:2021-07-27 16:08:08 公開日:2021-07-24
# 不均衡なビッグデータオーバーサンプリング:分類学、アルゴリズム、ソフトウェア、ガイドライン、今後の方向性

Imbalanced Big Data Oversampling: Taxonomy, Algorithms, Software, Guidelines and Future Directions ( http://arxiv.org/abs/2107.11508v1 )

ライセンス: Link先を確認
William C. Sleeman IV and Bartosz Krawczyk(参考訳) 不均衡なデータから学ぶことは、現代の機械学習において最も難しい分野である。 ハイパフォーマンスな処理が可能な専用のアーキテクチャを要求するビッグデータのコンテキストを考えると、これはさらに難しくなります。 Apache Sparkは非常に効率的でポピュラーなアーキテクチャだが、アルゴリズムを実装する上で特別な課題が生じる。 オーバーサンプリングアルゴリズムはクラス不均衡を扱う効果的な方法であるが、分散環境向けには設計されていない。 本稿では,不均衡ビッグデータに対するオーバーサンプリングアルゴリズムの全体的考察を提案する。 本稿では,オーバーサンプリングアルゴリズムの分類と,スキュートクラス分布を扱うためのメカニズムについて論じる。 我々は,14の最先端オーバーサンプリングアルゴリズムを実装したSparkライブラリを導入し,その有効性を評価する。 本稿では,2値データセットと複数クラスデータセットを用いて,アルゴリズムのオーバーサンプリングの有効性と,異なるタイプの分類器との関係を解析する。 我々は,オーバーサンプリングアルゴリズムの精度と時間複雑性,データサイズを増加させる際のスケーラビリティのトレードオフを評価する。 これにより、ビッグデータのオーバーサンプリングアルゴリズムの特定のコンポーネントの有用性や、大規模な不均衡データに対する将来の再サンプリングアプローチを設計するためのガイドラインや推奨事項の策定が可能になる。 私たちのライブラリはhttps://github.com/f sleeman/spark-class- balancing.gitからダウンロードできます。

Learning from imbalanced data is among the most challenging areas in contemporary machine learning. This becomes even more difficult when considered the context of big data that calls for dedicated architectures capable of high-performance processing. Apache Spark is a highly efficient and popular architecture, but it poses specific challenges for algorithms to be implemented for it. While oversampling algorithms are an effective way for handling class imbalance, they have not been designed for distributed environments. In this paper, we propose a holistic look on oversampling algorithms for imbalanced big data. We discuss the taxonomy of oversampling algorithms and their mechanisms used to handle skewed class distributions. We introduce a Spark library with 14 state-of-the-art oversampling algorithms implemented and evaluate their efficacy via extensive experimental study. Using binary and multi-class massive data sets, we analyze the effectiveness of oversampling algorithms and their relationships with different types of classifiers. We evaluate the trade-off between accuracy and time complexity of oversampling algorithms, as well as their scalability when increasing the size of data. This allows us to gain insight into the usefulness of specific components of oversampling algorithms for big data, as well as formulate guidelines and recommendations for designing future resampling approaches for massive imbalanced data. Our library can be downloaded from https://github.com/f sleeman/spark-class- balancing.git.
翻訳日:2021-07-27 15:59:21 公開日:2021-07-24
# 離散分別流れ

Discrete Denoising Flows ( http://arxiv.org/abs/2107.11625v1 )

ライセンス: Link先を確認
Alexandra Lindt, Emiel Hoogeboom(参考訳) 離散フローベースモデルは、最近提案された離散確率変数の可逆変換を学ぶ生成モデルのクラスである。 データのデ量子化を必要とせず、正確な可能性目標を最大化するため、ロスレス圧縮のためにストレートフォワード方式で使用できる。 本稿では,DDF(Disdisrete Denoising Flows)という,分類型確率変数に対する離散フローベースモデルを提案する。 他の離散フローモデルとは対照的に、我々のモデルは勾配バイアスを導入することなく局所的に訓練することができる。 そこで本研究では, DDFs が離散フローより優れていることを示し, 対数類似度で測定した2値MNIST と Cityscapes のセグメンテーションマップをモデル化した。

Discrete flow-based models are a recently proposed class of generative models that learn invertible transformations for discrete random variables. Since they do not require data dequantization and maximize an exact likelihood objective, they can be used in a straight-forward manner for lossless compression. In this paper, we introduce a new discrete flow-based model for categorical random variables: Discrete Denoising Flows (DDFs). In contrast with other discrete flow-based models, our model can be locally trained without introducing gradient bias. We show that DDFs outperform Discrete Flows on modeling a toy example, binary MNIST and Cityscapes segmentation maps, measured in log-likelihood.
翻訳日:2021-07-27 15:59:02 公開日:2021-07-24
# 負サンプリングがコントラスト構造世界モデルに及ぼす影響

The Impact of Negative Sampling on Contrastive Structured World Models ( http://arxiv.org/abs/2107.11676v1 )

ライセンス: Link先を確認
Ondrej Biza and Elise van der Pol and Thomas Kipf(参考訳) コントラスト学習によって訓練された世界モデルは、ピクセル状態の再構築によって学習するオートエンコーダベースの世界モデルにとって魅力的な代替手段である。 本稿では,コントラスト損失における負の状態のサンプル方法の小さな変化が,モデル性能の劇的な変化をもたらす3つの事例について述べる。 従来研究されてきたAtariデータセットにおいて,時間ステップ相関を利用してコントラスト構造世界モデルの性能を2倍にすることができることを示す。 また、データセットの完全なバージョンを収集して、より多様な経験の下でコントラスト学習を研究します。

World models trained by contrastive learning are a compelling alternative to autoencoder-based world models, which learn by reconstructing pixel states. In this paper, we describe three cases where small changes in how we sample negative states in the contrastive loss lead to drastic changes in model performance. In previously studied Atari datasets, we show that leveraging time step correlations can double the performance of the Contrastive Structured World Model. We also collect a full version of the datasets to study contrastive learning under a more diverse set of experiences.
翻訳日:2021-07-27 15:58:50 公開日:2021-07-24
# 古文献検索と歴史文献分析におけるWeb of Science Core Collectionの利用事例

Caveats for the use of Web of Science Core Collection in old literature retrieval and historical bibliometric analysis ( http://arxiv.org/abs/2107.11521v1 )

ライセンス: Link先を確認
Weishu Liu(参考訳) Web of Science Core Collection(WoSCC)の出版物を使って、Fosso Wamba氏と彼の同僚たちは、Technological Forecasting and Social Changeという興味深い総合的な論文を発表し、人工知能(AI)奨学金の構造とダイナミクスを探求した。 fosso wamba氏の研究で示されたデータは、1991年がai研究の「水源」であることを示唆している。 本研究は,要約/著者キーワード/キーワード+wosccの分野における検索の制限を実証することで,データベース制限の観点から1991年現象を明らかにすることを試みた。 本研究で見いだされたWoSCCにおける抽象的/著者的キーワード/キーワードの可用性の低さは、1991年のAI奨学金の「水洗」現象を大いに説明できる。 また, 古文献検索や歴史文献分析にWoSCCを使用する際の留意点についても論じている。 この研究ノートは、Fosso Wambaと彼の同僚の研究を補完し、古文献検索や歴史文献分析におけるWoSCCの使用における不適切な解釈を避けるのに役立つ。

By using publications from Web of Science Core Collection (WoSCC), Fosso Wamba and his colleagues published an interesting and comprehensive paper in Technological Forecasting and Social Change to explore the structure and dynamics of artificial intelligence (AI) scholarship. Data demonstrated in Fosso Wamba's study implied that the year 1991 seemed to be a "watershed" of AI research. This research note tried to uncover the 1991 phenomenon from the perspective of database limitation by probing the limitations of search in abstract/author keywords/keywords plus fields of WoSCC empirically. The low availability rates of abstract/author keywords/keywords plus information in WoSCC found in this study can explain the "watershed" phenomenon of AI scholarship in 1991 to a large extent. Some other caveats for the use of WoSCC in old literature retrieval and historical bibliometric analysis were also mentioned in the discussion section. This research note complements Fosso Wamba and his colleagues' study and also helps avoid improper interpretation in the use of WoSCC in old literature retrieval and historical bibliometric analysis.
翻訳日:2021-07-27 15:56:11 公開日:2021-07-24
# ベイズ逆問題に対する後部自動摂動分布

Automatic tempered posterior distributions for Bayesian inversion problems ( http://arxiv.org/abs/2107.11614v1 )

ライセンス: Link先を確認
L. Martino, F. Llorente, E. Curbelo, J. Lopez-Santiago, J. Miguez(参考訳) 本稿では,興味のある変数の推論とデータノイズのパワーを分割したベイズ逆問題に対する適応的重要度サンプリング手法を提案する。 より具体的には、興味のある変数(すなわち、反転するモデルのパラメータ)に対するベイズ解析を考えるが、ノイズパワーの推定には最大可能性アプローチを用いる。 この手法は反復的な手順で実装され、サンプリングと最適化のステップが交互に行われる。 さらに、雑音パワーは、興味のある変数の後方分布の摂動パラメータとしても用いられる。 これにより、ノイズパワーの実際の推定に基づいてテンパパラメータが自動的に選択されるテンパレート後密度列が生成される。 モデルパラメータとスケールパラメータに関するベイズ的な完全な研究も行うことができる。 数値実験により提案手法の利点が示された。

We propose a novel adaptive importance sampling scheme for Bayesian inversion problems where the inference of the variables of interest and the power of the data noise is split. More specifically, we consider a Bayesian analysis for the variables of interest (i.e., the parameters of the model to invert), whereas we employ a maximum likelihood approach for the estimation of the noise power. The whole technique is implemented by means of an iterative procedure, alternating sampling and optimization steps. Moreover, the noise power is also used as a tempered parameter for the posterior distribution of the the variables of interest. Therefore, a sequence of tempered posterior densities is generated, where the tempered parameter is automatically selected according to the actual estimation of the noise power. A complete Bayesian study over the model parameters and the scale parameter can be also performed. Numerical experiments show the benefits of the proposed approach.
翻訳日:2021-07-27 15:55:50 公開日:2021-07-24
# 言語ユニバーサル音声認識のための微分可能な音声グラフ

Differentiable Allophone Graphs for Language-Universal Speech Recognition ( http://arxiv.org/abs/2107.11628v1 )

ライセンス: Link先を確認
Brian Yan, Siddharth Dalmia, David R. Mortensen, Florian Metze, Shinji Watanabe(参考訳) 言語共通音声認識システムの構築には、言語間で共有可能な音声の音韻単位の生成が伴う。 言語固有の音素や表面レベルの音声アノテーションは容易に利用できるが、普遍的な電話レベルの音声アノテーションは、比較的稀で作成が困難である。 本稿では,重み付き有限状態トランスデューサを用いて学習可能な重みを表現した音素書き起こしと音素間マッピングのみから,電話レベルの監督を導出するための一般的な枠組みを提案する。 多言語学習により,各言語に対する確率的音声対音素マッピングを用いた汎用音声認識モデルを構築した。 学習されたアロフォーングラフを持つこれらの電話ベースのシステムは、言語学者によって新しい言語を文書化し、豊かな発音のバリエーションをキャプチャする電話ベースのレキシコンを構築し、見た言語のアロフォーンマッピングを再評価するために使用することができる。 提案するフレームワークの利点を、7つの多様な言語で学習したシステムで実証する。

Building language-universal speech recognition systems entails producing phonological units of spoken sound that can be shared across languages. While speech annotations at the language-specific phoneme or surface levels are readily available, annotations at a universal phone level are relatively rare and difficult to produce. In this work, we present a general framework to derive phone-level supervision from only phonemic transcriptions and phone-to-phoneme mappings with learnable weights represented using weighted finite-state transducers, which we call differentiable allophone graphs. By training multilingually, we build a universal phone-based speech recognition model with interpretable probabilistic phone-to-phoneme mappings for each language. These phone-based systems with learned allophone graphs can be used by linguists to document new languages, build phone-based lexicons that capture rich pronunciation variations, and re-evaluate the allophone mappings of seen language. We demonstrate the aforementioned benefits of our proposed framework with a system trained on 7 diverse languages.
翻訳日:2021-07-27 15:54:36 公開日:2021-07-24
# 不確かさ近似を用いた深層学習駆動型信頼性単画素イメージング

Deep-learning-driven Reliable Single-pixel Imaging with Uncertainty Approximation ( http://arxiv.org/abs/2107.11678v1 )

ライセンス: Link先を確認
Ruibo Shang, Mikaela A. O'Brien, Geoffrey P. Luke(参考訳) 単一画素イメージング(SPI)は、広波長域での高速取得とシステムコンパクト化の利点があり、従来の撮像センサでは実現が困難である。 しかし、よくある課題は、アンダーサンプリングから生じる低画質である。 ディープ・ラーニング (DL) は、多くのアプリケーションにおいて、新しい強力な計算イメージングツールであり、研究者は、従来の再構成手法よりも高い画質を実現するために、SPIにDLを適用した。 しかし、SPIにおけるDL予測の精度は、基礎的真理が不明な実用的な応用では評価できない。 本稿では,ベイズ畳み込みニューラルネットワーク(BCNN)を用いて,SPIにおけるDL予測の不確実性(有限トレーニングデータとネットワークモデルによる)を近似する。 BCNNからの予測結果の各画素は、画像強度値よりも確率分布のパラメータを表す。 そして、トレーニングステージにおける負のログ様損失関数と予測ステージにおけるモンテカルロドロップアウトを最小化することにより、不確かさをbcnnと近似することができる。 その結果,BCNNは,SPIにおけるDL予測の不確かさを,圧縮率やノイズレベルによって確実に近似できることがわかった。 SPIにおけるBCNNの不確実性は、ディープラーニングベースのSPIにおける再構成エラーのほとんどは、画像の特徴の端から来ていることを示している。 以上の結果から,提案したBCNNは,SPIにおけるDL予測の不確かさを近似する信頼性の高いツールであり,SPIの多くの応用で広く利用できることを示す。

Single-pixel imaging (SPI) has the advantages of high-speed acquisition over a broad wavelength range and system compactness, which are difficult to achieve by conventional imaging sensors. However, a common challenge is low image quality arising from undersampling. Deep learning (DL) is an emerging and powerful tool in computational imaging for many applications and researchers have applied DL in SPI to achieve higher image quality than conventional reconstruction approaches. One outstanding challenge, however, is that the accuracy of DL predictions in SPI cannot be assessed in practical applications where the ground truths are unknown. Here, we propose the use of the Bayesian convolutional neural network (BCNN) to approximate the uncertainty (coming from finite training data and network model) of the DL predictions in SPI. Each pixel in the predicted result from BCNN represents the parameter of a probability distribution rather than the image intensity value. Then, the uncertainty can be approximated with BCNN by minimizing a negative log-likelihood loss function in the training stage and Monte Carlo dropout in the prediction stage. The results show that the BCNN can reliably approximate the uncertainty of the DL predictions in SPI with varying compression ratios and noise levels. The predicted uncertainty from BCNN in SPI reveals that most of the reconstruction errors in deep-learning-based SPI come from the edges of the image features. The results show that the proposed BCNN can provide a reliable tool to approximate the uncertainty of DL predictions in SPI and can be widely used in many applications of SPI.
翻訳日:2021-07-27 15:50:46 公開日:2021-07-24
# 学習相対空間変換による大気乱流の加速シミュレーション

Accelerating Atmospheric Turbulence Simulation via Learned Phase-to-Space Transform ( http://arxiv.org/abs/2107.11627v1 )

ライセンス: Link先を確認
Zhiyuan Mao and Nicholas Chimitt and Stanley H. Chan(参考訳) 乱流緩和アルゴリズムの開発には,高速かつ高精度な大気乱流イメージングシミュレーションが不可欠である。 従来の手法の限界を認識し,P2S変換と呼ばれる新しい概念を導入し,シミュレーションを大幅に高速化する。 P2S は,(1) 空間的に変化する畳み込みを基底関数で不変な畳み込みの集合として再構成し,(2) 既知の乱流統計モデルを用いて基底関数を学習し,(3) 位相表現を直接空間表現に変換する軽量ネットワークを介して P2S 変換を実装した。 新しいシミュレーターはメインストリームのスプリットステップシミュレータに比べて300倍から1000倍のスピードアップを実現している。

Fast and accurate simulation of imaging through atmospheric turbulence is essential for developing turbulence mitigation algorithms. Recognizing the limitations of previous approaches, we introduce a new concept known as the phase-to-space (P2S) transform to significantly speed up the simulation. P2S is build upon three ideas: (1) reformulating the spatially varying convolution as a set of invariant convolutions with basis functions, (2) learning the basis function via the known turbulence statistics models, (3) implementing the P2S transform via a light-weight network that directly convert the phase representation to spatial representation. The new simulator offers 300x -- 1000x speed up compared to the mainstream split-step simulators while preserving the essential turbulence statistics.
翻訳日:2021-07-27 15:47:20 公開日:2021-07-24
# 個人学習軸配置長方形のサンプル複雑性について

On the Sample Complexity of Privately Learning Axis-Aligned Rectangles ( http://arxiv.org/abs/2107.11526v1 )

ライセンス: Link先を確認
Menachem Sadigurschi, Uri Stemmer(参考訳) 差分プライバシーを持つ有限格子$X^d\subseteq{\mathbb{R}}^d$上で軸整列学習の基本的な問題を再考する。 既存の結果は、この問題のサンプル複雑性は少なくとも$\min\left\{ d{\cdot}\log|x| \;,\; d^{1.5}{\cdot}\left(\log^*|x| \right)^{1.5}\right\}$であることを示している。 つまり、既存の構成は、$\log|X|$で線型に成長するサンプル複雑性を必要とするか、または$d$で超線型に成長する。 我々は、サンプルの複雑さを$\tilde{O}\left\{d{\cdot}\left(\log^*|X|\right)^{1.5}\right\}$に減らし、サンプルの複雑さを$\log|X|$で成長させることなく、次元最適依存を実現する新しいアルゴリズムを提案する。 この手法のコアは個人が興味を持ち、統計的に効率的なプライベートアルゴリズムを構築するための新しい手法を導入する。

We revisit the fundamental problem of learning Axis-Aligned-Rectang les over a finite grid $X^d\subseteq{\mathbb{R}}^d$ with differential privacy. Existing results show that the sample complexity of this problem is at most $\min\left\{ d{\cdot}\log|X| \;,\; d^{1.5}{\cdot}\left(\log^*|X| \right)^{1.5}\right\}$. That is, existing constructions either require sample complexity that grows linearly with $\log|X|$, or else it grows super linearly with the dimension $d$. We present a novel algorithm that reduces the sample complexity to only $\tilde{O}\left\{d{\cdot}\left(\log^*|X|\right)^{1.5}\right\}$, attaining a dimensionality optimal dependency without requiring the sample complexity to grow with $\log|X|$.The technique used in order to attain this improvement involves the deletion of "exposed" data-points on the go, in a fashion designed to avoid the cost of the adaptive composition theorems. The core of this technique may be of individual interest, introducing a new method for constructing statistically-effici ent private algorithms.
翻訳日:2021-07-27 15:46:50 公開日:2021-07-24
# スマートコントラクト脆弱性検出のためのグラフニューラルネットワークとエキスパート知識の組み合わせ

Combining Graph Neural Networks with Expert Knowledge for Smart Contract Vulnerability Detection ( http://arxiv.org/abs/2107.11598v1 )

ライセンス: Link先を確認
Zhenguang Liu, Peng Qian, Xiaoyang Wang, Yuan Zhuang, Lin Qiu, Xun Wang(参考訳) スマートコントラクトの脆弱性検出は、ハッカー攻撃による重大な損失により、近年広く注目を集めている。 契約セキュリティ分析の既存の取り組みは、労働集約的で非スケーブルな専門家によって定義された厳格なルールに大きく依存している。 さらに重要なことに、専門家定義のルールはエラーを起こしやすい傾向があり、巧みな攻撃者によって騙される固有のリスクに苦しむ。 近年の研究は、脆弱性検出のためのスマートコントラクトの実行と形式解析に重点を置いている。 スマートコントラクトの脆弱性を検出するいくつかの方法が提案されているが、専門家が定義したセキュリティパターンとディープニューラルネットワークを組み合わせることを検討する努力が不足している。 本稿では,グラフニューラルネットワークとエキスパート知識を用いたスマートコントラクト脆弱性検出について検討する。 具体的には、ソースコードのリッチな制御とデータフローのセマンティクスをコントラクトグラフにキャストする。 グラフにおける臨界ノードを強調するために、グラフを正規化するノード除去フェーズをさらに設計する。 そこで我々は,正規化グラフからグラフ特徴を抽出する新しい時間的メッセージ伝搬ネットワークを提案し,その特徴を設計専門家パターンと組み合わせて最終検出システムを構築する。 ethereumとvntチェーンプラットフォームでソースコードを持つすべてのスマートコントラクトで広範な実験が行われている。 実験結果から,本手法の検出精度は89.15%,89.02%,83.21% のリエント性,タイムスタンプ依存性,無限ループ脆弱性の3種類の脆弱性に対して,最先端手法よりも有意に向上した。

Smart contract vulnerability detection draws extensive attention in recent years due to the substantial losses caused by hacker attacks. Existing efforts for contract security analysis heavily rely on rigid rules defined by experts, which are labor-intensive and non-scalable. More importantly, expert-defined rules tend to be error-prone and suffer the inherent risk of being cheated by crafty attackers. Recent researches focus on the symbolic execution and formal analysis of smart contracts for vulnerability detection, yet to achieve a precise and scalable solution. Although several methods have been proposed to detect vulnerabilities in smart contracts, there is still a lack of effort that considers combining expert-defined security patterns with deep neural networks. In this paper, we explore using graph neural networks and expert knowledge for smart contract vulnerability detection. Specifically, we cast the rich control- and data- flow semantics of the source code into a contract graph. To highlight the critical nodes in the graph, we further design a node elimination phase to normalize the graph. Then, we propose a novel temporal message propagation network to extract the graph feature from the normalized graph, and combine the graph feature with designed expert patterns to yield a final detection system. Extensive experiments are conducted on all the smart contracts that have source code in Ethereum and VNT Chain platforms. Empirical results show significant accuracy improvements over the state-of-the-art methods on three types of vulnerabilities, where the detection accuracy of our method reaches 89.15%, 89.02%, and 83.21% for reentrancy, timestamp dependence, and infinite loop vulnerabilities, respectively.
翻訳日:2021-07-27 15:46:21 公開日:2021-07-24
# 最適確率的デバイススケジューリングによるフェデレーションエッジ学習の高速化

Accelerating Federated Edge Learning via Optimized Probabilistic Device Scheduling ( http://arxiv.org/abs/2107.11588v1 )

ライセンス: Link先を確認
Maojun Zhang, Guangxu Zhu, Shuai Wang, Jiamo Jiang, Caijun Zhong, Shuguang Cui(参考訳) 人気のFederated Edge Learning(FEEL)フレームワークは、エッジデバイスとサーバ間の頻繁な学習更新交換を通じて、プライバシ保護によるコラボレーティブモデルトレーニングを可能にする。 帯域幅が制限されているため、通信ラウンドごとにアップデートをアップロードできるデバイスはごく一部に過ぎない。 これにより、通信時間を最小化するための最適なデバイススケジューリングポリシーの研究が活発に行われている。 しかし、正確な通信時間を定量化することが困難であるため、この領域での事前作業は、通信ラウンドまたはラウンドあたりのレイテンシを考慮すれば、部分的にしか問題に対処できない。 このギャップを埋めるため,本稿では,通信時間最小化問題を定式化し,解決するための最初の試みを行う。 まず,収束解析のための学習理論と1ラウンド待ち時間解析のための通信理論の両方を含む学際的な取り組みを通じて,通信時間を近似するためのタイトバウンドを導出する。 解析結果に基づいて、近似通信時間最小化問題を解くことにより、最適化された確率的スケジューリングポリシーをクローズド形式で導出する。 最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。 提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。

The popular federated edge learning (FEEL) framework allows privacy-preserving collaborative model training via frequent learning-updates exchange between edge devices and server. Due to the constrained bandwidth, only a subset of devices can upload their updates at each communication round. This has led to an active research area in FEEL studying the optimal device scheduling policy for minimizing communication time. However, owing to the difficulty in quantifying the exact communication time, prior work in this area can only tackle the problem partially by considering either the communication rounds or per-round latency, while the total communication time is determined by both metrics. To close this gap, we make the first attempt in this paper to formulate and solve the communication time minimization problem. We first derive a tight bound to approximate the communication time through cross-disciplinary effort involving both learning theory for convergence analysis and communication theory for per-round latency analysis. Building on the analytical result, an optimized probabilistic scheduling policy is derived in closed-form by solving the approximate communication time minimization problem. It is found that the optimized policy gradually turns its priority from suppressing the remaining communication rounds to reducing per-round latency as the training process evolves. The effectiveness of the proposed scheme is demonstrated via a use case on collaborative 3D objective detection in autonomous driving.
翻訳日:2021-07-27 15:42:14 公開日:2021-07-24