このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200428となっている論文です。

PDF登録状況(公開日: 20200428)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープニューラルネットワークにおける線形領域の性質に関する実証的研究

Empirical Studies on the Properties of Linear Regions in Deep Neural Networks ( http://arxiv.org/abs/2001.01072v3 )

ライセンス: Link先を確認
Xiao Zhang and Dongrui Wu(参考訳) 分割線形活性化を持つディープニューラルネットワーク(dnn)は、入力空間を、異なる線形関数が適合する多数の小さな線形領域に分割することができる。 これらの領域の数はDNNの表現力を表すと考えられている。 線形領域の数をカウントする代わりに、球面、対応する超平面の方向、決定境界、周辺領域の関連性などの局所的性質について検討する。 類似の分類精度が得られても,異なる最適化手法が全く異なる線形領域につながることを実証的に観察した。 我々の研究は、新しい最適化手法の設計を刺激し、DNNの振る舞いの発見と分析に役立つことを願っている。

A deep neural network (DNN) with piecewise linear activations can partition the input space into numerous small linear regions, where different linear functions are fitted. It is believed that the number of these regions represents the expressivity of the DNN. This paper provides a novel and meticulous perspective to look into DNNs: Instead of just counting the number of the linear regions, we study their local properties, such as the inspheres, the directions of the corresponding hyperplanes, the decision boundaries, and the relevance of the surrounding regions. We empirically observed that different optimization techniques lead to completely different linear regions, even though they result in similar classification accuracies. We hope our study can inspire the design of novel optimization techniques, and help discover and analyze the behaviors of DNNs.
翻訳日:2023-01-14 12:29:27 公開日:2020-04-28
# CT画像における肺結節診断のためのディープトランスファー畳み込みニューラルネットワークとエクストリームラーニングマシン

Deep Transfer Convolutional Neural Network and Extreme Learning Machine for Lung Nodule Diagnosis on CT images ( http://arxiv.org/abs/2001.01279v2 )

ライセンス: Link先を確認
Xufeng Huang, Qiang Lei, Tingli Xie, Yahui Zhang, Zhen Hu, Qi Zhou(参考訳) 記事の内容は秘密にしておく必要がある

Some content of the article needs to be kept secret
翻訳日:2023-01-14 07:52:42 公開日:2020-04-28
# アーティファクト増幅を用いたフレーム補間ベンチマークの主観的アノテーション

Subjective Annotation for a Frame Interpolation Benchmark using Artefact Amplification ( http://arxiv.org/abs/2001.06409v2 )

ライセンス: Link先を確認
Hui Men, Vlad Hosu, Hanhe Lin, Andr\'es Bruhn and Dietmar Saupe(参考訳) 光フローアルゴリズムの現在のベンチマークでは、予測フローフィールドを地上の真実と比較するか、予測フローフィールドを用いてフレーム補間を行い、補間されたフレームと実際のフレームを比較して直接評価する。 後者の場合、平均二乗誤差などの客観的品質指標が一般的に用いられる。 しかし, 画像品質評価においては, ユーザが経験した実際の品質を, このような単純な尺度から完全に推定することはできないことが知られている。 そこで本研究では,オプティカルフローベンチマークの1つであるミドルベリーベンチマークの補間フレームについて,主観的品質評価を行った。 補間画像と対応する接地真実の強制選択対比較を収集した。 ペア比較の微妙な違いを判定する際の観察者の感度を高めるため,アーティファクト増幅と呼ばれる全参照品質評価分野に新しい手法を導入した。 クラウドソーシングデータから,thurstoneのモデルによる絶対品質尺度値を再構成した。 その結果、補間フレームの視覚的品質について、155個の参加アルゴリズムを再ランク付けした。 この再ランキングは、光学フローおよびフレーム補間ベンチマークの別評価指標として視覚的品質評価の必要性を示すだけでなく、補間画像の知覚的品質に関する新しい画像品質評価法(iqa)を設計するための基礎的真実を提供する。 まず,WAE-IQAと呼ばれる新しい完全参照手法を提案する。 補間された画像と地上の真実との局所的な差異を測ることにより、WAE-IQAは、現在最も優れたFR-IQAアプローチよりもわずかに優れている。

Current benchmarks for optical flow algorithms evaluate the estimation either directly by comparing the predicted flow fields with the ground truth or indirectly by using the predicted flow fields for frame interpolation and then comparing the interpolated frames with the actual frames. In the latter case, objective quality measures such as the mean squared error are typically employed. However, it is well known that for image quality assessment, the actual quality experienced by the user cannot be fully deduced from such simple measures. Hence, we conducted a subjective quality assessment crowdscouring study for the interpolated frames provided by one of the optical flow benchmarks, the Middlebury benchmark. We collected forced-choice paired comparisons between interpolated images and corresponding ground truth. To increase the sensitivity of observers when judging minute difference in paired comparisons we introduced a new method to the field of full-reference quality assessment, called artefact amplification. From the crowdsourcing data, we reconstructed absolute quality scale values according to Thurstone's model. As a result, we obtained a re-ranking of the 155 participating algorithms w.r.t. the visual quality of the interpolated frames. This re-ranking not only shows the necessity of visual quality assessment as another evaluation metric for optical flow and frame interpolation benchmarks, the results also provide the ground truth for designing novel image quality assessment (IQA) methods dedicated to perceptual quality of interpolated images. As a first step, we proposed such a new full-reference method, called WAE-IQA. By weighing the local differences between an interpolated image and its ground truth WAE-IQA performed slightly better than the currently best FR-IQA approach from the literature.
翻訳日:2023-01-12 23:23:14 公開日:2020-04-28
# 6H-SiCにおけるスピン-3/2シリコン空孔のキャラクタリゼーション

Experimental characterization of spin-3/2 silicon vacancy centers in 6H-SiC ( http://arxiv.org/abs/2001.06842v2 )

ライセンス: Link先を確認
Harpreet Singh, Andrei N. Anisimov, Sergei S. Nagalyuk, Eugenii N. Mokhov, Pavel G. Baranov, and Dieter Suter(参考訳) 炭化ケイ素(SiC)は、様々な高度な量子技術の量子ビットとして機能する可能性のある多くの興味深い欠陥をホストしている。 それらの中には非常に興味深い性質を持つものもあり、固定キュービットとフライングキュービットの間のインターフェイスなど、潜在的に有用である。 本稿では,6h-sic多型のシリコン空孔におけるスピンの関連特性について詳細に述べる。 これには、温度依存性のフォトルミネッセンス、光学的に検出された磁気共鳴、スピンの縦方向と横方向の成分の緩和時間、および異なる再焦点スキームの影響などが含まれる。

Silicon carbide (SiC) hosts many interesting defects that can potentially serve as qubits for a range of advanced quantum technologies. Some of them have very interesting properties, making them potentially useful, e.g. as interfaces between stationary and flying qubits. Here we present a detailed overview of the relevant properties of the spins in silicon vacancies of the 6H-SiC polytype. This includes the temperature-dependent photoluminescence, optically detected magnetic resonance, and the relaxation times of the longitudinal and transverse components of the spins, during free precession as well as under the influence of different refocusing schemes.
翻訳日:2023-01-10 05:36:55 公開日:2020-04-28
# 機械学習における会員情報漏洩のモデル化と定量化

Modelling and Quantifying Membership Information Leakage in Machine Learning ( http://arxiv.org/abs/2001.10648v2 )

ライセンス: Link先を確認
Farhad Farokhi and Mohamed Ali Kaafar(参考訳) 機械学習モデルは、個人のデータがトレーニングモデルに使われているかどうかを推測するなど、メンバシップ推論攻撃に弱いことが示されている。 これらの攻撃の成功に寄与する要因に関する理解の欠如は、情報理論を用いた会員情報漏洩のモデル化と、会員情報漏洩を減らす機械学習モデルとトレーニングアルゴリズムの性質の調査の必要性を動機付けている。 条件付き相互情報漏洩を用いて、トレーニングデータセットにおける個人の存在に関するトレーニング機械学習モデルからの情報漏洩量を測定する。 我々は,Kulback-Leibler分散を用いたこの情報漏洩対策の上限を数値計算に適しており,Kulback-Leiblerメンバシップ情報漏洩と,特定のデータレコードが機械学習モデルのトレーニングデータセットに属するか否かを検証した仮説検証相手に対する成功率との直接的な関係を証明している。 相互情報漏洩はトレーニングデータセットサイズと正規化重みの減少機能であることを示す。 また、機械学習モデルの感度(モデルパラメータに対する適合性の導出によって定義される)が高ければ、より多くのメンバーシップ情報が漏洩する可能性があることを実証する。 これは、ディープニューラルネットワークのような複雑なモデルが、自由度が低い単純なモデルに比べて、メンバーシップ推論攻撃の影響を受けやすいことを示している。 会員情報漏洩の量はガウス$(\epsilon,\delta)$-差分的な付加雑音を使用する場合、$\mathcal{O}(\log^{1/2}(\delta^{-1})\epsilon^{-1})$で減少することを示す。

Machine learning models have been shown to be vulnerable to membership inference attacks, i.e., inferring whether individuals' data have been used for training models. The lack of understanding about factors contributing success of these attacks motivates the need for modelling membership information leakage using information theory and for investigating properties of machine learning models and training algorithms that can reduce membership information leakage. We use conditional mutual information leakage to measure the amount of information leakage from the trained machine learning model about the presence of an individual in the training dataset. We devise an upper bound for this measure of information leakage using Kullback--Leibler divergence that is more amenable to numerical computation. We prove a direct relationship between the Kullback--Leibler membership information leakage and the probability of success for a hypothesis-testing adversary examining whether a particular data record belongs to the training dataset of a machine learning model. We show that the mutual information leakage is a decreasing function of the training dataset size and the regularization weight. We also prove that, if the sensitivity of the machine learning model (defined in terms of the derivatives of the fitness with respect to model parameters) is high, more membership information is potentially leaked. This illustrates that complex models, such as deep neural networks, are more susceptible to membership inference attacks in comparison to simpler models with fewer degrees of freedom. We show that the amount of the membership information leakage is reduced by $\mathcal{O}(\log^{1/2}(\delta^{-1})\epsilon^{-1})$ when using Gaussian $(\epsilon,\delta)$-differentially-private additive noises.
翻訳日:2023-01-05 21:11:53 公開日:2020-04-28
# ENIGMA Anonymous: Symbol-Independent Inference Guiding Machine (システム記述)

ENIGMA Anonymous: Symbol-Independent Inference Guiding Machine (system description) ( http://arxiv.org/abs/2002.05406v2 )

ライセンス: Link先を確認
Jan Jakub\r{u}v, Karel Chvalovsk\'y, Miroslav Ol\v{s}\'ak, Bartosz Piotrowski, Martin Suda, Josef Urban(参考訳) 本稿では,問題間の一貫したシンボル名に依存しない飽和式自動定理証明器の勾配促進と神経誘導の実装について述べる。 グラデーションブースティングガイダンスでは,数式のarityに基づくエンコーディングを考慮し,手作業で抽象的な特徴を創造する。 ニューラルネットワークでは,シンボルに依存しないグラフニューラルネットワーク(GNN)と,その用語や節の埋め込みを用いる。 この2つの手法はe proverとそのenigma learning-guided frameworkで効率的に実装されている。 複数ラウンドのメッセージパッシングにおいて,集合的に最も有用なサブセットを推定するGNNによって,多数の選択済みの節(コンテキスト)に対して,より大きなバッチで共同評価を行う。 これは、GNNが行った近似推論ラウンドは、E内部で行われた正確なシンボル推論ラウンドと効率よくインターリーブされ、MPTPの大規模理論ベンチマークで評価され、最先端のシンボルベース手法と同等のリアルタイム性能が得られることを示す。 これらの手法は高い相補性を示し、多くのハードミザー問題を解く。

We describe an implementation of gradient boosting and neural guidance of saturation-style automated theorem provers that does not depend on consistent symbol names across problems. For the gradient-boosting guidance, we manually create abstracted features by considering arity-based encodings of formulas. For the neural guidance, we use symbol-independent graph neural networks (GNNs) and their embedding of the terms and clauses. The two methods are efficiently implemented in the E prover and its ENIGMA learning-guided framework. To provide competitive real-time performance of the GNNs, we have developed a new context-based approach to evaluation of generated clauses in E. Clauses are evaluated jointly in larger batches and with respect to a large number of already selected clauses (context) by the GNN that estimates their collectively most useful subset in several rounds of message passing. This means that approximative inference rounds done by the GNN are efficiently interleaved with precise symbolic inference rounds done inside E. The methods are evaluated on the MPTP large-theory benchmark and shown to achieve comparable real-time performance to state-of-the-art symbol-based methods. The methods also show high complementarity, solving a large number of hard Mizar problems.
翻訳日:2023-01-01 09:35:59 公開日:2020-04-28
# 土地被覆地図作成のための衛星画像の微視的セマンティックセグメンテーション -課題と機会-

Weakly Supervised Semantic Segmentation of Satellite Images for Land Cover Mapping -- Challenges and Opportunities ( http://arxiv.org/abs/2002.08254v2 )

ライセンス: Link先を確認
Michael Schmitt, Jonathan Prexl, Patrick Ebel, Lukas Liebel, Xiao Xiang Zhu(参考訳) 完全自動大規模土地被覆マッピングは、リモートセンシングコミュニティが取り組んだ中核的な課題に属する。 通常、このタスクの基礎は(教師あり)機械学習モデルによって形成される。 しかし、最近の衛星観測の可利用性の増加にもかかわらず、正確なトレーニングデータは相容れないままである。 一方で、多くのグローバルな土地被覆製品が存在し、しばしば無償で利用できる。 残念ながら、これらの地図は通常、現在の衛星画像よりもはるかに解像度が低い。 さらに、それらは基礎的真理とはみなされないが、以前の(半自動的な)予測タスクの産物であるため、常にかなりのノイズを伴っている。 そこで本稿では,利用可能なデータソースを最大限に活用し,高解像度土地被覆マッピングの進歩を達成するために,弱い教師付き学習戦略の適用を試みている。 SEN12MSデータセットに基づいて、課題と機会について議論し、いくつかのベースライン結果も示す。 これらのベースラインは、リモートセンシング特有の弱い監視形式に対処するために設計された専用アプローチには、まだ多くの可能性があることを示している。

Fully automatic large-scale land cover mapping belongs to the core challenges addressed by the remote sensing community. Usually, the basis of this task is formed by (supervised) machine learning models. However, in spite of recent growth in the availability of satellite observations, accurate training data remains comparably scarce. On the other hand, numerous global land cover products exist and can be accessed often free-of-charge. Unfortunately, these maps are typically of a much lower resolution than modern day satellite imagery. Besides, they always come with a significant amount of noise, as they cannot be considered ground truth, but are products of previous (semi-)automatic prediction tasks. Therefore, this paper seeks to make a case for the application of weakly supervised learning strategies to get the most out of available data sources and achieve progress in high-resolution large-scale land cover mapping. Challenges and opportunities are discussed based on the SEN12MS dataset, for which also some baseline results are shown. These baselines indicate that there is still a lot of potential for dedicated approaches designed to deal with remote sensing-specific forms of weak supervision.
翻訳日:2022-12-30 14:11:18 公開日:2020-04-28
# Schoenberg-Rao 距離:エントロピーに基づく幾何対応統計ヒルベルト距離

Schoenberg-Rao distances: Entropy-based and geometry-aware statistical Hilbert distances ( http://arxiv.org/abs/2002.08345v2 )

ライセンス: Link先を確認
Ga\"etan Hadjeres and Frank Nielsen(参考訳) Wasserstein や Maximum Mean Discrepancy (MMD) のようなサンプル空間の幾何学を考慮に入れた確率分布間の距離は、例えば、確率分布と解離サポートを比較するために、機械学習において多くの注目を集めている。 本稿では、Schoenberg-Rao 距離と呼ばれる統計ヒルベルト距離のクラスについて検討する。これは、より広い種類のカーネル、すなわち条件付き負の半定値カーネルを考えることができるMDDの一般化である。 特に、そのようなカーネルを構築するための原則的手法を導入し、ガウス分布の混合物間の新しい閉形式距離を導出する。 これらの距離は、円錐ラオの二次エントロピーから導かれるもので、よい理論的性質を持ち、特定の用途に調整できる解釈可能なハイパーパラメータを持つ。 本手法は,wasserstein距離の実用的代替法であり,密度推定,生成モデリング,混合単純化といった幅広い機械学習タスクにおいてその効率性を示す。

Distances between probability distributions that take into account the geometry of their sample space,like the Wasserstein or the Maximum Mean Discrepancy (MMD) distances have received a lot of attention in machine learning as they can, for instance, be used to compare probability distributions with disjoint supports. In this paper, we study a class of statistical Hilbert distances that we term the Schoenberg-Rao distances, a generalization of the MMD that allows one to consider a broader class of kernels, namely the conditionally negative semi-definite kernels. In particular, we introduce a principled way to construct such kernels and derive novel closed-form distances between mixtures of Gaussian distributions. These distances, derived from the concave Rao's quadratic entropy, enjoy nice theoretical properties and possess interpretable hyperparameters which can be tuned for specific applications. Our method constitutes a practical alternative to Wasserstein distances and we illustrate its efficiency on a broad range of machine learning tasks such as density estimation, generative modeling and mixture simplification.
翻訳日:2022-12-30 13:17:51 公開日:2020-04-28
# ランダムバンドル: アノテーションのランダム化による脳転移のセグメンテーション

Random Bundle: Brain Metastases Segmentation Ensembling through Annotation Randomization ( http://arxiv.org/abs/2002.09809v2 )

ライセンス: Link先を確認
Darvin Yi, Endre Gr{\o}vik, Michael Iv, Elizabeth Tong, Greg Zaharchuk, Daniel Rubin(参考訳) 本稿では,脳転移セグメンテーションの性能を向上させる新しいアンサンブル手法であるランダムバンドル(RB)を提案する。 当社のデータセット上で各ネットワークをトレーニングし,アノテートされた病変の50%を検閲することでアンサンブルを構築します。 また、in silico 50%の偽陰性率を誘発し、ネットワークをより敏感にした後、パフォーマンスを回復するためにlopsided bootstrap損失を適用しました。 我々は,病変のmAP値のネットワーク検出を39%改善し,感度を80%精度で3倍に向上させた。 また,DICEスコアによるセグメンテーション品質もわずかに改善した。 さらに、rb ensemblingは、様々な一般的なensembling戦略よりも、ベースラインよりも大きなマージンでパフォーマンスを向上させる。 最後に,RBアンサンブルは,両システムが同一の計算能力を持つことを制約された場合,その性能を単一ネットワークと比較することにより,計算効率がよいことを示す。

We introduce a novel ensembling method, Random Bundle (RB), that improves performance for brain metastases segmentation. We create our ensemble by training each network on our dataset with 50% of our annotated lesions censored out. We also apply a lopsided bootstrap loss to recover performance after inducing an in silico 50% false negative rate and make our networks more sensitive. We improve our network detection of lesions's mAP value by 39% and more than triple the sensitivity at 80% precision. We also show slight improvements in segmentation quality through DICE score. Further, RB ensembling improves performance over baseline by a larger margin than a variety of popular ensembling strategies. Finally, we show that RB ensembling is computationally efficient by comparing its performance to a single network when both systems are constrained to have the same compute.
翻訳日:2022-12-29 09:46:50 公開日:2020-04-28
# 映像解析と機械学習による歩行特性からのTUGスコアの推定

Predicting TUG score from gait characteristics with video analysis and machine learning ( http://arxiv.org/abs/2003.00875v2 )

ライセンス: Link先を確認
Jian Ma(参考訳) 転倒は、高齢者や社会を苦しめる主要な死因である。 timed up and go(tug)テストは、フォールリスクアセスメントの一般的なツールです。 本稿では,コンピュータビジョンと機械学習技術を用いた映像から抽出した歩行特性からTUGスコアを予測する手法を提案する。 まず、人間の動作中に2Dと3Dカメラで撮影した映像から3Dポーズを推定し、3Dポーズシリーズから歩行特性のグループを計算する。 その後、コプラエントロピーを用いて、主にTUGスコアに関連する特徴を選択する。 最後に、選択した特徴を予測モデルに入力し、TUGスコアを予測する。 実世界データを用いた実験により,提案手法の有効性が示された。 副産物としてTUGスコアといくつかの歩行特性の関連が発見され,提案手法の科学的基礎を築き,臨床利用者に解釈可能な予測モデルを構築した。

Fall is a leading cause of death which suffers the elderly and society. Timed Up and Go (TUG) test is a common tool for fall risk assessment. In this paper, we propose a method for predicting TUG score from gait characteristics extracted from video with computer vision and machine learning technologies. First, 3D pose is estimated from video captured with 2D and 3D cameras during human motion and then a group of gait characteristics are computed from 3D pose series. After that, copula entropy is used to select those characteristics which are mostly associated with TUG score. Finally, the selected characteristics are fed into the predictive models to predict TUG score. Experiments on real world data demonstrated the effectiveness of the proposed method. As a byproduct, the associations between TUG score and several gait characteristics are discovered, which laid the scientific foundation of the proposed method and make the predictive models such built interpretable to clinical users.
翻訳日:2022-12-29 09:10:59 公開日:2020-04-28
# 感染未発見者に対する時間依存型SIRモデル

A Time-dependent SIR model for COVID-19 with Undetectable Infected Persons ( http://arxiv.org/abs/2003.00122v6 )

ライセンス: Link先を確認
Yi-Cheng Chen, Ping-En Lu, Cheng-Shang Chang, and Tzu-Hsuan Liu(参考訳) 本稿では,covid-19を包含することは可能か?」という質問に対して,数学的,数値的考察を行った。 (Q2) 流行のピークと終わりはいつになるのか。 (Q3) 無症候性感染症は病気の拡散にどのように影響するか? (Q4) 強制免疫を達成するために感染する必要がある人口の割合はどのくらいですか。 (Q5) ソーシャルディスタンシングのアプローチはどの程度有効か? (Q6) 長期で感染した人口の比率はどのくらいですか。 Q1) と (Q2) に対して、2 つの時系列を追従する時間依存型感染性回復モデルを提案する。 (i)時刻t及び時刻tにおける伝送速度 (ii)時刻tにおける回復率。 このようなアプローチは従来の静的SIRモデルよりも適応性が高く、直接推定法よりも堅牢である。 中国が提供したデータを用いて,確認症例数に対する1日当たりの予測誤差がほぼ3%であり,確認症例の総数は正確に予測されていることを示す。 また、送信速度が回収率より少ない日に定義された旋回点を正確に予測することができる。 その日の後、基本再生数 $r_0$ は 1 未満である。 また, (q3) では, 検出可能, 検出不能の2種類の感染者について検討し, sirモデルを拡張した。 そのようなモデルにアウトブレイクが存在するかどうかは、$r_0$と密接に関連する2×2行列のスペクトル半径によって特徴づけられる。 Q4)では,感染した個体の少なくとも1-1/$R_0$未満の集団免疫が得られている。 Q5) と (Q6) に対して, コンフィグレーションランダムグラフを用いて, 疾患伝播のための独立カスケードモデル(IC) を解析する。 ICモデルの伝播確率をSIRモデルの伝達率と回復率に関連付けることにより,R_0$の低減につながる社会的距離の2つのアプローチを示す。

In this paper, we conduct mathematical and numerical analyses to address the following crucial questions for COVID-19: (Q1) Is it possible to contain COVID-19? (Q2) When will be the peak and the end of the epidemic? (Q3) How do the asymptomatic infections affect the spread of disease? (Q4) What is the ratio of the population that needs to be infected to achieve herd immunity? (Q5) How effective are the social distancing approaches? (Q6) What is the ratio of the population infected in the long run? For (Q1) and (Q2), we propose a time-dependent susceptible-infected-recovered (SIR) model that tracks 2 time series: (i) the transmission rate at time t and (ii) the recovering rate at time t. Such an approach is more adaptive than traditional static SIR models and more robust than direct estimation methods. Using the data provided by China, we show that the one-day prediction errors for the numbers of confirmed cases are almost in 3%, and the total number of confirmed cases is precisely predicted. Also, the turning point, defined as the day that the transmission rate is less than the recovering rate can be accurately predicted. After that day, the basic reproduction number $R_0$ is less than 1. For (Q3), we extend our SIR model by considering 2 types of infected persons: detectable and undetectable infected persons. Whether there is an outbreak in such a model is characterized by the spectral radius of a 2 by 2 matrix that is closely related to $R_0$. For (Q4), we show that herd immunity can be achieved after at least 1-1/$R_0$ fraction of individuals being infected. For (Q5) and (Q6), we analyze the independent cascade (IC) model for disease propagation in a configuration random graph. By relating the propagation probabilities in the IC model to the transmission rates and recovering rates in the SIR model, we show 2 approaches of social distancing that can lead to a reduction of $R_0$.
翻訳日:2022-12-28 01:54:31 公開日:2020-04-28
# TextBrewer: 自然言語処理のためのオープンソースの知識蒸留ツールキット

TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural Language Processing ( http://arxiv.org/abs/2002.12620v2 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Zhipeng Chen, Wanxiang Che, Ting Liu, Shijin Wang, Guoping Hu(参考訳) 本稿では,自然言語処理のためのオープンソースの知識蒸留ツールキットtextbrewerを紹介する。 さまざまなニューラルネットワークモデルで動作し、テキスト分類、読解、シーケンスラベリングなど、さまざまな種類の教師付き学習タスクをサポートする。 textbrewerはシンプルで均一なワークフローを提供し、非常に柔軟な構成で蒸留実験を簡単にセットアップできる。 あらかじめ定義された蒸留方法のセットを提供し、カスタムコードで拡張することができる。 ケーススタディでは、TextBrewerを使用して、いくつかの典型的なNLPタスクでBERTを蒸留する。 簡単な構成で、同様の数のパラメータを持つ公開蒸留bertモデルに匹敵する、あるいはさらに高い結果が得られる。 私たちのツールキットは、http://textbrewer.hfl-rc.comで利用可能です。

In this paper, we introduce TextBrewer, an open-source knowledge distillation toolkit designed for natural language processing. It works with different neural network models and supports various kinds of supervised learning tasks, such as text classification, reading comprehension, sequence labeling. TextBrewer provides a simple and uniform workflow that enables quick setting up of distillation experiments with highly flexible configurations. It offers a set of predefined distillation methods and can be extended with custom code. As a case study, we use TextBrewer to distill BERT on several typical NLP tasks. With simple configurations, we achieve results that are comparable with or even higher than the public distilled BERT models with similar numbers of parameters. Our toolkit is available through: http://textbrewer.hfl-rc.com
翻訳日:2022-12-28 01:20:36 公開日:2020-04-28
# OccuSeg: 運用対応の3Dインスタンスセグメンテーション

OccuSeg: Occupancy-aware 3D Instance Segmentation ( http://arxiv.org/abs/2003.06537v3 )

ライセンス: Link先を確認
Lei Han, Tian Zheng, Lan Xu, Lu Fang(参考訳) 3Dインスタンスのセグメンテーションは、ロボティクスや拡張現実にさまざまな応用があるが、最近は大きな需要がある。 環境を投影的に観察する2D画像とは異なり、3Dモデルは閉塞やスケールの曖昧さを伴わずに、シーンのメートル法的な再構成を提供する。 本稿では、各インスタンスが占有するボクセルの数を「3D占有サイズ」と定義する。 予測におけるロバストネスの利点を所有しており、OccuSegという3Dインスタンスセグメンテーション方式が提案されている。 マルチタスク学習は,空間的および特徴的埋め込みの訓練がスケールアウェアの違いによって異なるような,占有信号と埋め込み表現の両方を生成する。 クラスタリング方式は, 予測占有率とクラスタ占有率の信頼性を比較した結果, ハードサンプルが正しくクラスタ化され, セグメンテーションを回避できることがわかった。 提案手法は,ScanNetV2,S3DIS,SceneNNの3つの実世界のデータセットに対して,高い効率を維持しながら最先端のパフォーマンスを実現する。

3D instance segmentation, with a variety of applications in robotics and augmented reality, is in large demands these days. Unlike 2D images that are projective observations of the environment, 3D models provide metric reconstruction of the scenes without occlusion or scale ambiguity. In this paper, we define "3D occupancy size", as the number of voxels occupied by each instance. It owns advantages of robustness in prediction, on which basis, OccuSeg, an occupancy-aware 3D instance segmentation scheme is proposed. Our multi-task learning produces both occupancy signal and embedding representations, where the training of spatial and feature embeddings varies with their difference in scale-aware. Our clustering scheme benefits from the reliable comparison between the predicted occupancy size and the clustered occupancy size, which encourages hard samples being correctly clustered and avoids over segmentation. The proposed approach achieves state-of-the-art performance on 3 real-world datasets, i.e. ScanNetV2, S3DIS and SceneNN, while maintaining high efficiency.
翻訳日:2022-12-23 20:22:00 公開日:2020-04-28
# エッジ強化GANとオブジェクト検出ネットワークを用いたリモートセンシング画像の小型物体検出

Small-Object Detection in Remote Sensing Images with End-to-End Edge-Enhanced GAN and Object Detector Network ( http://arxiv.org/abs/2003.09085v5 )

ライセンス: Link先を確認
Jakaria Rabbi, Nilanjan Ray, Matthias Schubert, Subir Chowdhury and Dennis Chao(参考訳) リモートセンシング画像における小物体の検出性能は,大物体,特に低分解能・雑音画像に比べて満足できない。 拡張超解像GAN(ESRGAN)と呼ばれるGANベースモデルでは、画像強調性能が著しく向上するが、再構成された画像は高周波エッジ情報を見逃す。 これにより、回収されたノイズや低解像度のリモートセンシング画像において、小型物体の物体検出性能が低下する。 エッジ強化GAN(EEGAN)とESRGAN(ESRGAN)の成功にインスパイアされ、新たなエッジ強化超解像GAN(EESRGAN)を応用して、リモートセンシング画像の画質を改善し、検知損失をEESRGANに逆伝播させて検出性能を向上させるエンド・ツー・エンドな方法で異なる検出器ネットワークを使用する。 本稿では,ESRGAN,エッジ拡張ネットワーク(EEN),検出ネットワークの3つのコンポーネントからなるアーキテクチャを提案する。 我々はESRGANとEENの両方に残留残留密度ブロック(RRDB)を使用し、検出器ネットワークには高速領域ベース畳み込みネットワーク(FRCNN)と単発マルチボックス検出器(SSD)を用いる。 一般市民(車載車)と自己組み立て型(油・ガス貯蔵タンク)の衛星データセットに関する広範囲な実験は,スタンドアロンの最先端物体検出器と比較して優れた性能を示している。

The detection performance of small objects in remote sensing images is not satisfactory compared to large objects, especially in low-resolution and noisy images. A generative adversarial network (GAN)-based model called enhanced super-resolution GAN (ESRGAN) shows remarkable image enhancement performance, but reconstructed images miss high-frequency edge information. Therefore, object detection performance degrades for small objects on recovered noisy and low-resolution remote sensing images. Inspired by the success of edge enhanced GAN (EEGAN) and ESRGAN, we apply a new edge-enhanced super-resolution GAN (EESRGAN) to improve the image quality of remote sensing images and use different detector networks in an end-to-end manner where detector loss is backpropagated into the EESRGAN to improve the detection performance. We propose an architecture with three components: ESRGAN, Edge Enhancement Network (EEN), and Detection network. We use residual-in-residual dense blocks (RRDB) for both the ESRGAN and EEN, and for the detector network, we use the faster region-based convolutional network (FRCNN) (two-stage detector) and single-shot multi-box detector (SSD) (one stage detector). Extensive experiments on a public (car overhead with context) and a self-assembled (oil and gas storage tank) satellite dataset show superior performance of our method compared to the standalone state-of-the-art object detectors.
翻訳日:2022-12-21 22:08:06 公開日:2020-04-28
# マルチモーダル映画シーンセグメンテーションへの地域間アプローチ

A Local-to-Global Approach to Multi-modal Movie Scene Segmentation ( http://arxiv.org/abs/2004.02678v3 )

ライセンス: Link先を確認
Anyi Rao, Linning Xu, Yu Xiong, Guodong Xu, Qingqiu Huang, Bolei Zhou, Dahua Lin(参考訳) 映画におけるストーリーテリングの重要な単位であるシーンは、アクターとその物理的環境における相互作用の複雑な活動を含んでいる。 シーンの構成を特定することは、映画のセマンティック理解への重要なステップとなる。 これは、例えばアクション認識のような従来の視覚問題で研究されたビデオと比較して、通常映画のシーンはよりリッチな時間構造とより複雑な意味情報を含んでいるため、非常に難しい。 この目的に向けて,150本の映画から21kの注釈付きシーンセグメンテーションを含む大規模映像データセットsceneを構築し,シーンセグメンテーションタスクをスケールアップする。 さらに,クリップ,セグメンテーション,映画といった3つのレベルにまたがるマルチモーダル情報を統合した,グローバルシーンセグメンテーションフレームワークを提案する。 このフレームワークは、長い映画上で階層的な時間構造から複雑な意味論を抽出し、シーンのセグメンテーションのためのトップダウンガイダンスを提供する。 実験の結果,提案ネットワークは映画を高い精度でシーンに分割可能であり,従来手法に匹敵する性能を示した。 また、MovieScenesでの事前トレーニングが既存のアプローチに大きな改善をもたらすこともわかりました。

Scene, as the crucial unit of storytelling in movies, contains complex activities of actors and their interactions in a physical environment. Identifying the composition of scenes serves as a critical step towards semantic understanding of movies. This is very challenging -- compared to the videos studied in conventional vision problems, e.g. action recognition, as scenes in movies usually contain much richer temporal structures and more complex semantic information. Towards this goal, we scale up the scene segmentation task by building a large-scale video dataset MovieScenes, which contains 21K annotated scene segments from 150 movies. We further propose a local-to-global scene segmentation framework, which integrates multi-modal information across three levels, i.e. clip, segment, and movie. This framework is able to distill complex semantics from hierarchical temporal structures over a long movie, providing top-down guidance for scene segmentation. Our experiments show that the proposed network is able to segment a movie into scenes with high accuracy, consistently outperforming previous methods. We also found that pretraining on our MovieScenes can bring significant improvements to the existing approaches.
翻訳日:2022-12-16 07:31:20 公開日:2020-04-28
# Null アウト: 反復的な Nullspace プロジェクションによる保護属性の保護

Null It Out: Guarding Protected Attributes by Iterative Nullspace Projection ( http://arxiv.org/abs/2004.07667v2 )

ライセンス: Link先を確認
Shauli Ravfogel, Yanai Elazar, Hila Gonen, Michael Twiton, Yoav Goldberg(参考訳) 神経表現でエンコードされる情報の種類を制御する能力は、特にこれらのモデルを解釈することの難しさに照らして、様々なユースケースを持っている。 本稿では,ニューラル表現から情報を取り除く新しい手法であるIterative Null-space Projection (INLP)を提案する。 提案手法は,削除しようとする特性を予測した線形分類器の繰り返し学習に基づいており,次にヌル空間上の表現を投影する。 これにより、分類器はその対象のプロパティに服従し、それに従ってデータを線形に分離することが困難になる。 本手法は,複数の用途に適用できるが,バイアスとフェアネスのユースケースについて評価し,単語埋め込みにおけるバイアスを軽減し,複数クラス分類の設定においてフェアネスを高めることができることを示す。

The ability to control for the kinds of information encoded in neural representation has a variety of use cases, especially in light of the challenge of interpreting these models. We present Iterative Null-space Projection (INLP), a novel method for removing information from neural representations. Our method is based on repeated training of linear classifiers that predict a certain property we aim to remove, followed by projection of the representations on their null-space. By doing so, the classifiers become oblivious to that target property, making it hard to linearly separate the data according to it. While applicable for multiple uses, we evaluate our method on bias and fairness use-cases, and show that our method is able to mitigate bias in word embeddings, as well as to increase fairness in a setting of multi-class classification.
翻訳日:2022-12-12 21:02:26 公開日:2020-04-28
# 重度EHRシステムによる非構造的臨床ノートの増補による新型コロナウイルス診断の特異な特徴

Augmented Curation of Unstructured Clinical Notes from a Massive EHR System Reveals Specific Phenotypic Signature of Impending COVID-19 Diagnosis ( http://arxiv.org/abs/2004.09338v2 )

ライセンス: Link先を確認
FNU Shweta, Karthik Murugadoss, Samir Awasthi, AJ Venkatakrishnan, Arjun Puranik, Martin Kang, Brian W. Pickering, John C. O'Horo, Philippe R. Bauer, Raymund R. Razonable, Paschalis Vergidis, Zelalem Temesgen, Stacey Rizza, Maryam Mahmood, Walter R. Wilson, Douglas Challener, Praveen Anand, Matt Liebers, Zainab Doctor, Eli Silvert, Hugo Solomon, Tyler Wagner, Gregory J. Gores, Amy W. Williams, John Halamka, Venky Soundararajan, Andrew D. Badley(参考訳) 新型コロナウイルス患者の表現型の時間的ダイナミクスを理解することは、病態生理学の微細な解決を導き出すために必要である。 ここでは、新型コロナウイルス(covid-19)pcr診断を受けた30,494人の患者から1580万の臨床ノートを補足するために、機関全体の機械学習プラットフォーム上で最先端のディープニューラルネットワークを使用する。 EHR(Electronic Health Record, EHR)由来の新型コロナウイルス陽性(COVIDpos, n=635)と、PCR検査日前の週に1回、COVID-19陰性(COVIDneg, n=29,859)の患者に比較して、 anosmia/dysgeusia (37.4-fold), myalgia/arthralgia (2.6-fold), diarrhea (2.2-fold), fever/chills (2.1-fold), 呼吸困難(1.9-fold), cough (1.8-fold)を、COVIDpos患者よりも有意に増幅した。 PCR検査前の週に3.2倍の新型コロナウイルス患者を増幅し、アノシマ/ジスゲシアとともに、PCR検査日より4~7日前の最も初期のEHR由来の署名を構成する。 本研究では,EHRが取得した機関知識をリアルタイムに合成するための,Augmented Intelligenceプラットフォームを提案する。 このプラットフォームは、基盤となるニューラルネットワークの再トレーニングを最小限に抑えつつ、キュレーションのスループットをスケールアップする大きな可能性を秘めている。

Understanding the temporal dynamics of COVID-19 patient phenotypes is necessary to derive fine-grained resolution of pathophysiology. Here we use state-of-the-art deep neural networks over an institution-wide machine intelligence platform for the augmented curation of 15.8 million clinical notes from 30,494 patients subjected to COVID-19 PCR diagnostic testing. By contrasting the Electronic Health Record (EHR)-derived clinical phenotypes of COVID-19-positive (COVIDpos, n=635) versus COVID-19-negative (COVIDneg, n=29,859) patients over each day of the week preceding the PCR testing date, we identify anosmia/dysgeusia (37.4-fold), myalgia/arthralgia (2.6-fold), diarrhea (2.2-fold), fever/chills (2.1-fold), respiratory difficulty (1.9-fold), and cough (1.8-fold) as significantly amplified in COVIDpos over COVIDneg patients. The specific combination of cough and diarrhea has a 3.2-fold amplification in COVIDpos patients during the week prior to PCR testing, and along with anosmia/dysgeusia, constitutes the earliest EHR-derived signature of COVID-19 (4-7 days prior to typical PCR testing date). This study introduces an Augmented Intelligence platform for the real-time synthesis of institutional knowledge captured in EHRs. The platform holds tremendous potential for scaling up curation throughput, with minimal need for retraining underlying neural networks, thus promising EHR-powered early diagnosis for a broad spectrum of diseases.
翻訳日:2022-12-12 13:51:16 公開日:2020-04-28
# 文脈ニューラルマシン翻訳はカタフォリック代名詞の翻訳を改善する

Contextual Neural Machine Translation Improves Translation of Cataphoric Pronouns ( http://arxiv.org/abs/2004.09894v2 )

ライセンス: Link先を確認
KayYen Wong, Sameen Maruf, Gholamreza Haffari(参考訳) 文脈対応NMTの出現は、全体的な翻訳品質、特に代名詞などの談話現象の翻訳において有望な改善をもたらした。 以前の作品は、主にアナフォラ翻訳に焦点をあてた文脈として過去文の使用に焦点を当ててきた。 本研究では,将来の文脈で訓練された文脈的NMTモデルの性能と過去の文脈で訓練された文脈とを比較し,文脈としての将来の文の効果について検討する。 汎用的・代名詞的自動メトリクスを用いた実験と評価により, 未来的文脈の使用は, 文脈非依存トランスフォーマーよりも大幅に改善されるだけでなく, 過去の文脈で訓練された結果と比較して, 同等で, 場合によっては性能が向上することを示す。 また,対象とするcataphoraテストスイートの評価を行い,bleuの文脈非依存トランスフォーマーに対して有意な向上を報告した。

The advent of context-aware NMT has resulted in promising improvements in the overall translation quality and specifically in the translation of discourse phenomena such as pronouns. Previous works have mainly focused on the use of past sentences as context with a focus on anaphora translation. In this work, we investigate the effect of future sentences as context by comparing the performance of a contextual NMT model trained with the future context to the one trained with the past context. Our experiments and evaluation, using generic and pronoun-focused automatic metrics, show that the use of future context not only achieves significant improvements over the context-agnostic Transformer, but also demonstrates comparable and in some cases improved performance over its counterpart trained on past context. We also perform an evaluation on a targeted cataphora test suite and report significant gains over the context-agnostic Transformer in terms of BLEU.
翻訳日:2022-12-11 06:47:26 公開日:2020-04-28
# Perturb More, Trap More: グラフニューラルネットワークの振る舞いを理解する

Perturb More, Trap More: Understanding Behaviors of Graph Neural Networks ( http://arxiv.org/abs/2004.09808v2 )

ライセンス: Link先を確認
Chaojie Ji, Ruxin Wang, Hongyan Wu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のさまざまなタスクにおいて大きな可能性を示しているが、透明性の欠如は、GNNがその予測にどのように到達したかを理解するのを妨げている。 gnnの説明は少ないが、インスタンス周辺のモデルがどのように振る舞うかを示す局所的忠実性についての考察は無視されている。 本稿ではまず,訓練されたGNNの局所忠実度に基づく新しいポストホックフレームワークTraP2を提案する。 関連するグラフ構造と各ノード内の重要な機能の両方をハイライトする必要があることを考慮し、TraP2の3層アーキテクチャを設計する。 一 解釈領域は、あらかじめ翻訳層により定義される。 二 グラフ構造及び特徴レベルの複数の摂動を解釈領域で行う摂動層により説明されるGNNの局所的予測挙動を探索し、監視する。 三 局所決定境界をパラフレーズ層に適合させることにより、高度に忠実な説明が生成されること。 最後に、TraP2は、精度、忠実性、決定性、洞察、インスピレーションという5つの望ましい属性に基づいて、6つのベンチマークデータセットで評価される。

While graph neural networks (GNNs) have shown a great potential in various tasks on graph, the lack of transparency has hindered understanding how GNNs arrived at its predictions. Although few explainers for GNNs are explored, the consideration of local fidelity, indicating how the model behaves around an instance should be predicted, is neglected. In this paper, we first propose a novel post-hoc framework based on local fidelity for any trained GNNs - TraP2, which can generate a high-fidelity explanation. Considering that both relevant graph structure and important features inside each node need to be highlighted, a three-layer architecture in TraP2 is designed: i) interpretation domain are defined by Translation layer in advance; ii) local predictive behavior of GNNs being explained are probed and monitored by Perturbation layer, in which multiple perturbations for graph structure and feature-level are conducted in interpretation domain; iii) high faithful explanations are generated by fitting the local decision boundary through Paraphrase layer. Finally, TraP2 is evaluated on six benchmark datasets based on five desired attributions: accuracy, fidelity, decisiveness, insight and inspiration, which achieves $10.2\%$ higher explanation accuracy than the state-of-the-art methods.
翻訳日:2022-12-11 06:02:53 公開日:2020-04-28
# オープンドメインテーブルからの論理自然言語生成

Logical Natural Language Generation from Open-Domain Tables ( http://arxiv.org/abs/2004.10404v2 )

ライセンス: Link先を確認
Wenhu Chen, Jianshu Chen, Yu Su, Zhiyu Chen and William Yang Wang(参考訳) ニューラル自然言語生成(nlg)モデルは最近、流動性とコヒーレンスが著しく進歩している。 しかしながら、ニューラルNLGに関する既存の研究は主に、人間の思考と言語の重要な側面である論理的推論に限定した表面レベルの実現に焦点を当てている。 本稿では,open-domain semi-structured table における事実によって \emph{logically entailed} となる自然言語文の生成をモデルが行う新しい nlg タスクを提案する。 提案する論理nlg問題の研究を容易にするために,既存のタブファクトデータセット \cite{chen2019tabfact} をテストベッドとして利用し,生成モデルw.r.t.\論理推論の忠実性を評価するための新しい自動メトリクスを提案する。 新しいタスクは、シーケンス順序と論理順序のミスマッチのために、既存のモノトニック世代フレームワークに問題をもたらす。 実験では,データセット上で異なるアルゴリズム(rl,adversarial training, loud-to-fine)で学習した異なる世代アーキテクチャ(lstm, transformer, pre-trained lm)を包括的に調査し,以下の結果を得た。 1)事前学習したLMは,流速と論理的忠実度の両方を著しく向上させることができる。 2 RL 及び対人訓練は、忠実性の取引の流布である。 3) 粗大なファイン生成は, 高い言語頻度を維持しつつ, フィデリティ問題を部分的に緩和するのに役立つ。 コードとデータは \url{https://github.com/wenhuchen/logicnlg} で入手できる。

Neural natural language generation (NLG) models have recently shown remarkable progress in fluency and coherence. However, existing studies on neural NLG are primarily focused on surface-level realizations with limited emphasis on logical inference, an important aspect of human thinking and language. In this paper, we suggest a new NLG task where a model is tasked with generating natural language statements that can be \emph{logically entailed} by the facts in an open-domain semi-structured table. To facilitate the study of the proposed logical NLG problem, we use the existing TabFact dataset \cite{chen2019tabfact} featured with a wide range of logical/symbolic inferences as our testbed, and propose new automatic metrics to evaluate the fidelity of generation models w.r.t.\ logical inference. The new task poses challenges to the existing monotonic generation frameworks due to the mismatch between sequence order and logical order. In our experiments, we comprehensively survey different generation architectures (LSTM, Transformer, Pre-Trained LM) trained with different algorithms (RL, Adversarial Training, Coarse-to-Fine) on the dataset and made following observations: 1) Pre-Trained LM can significantly boost both the fluency and logical fidelity metrics, 2) RL and Adversarial Training are trading fluency for fidelity, 3) Coarse-to-Fine generation can help partially alleviate the fidelity issue while maintaining high language fluency. The code and data are available at \url{https://github.com/wenhuchen/LogicNLG}.
翻訳日:2022-12-10 17:13:13 公開日:2020-04-28
# 物理モデルから解釈可能な機械学習による予測デジタル双生児へ

From Physics-Based Models to Predictive Digital Twins via Interpretable Machine Learning ( http://arxiv.org/abs/2004.11356v3 )

ライセンス: Link先を確認
Michael G. Kapteyn and Karen E. Willcox(参考訳) 本研究は,様々な資産状態を表す物理モデルライブラリから,データ駆動型デジタルツインを作成する手法を開発する。 デジタルツインは、解釈可能な機械学習を使用して更新される。 具体的には,最近開発されたスケーラブルな機械学習手法である最適木を用いて,解釈可能なデータ駆動型分類器を訓練する。 物理モデルライブラリによって解決されたシミュレーションシナリオを用いて、分類器のトレーニングデータをオフラインで生成する。 これらのデータは、実験データや他の歴史的データを用いてさらに拡張することができる。 動作において、分類器は資産からの観測データを用いて、モデルライブラリのどの物理モデルが更新されたデジタルツインの最適候補であるかを推定する。 このアプローチは、12フィートの翼幅無人航空機のための構造的デジタルツインの開発を通じて実証される。 このデジタル双生児は、様々な構造状態の車両の低次モデルのライブラリから構築されている。 データ駆動型デジタルツインは構造的な損傷や劣化に応じて動的に更新され、航空機はそれに応じて安全なミッションを計画できる。 この文脈において,最適木分類器の性能を検証し,その解釈性がスパースセンサ測定から説明可能な構造評価を可能にし,最適なセンサ配置を知らせることを示す。

This work develops a methodology for creating a data-driven digital twin from a library of physics-based models representing various asset states. The digital twin is updated using interpretable machine learning. Specifically, we use optimal trees---a recently developed scalable machine learning method---to train an interpretable data-driven classifier. Training data for the classifier are generated offline using simulated scenarios solved by the library of physics-based models. These data can be further augmented using experimental or other historical data. In operation, the classifier uses observational data from the asset to infer which physics-based models in the model library are the best candidates for the updated digital twin. The approach is demonstrated through the development of a structural digital twin for a 12ft wingspan unmanned aerial vehicle. This digital twin is built from a library of reduced-order models of the vehicle in a range of structural states. The data-driven digital twin dynamically updates in response to structural damage or degradation and enables the aircraft to replan a safe mission accordingly. Within this context, we study the performance of the optimal tree classifiers and demonstrate how their interpretability enables explainable structural assessments from sparse sensor measurements, and also informs optimal sensor placement.
翻訳日:2022-12-10 12:39:30 公開日:2020-04-28
# 画像による低リソース言語のための実用的比較データ収集

Practical Comparable Data Collection for Low-Resource Languages via Images ( http://arxiv.org/abs/2004.11954v2 )

ライセンス: Link先を確認
Aman Madaan, Shruti Rijhwani, Antonios Anastasopoulos, Yiming Yang, Graham Neubig(参考訳) 本稿では,単言語アノテータを用いた低リソース言語のための高品質比較学習データのキュレーション手法を提案する。 本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。 本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%は許容翻訳であり、対の2.47%は翻訳ではない。 さらに,このアプローチで収集したデータセットのポテンシャルを,機械翻訳と辞書抽出という2つの下流タスクで検証することで確立する。 すべてのコードとデータはhttps://github.com/madaan/PML4DC-Comparable-Data-Collectionで入手できる。

We propose a method of curating high-quality comparable training data for low-resource languages with monolingual annotators. Our method involves using a carefully selected set of images as a pivot between the source and target languages by getting captions for such images in both languages independently. Human evaluations on the English-Hindi comparable corpora created with our method show that 81.1% of the pairs are acceptable translations, and only 2.47% of the pairs are not translations at all. We further establish the potential of the dataset collected through our approach by experimenting on two downstream tasks - machine translation and dictionary extraction. All code and data are available at https://github.com/madaan/PML4DC-Comparable-Data-Collection.
翻訳日:2022-12-10 03:44:14 公開日:2020-04-28
# コード変更に基づいた自然言語コメントの更新を学ぶ

Learning to Update Natural Language Comments Based on Code Changes ( http://arxiv.org/abs/2004.12169v2 )

ライセンス: Link先を確認
Sheena Panthaplackel, Pengyu Nie, Milos Gligoric, Junyi Jessy Li, Raymond J. Mooney(参考訳) 我々は、対応するコード本体の変更に基づいて、既存の自然言語コメントを自動的に更新する新しいタスクを定式化する。 本稿では,2つの異なる言語表現間の変化を関連付け,既存のコメントに適用される一連の編集を生成し,ソースコードの変更を反映する手法を提案する。 私たちは、オープンソースソフトウェアプロジェクトのコミット履歴から収集したデータセットを使ってモデルをトレーニングし、評価します。 自動測定と人的評価の両方を用いて,複数のベースラインに対するアプローチを比較した。 結果は、このタスクの課題を反映し、私たちのモデルは編集に関してベースラインよりも優れています。

We formulate the novel task of automatically updating an existing natural language comment based on changes in the body of code it accompanies. We propose an approach that learns to correlate changes across two distinct language representations, to generate a sequence of edits that are applied to the existing comment to reflect the source code modifications. We train and evaluate our model using a dataset that we collected from commit histories of open-source software projects, with each example consisting of a concurrent update to a method and its corresponding comment. We compare our approach against multiple baselines using both automatic metrics and human evaluation. Results reflect the challenge of this task and that our model outperforms baselines with respect to making edits.
翻訳日:2022-12-09 21:25:52 公開日:2020-04-28
# 安定化ベクトルグリードカーネル法による生体力学的代理モデリング

Biomechanical surrogate modelling using stabilized vectorial greedy kernel methods ( http://arxiv.org/abs/2004.12670v2 )

ライセンス: Link先を確認
Bernard Haasdonk and Tizian Wenzel and Gabriele Santin and Syn Schmitt(参考訳) グリーディカーネル近似アルゴリズムは、スパースで正確なデータベースモデリングと関数近似の手法として成功している。 スカラー出力の場合、そのようなアルゴリズムの安定化という最近の考え方に基づき、vkoga 上に構築されたベクトル拡張を考える。 我々は,いわゆる「\gamma$-restricted vkoga」を紹介し,解析的性質についてコメントするとともに,臨床応用である人間の脊椎のモデリングに関する数値評価を行った。 実験の結果,新しい安定化アルゴリズムは,非安定化アルゴリズムよりも精度と安定性が向上することが示された。

Greedy kernel approximation algorithms are successful techniques for sparse and accurate data-based modelling and function approximation. Based on a recent idea of stabilization of such algorithms in the scalar output case, we here consider the vectorial extension built on VKOGA. We introduce the so called $\gamma$-restricted VKOGA, comment on analytical properties and present numerical evaluation on data from a clinically relevant application, the modelling of the human spine. The experiments show that the new stabilized algorithms result in improved accuracy and stability over the non-stabilized algorithms.
翻訳日:2022-12-09 06:13:47 公開日:2020-04-28
# 暗黙的談話関係分類における単語・文表現学習の重要性について

On the Importance of Word and Sentence Representation Learning in Implicit Discourse Relation Classification ( http://arxiv.org/abs/2004.12617v2 )

ライセンス: Link先を確認
Xin Liu, Jiefu Ou, Yangqiu Song, Xin Jiang(参考訳) 暗黙の談話関係分類は、暗黙の談話解析における最も難しい部分の1つであり、明示的な接続のない関係予測は、テキストスパンレベルと文レベルの両方で言語理解を必要とする。 先行研究は主に2つの議論の相互作用に焦点を合わせている。 我々は、強力な文脈化表現モジュール、双方向のマルチパースペクティブマッチングモジュール、グローバル情報融合モジュールは全て、暗黙の談話分析において重要であると主張する。 これらのモジュールを結合する新しいモデルを提案する。 実験の結果,提案モデルでは,PDTBデータセット上のBERTやその他の最先端システムよりも約8%,CoNLL 2016データセットは約16%優れていた。 また,暗黙的談話関係分類タスクにおける異なるモジュールの有効性を分析し,表現学習の異なるレベルが結果にどのように影響するかを示す。

Implicit discourse relation classification is one of the most difficult parts in shallow discourse parsing as the relation prediction without explicit connectives requires the language understanding at both the text span level and the sentence level. Previous studies mainly focus on the interactions between two arguments. We argue that a powerful contextualized representation module, a bilateral multi-perspective matching module, and a global information fusion module are all important to implicit discourse analysis. We propose a novel model to combine these modules together. Extensive experiments show that our proposed model outperforms BERT and other state-of-the-art systems on the PDTB dataset by around 8% and CoNLL 2016 datasets around 16%. We also analyze the effectiveness of different modules in the implicit discourse relation classification task and demonstrate how different levels of representation learning can affect the results.
翻訳日:2022-12-09 05:11:33 公開日:2020-04-28
# 動的POMDP問題における高速適応のための固有知識の進化

Evolving Inborn Knowledge For Fast Adaptation in Dynamic POMDP Problems ( http://arxiv.org/abs/2004.12846v2 )

ライセンス: Link先を確認
Eseoghene Ben-Iwhiwhu, Pawel Ladosz, Jeffery Dick, Wen-Hua Chen, Praveen Pilly, Andrea Soltoggio(参考訳) タスク変更に対する迅速なオンライン適応は、機械学習において重要な問題であり、最近ではメタ強化学習に焦点が当てられている。 しかし、強化学習(RL)アルゴリズムは、システムの状態が常に見えるとは限らないため、POMDP環境では困難である。 さらに、手書きのメタRLアーキテクチャは、特定の学習問題に対して適切な計算構造を含まない場合がある。 オンライン学習メカニズムの進化は、それとは対照的に、学習戦略をエージェントに組み込む能力を持っている i) 必要なときに記憶を進化させ、 (ii)特定のオンライン学習問題に対する適応速度の最適化。 本稿では,神経修飾ニューラルネットワークの高度適応性を利用して,pomdpにおけるオートエンコーダの潜在空間を利用した制御系を進化させる。 進化したネットワークの分析は、暗黙の報酬を示す手がかりの検出やナビゲーションに役立つ位置ニューロンの進化など、様々な面で、提案されたアルゴリズムが生来の知識を取得する能力を明らかにしている。 生まれながらの知識とオンラインの可塑性の統合は、進化的でないメタ強化学習アルゴリズムと比較して、迅速な適応と性能の向上を可能にした。 このアルゴリズムは、3dゲーム環境のmalmo minecraftでも成功した。

Rapid online adaptation to changing tasks is an important problem in machine learning and, recently, a focus of meta-reinforcement learning. However, reinforcement learning (RL) algorithms struggle in POMDP environments because the state of the system, essential in a RL framework, is not always visible. Additionally, hand-designed meta-RL architectures may not include suitable computational structures for specific learning problems. The evolution of online learning mechanisms, on the contrary, has the ability to incorporate learning strategies into an agent that can (i) evolve memory when required and (ii) optimize adaptation speed to specific online learning problems. In this paper, we exploit the highly adaptive nature of neuromodulated neural networks to evolve a controller that uses the latent space of an autoencoder in a POMDP. The analysis of the evolved networks reveals the ability of the proposed algorithm to acquire inborn knowledge in a variety of aspects such as the detection of cues that reveal implicit rewards, and the ability to evolve location neurons that help with navigation. The integration of inborn knowledge and online plasticity enabled fast adaptation and better performance in comparison to some non-evolutionary meta-reinforcement learning algorithms. The algorithm proved also to succeed in the 3D gaming environment Malmo Minecraft.
翻訳日:2022-12-09 04:10:41 公開日:2020-04-28
# 前立腺癌術後放射線治療における診断的不確実性を考慮した深層学習に基づく臨床ターゲットボリュームのセグメンテーション

A deep learning-based framework for segmenting invisible clinical target volumes with estimated uncertainties for post-operative prostate cancer radiotherapy ( http://arxiv.org/abs/2004.13294v1 )

ライセンス: Link先を確認
Anjali Balagopal, Dan Nguyen, Howard Morgan, Yaochung Weng, Michael Dohopolski, Mu-Han Lin, Azar Sadeghnejad Barkousaraie, Yesenia Gonzalez, Aurelie Garant, Neil Desai, Raquibul Hannan, Steve Jiang(参考訳) 前立腺癌術後の放射線療法では, 癌前立腺は外科的に摘出されているため, 照射すべき臨床目標体積(CTV)は腫瘍細胞の顕微鏡的拡散を含み, CTやMRIなどの一般的な臨床画像では可視化できない。 現在の臨床実践では、医師は、臨床ガイドラインに従って、近くの臓器や他の臨床情報との関係に基づいて、手動でCTVを分類する。 従来の画像分割法による術後前立腺CTVセグメンテーションの自動化は大きな課題である。 本稿では,まず周辺臓器を分割し,次にCTVとの関係を利用してCTVセグメンテーションを支援する深層学習モデルを提案する。 提案モデルは, 臨床承認されたラベルを用いて訓練し, 患者治療に使用し, 視覚的根拠の真理が欠如していることから, 比較的大きな体間変動を呈する。 このモデルでは50人の患者から得られる平均Dice類似度係数(DSC)が0.87であり、アトラス法(DSC<0.7)のような確立された方法よりもはるかに優れている。 自動的に分割されたCTV輪郭に関する不確実性も、医師が輪郭を検査し、修正するのに役立つと推定されている。 また, 自動セグメンテーションCTV輪郭の臨床的品質が, 医師が手作業で作成した臨床輪郭と同等であることを示すために, 4点グレーティングシステムを用いた。

In post-operative radiotherapy for prostate cancer, the cancerous prostate gland has been surgically removed, so the clinical target volume (CTV) to be irradiated encompasses the microscopic spread of tumor cells, which cannot be visualized in typical clinical images such as computed tomography or magnetic resonance imaging. In current clinical practice, physicians segment CTVs manually based on their relationship with nearby organs and other clinical information, per clinical guidelines. Automating post-operative prostate CTV segmentation with traditional image segmentation methods has been a major challenge. Here, we propose a deep learning model to overcome this problem by segmenting nearby organs first, then using their relationship with the CTV to assist CTV segmentation. The model proposed is trained using labels clinically approved and used for patient treatment, which are subject to relatively large inter-physician variations due to the absence of a visual ground truth. The model achieves an average Dice similarity coefficient (DSC) of 0.87 on a holdout dataset of 50 patients, much better than established methods, such as atlas-based methods (DSC<0.7). The uncertainties associated with automatically segmented CTV contours are also estimated to help physicians inspect and revise the contours, especially in areas with large inter-physician variations. We also use a 4-point grading system to show that the clinical quality of the automatically segmented CTV contours is equal to that of approved clinical contours manually drawn by physicians.
翻訳日:2022-12-08 23:53:18 公開日:2020-04-28
# コンタクトトラッキングアプリケーションのためのプライバシガイドライン

Privacy Guidelines for Contact Tracing Applications ( http://arxiv.org/abs/2004.13328v1 )

ライセンス: Link先を確認
Manish Shukla, Rajan M A, Sachin Lodha, Gautam Shroff, Ramesh Raskar(参考訳) 接触追跡は、伝染病の拡散を避けるために社会的距離を実践し強制するための非常に強力な方法である。 接触追跡の伝統的なアプローチは、疲労やスキルの欠如による時間消費、人力集中、危険、エラーの傾向である。 これにより、接触追跡のためのモバイルベースのアプリケーションが出現する。 これらのアプリケーションは、主にGPSベースの絶対位置と、ユーザーのスマートフォンから送信されたBluetoothベースの相対位置を組み合わせて様々な洞察を導き出す。 これらのアプリケーションは、連絡先追跡のタスクを緩和しているが、大量監視、個人情報の漏洩、さらにユーザーの行動パターンを明らかにするなど、ユーザーのプライバシーに深刻な影響がある。 このユーザのプライバシへの影響は、これらのアプリケーションに対する信頼の欠如につながります。 本稿では,コンタクトトレーシングアプリケーションが扱うべきさまざまなシナリオについて議論する。 我々は、著名な連絡先追跡アプリケーションのプライバシー取扱いについて強調する。 さらに、動作を妨害したり、エンドユーザーのデータを誤用したり、あるいは大量導入を妨げる様々な脅威アクターについて説明する。 最後に,利害関係者の視点からの接触追跡アプリケーションに対するプライバシガイドラインを提案する。 私たちの知る限りでは、コンタクトトレースアプリケーションのプライバシガイドラインを提供する最初の一般的な作業です。

Contact tracing is a very powerful method to implement and enforce social distancing to avoid spreading of infectious diseases. The traditional approach of contact tracing is time consuming, manpower intensive, dangerous and prone to error due to fatigue or lack of skill. Due to this there is an emergence of mobile based applications for contact tracing. These applications primarily utilize a combination of GPS based absolute location and Bluetooth based relative location remitted from user's smartphone to infer various insights. These applications have eased the task of contact tracing; however, they also have severe implication on user's privacy, for example, mass surveillance, personal information leakage and additionally revealing the behavioral patterns of the user. This impact on user's privacy leads to trust deficit in these applications, and hence defeats their purpose. In this work we discuss the various scenarios which a contact tracing application should be able to handle. We highlight the privacy handling of some of the prominent contact tracing applications. Additionally, we describe the various threat actors who can disrupt its working, or misuse end user's data, or hamper its mass adoption. Finally, we present privacy guidelines for contact tracing applications from different stakeholder's perspective. To best of our knowledge, this is the first generic work which provides privacy guidelines for contact tracing applications.
翻訳日:2022-12-08 23:52:49 公開日:2020-04-28
# 無線ネットワーク上での通信効率の良いエッジAI推論

Communication-Efficient Edge AI Inference Over Wireless Networks ( http://arxiv.org/abs/2004.13351v1 )

ライセンス: Link先を確認
Kai Yang, Yong Zhou, Zhanpeng Yang, Yuanming Shi(参考訳) インテリジェントデバイスが急速に成長していることを考えると、ドローン、自律走行車、触覚ロボットなど、多くの高度な人工知能(AI)アプリケーションが近い将来、無線ネットワークの端に展開されることが期待されている。 そのため、インテリジェント通信ネットワークは、高度なワイヤレス技術とエッジコンピューティング技術を活用して、通信、計算、ハードウェア、エネルギーリソースに制限のあるさまざまなエンドデバイスでai対応アプリケーションをサポートするように設計されている。 本稿では、ネットワークエッジにおけるモデル推論の効率的な展開の原則を提示し、低遅延でエネルギー効率のよいaiサービスを提供する。 これには、低遅延デバイス分散モデル推論のための無線分散コンピューティングフレームワークと、エネルギー効率の良いエッジ協調モデル推論のための無線協調送信戦略が含まれる。 インテリジェント反射面を介してスマート無線伝搬環境を構築することにより、エッジ推論システムの通信効率をさらに向上する。

Given the fast growth of intelligent devices, it is expected that a large number of high-stake artificial intelligence (AI) applications, e.g., drones, autonomous cars, tactile robots, will be deployed at the edge of wireless networks in the near future. As such, the intelligent communication networks will be designed to leverage advanced wireless techniques and edge computing technologies to support AI-enabled applications at various end devices with limited communication, computation, hardware and energy resources. In this article, we shall present the principles of efficient deployment of model inference at network edge to provide low-latency and energy-efficient AI services. This includes the wireless distributed computing framework for low-latency device distributed model inference as well as the wireless cooperative transmission strategy for energy-efficient edge cooperative model inference. The communication efficiency of edge inference systems is further improved by building up a smart radio propagation environment via intelligent reflecting surface.
翻訳日:2022-12-08 23:52:30 公開日:2020-04-28
# 音声とテキストの雑音を考慮した音声合成のための逆特徴学習と教師なしクラスタリング

Adversarial Feature Learning and Unsupervised Clustering based Speech Synthesis for Found Data with Acoustic and Textual Noise ( http://arxiv.org/abs/2004.13595v1 )

ライセンス: Link先を確認
Shan Yang, Yuxuan Wang, Lei Xie(参考訳) 注意に基づくsequence-to-sequence (seq2seq)音声合成は驚くほどの性能を達成している。 しかし、このようなセq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。 本稿では, 学習音声に雑音の干渉(音響雑音)が含まれ, テキストが不完全な音声認識書き起こし(テクストノイズ)を含む, 難解なデータを用いて, 高品質で安定なseq2seqベースの音声合成システムを構築する手法を提案する。 そこで本研究では,vqvaeを用いた言語的特徴を音声から直接学習した音声情報で補うヒューリスティック手法を提案する。 音声側雑音については,音声強調モデルを必要としない対向訓練とデータ拡張により,自動回帰デコーダの雑音非依存の特徴を学習することを提案する。 実験により,提案手法が音声と音声との対応に有効であることを示す。 我々のシステムは,最先端の音声強調モデルに基づくデノベーションアプローチを超越して,クリーンで高品質な音声を,クリーンな音声に近づいたMOSで合成することができる。

Attention-based sequence-to-sequence (seq2seq) speech synthesis has achieved extraordinary performance. But a studio-quality corpus with manual transcription is necessary to train such seq2seq systems. In this paper, we propose an approach to build high-quality and stable seq2seq based speech synthesis system using challenging found data, where training speech contains noisy interferences (acoustic noise) and texts are imperfect speech recognition transcripts (textual noise). To deal with text-side noise, we propose a VQVAE based heuristic method to compensate erroneous linguistic feature with phonetic information learned directly from speech. As for the speech-side noise, we propose to learn a noise-independent feature in the auto-regressive decoder through adversarial training and data augmentation, which does not need an extra speech enhancement model. Experiments show the effectiveness of the proposed approach in dealing with text-side and speech-side noise. Surpassing the denoising approach based on a state-of-the-art speech enhancement model, our system built on noisy found data can synthesize clean and high-quality speech with MOS close to the system built on the clean counterpart.
翻訳日:2022-12-08 23:52:06 公開日:2020-04-28
# 微分可能な物理エンジンによるばねロッドシステムのデータ効率的なシステム同定のための第一原理アプローチ

A First Principles Approach for Data-Efficient System Identification of Spring-Rod Systems via Differentiable Physics Engines ( http://arxiv.org/abs/2004.13859v1 )

ライセンス: Link先を確認
Kun Wang, Mridul Aanjaneya, Kostas Bekris(参考訳) 複雑なスプリングロッドアセンブリのシステム同定のための新しい微分可能な物理エンジンを提案する。 力学系とそのパラメータの進化を学習するためのブラックボックスデータ駆動手法とは異なり、従来の物理エンジンと同様に、制御方程式の離散形式を用いてエンジンの設計をモジュール化する。 さらに,各モジュールの次元を3次元から1次元に減らし,線形回帰を用いたシステムパラメータの効率的な学習を可能にする。 副作用として、回帰パラメータはバネ剛性やロッドの質量などの物理量に対応しており、パイプラインを説明可能である。 このアプローチは、必要なトレーニングデータの量を大幅に削減し、データサンプリングとモデルトレーニングの反復的識別を回避する。 提案するエンジンの性能を従来のソリューションと比較し,nasaのicosahedronのようなテンセグリティシステムの有効性を実証した。

We propose a novel differentiable physics engine for system identification of complex spring-rod assemblies. Unlike black-box data-driven methods for learning the evolution of a dynamical system and its parameters, we modularize the design of our engine using a discrete form of the governing equations of motion, similar to a traditional physics engine. We further reduce the dimension from 3D to 1D for each module, which allows efficient learning of system parameters using linear regression. As a side benefit, the regression parameters correspond to physical quantities, such as spring stiffness or the mass of the rod, making the pipeline explainable. The approach significantly reduces the amount of training data required, and also avoids iterative identification of data sampling and model training. We compare the performance of the proposed engine with previous solutions, and demonstrate its efficacy on tensegrity systems, such as NASA's icosahedron.
翻訳日:2022-12-08 23:51:44 公開日:2020-04-28
# トーラス上の軸パラレルボックスのVC次元

The VC-Dimension of Axis-Parallel Boxes on the Torus ( http://arxiv.org/abs/2004.13861v1 )

ライセンス: Link先を確認
Pierre Gillibert, Thomas Lachmann, Clemens M\"ullner(参考訳) この論文では、d$-dimensional axis-parallel box と $d$-dimensional torus 上の立方体の vc-dimension は、漸近的に $d \log_2(d)$ であることを示した。 VC次元は通常、同様の設定で$d$で線形に成長するので、これは特に驚きだ。

We show in this paper that the VC-dimension of the family of $d$-dimensional axis-parallel boxes and cubes on the $d$-dimensional torus are both asymptotically $d \log_2(d)$. This is especially surprising as the VC-dimension usually grows linearly with $d$ in similar settings.
翻訳日:2022-12-08 23:51:29 公開日:2020-04-28
# マルコフ決定過程における確率的および非確率的目標の混合

Mixing Probabilistic and non-Probabilistic Objectives in Markov Decision Processes ( http://arxiv.org/abs/2004.13789v1 )

ライセンス: Link先を確認
Rapha\"el Berthon, Shibashis Guha, Jean-Fran\c{c}ois Raskin(参考訳) 本稿では,目的のブール組合せに対するMDPにおける戦略の存在を決定するアルゴリズムを検討する。 これらの目的はオメガレギュラーな性質であり、確実に、ほぼ確実に、またはゼロでない確率で強制される必要がある。 この設定では、関連する戦略はランダム化された無限記憶戦略である: 無限記憶とランダム化の両方が最適にプレイするために必要となる。 ブール組合せの一般ケースを解くアルゴリズムを提供し、関連するサブケースについても検討する。 これらの問題に対する複雑性境界についても報告する。

In this paper, we consider algorithms to decide the existence of strategies in MDPs for Boolean combinations of objectives. These objectives are omega-regular properties that need to be enforced either surely, almost surely, existentially, or with non-zero probability. In this setting, relevant strategies are randomized infinite memory strategies: both infinite memory and randomization may be needed to play optimally. We provide algorithms to solve the general case of Boolean combinations and we also investigate relevant subcases. We further report on complexity bounds for these problems.
翻訳日:2022-12-08 23:45:37 公開日:2020-04-28
# ランダム化臨床試験における5段階成層試験とアマルガメーションルーチンを用いた生存分析

Survival Analysis Using a 5-Step Stratified Testing and Amalgamation Routine in Randomized Clinical Trials ( http://arxiv.org/abs/2004.13611v1 )

ライセンス: Link先を確認
Devan V. Mehrotra and Rachel Marceau West(参考訳) ランダム化臨床試験は、しばしば、試験治療が制御治療に対して生存期間を延長するかどうかを評価するために設計される。 患者の不均一性の増加は、結果の一般化に望ましいが、共通の統計的アプローチによる治療法の違いの検出能力を弱め、安全で効果的な治療の規制承認を妨げる可能性がある。 この問題に対する新しい解決策が提案されている。 どちらの治療でも生存を予知できる可能性のある塩基性共変体のリストは、分析計画に予め記載されている。 分析段階では、観察された生存時間全てを用いて、患者レベルの治療課題に盲目な場合、"ノイズ"共変体を弾性ネットコックス回帰で除去する。 短縮された共変量リストは条件付き推論木アルゴリズムによって、不均質な試行人口を確率的同質患者の亜集団(risk strata)に分割するために用いられる。 患者レベルの治療終了後, 形成した各リスク層内で治療比較を行い, 全体統計的推測のために層レベルの結果を組み合わせる。 提案する5段階の階層化テストとアマルガメーションルーチン(5-star)の性能は,logrankテストや,本質的に構成された患者の不均一性を活用しない他の一般的なアプローチと比較し,仮説と2つの実際のデータセットとシミュレーション結果を用いて評価した。 さらに, パーソナライズドメディカル医療の可能性として, 地層レベルの比較治療効果(加速故障時間モデルからの時間比がモデル平均に適合し, 必要に応じて, Cox比重ハザードモデルからのハザード比が適合する)を報告することの重要性を強調した。 5STAR Rパッケージはhttps://github.com/rmarceauwest/fiveSTARで入手できる。

Randomized clinical trials are often designed to assess whether a test treatment prolongs survival relative to a control treatment. Increased patient heterogeneity, while desirable for generalizability of results, can weaken the ability of common statistical approaches to detect treatment differences, potentially hampering the regulatory approval of safe and efficacious therapies. A novel solution to this problem is proposed. A list of baseline covariates that have the potential to be prognostic for survival under either treatment is pre-specified in the analysis plan. At the analysis stage, using all observed survival times but blinded to patient-level treatment assignment, 'noise' covariates are removed with elastic net Cox regression. The shortened covariate list is used by a conditional inference tree algorithm to segment the heterogeneous trial population into subpopulations of prognostically homogeneous patients (risk strata). After patient-level treatment unblinding, a treatment comparison is done within each formed risk stratum and stratum-level results are combined for overall statistical inference. The impressive power-boosting performance of our proposed 5-step stratified testing and amalgamation routine (5-STAR), relative to that of the logrank test and other common approaches that do not leverage inherently structured patient heterogeneity, is illustrated using a hypothetical and two real datasets along with simulation results. Furthermore, the importance of reporting stratum-level comparative treatment effects (time ratios from accelerated failure time model fits in conjunction with model averaging and, as needed, hazard ratios from Cox proportional hazard model fits) is highlighted as a potential enabler of personalized medicine. A fiveSTAR R package is available at https://github.com/rmarceauwest/fiveSTAR.
翻訳日:2022-12-08 23:45:28 公開日:2020-04-28
# SCELMo: 言語モデルからのソースコード埋め込み

SCELMo: Source Code Embeddings from Language Models ( http://arxiv.org/abs/2004.13214v1 )

ライセンス: Link先を確認
Rafael - Michael Karampatsis and Charles Sutton(参考訳) コンピュータプログラムへのトークンの継続的な埋め込みは、可読性、コード検索、プログラムの修復など、様々なソフトウェア開発ツールをサポートするために使われてきた。 文脈埋め込みは自然言語処理では一般的であるが、これまでソフトウェア工学では適用されていなかった。 本稿では,言語モデルに基づくコンピュータプログラムのための,新しい深層文脈化単語表現のセットを提案する。 Peters et al (2018)のELMo(言語モデルからの埋め込み)フレームワークを使って埋め込みのセットをトレーニングする。 本研究は,バグ検出の下流タスクに微調整を行った場合,これらの埋め込みが有効かどうかを検討する。 比較的小さなプログラムで訓練された低次元埋め込みでさえ、バグ検出のための最先端の機械学習システムを改善することができることを示す。

Continuous embeddings of tokens in computer programs have been used to support a variety of software development tools, including readability, code search, and program repair. Contextual embeddings are common in natural language processing but have not been previously applied in software engineering. We introduce a new set of deep contextualized word representations for computer programs based on language models. We train a set of embeddings using the ELMo (embeddings from language models) framework of Peters et al (2018). We investigate whether these embeddings are effective when fine-tuned for the downstream task of bug detection. We show that even a low-dimensional embedding trained on a relatively small corpus of programs can improve a state-of-the-art machine learning system for bug detection.
翻訳日:2022-12-08 23:44:36 公開日:2020-04-28
# 説明可能な深層学習に基づく回転機械の予測モデル

An Explainable Deep Learning-based Prognostic Model for Rotating Machinery ( http://arxiv.org/abs/2004.13608v1 )

ライセンス: Link先を確認
Namkyoung Lee, Michael H. Azarian and Michael G. Pecht(参考訳) 本稿では,回転機械の余寿命を推定する,説明可能な深層学習モデルを開発する。 このモデルはオートエンコーダを用いてフーリエ変換から高レベル特徴を抽出する。 これらの特徴は、残りの有用な寿命を推定するためにフィードフォワードニューラルネットワークへの入力として使用される。 本論文は,特徴の組成と特徴と推定結果の関係を解析することにより,モデルの振る舞いを説明する。 モデルを説明するために,オクターブ帯域フィルタを導入する。 フィルタリングはオートエンコーダの入力サイズを小さくし、モデルを単純化する。 ケーススタディはモデルを説明する方法を示している。 また、モデルにおけるオクターブバンドフィルタリングは、低レベルの畳み込み層の機能を模倣することを示した。 この結果は、モデルの深さを減らすためにフィルタリングを使用することの有効性をサポートする。

This paper develops an explainable deep learning model that estimates the remaining useful lives of rotating machinery. The model extracts high-level features from Fourier transform using an autoencoder. The features are used as input to a feedforward neural network to estimate the remaining useful lives. The paper explains the model's behavior by analyzing the composition of the features and the relationships between the features and the estimation results. In order to make the model explainable, the paper introduces octave-band filtering. The filtering reduces the input size of the autoencoder and simplifies the model. A case study demonstrates the methods to explain the model. The study also shows that the octave band-filtering in the model imitates the functionality of low-level convolutional layers. This result supports the validity of using the filtering to reduce the depth of the model.
翻訳日:2022-12-08 23:43:57 公開日:2020-04-28
# ヒストグラムに基づくオートセグメンテーション:SEM画像から集積回路構造を分割するための新しいアプローチ

Histogram-based Auto Segmentation: A Novel Approach to Segmenting Integrated Circuit Structures from SEM Images ( http://arxiv.org/abs/2004.13874v1 )

ライセンス: Link先を確認
Ronald Wilson, Navid Asadizanjani, Domenic Forte and Damon L. Woodard(参考訳) 逆工学とハードウェア保証領域では、データ取得の大部分は走査電子顕微鏡(SEM)のような電子顕微鏡技術によって行われる。 しかし、光学イメージングにおけるそれと異なり、生のsem画像から情報を強調・抽出するための限られた技術しか利用できない。 本稿では,SEM画像から集積回路(IC)構造を分割するアルゴリズムを提案する。 本論文で論じている既存のアルゴリズムとは異なり、このアルゴリズムは教師なし、パラメータフリーであり、目標画像のノイズモデルや特徴に関する事前情報を必要としないため、低品質の画像取得にも有効である。 さらに, icの各種構造および層に対するアルゴリズムの適用結果について報告し, 考察した。

In the Reverse Engineering and Hardware Assurance domain, a majority of the data acquisition is done through electron microscopy techniques such as Scanning Electron Microscopy (SEM). However, unlike its counterparts in optical imaging, only a limited number of techniques are available to enhance and extract information from the raw SEM images. In this paper, we introduce an algorithm to segment out Integrated Circuit (IC) structures from the SEM image. Unlike existing algorithms discussed in this paper, this algorithm is unsupervised, parameter-free and does not require prior information on the noise model or features in the target image making it effective in low quality image acquisition scenarios as well. Furthermore, the results from the application of the algorithm on various structures and layers in the IC are reported and discussed.
翻訳日:2022-12-08 23:43:33 公開日:2020-04-28
# コロナ時代の陰謀:ソーシャルメディアとニュースにおけるCovid-19 Conspiracy理論の自動検出

Conspiracy in the Time of Corona: Automatic detection of Covid-19 Conspiracy Theories in Social Media and the News ( http://arxiv.org/abs/2004.13783v1 )

ライセンス: Link先を確認
Shadi Shahsavari, Pavan Holur, Timothy R. Tangherlini, Vwani Roychowdhury(参考訳) 噂と陰謀説は低い信頼と低い信頼の環境で繁栄する。 それゆえ、新型コロナウイルス(covid-19)パンデミックに関連するものは、ウイルスやその拡散と封じ込めに関する権威ある科学的合意の欠如、あるいはパンデミックの長期的社会経済的・経済的な影響から、拡散しているのも驚くにあたらない。 現在流通している記事の中には、5Gネットワークがウイルスを活性化し、パンデミックが世界規模で流行し、ウイルスが故意に中国によって放出された生物兵器である、ビル・ゲイツが世界的な監視体制の立ち上げのためにウイルスを隠蔽している、といった記事がある。 これらの物語は現実世界の行動にほとんど影響を与えていないとすぐに否定する向きもあるが、最近の出来事には、資産の破壊、人種的にアジア系アメリカ人に対する攻撃、公衆衛生命令に対する抵抗を訴えるデモなどがある。 ナラティブ理論に触発されて、ソーシャルメディアのサイトやニュースレポートをクロールし、自動化された機械学習手法の応用を通じて、これらの物語の生成を支える基盤となるナラティブフレームワークを見つける。 様々な物語の枠組みが、噂や陰謀論を駆り立てることが、他の異なる知識領域の整合性にどのように依存しているかを示し、パンデミックに関する広範な報告にどのように付着するかを考察する。 これらのアライメントとアタッチメントは、ほぼリアルタイムで監視できるが、陰謀論者による再解釈に特に脆弱な分野を特定するのに役立つかもしれない。 ソーシャルメディア上でのストーリーテリングのダイナミクスや、これらのストーリーの生成基盤を提供する物語の枠組みを理解することは、それらの拡散を阻害する手法を考案するのにも役立つかもしれない。

Rumors and conspiracy theories thrive in environments of low confidence and low trust. Consequently, it is not surprising that ones related to the Covid-19 pandemic are proliferating given the lack of any authoritative scientific consensus on the virus, its spread and containment, or on the long term social and economic ramifications of the pandemic. Among the stories currently circulating are ones suggesting that the 5G network activates the virus, that the pandemic is a hoax perpetrated by a global cabal, that the virus is a bio-weapon released deliberately by the Chinese, or that Bill Gates is using it as cover to launch a global surveillance regime. While some may be quick to dismiss these stories as having little impact on real-world behavior, recent events including the destruction of property, racially fueled attacks against Asian Americans, and demonstrations espousing resistance to public health orders countermand such conclusions. Inspired by narrative theory, we crawl social media sites and news reports and, through the application of automated machine-learning methods, discover the underlying narrative frameworks supporting the generation of these stories. We show how the various narrative frameworks fueling rumors and conspiracy theories rely on the alignment of otherwise disparate domains of knowledge, and consider how they attach to the broader reporting on the pandemic. These alignments and attachments, which can be monitored in near real-time, may be useful for identifying areas in the news that are particularly vulnerable to reinterpretation by conspiracy theorists. Understanding the dynamics of storytelling on social media and the narrative frameworks that provide the generative basis for these stories may also be helpful for devising methods to disrupt their spread.
翻訳日:2022-12-08 23:39:00 公開日:2020-04-28
# 誤解させない:オンライン討論における意図と知覚の比較

Don't Let Me Be Misunderstood: Comparing Intentions and Perceptions in Online Discussions ( http://arxiv.org/abs/2004.13609v1 )

ライセンス: Link先を確認
Jonathan P. Chang, Justin Cheng, Cristian Danescu-Niculescu-Mizil(参考訳) 談話には2つの視点がある: 発話する人の意図と、その発話に対する他者の認識である。 これらの視点間の不一致は、誤解や生産性の低下、さらには過度な混乱など、望ましくない結果につながる可能性がある。 本研究では,オンライン公開討論における両視点の探索と比較のための計算フレームワークを提案する。 facebook上の公開コメントに関するログデータと、1万6000人以上を対象に、コメントを書く意図や、他の人が書いたコメントに対する認識についての調査を組み合わせる。 感情や主観性などの特性を定量化するために、主にサードパーティのレーベルに依存しているオンライン議論の過去の研究とは異なり、我々のアプローチは、コメントを書くときにスピーカーが実際に何を意図しているかを直接捉えている。 特に,これらの概念が混同されることが多かったため,コメントが事実であるか意見なのかを判断することに焦点を当てた。 我々は、意図と知覚が連続的に変化することを示す。 人々は、意図するよりも意見を知覚する傾向があり、発話の意図を示す言語的手がかりは、それがどのように知覚されるかを示すものと異なる可能性がある。 さらに、この意図と知覚の誤認は、会話の将来の健全性につながり得る: 事実を共有することを意図したコメントが、意見を共有すると誤認識されている場合、次の会話は、意図するコメントが意図していると認識される場合よりも、非現実的な行動に陥りやすい。 全体として、これらの発見は、ポジティブな相互作用を促進するための議論プラットフォームの設計に影響を及ぼすかもしれない。

Discourse involves two perspectives: a person's intention in making an utterance and others' perception of that utterance. The misalignment between these perspectives can lead to undesirable outcomes, such as misunderstandings, low productivity and even overt strife. In this work, we present a computational framework for exploring and comparing both perspectives in online public discussions. We combine logged data about public comments on Facebook with a survey of over 16,000 people about their intentions in writing these comments or about their perceptions of comments that others had written. Unlike previous studies of online discussions that have largely relied on third-party labels to quantify properties such as sentiment and subjectivity, our approach also directly captures what the speakers actually intended when writing their comments. In particular, our analysis focuses on judgments of whether a comment is stating a fact or an opinion, since these concepts were shown to be often confused. We show that intentions and perceptions diverge in consequential ways. People are more likely to perceive opinions than to intend them, and linguistic cues that signal how an utterance is intended can differ from those that signal how it will be perceived. Further, this misalignment between intentions and perceptions can be linked to the future health of a conversation: when a comment whose author intended to share a fact is misperceived as sharing an opinion, the subsequent conversation is more likely to derail into uncivil behavior than when the comment is perceived as intended. Altogether, these findings may inform the design of discussion platforms that better promote positive interactions.
翻訳日:2022-12-08 23:38:29 公開日:2020-04-28
# 空間分布マイクロホンを用いたニューラル音声分離

Neural Speech Separation Using Spatially Distributed Microphones ( http://arxiv.org/abs/2004.13670v1 )

ライセンス: Link先を確認
Dongmei Wang, Zhuo Chen and Takuya Yoshioka(参考訳) 本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。 従来のマイクロホンアレイ設定とは異なり、マイクロホンの数や空間配置は事前に分かっていないため、固定サイズ入力に基づく従来のマルチチャネル音声分離ニューラルネットワークの使用を妨げている。 これを克服するために,チャネル間処理層と時間的処理層をインターリーブする新しいネットワークアーキテクチャを提案する。 チャネル間処理層は、チャネル次元に沿って自己アテンション機構を適用し、様々なマイク数で得られる情報を利用する。 時間処理層は双方向長短期メモリ(BLSTM)モデルに基づいており、各チャネルに独立して適用される。 提案するネットワークは,2種類のレイヤを交互に積み重ねることで,時間と空間にまたがる情報を活用する。 我々のネットワークは、各話者の時間周波数マスクを推定し、TFマスキングまたはビームフォーミングを用いて拡張音声信号を生成する。 音声認識実験の結果,提案手法がベースラインのマルチチャネル音声分離システムを大きく上回ることがわかった。

This paper proposes a neural network based speech separation method using spatially distributed microphones. Unlike with traditional microphone array settings, neither the number of microphones nor their spatial arrangement is known in advance, which hinders the use of conventional multi-channel speech separation neural networks based on fixed size input. To overcome this, a novel network architecture is proposed that interleaves inter-channel processing layers and temporal processing layers. The inter-channel processing layers apply a self-attention mechanism along the channel dimension to exploit the information obtained with a varying number of microphones. The temporal processing layers are based on a bidirectional long short term memory (BLSTM) model and applied to each channel independently. The proposed network leverages information across time and space by stacking these two kinds of layers alternately. Our network estimates time-frequency (TF) masks for each speaker, which are then used to generate enhanced speech signals either with TF masking or beamforming. Speech recognition experimental results show that the proposed method significantly outperforms baseline multi-channel speech separation systems.
翻訳日:2022-12-08 23:38:03 公開日:2020-04-28
# 転送可能な能動把持と実体型データセット

Transferable Active Grasping and Real Embodied Dataset ( http://arxiv.org/abs/2004.13358v1 )

ライセンス: Link先を確認
Xiangyu Chen, Zelin Ye, Jiankai Sun, Yuda Fan, Fang Hu, Chenxi Wang, Cewu Lu(参考訳) 乱雑なシーンでのグラッピングは、検出精度が物体の部分閉塞によって妨げられるため、ロボットビジョンシステムでは困難である。 我々は,手持ちのRGB-Dカメラを用いて把握可能な視点を探索するために,強化学習(RL)フレームワークと3次元視覚アーキテクチャを採用する。 写真リアル環境シミュレーションの欠点を克服するため,上半球のフルビューポイント実検体とアモーダルアノテーションを併用し,実際の視覚的フィードバックを持つシミュレータを実現する,Real Embodied Dataset (RED) と呼ばれる大規模データセットを提案する。 このデータセットに基づいて, 目立たないクラッタシーンに適応した実用的な3段階移動可能なアクティブ把持パイプラインを開発した。 本稿では,カテゴリ非関連行動の把握と確保において,少なからぬ報酬問題を克服する新たなマスク誘導報酬を提案する。 グリップパイプラインとその可能な変種は、シミュレーションと現実世界のUR-5ロボットアームの両方で広範な実験によって評価される。

Grasping in cluttered scenes is challenging for robot vision systems, as detection accuracy can be hindered by partial occlusion of objects. We adopt a reinforcement learning (RL) framework and 3D vision architectures to search for feasible viewpoints for grasping by the use of hand-mounted RGB-D cameras. To overcome the disadvantages of photo-realistic environment simulation, we propose a large-scale dataset called Real Embodied Dataset (RED), which includes full-viewpoint real samples on the upper hemisphere with amodal annotation and enables a simulator that has real visual feedback. Based on this dataset, a practical 3-stage transferable active grasping pipeline is developed, that is adaptive to unseen clutter scenes. In our pipeline, we propose a novel mask-guided reward to overcome the sparse reward issue in grasping and ensure category-irrelevant behavior. The grasping pipeline and its possible variants are evaluated with extensive experiments both in simulation and on a real-world UR-5 robotic arm.
翻訳日:2022-12-08 23:37:47 公開日:2020-04-28
# ハードウェアアクセラレータを用いた組み込みシステムを用いたリアルタイムApple検出システム:エッジAIアプリケーション

Real-Time Apple Detection System Using Embedded Systems With Hardware Accelerators: An Edge AI Application ( http://arxiv.org/abs/2004.13410v1 )

ライセンス: Link先を確認
Vittorio Mazzia, Francesco Salvetti, Aleem Khaliq, Marcello Chiaberge(参考訳) 果樹園におけるリアルタイムリンゴ検出は、リンゴの収穫量を推定する最も効果的な方法の1つである。 従来の検出手法では、ハードウェアを集中的にセットアップした高度計算機械学習アルゴリズムが用いられていたが、その重みとパワーの制約により、内野でのリアルタイムリンゴ検出には適していない。 本研究では、Raspberry Pi 3 B+やIntel Movidius Neural Computing Stick(NCS)、NvidiaのJetson Nano、Jetson AGX Xavierなど、さまざまな組み込みプラットフォーム上でのYOLOv3-tinyアルゴリズムの実装により、"Edge AI"にインスパイアされたリアルタイム組込みソリューションを提案する。 学習用データセットは、イタリア北部のリンゴ果樹園のフィールドサーベイ中に取得した画像を用いてコンパイルされ、テストに使用される画像は、さまざまな場面でリンゴを含む画像をフィルタリングして、アルゴリズムの堅牢性を確保することによって、広く使われているGoogleデータセットから抽出された。 提案する研究は、yolov3-tinyアーキテクチャを小さな物体の検出に適用する。 これは、平均検出精度(83.64%)を損なうことなく、安価で電力効率の良い組み込みハードウェアにカスタマイズされたモデルが展開可能であることを示し、リンゴの重なり合い、複雑な背景、葉や枝によるリンゴの露出を減らすといった難しいシナリオでも、最大30fpsのフレームレートを達成した。 さらに,提案する組込みソリューションを無人地上車両にデプロイして,リンゴの大きさをリアルタイムで検出,カウント,測定することにより,農家や農学者が意思決定や管理のスキルを身につけることができる。

Real-time apple detection in orchards is one of the most effective ways of estimating apple yields, which helps in managing apple supplies more effectively. Traditional detection methods used highly computational machine learning algorithms with intensive hardware set up, which are not suitable for infield real-time apple detection due to their weight and power constraints. In this study, a real-time embedded solution inspired from "Edge AI" is proposed for apple detection with the implementation of YOLOv3-tiny algorithm on various embedded platforms such as Raspberry Pi 3 B+ in combination with Intel Movidius Neural Computing Stick (NCS), Nvidia's Jetson Nano and Jetson AGX Xavier. Data set for training were compiled using acquired images during field survey of apple orchard situated in the north region of Italy, and images used for testing were taken from widely used google data set by filtering out the images containing apples in different scenes to ensure the robustness of the algorithm. The proposed study adapts YOLOv3-tiny architecture to detect small objects. It shows the feasibility of deployment of the customized model on cheap and power-efficient embedded hardware without compromising mean average detection accuracy (83.64%) and achieved frame rate up to 30 fps even for the difficult scenarios such as overlapping apples, complex background, less exposure of apple due to leaves and branches. Furthermore, the proposed embedded solution can be deployed on the unmanned ground vehicles to detect, count, and measure the size of the apples in real-time to help the farmers and agronomists in their decision making and management skills.
翻訳日:2022-12-08 23:36:44 公開日:2020-04-28
# DRU-net: 医用画像分割のための効率的な深部畳み込みニューラルネットワーク

DRU-net: An Efficient Deep Convolutional Neural Network for Medical Image Segmentation ( http://arxiv.org/abs/2004.13453v1 )

ライセンス: Link先を確認
Mina Jafari, Dorothee Auer, Susan Francis, Jonathan Garibaldi, Xin Chen(参考訳) 残留ネットワーク(ResNet)と密結合ネットワーク(DenseNet)は、主にオブジェクト分類タスクのためのディープ畳み込みニューラルネットワーク(DCNN)のトレーニング効率と性能を大幅に改善した。 本稿では,両ネットワークの利点を考慮した効率的なネットワークアーキテクチャを提案する。 提案手法は,医療画像分割のためのエンコーダデコーダDCNNモデルに統合される。 我々の手法はResNetと比較してスキップ接続を追加するが、DenseNetよりもはるかに少ないモデルパラメータを使用する。 皮膚病変分類のためのパブリックデータセット(ISIC 2018 Grand-challenge)と局所脳MRIデータセットについて検討した。 同じエンコーダ-デコーダネットワーク構造内のResNetベース,DenseNetベース,注目ネットワーク(AttnNet)ベースの手法と比較して,本手法はDenseNetやAttnNetよりも少ないモデルパラメータでセグメント化精度を著しく向上させる。 コードはGitHubで公開されている(GitHubリンク: https://github.com/MinaJf/DRU-net)。

Residual network (ResNet) and densely connected network (DenseNet) have significantly improved the training efficiency and performance of deep convolutional neural networks (DCNNs) mainly for object classification tasks. In this paper, we propose an efficient network architecture by considering advantages of both networks. The proposed method is integrated into an encoder-decoder DCNN model for medical image segmentation. Our method adds additional skip connections compared to ResNet but uses significantly fewer model parameters than DenseNet. We evaluate the proposed method on a public dataset (ISIC 2018 grand-challenge) for skin lesion segmentation and a local brain MRI dataset. In comparison with ResNet-based, DenseNet-based and attention network (AttnNet) based methods within the same encoder-decoder network structure, our method achieves significantly higher segmentation accuracy with fewer number of model parameters than DenseNet and AttnNet. The code is available on GitHub (GitHub link: https://github.com/MinaJf/DRU-net).
翻訳日:2022-12-08 23:36:09 公開日:2020-04-28
# FU-net:フィードバック重み付きU-netを用いたマルチクラス画像分割

FU-net: Multi-class Image Segmentation Using Feedback Weighted U-net ( http://arxiv.org/abs/2004.13470v1 )

ライセンス: Link先を確認
Mina Jafari, Ruizhe Li, Yue Xing, Dorothee Auer, Susan Francis, Jonathan Garibaldi, and Xin Chen(参考訳) 本稿では,多クラス画像分割のための汎用的深層畳み込みニューラルネットワーク(dcnn)を提案する。 U-netとして知られる、よく確立された教師付きエンドツーエンドDCNNモデルに基づいている。 U-netは、モデルトレーニングの効率を改善するために広く使われているバッチ正規化と残留ブロック(BRU-net)を追加することで、最初に修正される。 さらに,BRU-netに基づいて動的重み付きクロスエントロピー損失関数を導入する。 トレーニング中の画素予測精度に基づいて重み付けスキームを算出する。 分割精度の低いピクセルに高い重みを割り当てることで、ネットワークは予測できない画像領域からより多くのことを学べる。 本手法はフィードバック重み付きU-net (FU-net) と呼ぶ。 本手法はt1重み付き脳mriを用いて中脳と下脳のセグメンテーションを行い,各クラス内の画素数が互いに非常に不均衡であることを示す。 dice係数の測定に基づいて,提案するfu-netは統計的に有意なbru-netとu-netを上回っている。 コードはGitHubで公開されている(GitHubリンク: https://github.com/MinaJf/FU-net)。

In this paper, we present a generic deep convolutional neural network (DCNN) for multi-class image segmentation. It is based on a well-established supervised end-to-end DCNN model, known as U-net. U-net is firstly modified by adding widely used batch normalization and residual block (named as BRU-net) to improve the efficiency of model training. Based on BRU-net, we further introduce a dynamically weighted cross-entropy loss function. The weighting scheme is calculated based on the pixel-wise prediction accuracy during the training process. Assigning higher weights to pixels with lower segmentation accuracies enables the network to learn more from poorly predicted image regions. Our method is named as feedback weighted U-net (FU-net). We have evaluated our method based on T1- weighted brain MRI for the segmentation of midbrain and substantia nigra, where the number of pixels in each class is extremely unbalanced to each other. Based on the dice coefficient measurement, our proposed FU-net has outperformed BRU-net and U-net with statistical significance, especially when only a small number of training examples are available. The code is publicly available in GitHub (GitHub link: https://github.com/MinaJf/FU-net).
翻訳日:2022-12-08 23:35:51 公開日:2020-04-28
# 出生前超音波ボリュームにおける胎児頭部の自動分節に対するハイブリッド注意

Hybrid Attention for Automatic Segmentation of Whole Fetal Head in Prenatal Ultrasound Volumes ( http://arxiv.org/abs/2004.13567v1 )

ライセンス: Link先を確認
Xin Yang, Xu Wang, Yi Wang, Haoran Dou, Shengli Li, Huaxuan Wen, Yi Lin, Pheng-Ann Heng, Dong Ni(参考訳) 背景と目的:胎児の頭部の生体計測は妊娠中の母親および胎児の健康モニタリングにとって重要な指標である。 3D超音波(US)は胎児の頭部全体を2Dスキャンで覆い、診断を促進することができる。 しかし、胎児の頭部を米国全巻に自動的に分割することは、新しい未解決の問題として今も残っている。 自動化ソリューションが取り組むべき課題には、画像品質の低さ、境界曖昧さ、長時間の閉塞、胎児のポーズや胎児の年齢による外観変化などがある。 本稿では, 胎児の頭部全体をusボリュームに分割する最初の完全自動解を提案する。 メソッド: セグメント化タスクは、まずエンコーダ-デコーダディープアーキテクチャの下で、エンドツーエンドのボリュームマッピングとして定式化される。 次に、セグメンタとハイブリッドアテンションスキーム(HAS)を組み合わせることで、識別的特徴を選択し、非変形的ボリューム特徴を複合的かつ階層的に抑制する。 計算オーバーヘッドが少ないため、HASは境界の曖昧さと不足に対処するのに有効である。 セグメンテーションにおける空間的一貫性を高めるために,複数のセグメンテーションを逐次的に整理し,前者の予測における文脈を再検討することで結果を洗練する。 結果: 健常者100名から収集した大規模データセット上で検証した結果, 優れたセグメンテーション性能(dsc (dice similarity coefficient) 96.05%), 専門家との顕著な合意が得られた。 また,52名のボランティアから156巻を採取し,スキャン変動に対して高い再現性(平均偏差11.524mL)を示した。 結論: 3D USにおける胎児の頭部分節に関する最初の調査である。 本手法は,米国における出生前大量研究を支援するための有効なソリューションとなることを約束する。

Background and Objective: Biometric measurements of fetal head are important indicators for maternal and fetal health monitoring during pregnancy. 3D ultrasound (US) has unique advantages over 2D scan in covering the whole fetal head and may promote the diagnoses. However, automatically segmenting the whole fetal head in US volumes still pends as an emerging and unsolved problem. The challenges that automated solutions need to tackle include the poor image quality, boundary ambiguity, long-span occlusion, and the appearance variability across different fetal poses and gestational ages. In this paper, we propose the first fully-automated solution to segment the whole fetal head in US volumes. Methods: The segmentation task is firstly formulated as an end-to-end volumetric mapping under an encoder-decoder deep architecture. We then combine the segmentor with a proposed hybrid attention scheme (HAS) to select discriminative features and suppress the non-informative volumetric features in a composite and hierarchical way. With little computation overhead, HAS proves to be effective in addressing boundary ambiguity and deficiency. To enhance the spatial consistency in segmentation, we further organize multiple segmentors in a cascaded fashion to refine the results by revisiting context in the prediction of predecessors. Results: Validated on a large dataset collected from 100 healthy volunteers, our method presents superior segmentation performance (DSC (Dice Similarity Coefficient), 96.05%), remarkable agreements with experts. With another 156 volumes collected from 52 volunteers, we ahieve high reproducibilities (mean standard deviation 11.524 mL) against scan variations. Conclusion: This is the first investigation about whole fetal head segmentation in 3D US. Our method is promising to be a feasible solution in assisting the volumetric US-based prenatal studies.
翻訳日:2022-12-08 23:35:31 公開日:2020-04-28
# 画像超解像とノイズ低減のための残留チャネルアテンション生成アドバイザラルネットワーク

Residual Channel Attention Generative Adversarial Network for Image Super-Resolution and Noise Reduction ( http://arxiv.org/abs/2004.13674v1 )

ライセンス: Link先を確認
Jie Cai, Zibo Meng, Chiu Man Ho(参考訳) 画像超解像は、対応する低解像度画像から高解像度画像を再構成することを目的とした重要なコンピュータビジョン技術の1つである。 最近では、画像超解像のためのディープラーニングベースのアプローチが実証されている。 しかし、ディープネットワークが深まるにつれ、トレーニングが難しくなり、特に現実世界の設定下において、より細かいテクスチャの詳細を復元することが難しくなる。 本稿では,これらの問題を解決するために,Residual Channel Attention-Generative Adversarial Network (RCA-GAN)を提案する。 具体的には,異なるチャネル間の特徴表現の相互依存性と相互作用をモデル化するチャネルアテンション機構と,ショートカット接続を持つ残差ブロックからなるRCA-GANを形成するために,新しい残差チャネルアテンションブロックを提案する。 さらに, GAN(Generative Adversarial Network)を用いて, より現実的で詳細な結果を生成する。 これらの改良の恩恵を受け、rca-ganはベースラインモデルよりも詳細なテクスチャと自然なテクスチャで一貫して優れた視覚品質を実現し、実世界画像の超高解像度化のための最先端の手法と同等あるいは優れた性能を実現している。

Image super-resolution is one of the important computer vision techniques aiming to reconstruct high-resolution images from corresponding low-resolution ones. Most recently, deep learning-based approaches have been demonstrated for image super-resolution. However, as the deep networks go deeper, they become more difficult to train and more difficult to restore the finer texture details, especially under real-world settings. In this paper, we propose a Residual Channel Attention-Generative Adversarial Network(RCA-GAN) to solve these problems. Specifically, a novel residual channel attention block is proposed to form RCA-GAN, which consists of a set of residual blocks with shortcut connections, and a channel attention mechanism to model the interdependence and interaction of the feature representations among different channels. Besides, a generative adversarial network (GAN) is employed to further produce realistic and highly detailed results. Benefiting from these improvements, the proposed RCA-GAN yields consistently better visual quality with more detailed and natural textures than baseline models; and achieves comparable or better performance compared with the state-of-the-art methods for real-world image super-resolution.
翻訳日:2022-12-08 23:34:57 公開日:2020-04-28
# 軽快な手指再建のための時間的光度一貫性の活用

Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction ( http://arxiv.org/abs/2004.13449v1 )

ライセンス: Link先を確認
Yana Hasson, Bugra Tekin, Federica Bogo, Ivan Laptev, Marc Pollefeys, Cordelia Schmid(参考訳) ハンドオブジェクト操作のモデリングは、人間が環境とどのように相互作用するかを理解するのに不可欠である。 実用上重要であるが、操作中に生じる大きな相互閉塞のため、相互作用中の手や物体の姿勢の推定は困難である。 近年,大量のラベル付きトレーニングサンプルを必要とする完全教師あり手法への取り組みが進められている。 しかし、ハンドオブジェクトインタラクションのための3d地上データ収集は、コストがかかり、退屈で、エラーが発生しやすい。 この課題を克服するために,ビデオ中のフレームのばらばらなサブセットに対してのみアノテーションを利用できる場合に,時間にわたって測光一貫性を活用する手法を提案する。 私たちのモデルは、カラーイメージをエンドツーエンドで訓練し、ポーズを推測して手と物体を3dで共同的に再構築する。 推定した再構成から、隣接する画像のペア間の光の流れを別々に描画し、ネットワーク内で別のフレームにワープする。 次に、近接画像間の視覚的一貫性に依存する自己教師付き測光損失を適用する。 提案手法は, 3次元手オブジェクト再構成ベンチマークの最先端結果を実現し, 低データ環境における近隣フレームの情報を活用することで, ポーズ推定精度を向上させることができることを示した。

Modeling hand-object manipulations is essential for understanding how humans interact with their environment. While of practical importance, estimating the pose of hands and objects during interactions is challenging due to the large mutual occlusions that occur during manipulation. Recent efforts have been directed towards fully-supervised methods that require large amounts of labeled training samples. Collecting 3D ground-truth data for hand-object interactions, however, is costly, tedious, and error-prone. To overcome this challenge we present a method to leverage photometric consistency across time when annotations are only available for a sparse subset of frames in a video. Our model is trained end-to-end on color images to jointly reconstruct hands and objects in 3D by inferring their poses. Given our estimated reconstructions, we differentiably render the optical flow between pairs of adjacent images and use it within the network to warp one frame to another. We then apply a self-supervised photometric loss that relies on the visual consistency between nearby images. We achieve state-of-the-art results on 3D hand-object reconstruction benchmarks and demonstrate that our approach allows us to improve the pose estimation accuracy by leveraging information from neighboring frames in low-data regimes.
翻訳日:2022-12-08 23:28:35 公開日:2020-04-28
# 画像認識のための自己注意の探索

Exploring Self-attention for Image Recognition ( http://arxiv.org/abs/2004.13621v1 )

ライセンス: Link先を確認
Hengshuang Zhao, Jiaya Jia, Vladlen Koltun(参考訳) 近年の研究では、自己注意が画像認識モデルの基本的なビルディングブロックとして機能することが示されている。 自己着脱の多様性を調査し,画像認識における有効性を評価する。 我々は2種類の自己注意を考える。 これは標準的な点積の注意を一般化し、基本的には集合作用素である。 もう1つはパッチワイドな自己認識であり、畳み込みよりも厳格に強力です。 我々のペアワイズ・セルフアテンション・ネットワークは、彼らの畳み込みベースラインにマッチまたは上回り、パッチワイズモデルは畳み込みベースラインを大幅に上回ります。 また、学習した表現の頑健さを探索する実験を行い、自己注意ネットワークは頑健性と一般化の観点から大きな利益をもたらす可能性があると結論づける。

Recent work has shown that self-attention can serve as a basic building block for image recognition models. We explore variations of self-attention and assess their effectiveness for image recognition. We consider two forms of self-attention. One is pairwise self-attention, which generalizes standard dot-product attention and is fundamentally a set operator. The other is patchwise self-attention, which is strictly more powerful than convolution. Our pairwise self-attention networks match or outperform their convolutional counterparts, and the patchwise models substantially outperform the convolutional baselines. We also conduct experiments that probe the robustness of learned representations and conclude that self-attention networks may have significant benefits in terms of robustness and generalization.
翻訳日:2022-12-08 23:27:44 公開日:2020-04-28
# 詳細:サンプル選択とラベル条件付けにより皮膚病変のセグメンテーションが改善

Less is More: Sample Selection and Label Conditioning Improve Skin Lesion Segmentation ( http://arxiv.org/abs/2004.13856v1 )

ライセンス: Link先を確認
Vinicius Ribeiro, Sandra Avila, Eduardo Valle(参考訳) 皮膚病変の分割画像は, それ自体と病変分類支援に関係しているが, 注釈データ取得の難しさに苦しむ。 本研究は,アノテータ間の最高の合意でトレーニングサンプルを選定し,過剰な詳細を除去するために接地トラスマスクを調整することにより,より少ないデータでセグメンテーションを改善できることを示す。 我々は,3つの異なるテストセット,2つの異なるディープラーニングアーキテクチャ,複数回のレプリケーションを含む,いくつかの変化源を考慮した総合的な実験設計を行い,合計540回の実験を行った。 その結果、より優れたディープラーニングモデルを選択することで得られたサンプルの12%と16%にそれぞれ影響があることが分かった。

Segmenting skin lesions images is relevant both for itself and for assisting in lesion classification, but suffers from the challenge in obtaining annotated data. In this work, we show that segmentation may improve with less data, by selecting the training samples with best inter-annotator agreement, and conditioning the ground-truth masks to remove excessive detail. We perform an exhaustive experimental design considering several sources of variation, including three different test sets, two different deep-learning architectures, and several replications, for a total of 540 experimental runs. We found that sample selection and detail removal may have impacts corresponding, respectively, to 12% and 16% of the one obtained by picking a better deep-learning model.
翻訳日:2022-12-08 23:26:19 公開日:2020-04-28
# 深部再同定モデルの心理的評価

Psychophysical Evaluation of Deep Re-Identification Models ( http://arxiv.org/abs/2005.02136v1 )

ライセンス: Link先を確認
Hamish Nicholson(参考訳) 歩行者再識別(Pedestrian re-identification, ReID)は、時間とカメラのビューを通して同一の個人認識を行うタスクである。 歩行者のReIDと彼らのGPUの研究者たちは、新しいアルゴリズム、挑戦的なデータセット、そして標準メトリクスの結果を改善するために容易にアクセスできるツールなど、膨大なエネルギーを費やす。 異なる検出、わずかなオクルージョン、視点の変化、その他の乱れは、最高のニューラルネットワークを事実上役に立たないものにします。 この作品には2つの貢献がある。 まず,reidコミュニティを,モデル評価におけるコンピュータビジョン研究の芽生えた領域に導入する。 精神物理学的評価の確立された原則をファシズムから適用することにより、性能劣化を定量化し、歩行者ReIDモデルの有用性を向上する研究を開始することができる。 次に,redalgorithmsが使用される現実の自動運転車の状況を反映した,新たなreidデータセットであるnuscenesreidを紹介する。 既存のreiddatasetではうまく機能するが、ほとんどのモデルは合成拡張やより現実的なnuscenesreidデータには耐えられない。

Pedestrian re-identification (ReID) is the task of continuously recognising the sameindividual across time and camera views. Researchers of pedestrian ReID and theirGPUs spend enormous energy producing novel algorithms, challenging datasets,and readily accessible tools to successfully improve results on standard metrics.Yet practitioners in biometrics, surveillance, and autonomous driving have not re-alized benefits that reflect these metrics. Different detections, slight occlusions,changes in perspective, and other banal perturbations render the best neural net-works virtually useless. This work makes two contributions. First, we introducethe ReID community to a budding area of computer vision research in model eval-uation. By adapting established principles of psychophysical evaluation from psy-chology, we can quantify the performance degradation and begin research thatwill improve the utility of pedestrian ReID models; not just their performance ontest sets. Second, we introduce NuscenesReID, a challenging new ReID datasetdesigned to reflect the real world autonomous vehicle conditions in which ReIDalgorithms are used. We show that, despite performing well on existing ReIDdatasets, most models are not robust to synthetic augmentations or to the morerealistic NuscenesReID data.
翻訳日:2022-12-08 23:26:04 公開日:2020-04-28
# 科学文献における意味の情報空間

Informational Space of Meaning for Scientific Texts ( http://arxiv.org/abs/2004.13717v1 )

ライセンス: Link先を確認
Neslihan Suzen, Evgeny M. Mirkes, Alexander N. Gorban(参考訳) 自然言語処理では,テキストの意味の自動抽出が重要な問題となっている。 私たちの焦点は、短い科学文書の意味(要約や簡単な報告)の計算分析です。 本稿では,単語やテキストの意味を定量化するベクトル空間モデルを開発した。 本稿では,単語の意味をテキスト中の単語の観察から得られる対象カテゴリについて,相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。 この手法を適用して,Licester Scientific Corpus (LSC) とLeicester Scientific Dictionary-Core (LScDC) に基づく意味空間を構築する。 LSCは1,673,350の抽象語からなる科学コーパスであり、LScDCはLSCから単語を抽出する科学辞書である。 LSCの各テキストは、Web of Science(WoS)の252のカテゴリのうちの少なくとも1つに属している。 これらのカテゴリは情報ゲインのベクトルの構築に使用される。 意味空間は lscdc を用いて lsc に対して記述され統計的に解析される。 提案する表現モデルの有用性は,各カテゴリのトップランク語を用いて評価する。 最も情報性の高いn語が注文される。 我々は,リグに基づく単語ランキングが,単語の科学固有の意味と重要性を決定する上で,生語の頻度に基づくランキングよりも有用であることを示す。 RIGに基づくモデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。 最も有意義な単語は252のカテゴリで示される。 新しい科学辞書と103,998 x 252 Word-Category RIG Matrixがオンラインで入手できる。 意味空間の分析は、単語とその組み合わせの共起を利用したより複雑で文脈に依存した意味モデルを用いて、テキストの意味を定量化するツールを提供する。

In Natural Language Processing, automatic extracting the meaning of texts constitutes an important problem. Our focus is the computational analysis of meaning of short scientific texts (abstracts or brief reports). In this paper, a vector space model is developed for quantifying the meaning of words and texts. We introduce the Meaning Space, in which the meaning of a word is represented by a vector of Relative Information Gain (RIG) about the subject categories that the text belongs to, which can be obtained from observing the word in the text. This new approach is applied to construct the Meaning Space based on Leicester Scientific Corpus (LSC) and Leicester Scientific Dictionary-Core (LScDC). The LSC is a scientific corpus of 1,673,350 abstracts and the LScDC is a scientific dictionary which words are extracted from the LSC. Each text in the LSC belongs to at least one of 252 subject categories of Web of Science (WoS). These categories are used in construction of vectors of information gains. The Meaning Space is described and statistically analysed for the LSC with the LScDC. The usefulness of the proposed representation model is evaluated through top-ranked words in each category. The most informative n words are ordered. We demonstrated that RIG-based word ranking is much more useful than ranking based on raw word frequency in determining the science-specific meaning and importance of a word. The proposed model based on RIG is shown to have ability to stand out topic-specific words in categories. The most informative words are presented for 252 categories. The new scientific dictionary and the 103,998 x 252 Word-Category RIG Matrix are available online. Analysis of the Meaning Space provides us with a tool to further explore quantifying the meaning of a text using more complex and context-dependent meaning models that use co-occurrence of words and their combinations.
翻訳日:2022-12-08 23:25:46 公開日:2020-04-28
# 観察による行動クローンの強化

Augmented Behavioral Cloning from Observation ( http://arxiv.org/abs/2004.13529v1 )

ライセンス: Link先を確認
Juarez Monteiro, Nathan Gavenski, Roger Granada, Felipe Meneguzzi and Rodrigo Barros(参考訳) 観察からの模倣(imitation from observation)は、専門家のデモンストレーションからの状態のシーケンスのみを観察し、専門家の振る舞いを模倣する方法をエージェントに教える計算技術である。 最近のアプローチでは,実演データを変更しながら両モデルのエポックをインターリーブすることで,環境の逆ダイナミクスと模倣ポリシーを学習している。 しかし、そのようなアプローチは、しばしば専門家から遠く離れた準最適解に固執し、模倣の有効性を制限される。 我々は,この問題を,まずい局所的ミニマに到達するという問題を克服する新しいアプローチで解決する: (i) 状態の全体的特徴をよりよく捉える自己追跡機構,および (ii) 学習に使用される観察を規制するサンプリング戦略。 我々は4つの異なる環境における最先端のアプローチよりも大きなマージンで優れていることを実証的に示す。

Imitation from observation is a computational technique that teaches an agent on how to mimic the behavior of an expert by observing only the sequence of states from the expert demonstrations. Recent approaches learn the inverse dynamics of the environment and an imitation policy by interleaving epochs of both models while changing the demonstration data. However, such approaches often get stuck into sub-optimal solutions that are distant from the expert, limiting their imitation effectiveness. We address this problem with a novel approach that overcomes the problem of reaching bad local minima by exploring: (I) a self-attention mechanism that better captures global features of the states; and (ii) a sampling strategy that regulates the observations that are used for learning. We show empirically that our approach outperforms the state-of-the-art approaches in four different environments by a large margin.
翻訳日:2022-12-08 23:19:33 公開日:2020-04-28
# オンライン報酬機能学習の落とし穴

Pitfalls of learning a reward function online ( http://arxiv.org/abs/2004.13654v1 )

ライセンス: Link先を確認
Stuart Armstrong and Jan Leike and Laurent Orseau and Shane Legg(参考訳) 逆強化学習のようなエージェント設計では、エージェントは独自の報酬関数を学ぶ必要がある。 報酬関数の学習と最適化は通常2つの異なるプロセスであり、通常は異なるステージで実行される。 我々は、エージェントが報酬関数を学習し、同時にそれを最適化する連続的な( ``one life'')学習アプローチを考える。 例えば、学習プロセスを一方向に意図的に操作すること、学習を拒否すること、エージェントがすでに知っている「学習」の事実、(すべての関連する報酬関数に対して)厳格に支配される決定を行うことである。 1つは‘unriggability’であり、エージェントが最適化が容易な報酬関数の方向に学習プロセスを制御できないようにする。 2つ目は'uninfluenceability'であり、報酬関数学習プロセスは環境に関する事実を学習することによって行われる。 インフルエンスブルなプロセスは自動的に解き放たれず、可能な環境の集合が十分に豊かであれば、逆もまた真であることを示す。

In some agent designs like inverse reinforcement learning an agent needs to learn its own reward function. Learning the reward function and optimising for it are typically two different processes, usually performed at different stages. We consider a continual (``one life'') learning approach where the agent both learns the reward function and optimises for it at the same time. We show that this comes with a number of pitfalls, such as deliberately manipulating the learning process in one direction, refusing to learn, ``learning'' facts already known to the agent, and making decisions that are strictly dominated (for all relevant reward functions). We formally introduce two desirable properties: the first is `unriggability', which prevents the agent from steering the learning process in the direction of a reward function that is easier to optimise. The second is `uninfluenceability', whereby the reward-function learning process operates by learning facts about the environment. We show that an uninfluenceable process is automatically unriggable, and if the set of possible environments is sufficiently rich, the converse is true too.
翻訳日:2022-12-08 23:19:19 公開日:2020-04-28
# 確率的オートマタを用いた行動の時間成分推定

Inferring Temporal Compositions of Actions Using Probabilistic Automata ( http://arxiv.org/abs/2004.13217v1 )

ライセンス: Link先を確認
Rodrigo Santa Cruz, Anoop Cherian, Basura Fernando, Dylan Campbell, and Stephen Gould(参考訳) 本稿では,映像中の原子活動の時間的構成を認識する枠組みを提案する。 具体的には,動作の時間的構成を意味的正規表現として表現し,確率的オートマトンを用いた推論フレームワークを導出し,入力映像特徴のこれらの表現を満足する複雑な動作を認識することを提案する。 我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得する既存の作業とは異なる。 その代わり、提案されたアプローチでは、事前訓練されたアクション分類器のみを使用して、追加のデータやアノテーション、ニューラルネットワークトレーニングを必要とせずに、複雑なきめ細かいアクティビティを認識できる。 提案手法の有効性を評価するため,合成データセットの実験を行い,MultiTHUMOSやCharadesといった実行動認識データセットに挑戦する。 提案手法は,最先端のプリミティブアクション分類器を,大幅なパフォーマンス劣化を伴わずに非常に複雑なアクティビティに拡張できる。

This paper presents a framework to recognize temporal compositions of atomic actions in videos. Specifically, we propose to express temporal compositions of actions as semantic regular expressions and derive an inference framework using probabilistic automata to recognize complex actions as satisfying these expressions on the input video features. Our approach is different from existing works that either predict long-range complex activities as unordered sets of atomic actions, or retrieve videos using natural language sentences. Instead, the proposed approach allows recognizing complex fine-grained activities using only pretrained action classifiers, without requiring any additional data, annotations or neural network training. To evaluate the potential of our approach, we provide experiments on synthetic datasets and challenging real action recognition datasets, such as MultiTHUMOS and Charades. We conclude that the proposed approach can extend state-of-the-art primitive action classifiers to vastly more complex activities without large performance degradation.
翻訳日:2022-12-08 23:18:59 公開日:2020-04-28
# 多次元感情認識のための逐次学習型ディープオートエンコーダ

Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional Emotion Recognition ( http://arxiv.org/abs/2004.13236v1 )

ライセンス: Link先を確認
Dung Nguyen, Duc Thanh Nguyen, Rui Zeng, Thanh Thi Nguyen, Son N. Tran, Thin Nguyen, Sridha Sridharan, and Clinton Fookes(参考訳) マルチモーダル次元感情認識(multimodal dimensional emotion recognition)は、情緒的コンピューティングコミュニティから大きな注目を集め、多くのスキームが広範囲に研究され、この分野で大きな進歩を遂げた。 しかし、既存のアプローチの多くについては、まだいくつかの疑問が残されている。 i)マルチモーダルデータからコンパクトかつ代表的な特徴を同時に学習する方法 (ii)マルチモーダルストリームから相補的な機能を効果的に捉える方法 (iii)エンドツーエンドですべてのタスクを実行する方法。 本稿では,この課題に対処するために,2ストリームの自動エンコーダと,感情認識のための視覚信号と音声信号ストリームを効果的に統合する長期記憶を備えた,新しいディープニューラルネットワークアーキテクチャを提案する。 提案アーキテクチャのロバスト性を検証するため,野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。 実験の結果,提案手法は最先端の認識性能を達成し,既存の手法を大幅に超えていることがわかった。

Multimodal dimensional emotion recognition has drawn a great attention from the affective computing community and numerous schemes have been extensively investigated, making a significant progress in this area. However, several questions still remain unanswered for most of existing approaches including: (i) how to simultaneously learn compact yet representative features from multimodal data, (ii) how to effectively capture complementary features from multimodal streams, and (iii) how to perform all the tasks in an end-to-end manner. To address these challenges, in this paper, we propose a novel deep neural network architecture consisting of a two-stream auto-encoder and a long short term memory for effectively integrating visual and audio signal streams for emotion recognition. To validate the robustness of our proposed architecture, we carry out extensive experiments on the multimodal emotion in the wild dataset: RECOLA. Experimental results show that the proposed method achieves state-of-the-art recognition performance and surpasses existing schemes by a significant margin.
翻訳日:2022-12-08 23:18:43 公開日:2020-04-28
# Dense Feature Fusion を用いたマルチスケールブースト脱ハージングネットワーク

Multi-Scale Boosted Dehazing Network with Dense Feature Fusion ( http://arxiv.org/abs/2004.13388v1 )

ライセンス: Link先を確認
Hang Dong, Jinshan Pan, Lei Xiang, Zhe Hu, Xinyi Zhang, Fei Wang, Ming-Hsuan Yang(参考訳) 本稿では,U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。 提案手法は,2つの原理,すなわち促進と誤りフィードバックに基づいて設計され,デハージング問題に適したものであることを示す。 提案するモデルのデコーダに強化演算サブトラクションブースティング戦略を組み込むことで,ハイズフリー画像の段階的復元を行うための,単純かつ効果的に高速化されたデコーダを開発する。 U-Netアーキテクチャにおける空間情報保存の問題に対処するため,バックプロジェクションフィードバック方式を用いて高密度な特徴融合モジュールを設計する。 高密度機能融合モジュールは,高分解能特徴から失われた空間情報を同時に修正し,非隣接特徴を活用できることを示す。 大規模な評価では,提案モデルがベンチマークデータセットや実世界のハズイ画像に対して,最先端のアプローチに対して良好に動作することを示す。

In this paper, we propose a Multi-Scale Boosted Dehazing Network with Dense Feature Fusion based on the U-Net architecture. The proposed method is designed based on two principles, boosting and error feedback, and we show that they are suitable for the dehazing problem. By incorporating the Strengthen-Operate-Subtract boosting strategy in the decoder of the proposed model, we develop a simple yet effective boosted decoder to progressively restore the haze-free image. To address the issue of preserving spatial information in the U-Net architecture, we design a dense feature fusion module using the back-projection feedback scheme. We show that the dense feature fusion module can simultaneously remedy the missing spatial information from high-resolution features and exploit the non-adjacent features. Extensive evaluations demonstrate that the proposed model performs favorably against the state-of-the-art approaches on the benchmark datasets as well as real-world hazy images.
翻訳日:2022-12-08 23:16:52 公開日:2020-04-28
# 不自然な言語処理: 合成データと自然言語データのギャップを埋める

Unnatural Language Processing: Bridging the Gap Between Synthetic and Natural Language Data ( http://arxiv.org/abs/2004.13645v1 )

ライセンス: Link先を確認
Alana Marzoev, Samuel Madden, M. Frans Kaashoek, Michael Cafarella, Jacob Andreas(参考訳) 人間の注釈付き大規模データセットは、自然言語処理モデルの開発の中心である。 これらのデータセットの収集は、開発プロセスの最も難しい部分です。 本稿では,対象行動の限定セットを用いた言語理解問題において,「実環境へのシミュレーション」伝達のための汎用的手法を導入することで,自然発話を自然学習データなしで解釈可能なモデルの開発を可能にした。 まず、合成データ生成手順から始め、データ生成装置が生成した発話を正確に解釈できるモデルを訓練する。 自然発話を一般化するために, 学習文埋め込みを用いて, 合成言語のサポートに対する自然言語発話のプロジェクションを自動的に検出し, 距離メートル法を定義する。 人工的なトレーニングデータだけで、我々のアプローチはいくつかのドメインで自然言語データに基づいてトレーニングされた最先端のモデルと一致または性能を向上します。 これらの結果から,シミュレーション・トゥ・リアル・トランスファーはNLPアプリケーション開発のための実践的なフレームワークであり,トランスファーモデルの改善が下流タスクの幅広い改善をもたらす可能性が示唆された。

Large, human-annotated datasets are central to the development of natural language processing models. Collecting these datasets can be the most challenging part of the development process. We address this problem by introducing a general purpose technique for ``simulation-to-real'' transfer in language understanding problems with a delimited set of target behaviors, making it possible to develop models that can interpret natural utterances without natural training data. We begin with a synthetic data generation procedure, and train a model that can accurately interpret utterances produced by the data generator. To generalize to natural utterances, we automatically find projections of natural language utterances onto the support of the synthetic language, using learned sentence embeddings to define a distance metric. With only synthetic training data, our approach matches or outperforms state-of-the-art models trained on natural language data in several domains. These results suggest that simulation-to-real transfer is a practical framework for developing NLP applications, and that improved models for transfer might provide wide-ranging improvements in downstream tasks.
翻訳日:2022-12-08 23:09:55 公開日:2020-04-28
# logicalfactchecker: graph module networkによるファクトチェックのための論理操作の活用

LogicalFactChecker: Leveraging Logical Operations for Fact Checking with Graph Module Network ( http://arxiv.org/abs/2004.13659v1 )

ライセンス: Link先を確認
Wanjun Zhong, Duyu Tang, Zhangyin Feng, Nan Duan, Ming Zhou, Ming Gong, Linjun Shou, Daxin Jiang, Jiahai Wang, Jian Yin(参考訳) テキスト文の正確性を検証するには、単語の意味に関する意味的推論だけでなく、数、最上級、集約など論理演算に関する記号的推論も必要となる。 本稿では,論理演算をファクトチェックに活用可能なニューラルネットワークアプローチであるlogicalfactcheckerを提案する。 TABFACTは、半構造化テーブルでテキストステートメントを検証するために構築された大規模なベンチマークデータセットである。 これはTransformerベースのアーキテクチャ上に構築されたグラフモジュールネットワークによって実現される。 テキスト文とテーブルを入力として、論理ファクトチェッカーは自動的にその文のプログラム(すなわち論理形式)を意味解析形式で導出する。 ヘテロジニアスグラフは、テーブルとプログラムの構造だけでなく、異なるモジュラリティを持つ入力間の接続をキャプチャするために構築される。 このようなグラフは、文、表、プログラムの各単語の関連するコンテキストを明らかにする。 このグラフは、Transformerベースのアーキテクチャで単語の文脈表現をグラフ化するために使用される。 その後、プログラム駆動モジュールネットワークがさらに導入され、プログラムの階層構造を利用し、意味的構成性がプログラム構造に沿って関数固有のモジュール群で動的にモデル化される。 アブレーション実験は、不均一グラフとモジュールネットワークの両方が強い結果を得るために重要であることを示唆する。

Verifying the correctness of a textual statement requires not only semantic reasoning about the meaning of words, but also symbolic reasoning about logical operations like count, superlative, aggregation, etc. In this work, we propose LogicalFactChecker, a neural network approach capable of leveraging logical operations for fact checking. It achieves the state-of-the-art performance on TABFACT, a large-scale, benchmark dataset built for verifying a textual statement with semi-structured tables. This is achieved by a graph module network built upon the Transformer-based architecture. With a textual statement and a table as the input, LogicalFactChecker automatically derives a program (a.k.a. logical form) of the statement in a semantic parsing manner. A heterogeneous graph is then constructed to capture not only the structures of the table and the program, but also the connections between inputs with different modalities. Such a graph reveals the related contexts of each word in the statement, the table and the program. The graph is used to obtain graph-enhanced contextual representations of words in Transformer-based architecture. After that, a program-driven module network is further introduced to exploit the hierarchical structure of the program, where semantic compositionality is dynamically modeled along the program structure with a set of function-specific modules. Ablation experiments suggest that both the heterogeneous graph and the module network are important to obtain strong results.
翻訳日:2022-12-08 23:09:39 公開日:2020-04-28
# 意味変化検出のための時間による単語表現の自動符号化

Autoencoding Word Representations through Time for Semantic Change Detection ( http://arxiv.org/abs/2004.13703v1 )

ライセンス: Link先を確認
Adam Tsakalidis and Maria Liakata(参考訳) 意味変化検出は、時間とともに意味が変化した単語を識別するタスクに関するものである。 現在の最先端は、そのベクトル表現を2つの異なる期間で比較することで、単語の意味的変化のレベルを検出する。 本研究では,意味的にシフトした単語を検出するための3種類の逐次モデルを提案し,時間とともに単語表現の変化を時間的に敏感な方法で効果的に考慮する。 合成データと実データの両方を用いた広範囲な実験を通して, 意味が最も変化した単語を検出するために, 単語ベクトルの逐次モデリングが重要であることを示す。 最後に,単語表現の時間的モデリングが性能において明らかな優位性をもたらすことを示すことによって,異なるアプローチを定量的に比較する。

Semantic change detection concerns the task of identifying words whose meaning has changed over time. The current state-of-the-art detects the level of semantic change in a word by comparing its vector representation in two distinct time periods, without considering its evolution through time. In this work, we propose three variants of sequential models for detecting semantically shifted words, effectively accounting for the changes in the word representations over time, in a temporally sensitive manner. Through extensive experimentation under various settings with both synthetic and real data we showcase the importance of sequential modelling of word vectors through time for detecting the words whose semantics have changed the most. Finally, we take a step towards comparing different approaches in a quantitative manner, demonstrating that the temporal modelling of word representations yields a clear-cut advantage in performance.
翻訳日:2022-12-08 23:09:02 公開日:2020-04-28
# DomBERT:アスペクトベースの知覚分析のためのドメイン指向言語モデル

DomBERT: Domain-oriented Language Model for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2004.13816v1 )

ライセンス: Link先を確認
Hu Xu, Bing Liu, Lei Shu, Philip S. Yu(参考訳) 本稿では,汎用言語モデル(elmo や bert など)とドメイン固有言語理解の両世界を結合することを目的とした,エンドタスクによるドメイン指向言語モデルの学習に焦点を当てる。 本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。 これは低リソースでドメイン言語モデルを学ぶのに役立つ。 アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。

This paper focuses on learning domain-oriented language models driven by end tasks, which aims to combine the worlds of both general-purpose language models (such as ELMo and BERT) and domain-specific language understanding. We propose DomBERT, an extension of BERT to learn from both in-domain corpus and relevant domain corpora. This helps in learning domain language models with low-resources. Experiments are conducted on an assortment of tasks in aspect-based sentiment analysis, demonstrating promising results.
翻訳日:2022-12-08 23:08:37 公開日:2020-04-28
# リカレントニューラルネットワークはいかにカオスか?

How Chaotic Are Recurrent Neural Networks? ( http://arxiv.org/abs/2004.13838v1 )

ライセンス: Link先を確認
Pourya Vakilipourtakalou, Lili Mou(参考訳) リカレントニューラルネットワーク(RNN)は非線形力学系である。 以前の研究は、RNNがカオスの現象に悩まされ、システムは初期状態に敏感であり、長期的には予測不可能である、と信じていた。 しかし,本稿では,バニラや長期記憶(LSTM)RNNがテキスト生成などの実アプリケーションにおいて,トレーニングプロセスに沿ってカオスな動作を示さないという,系統的な実証分析を行った。 この方向の今後の研究は、RNNの非線形力学の反対側に対処すべきである。

Recurrent neural networks (RNNs) are non-linear dynamic systems. Previous work believes that RNN may suffer from the phenomenon of chaos, where the system is sensitive to initial states and unpredictable in the long run. In this paper, however, we perform a systematic empirical analysis, showing that a vanilla or long short term memory (LSTM) RNN does not exhibit chaotic behavior along the training process in real applications such as text generation. Our findings suggest that future work in this direction should address the other side of non-linear dynamics for RNN.
翻訳日:2022-12-08 23:08:23 公開日:2020-04-28
# HAPRec:ハイブリッドアクティビティとプラン認識

HAPRec: Hybrid Activity and Plan Recognizer ( http://arxiv.org/abs/2004.13482v1 )

ライセンス: Link先を確認
Roger Granada and Ramon Fraga Pereira and Juarez Monteiro and Leonardo Amado and Rodrigo C. Barros and Duncan Ruiz and Felipe Meneguzzi(参考訳) コンピュータベースのアシスタントは最近、環境支援生活に適用できるため、多くの関心を集めている。 このようなアシスタントは、支援する人間が行う高度な活動や目標を検出し、認識しなければならない。 本研究では,映像の主題が追求している目標を特定するために,室内環境における活動認識を実証する。 提案手法は,アクション認識モジュールとゴール認識アルゴリズムを組み合わせることで,映像中の対象の究極の目標を識別する。

Computer-based assistants have recently attracted much interest due to its applicability to ambient assisted living. Such assistants have to detect and recognize the high-level activities and goals performed by the assisted human beings. In this work, we demonstrate activity recognition in an indoor environment in order to identify the goal towards which the subject of the video is pursuing. Our hybrid approach combines an action recognition module and a goal recognition algorithm to identify the ultimate goal of the subject in the video.
翻訳日:2022-12-08 23:07:30 公開日:2020-04-28
# 極低リソース言語で低パフォーマンスなPOSタガーを弱修正

Weakly Supervised POS Taggers Perform Poorly on Truly Low-Resource Languages ( http://arxiv.org/abs/2004.13305v1 )

ライセンス: Link先を確認
Katharina Kann, Oph\'elie Lacroix, Anders S{\o}gaard(参考訳) 言語間移動、型レベルの監督、あるいはその組み合わせなど、様々な種類の弱監督に基づく低リソース言語のための部分音声(POS)タグが、ほぼ同様に機能することが報告されている。 しかし、弱い教師付きPOSタグは通常、真の低リソース言語と非常に異なる言語でのみ評価され、タグは、高カバレッジやほとんどエラーのない辞書のような情報のソースを使用する。 我々は15の真の低リソース言語に対して,最先端に教師付きPOSタグを訓練し,評価する。 これらの言語では、現実的な量のリソースを考えると、最良のモデルでさえ、単語の半分以下しか得られません。 我々の結果は、本当に低リソース言語に対するPOSタグ付けに対する新しい異なるアプローチの必要性を強調します。

Part-of-speech (POS) taggers for low-resource languages which are exclusively based on various forms of weak supervision - e.g., cross-lingual transfer, type-level supervision, or a combination thereof - have been reported to perform almost as well as supervised ones. However, weakly supervised POS taggers are commonly only evaluated on languages that are very different from truly low-resource languages, and the taggers use sources of information, like high-coverage and almost error-free dictionaries, which are likely not available for resource-poor languages. We train and evaluate state-of-the-art weakly supervised POS taggers for a typologically diverse set of 15 truly low-resource languages. On these languages, given a realistic amount of resources, even our best model gets only less than half of the words right. Our results highlight the need for new and different approaches to POS tagging for truly low-resource languages.
翻訳日:2022-12-08 23:01:12 公開日:2020-04-28
# 自然言語理解のためのsemantics-aware inferential network

Semantics-Aware Inferential Network for Natural Language Understanding ( http://arxiv.org/abs/2004.13338v1 )

ライセンス: Link先を確認
Shuailiang Zhang, Hai Zhao, Junru Zhou(参考訳) 機械読解や自然言語推論といった自然言語理解タスクでは、セマンティクス認識と推論の両方が、パフォーマンスをよりよく理解するためのモデリングの好都合な特徴である。 そこで我々は,このようなモチベーションを満たすためのセマンティックス対応推論ネットワーク(SAIN)を提案する。 SAINの推論モジュールは、明示的な文脈化されたセマンティクスを補完的な入力として捉え、アテンションメカニズムを通じてセマンティクスのヒントに対する一連の推論ステップを可能にする。 これらのステップを文字列化することで、推論ネットワークは、明示的な意味論と文脈化された表現の両方を組み込んだ反復推論の実行を効果的に学習する。 フロントエンドエンコーダとして訓練済みの言語モデルに関しては,機械読解や自然言語推論を含む11のタスクにおいて,大幅な改善を実現している。

For natural language understanding tasks, either machine reading comprehension or natural language inference, both semantics-aware and inference are favorable features of the concerned modeling for better understanding performance. Thus we propose a Semantics-Aware Inferential Network (SAIN) to meet such a motivation. Taking explicit contextualized semantics as a complementary input, the inferential module of SAIN enables a series of reasoning steps over semantic clues through an attention mechanism. By stringing these steps, the inferential network effectively learns to perform iterative reasoning which incorporates both explicit semantics and contextualized representations. In terms of well pre-trained language models as front-end encoder, our model achieves significant improvement on 11 tasks including machine reading comprehension and natural language inference.
翻訳日:2022-12-08 23:00:23 公開日:2020-04-28
# 不連続NERの効率的な遷移モデル

An Effective Transition-based Model for Discontinuous NER ( http://arxiv.org/abs/2004.13454v1 )

ライセンス: Link先を確認
Xiang Dai and Sarvnaz Karimi and Ben Hachey and Cecile Paris(参考訳) 一般的なドメインで広く使われている名前付きエンティティ認識(NER)データセットとは異なり、バイオメディカルNERデータセットは不連続なスパンからなる参照を含むことが多い。 マルコフの仮定を符号化する従来のシーケンスタグ技術は効率的だがこれらの言及の回復を妨げている。 非連続NERのための汎用ニューラルネットワークを用いた単純かつ効果的な遷移モデルを提案する。 3つのバイオメディカルデータセットに関する広範な実験により、連続的な言及の精度を犠牲にすることなく、不連続な言及を効果的に認識できることを示す。

Unlike widely used Named Entity Recognition (NER) data sets in generic domains, biomedical NER data sets often contain mentions consisting of discontinuous spans. Conventional sequence tagging techniques encode Markov assumptions that are efficient but preclude recovery of these mentions. We propose a simple, effective transition-based model with generic neural encoding for discontinuous NER. Through extensive experiments on three biomedical data sets, we show that our model can effectively recognize discontinuous mentions without sacrificing the accuracy on continuous mentions.
翻訳日:2022-12-08 23:00:09 公開日:2020-04-28
# 恥ずかしいほど単純で教師なしのアスペクト抽出

Embarrassingly Simple Unsupervised Aspect Extraction ( http://arxiv.org/abs/2004.13580v1 )

ライセンス: Link先を確認
St\'ephan Tulkens, Andreas van Cranenburgh(参考訳) 本稿では,感情分析におけるアスペクト識別法を提案する。 我々の教師なし手法は単語の埋め込みとPOSタグしか必要とせず、新しいドメインや言語にも簡単に適用できる。 本稿では,RBFカーネルをベースとした新しいシングルヘッドアテンション機構であるContrastive Attention (CAt)を導入する。 以前の研究は構文的特徴と複雑な神経モデルに依存していた。 アスペクト抽出のための現在のベンチマークデータセットの単純さを考えると、このような複雑なモデルは必要ない。 この論文で報告された実験を再現するコードは、https://github.com/clips/catで入手できる。

We present a simple but effective method for aspect identification in sentiment analysis. Our unsupervised method only requires word embeddings and a POS tagger, and is therefore straightforward to apply to new domains and languages. We introduce Contrastive Attention (CAt), a novel single-head attention mechanism based on an RBF kernel, which gives a considerable boost in performance and makes the model interpretable. Previous work relied on syntactic features and complex neural models. We show that given the simplicity of current benchmark datasets for aspect extraction, such complex models are not needed. The code to reproduce the experiments reported in this paper is available at https://github.com/clips/cat
翻訳日:2022-12-08 22:59:59 公開日:2020-04-28
# 低リソース言語への多言語BERTの拡張

Extending Multilingual BERT to Low-Resource Languages ( http://arxiv.org/abs/2004.13640v1 )

ライセンス: Link先を確認
Zihan Wang, Karthikeyan K, Stephen Mayhew, Dan Roth(参考訳) マルチリンガルBERT (M-BERT) は教師付きおよびゼロショットのクロスリンガル変換学習において大きな成功を収めている。 しかし、この成功は、訓練されたWikipediaのトップ104言語のみに焦点を当てている。 本稿では,M-BERT(E-BERT)を拡張して,任意の新しい言語にメリットをもたらすための,シンプルかつ効果的なアプローチを提案する。 我々は、M-BERTに含まれる言語のうち16言語のみが27言語で名前付きエンティティ認識(NER)による広範な実験を行い、M-BERTにすでに存在する言語では平均6%のF1、新しい言語では23%のF1の増加を示す。

Multilingual BERT (M-BERT) has been a huge success in both supervised and zero-shot cross-lingual transfer learning. However, this success has focused only on the top 104 languages in Wikipedia that it was trained on. In this paper, we propose a simple but effective approach to extend M-BERT (E-BERT) so that it can benefit any new language, and show that our approach benefits languages that are already in M-BERT as well. We perform an extensive set of experiments with Named Entity Recognition (NER) on 27 languages, only 16 of which are in M-BERT, and show an average increase of about 6% F1 on languages that are already in M-BERT and 23% F1 increase on new languages.
翻訳日:2022-12-08 22:58:51 公開日:2020-04-28
# 逆行性ニューラルネットワークを用いた頚髄病理の同定

Identification of Cervical Pathology using Adversarial Neural Networks ( http://arxiv.org/abs/2004.13406v1 )

ライセンス: Link先を確認
Abhilash Nandy, Rachana Sathish, Debdoot Sheet(参考訳) 様々なスクリーニングと診断方法により、先進国では頚癌死亡率が大幅に低下している。 しかしながら、子宮頸癌は、特に都市部の貧困層や低所得者の間で、インドや他の低所得国(LMICs)の女性のがん関連死亡の主な原因となっている。 細胞診検査、HPV検査など、いくつかの高度な技術が子宮頸癌のスクリーニングに広く用いられている。 これらのテストは本質的に時間がかかります。 本稿では,segnetに類似したアーキテクチャを持つ畳み込み型オートエンコーダベースのフレームワークを提案する。 我々は,intel-mobile odt頚部画像分類データセットの性能を検証する。 提案手法は、ImageNetデータベース上で事前トレーニングされた微調整畳み込みニューラルネットワークを73.75%の平均精度で高速化する。

Various screening and diagnostic methods have led to a large reduction of cervical cancer death rates in developed countries. However, cervical cancer is the leading cause of cancer related deaths in women in India and other low and middle income countries (LMICs) especially among the urban poor and slum dwellers. Several sophisticated techniques such as cytology tests, HPV tests etc. have been widely used for screening of cervical cancer. These tests are inherently time consuming. In this paper, we propose a convolutional autoencoder based framework, having an architecture similar to SegNet which is trained in an adversarial fashion for classifying images of the cervix acquired using a colposcope. We validate performance on the Intel-Mobile ODT cervical image classification dataset. The proposed method outperforms the standard technique of fine-tuning convolutional neural networks pre-trained on ImageNet database with an average accuracy of 73.75%.
翻訳日:2022-12-08 22:51:55 公開日:2020-04-28
# 合成データ拡張によるデータセットバイアスの低減

Deflating Dataset Bias Using Synthetic Data Augmentation ( http://arxiv.org/abs/2004.13866v1 )

ライセンス: Link先を確認
Nikita Jaipuria, Xianling Zhang, Rohan Bhasin, Mayar Arafa, Punarjay Chakravarty, Shubham Shrivastava, Sagar Manglani, Vidya N. Murali(参考訳) Deep Learningは、大規模オブジェクト認識データセットの公開とスケーラブルなコンピューティングハードウェアの導入以来、前例のないビジョンアプリケーションの増加を経験してきた。 自動運転車(avs)のほとんどのビジョンタスクにおける最先端の手法は教師付き学習に依存しており、ドメインシフトや外れ値への一般化に失敗することが多い。 したがってデータセットの多様性は、実世界のデプロイの成功の鍵となる。 データセットのサイズがどれほど大きくても、タスク固有の環境要因に関連する分布の長い尾を捉えることは現実的ではない。 本研究の目的は、ゲームエンジンシミュレーションとsim2realスタイル転送技術の利点を組み合わせた、視覚タスクのための実際のデータセットのギャップを埋めるために、ターゲットとなる合成データ拡張の利用を検討することである。 AVに実用的な3つの異なるコンピュータビジョンタスク(駐車スロット検出、車線検出、単眼深度推定)に関する実証的研究は、トレーニングミックスに合成データを持つことは、トレーニングセットと同じサイズで、実際のデータのみのトレーニングと比較して、データセットの一般化性能を大幅に向上させることを示した。

Deep Learning has seen an unprecedented increase in vision applications since the publication of large-scale object recognition datasets and introduction of scalable compute hardware. State-of-the-art methods for most vision tasks for Autonomous Vehicles (AVs) rely on supervised learning and often fail to generalize to domain shifts and/or outliers. Dataset diversity is thus key to successful real-world deployment. No matter how big the size of the dataset, capturing long tails of the distribution pertaining to task-specific environmental factors is impractical. The goal of this paper is to investigate the use of targeted synthetic data augmentation - combining the benefits of gaming engine simulations and sim2real style transfer techniques - for filling gaps in real datasets for vision tasks. Empirical studies on three different computer vision tasks of practical use to AVs - parking slot detection, lane detection and monocular depth estimation - consistently show that having synthetic data in the training mix provides a significant boost in cross-dataset generalization performance as compared to training on real data only, for the same size of the training set.
翻訳日:2022-12-08 22:51:41 公開日:2020-04-28
# RotEqNet:対称高次テンソルを持つ流体系の回転同変ネットワーク

RotEqNet: Rotation-Equivariant Network for Fluid Systems with Symmetric High-Order Tensors ( http://arxiv.org/abs/2005.04286v1 )

ライセンス: Link先を確認
Liyao Gao, Yifan Du, Hongshan Li, Guang Lin(参考訳) 近年の科学モデリングの応用において、機械学習モデルは流体系の計算シミュレーションを容易にするために主に応用されている。 回転対称性は、ほとんどの対称流体系の一般的な性質である。 しかし、一般に、現在の機械学習手法は回転対称性を保証する理論的方法を持たない。 高次対称テンソル上の収縮と回転操作の重要な性質を観察することにより、回転操作がテンソル収縮によって保存されることを示す。 この理論的正当化に基づき,流体系における高次テンソルの回転-等変性を保証するために,回転-等変ネットワーク(RotEqNet)を導入する。 我々は,RotEqNetを実装し,様々な流体システムに関する4つのケーススタディを通して,我々の主張を評価する。 これらのケーススタディでは, 誤差低減と回転等価性の検証を行った。 比較実験の結果,本手法はデータ拡張に依存する従来の手法よりも優れていた。

In the recent application of scientific modeling, machine learning models are largely applied to facilitate computational simulations of fluid systems. Rotation symmetry is a general property for most symmetric fluid systems. However, in general, current machine learning methods have no theoretical way to guarantee rotational symmetry. By observing an important property of contraction and rotation operation on high-order symmetric tensors, we prove that the rotation operation is preserved via tensor contraction. Based on this theoretical justification, in this paper, we introduce Rotation-Equivariant Network (RotEqNet) to guarantee the property of rotation-equivariance for high-order tensors in fluid systems. We implement RotEqNet and evaluate our claims through four case studies on various fluid systems. The property of error reduction and rotation-equivariance is verified in these case studies. Results from the comparative study show that our method outperforms conventional methods, which rely on data augmentation.
翻訳日:2022-12-08 22:50:45 公開日:2020-04-28
# KoParadigm:韓国の共役パラダイムジェネレータ

KoParadigm: A Korean Conjugation Paradigm Generator ( http://arxiv.org/abs/2004.13221v1 )

ライセンス: Link先を確認
Kyubyong Park(参考訳) 韓国語は形態的に豊かな言語である。 韓国語の動詞は、時制、ムード、発話レベル、意味などによって形を変える。 そのため、朝鮮語動詞の包括的活用パラダイムの構築は困難である。 本稿では,koparadigmと呼ばれる韓国語(verb)共用パラダイム生成器について紹介する。 我々の知る限りでは、同時代の韓国語動詞と終末を網羅する最初の韓国語活用モジュールである。 KoParadigmは言語的に十分に確立されているだけでなく、計算的にシンプルで効率的である。 PyPiで共有しています。

Korean is a morphologically rich language. Korean verbs change their forms in a fickle manner depending on tense, mood, speech level, meaning, etc. Therefore, it is challenging to construct comprehensive conjugation paradigms of Korean verbs. In this paper we introduce a Korean (verb) conjugation paradigm generator, dubbed KoParadigm. To the best of our knowledge, it is the first Korean conjugation module that covers all contemporary Korean verbs and endings. KoParadigm is not only linguistically well established, but also computationally simple and efficient. We share it via PyPi.
翻訳日:2022-12-08 22:50:11 公開日:2020-04-28
# 検索型対話システムのための会話語埋め込み

Conversational Word Embedding for Retrieval-Based Dialog System ( http://arxiv.org/abs/2004.13249v1 )

ライセンス: Link先を確認
Wentao Ma, Yiming Cui, Ting Liu, Dong Wang, Shijin Wang, Guoping Hu(参考訳) 人間の会話には、知識、常識、言語習慣など、様々な種類の情報が含まれる。 本稿では,単語埋め込みを学習するために,会話ペア$ \left\langle{post, reply} \right\rangle$を利用するpr-embeddingという会話型単語埋め込み手法を提案する。 以前の作品とは異なり、pr-embeddingは2つの異なる意味空間からのベクトルを使って、postとreplyの単語を表現する。 まず, 統計的機械翻訳から単語アライメントモデルを導入し, クロスセンテンスウィンドウを生成し, 単語レベルと文レベルの埋め込みを訓練する。 検索型ダイアログシステムにおけるシングルターンおよびマルチターン応答選択タスクの評価を行った。 実験の結果,prエンベディングにより選択した応答の質が向上することがわかった。 PR-Embeddingソースコードはhttps://github.com/wtma/PR-Embeddingで入手できる。

Human conversations contain many types of information, e.g., knowledge, common sense, and language habits. In this paper, we propose a conversational word embedding method named PR-Embedding, which utilizes the conversation pairs $ \left\langle{post, reply} \right\rangle$ to learn word embedding. Different from previous works, PR-Embedding uses the vectors from two different semantic spaces to represent the words in post and reply. To catch the information among the pair, we first introduce the word alignment model from statistical machine translation to generate the cross-sentence window, then train the embedding on word-level and sentence-level. We evaluate the method on single-turn and multi-turn response selection tasks for retrieval-based dialog systems. The experiment results show that PR-Embedding can improve the quality of the selected response. PR-Embedding source code is available at https://github.com/wtma/PR-Embedding
翻訳日:2022-12-08 22:50:04 公開日:2020-04-28
# リソースパウダー言語の形態的変形を学ぶための学習

Learning to Learn Morphological Inflection for Resource-Poor Languages ( http://arxiv.org/abs/2004.13304v1 )

ライセンス: Link先を確認
Katharina Kann, Samuel R. Bowman, Kyunghyun Cho(参考訳) 本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。 それぞれの言語を個別のタスクとして扱うことで、高リソースのソース言語からのデータを使ってモデルパラメータの集合を学習し、リソース不足のターゲット言語を微調整するための強力な初期化ポイントとして機能する。 3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。 特に、従来提案されていた言語間移動モデルよりも31.7%高い絶対精度を取得し、平均的な言語上では1.7%の絶対精度で芸術の以前の状態を上回っている。

We propose to cast the task of morphological inflection - mapping a lemma to an indicated inflected form - for resource-poor languages as a meta-learning problem. Treating each language as a separate task, we use data from high-resource source languages to learn a set of model parameters that can serve as a strong initialization point for fine-tuning on a resource-poor target language. Experiments with two model architectures on 29 target languages from 3 families show that our suggested approach outperforms all baselines. In particular, it obtains a 31.7% higher absolute accuracy than a previously proposed cross-lingual transfer model and outperforms the previous state of the art by 1.7% absolute accuracy on average over languages.
翻訳日:2022-12-08 22:49:50 公開日:2020-04-28
# 血行動態応答関数のためのliteパラメトリックモデル

A lite parametric model for the Hemodynamic Response Function ( http://arxiv.org/abs/2004.13361v1 )

ライセンス: Link先を確認
Manuel Morante(参考訳) タスク関連fMRIデータを扱う場合、データ解析の最も重要な部分はBOLD応答の適切な推定値を決定することである。 下記の文書は血行力学的応答関数hrfのliteモデルを示している。 他の進歩と異なり、提案モデルは他の類似のHRF代替案と比較してパラメータの数が少ないため、最適化の複雑さが小さくなり、潜在的な応用が容易になる。

When working with task-related fMRI data, one of the most crucial parts of the data analysis consists of determining a proper estimate of the BOLD response. The following document presents a lite model for the Hemodynamic Response Function HRF. Between other advances, the proposed model present less number of parameters compared to other similar HRF alternative, which reduces its optimization complexity and facilitates its potential applications.
翻訳日:2022-12-08 22:43:37 公開日:2020-04-28
# プライバシ保護協調学習を用いたプライベートデータセット生成

Private Dataset Generation Using Privacy Preserving Collaborative Learning ( http://arxiv.org/abs/2004.13598v1 )

ライセンス: Link先を確認
Amit Chaulwar(参考訳) 多くのアプリケーションにおけるディープラーニングアルゴリズムの利用の増加に伴い、プライバシや敵攻撃に関する新たな研究の疑問が浮上している。 しかし、ディープラーニングアルゴリズムの改善には、研究コミュニティ内で共有されるデータが増える必要がある。 フェデレーション学習、ディファレンシャルプライバシ、アダプティブシークレット共有といった方法論は、エッジからデータを移動せずにエッジ上でマシンラーニングモデルをトレーニングする方法を提供する。 しかし、非常に計算集約的であり、敵の攻撃を受けやすい。 そこで本研究では,エッジで機械学習モデルをトレーニングするためのプライバシ保護フレームワークであるFedCollabNNを導入する。 MNISTデータセットを用いたシミュレーション結果は,フレームワークの有効性を示す。

With increasing usage of deep learning algorithms in many application, new research questions related to privacy and adversarial attacks are emerging. However, the deep learning algorithm improvement needs more and more data to be shared within research community. Methodologies like federated learning, differential privacy, additive secret sharing provides a way to train machine learning models on edge without moving the data from the edge. However, it is very computationally intensive and prone to adversarial attacks. Therefore, this work introduces a privacy preserving FedCollabNN framework for training machine learning models at edge, which is computationally efficient and robust against adversarial attacks. The simulation results using MNIST dataset indicates the effectiveness of the framework.
翻訳日:2022-12-08 22:43:31 公開日:2020-04-28
# 関連する次元の少ない多項式の学習

Learning Polynomials of Few Relevant Dimensions ( http://arxiv.org/abs/2004.13748v1 )

ライセンス: Link先を確認
Sitan Chen, Raghu Meka(参考訳) 多項式回帰は学習と統計の基本的な原始である。 最も基本的な形式では、次数 $d$ 多項式を$n$-次元の入力ベクトル $x$ という観点で応答変数 $y$ に適合させることである。 これは多くのアプリケーションで非常によく研究されており、サンプルとランタイムの複雑さが$\Theta(n^d)$である。 もしデータの内在的な次元が環境次元$n$よりもずっと小さいなら、より良いランタイムを実現できますか? 具体的には、不明なr$-次元射影(関連する次元)において、$(x,y)$が最大$d$多項式の次数である場合のサンプル$(x,y)$が与えられる。 これは位相探索の一般化と、リンク関数が未知の低次多項式であるようなマルチインデックスモデルを学習する特別な場合の両方と見なすことができる。 分布的仮定がなければ、これは少なくともjunta学習と同じくらい難しいことに注意してください。 この研究では、共変項がガウス的である重要な場合を考える。 多項式を精度良く学習するアルゴリズムとして、$n = o_{r,d}(n \log^2(1/\epsilon) (\log n)^d)$ とランタイム $o_{r,d}(n n^2)$ がある。 我々の研究に先立ち、$r=1$の場合でさえそのような結果は知られていなかった。 我々は,真の部分空間を暖かく開始し,測地SGDを用いて任意の精度を向上する新しいPCA手法を提案し,特に部分空間の回復や多様体上のSGD解析の問題に対して,我々の技術は独立した関心を持つ可能性がある。

Polynomial regression is a basic primitive in learning and statistics. In its most basic form the goal is to fit a degree $d$ polynomial to a response variable $y$ in terms of an $n$-dimensional input vector $x$. This is extremely well-studied with many applications and has sample and runtime complexity $\Theta(n^d)$. Can one achieve better runtime if the intrinsic dimension of the data is much smaller than the ambient dimension $n$? Concretely, we are given samples $(x,y)$ where $y$ is a degree at most $d$ polynomial in an unknown $r$-dimensional projection (the relevant dimensions) of $x$. This can be seen both as a generalization of phase retrieval and as a special case of learning multi-index models where the link function is an unknown low-degree polynomial. Note that without distributional assumptions, this is at least as hard as junta learning. In this work we consider the important case where the covariates are Gaussian. We give an algorithm that learns the polynomial within accuracy $\epsilon$ with sample complexity that is roughly $N = O_{r,d}(n \log^2(1/\epsilon) (\log n)^d)$ and runtime $O_{r,d}(N n^2)$. Prior to our work, no such results were known even for the case of $r=1$. We introduce a new filtered PCA approach to get a warm start for the true subspace and use geodesic SGD to boost to arbitrary accuracy; our techniques may be of independent interest, especially for problems dealing with subspace recovery or analyzing SGD on manifolds.
翻訳日:2022-12-08 22:41:58 公開日:2020-04-28
# 相関した高次元RNA-Seq癌データのアンサンブル特徴選択の解析

Analysis of ensemble feature selection for correlated high-dimensional RNA-Seq cancer data ( http://arxiv.org/abs/2004.13809v1 )

ライセンス: Link先を確認
Aneta Polewko-Klim, Witold R. Rudnicki(参考訳) 診断と予後の分子マーカーの発見は重要であり、がん研究の研究分野を積極的に追求している。 複雑な疾患の場合、このプロセスは機械学習を使って行われることが多い。 現在の研究では、単一の特徴選択アルゴリズムを適用することによって、関連する変数を発見するための2つのアプローチを比較している。 これらのアプローチは、癌ゲノムアトラスのRNA-seqプロファイルを用いて、4種類のがんタイプを識別する変数を特定するために使用される。 この比較は,モデルの予測性能の評価と,選択した変数の安定性の監視という2つの方向で行われる。 最も有益な特徴は、4つの特徴選択アルゴリズム(u-test, relieff, and two variants of the mdfs algorithm)を用いて識別される。 正常組織と腫瘍組織を識別するにはランダムフォレストアルゴリズムを用いる。 特徴集合の最も高い安定性は、U-testの使用時に得られた。 残念なことに、特徴選択アルゴリズムのアンサンブルから得られた特徴集合に基づいて構築されたモデルは、個々のアルゴリズムから得られた特徴集合に基づいて開発されたモデルよりは良くなかった。 一方,最良の分類結果につながる特徴セレクタは,データセットによって異なっていた。

Discovery of diagnostic and prognostic molecular markers is important and actively pursued the research field in cancer research. For complex diseases, this process is often performed using Machine Learning. The current study compares two approaches for the discovery of relevant variables: by application of a single feature selection algorithm, versus by an ensemble of diverse algorithms. These approaches are used to identify variables that are relevant discerning of four cancer types using RNA-seq profiles from the Cancer Genome Atlas. The comparison is carried out in two directions: evaluating the predictive performance of models and monitoring the stability of selected variables. The most informative features are identified using a four feature selection algorithms, namely U-test, ReliefF, and two variants of the MDFS algorithm. Discerning normal and tumor tissues is performed using the Random Forest algorithm. The highest stability of the feature set was obtained when U-test was used. Unfortunately, models built on feature sets obtained from the ensemble of feature selection algorithms were no better than for models developed on feature sets obtained from individual algorithms. On the other hand, the feature selectors leading to the best classification results varied between data sets.
翻訳日:2022-12-08 22:41:32 公開日:2020-04-28
# インクリメンタルセッションベースレコメンデーションのためのメモリ拡張ニューラルモデル

Memory Augmented Neural Model for Incremental Session-based Recommendation ( http://arxiv.org/abs/2005.01573v1 )

ライセンス: Link先を確認
Fei Mi, Boi Faltings(参考訳) プライバシーへの懸念の高まりは、現在のブラウザセッションで観察されるもの以外の個人データを使用しないセッションベースレコメンデーション(sr)の関心を刺激している。 既存の手法は、現実のアプリケーションではめったに起こらない静的な設定で評価される。 SRタスクの動的性質を改善するために,新たな項目や嗜好が連続的に現れる段階的なSRシナリオについて検討する。 既存のニューラルリコメンデータは、計算オーバーヘッドの軽減と破滅的な忘れるために小さなインクリメンタルアップデートで、インクリメンタルなsrシナリオで使用できる。 さらに,メモリ拡張ニューラルモデル(man)と呼ばれる汎用フレームワークを提案する。 MANは、継続的にクエリされ更新された非パラメトリックメモリでベースとなるニューラルレコメンデータを拡張し、ニューラルとメモリコンポーネントからの予測は、別の軽量ゲーティングネットワークを介して結合される。 我々は、MANが漸進的SRタスクに適していることを実証的に示し、最先端のニューラルおよび非パラメトリック手法を一貫して上回っていることを示す。 結果を分析し,新しい項目や頻度の低い項目の嗜好を漸進的に学習することが特に有効であることを示す。

Increasing concerns with privacy have stimulated interests in Session-based Recommendation (SR) using no personal data other than what is observed in the current browser session. Existing methods are evaluated in static settings which rarely occur in real-world applications. To better address the dynamic nature of SR tasks, we study an incremental SR scenario, where new items and preferences appear continuously. We show that existing neural recommenders can be used in incremental SR scenarios with small incremental updates to alleviate computation overhead and catastrophic forgetting. More importantly, we propose a general framework called Memory Augmented Neural model (MAN). MAN augments a base neural recommender with a continuously queried and updated nonparametric memory, and the predictions from the neural and the memory components are combined through another lightweight gating network. We empirically show that MAN is well-suited for the incremental SR task, and it consistently outperforms state-of-the-art neural and nonparametric methods. We analyze the results and demonstrate that it is particularly good at incrementally learning preferences on new and infrequent items.
翻訳日:2022-12-08 22:41:15 公開日:2020-04-28
# 教師なしテキスト分類のための逆学習による解釈・離散表現の学習

Learning Interpretable and Discrete Representations with Adversarial Training for Unsupervised Text Classification ( http://arxiv.org/abs/2004.13255v1 )

ライセンス: Link先を確認
Yau-Shian Wang and Hung-Yi Lee and Yun-Nung Chen(参考訳) ラベルのないテキストデータからの連続表現の学習は、半教師なし学習の恩恵を受けるためにますます研究されている。 離散表現の解釈は比較的容易であるが、訓練が難しいため、ラベルのないテキストデータの離散表現の学習は広く研究されていない。 本研究は、離散符号と連続雑音を含む2つの不連続表現にテキストをエンコードすることを学び、離散符号が解釈可能なトピックを表し、雑音がトピック内のばらつきを制御するティガンを提案する。 TIGANが学習した離散コードは、教師なしテキスト分類に使用できる。 他の教師なしベースラインと比較して、提案したTIGANは6つの異なるコーパスにおいて優れた性能を発揮する。 また,最近提案された弱教師付きテキスト分類法と同等の性能を示した。 抽出した話題語は、TIGANが一貫性と高度に解釈可能なトピックを学ぶことを示す。

Learning continuous representations from unlabeled textual data has been increasingly studied for benefiting semi-supervised learning. Although it is relatively easier to interpret discrete representations, due to the difficulty of training, learning discrete representations for unlabeled textual data has not been widely explored. This work proposes TIGAN that learns to encode texts into two disentangled representations, including a discrete code and a continuous noise, where the discrete code represents interpretable topics, and the noise controls the variance within the topics. The discrete code learned by TIGAN can be used for unsupervised text classification. Compared to other unsupervised baselines, the proposed TIGAN achieves superior performance on six different corpora. Also, the performance is on par with a recently proposed weakly-supervised text classification method. The extracted topical words for representing latent topics show that TIGAN learns coherent and highly interpretable topics.
翻訳日:2022-12-08 22:34:55 公開日:2020-04-28
# 異なる種類のシステム評価のためのテストコレクションの信頼性について

On the Reliability of Test Collections for Evaluating Systems of Different Types ( http://arxiv.org/abs/2004.13486v1 )

ライセンス: Link先を確認
Emine Yilmaz, Nick Craswell, Bhaskar Mitra and Daniel Campos(参考訳) 深層学習に基づくモデルが情報検索(IR)にますます使われつつある中、テストコレクションの可用性を確保することが大きな課題である。 各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。 ディープラーニングベースのモデルは、主に語彙的類似性に基づく従来の手法とは対照的に、外部リソース(例えば、単語の埋め込み)と高度な表現を使用するため、元のプールで特定されていない異なる種類の関連ドキュメントを返す可能性がある。 もしそうなら、従来の方法で構築されたテストコレクションは、ディープラーニング(neural)システムに対して偏りや不公平な評価結果をもたらす可能性が高い。 本稿では,テストコレクションの公平性と再利用性をテストするためにシミュレーションプーリングを用いて,従来のシステムに基づくプーリングが深層学習システムのバイアス評価につながることを示す。

As deep learning based models are increasingly being used for information retrieval (IR), a major challenge is to ensure the availability of test collections for measuring their quality. Test collections are generated based on pooling results of various retrieval systems, but until recently this did not include deep learning systems. This raises a major challenge for reusable evaluation: Since deep learning based models use external resources (e.g. word embeddings) and advanced representations as opposed to traditional methods that are mainly based on lexical similarity, they may return different types of relevant document that were not identified in the original pooling. If so, test collections constructed using traditional methods are likely to lead to biased and unfair evaluation results for deep learning (neural) systems. This paper uses simulated pooling to test the fairness and reusability of test collections, showing that pooling based on traditional systems only can lead to biased evaluation of deep learning systems.
翻訳日:2022-12-08 22:34:41 公開日:2020-04-28
# rl型列車再スケジュールにおけるサンプル効率向上とマルチエージェント通信

Improving Sample Efficiency and Multi-Agent Communication in RL-based Train Rescheduling ( http://arxiv.org/abs/2004.13439v1 )

ライセンス: Link先を確認
Dano Roost, Ralph Meier, Stephan Huschauer, Erik Nygren, Adrian Egli, Andreas Weiler, Thilo Stadelmann(参考訳) We present preliminary results from our sixth placed entry to the Flatland international competition for train rescheduling, including two improvements for optimized reinforcement learning (RL) training efficiency, and two hypotheses with respect to the prospect of deep RL for complex real-world control tasks: first, that current state of the art policy gradient methods seem inappropriate in the domain of high-consequence environments; second, that learning explicit communication actions (an emerging machine-to-machine language, so to speak) might offer a remedy. これらの仮説は今後の研究で確認する必要がある。 確認されれば、スイス連邦鉄道のような高効率なロジスティクスのエコシステムを最適化することを約束する。

We present preliminary results from our sixth placed entry to the Flatland international competition for train rescheduling, including two improvements for optimized reinforcement learning (RL) training efficiency, and two hypotheses with respect to the prospect of deep RL for complex real-world control tasks: first, that current state of the art policy gradient methods seem inappropriate in the domain of high-consequence environments; second, that learning explicit communication actions (an emerging machine-to-machine language, so to speak) might offer a remedy. These hypotheses need to be confirmed by future work. If confirmed, they hold promises with respect to optimizing highly efficient logistics ecosystems like the Swiss Federal Railways railway network.
翻訳日:2022-12-08 22:33:40 公開日:2020-04-28
# 深層機械学習による新しいアスファルト舗装条件指標の開発

Deep Machine Learning Approach to Develop a New Asphalt Pavement Condition Index ( http://arxiv.org/abs/2004.13314v1 )

ライセンス: Link先を確認
Hamed Majidifard, Yaw Adu-Gyamfi, William G. Buttlar(参考訳) 道路画像による自動舗装災害検出は,舗装研究者やコンピュータビジョンコミュニティにとって依然として困難な課題である。 近年、ディープラーニングの進歩により、先例のない精度で舗装画像を分析する堅牢なツールが開発されている。 それでも、ディープラーニングモデルは大きな真実データセットを必要とするため、舗装現場ではアクセスできないことが多い。 本研究では,より堅牢で展開が容易な舗装条件評価システムに向けた第一歩として,ラベル付き舗装データセットが提示された先行研究をレビューした。 合計で7237枚のgoogleストリートビュー画像が抽出され、手動で分類された(苦難クラスの9つのカテゴリ)。 その後、ラベル付きデータセットを使用してモデルをトレーニングするために、YOLO(一度だけ見える)ディープラーニングフレームワークが実装された。 本研究は, 苦難の重症度を定量化するためにU-netモデルを開発し, 最後に, YOLOモデルとU-netモデルを統合し, 苦難の分類と重症度を同時に定量化するハイブリッドモデルを開発した。 ディストレスト分類のためのyolo deep learningフレームワークとセグメンテーションとディストレスデンシフィケーションのためのu-netを用いて,各種機械学習アルゴリズムを実装し,舗装条件指標を開発した。 苦悩分類とセグメンテーションモデルの出力を用いて、抽出した苦悩の種類と重症度に応じて各舗装画像を評価する包括的舗装条件ツールを開発する。

Automated pavement distress detection via road images is still a challenging issue among pavement researchers and computer-vision community. In recent years, advancement in deep learning has enabled researchers to develop robust tools for analyzing pavement images at unprecedented accuracies. Nevertheless, deep learning models necessitate a big ground truth dataset, which is often not readily accessible for pavement field. In this study, we reviewed our previous study, which a labeled pavement dataset was presented as the first step towards a more robust, easy-to-deploy pavement condition assessment system. In total, 7237 google street-view images were extracted, manually annotated for classification (nine categories of distress classes). Afterward, YOLO (you look only once) deep learning framework was implemented to train the model using the labeled dataset. In the current study, a U-net based model is developed to quantify the severity of the distresses, and finally, a hybrid model is developed by integrating the YOLO and U-net model to classify the distresses and quantify their severity simultaneously. Various pavement condition indices are developed by implementing various machine learning algorithms using the YOLO deep learning framework for distress classification and U-net for segmentation and distress densification. The output of the distress classification and segmentation models are used to develop a comprehensive pavement condition tool which rates each pavement image according to the type and severity of distress extracted.
翻訳日:2022-12-08 22:33:05 公開日:2020-04-28
# AIエコノミスト:AI駆動税法で平等と生産性を改善する

The AI Economist: Improving Equality and Productivity with AI-Driven Tax Policies ( http://arxiv.org/abs/2004.13332v1 )

ライセンス: Link先を確認
Stephan Zheng, Alexander Trott, Sunil Srinivasa, Nikhil Naik, Melvin Gruesbeck, David C. Parkes, Richard Socher(参考訳) 現実世界の社会経済的課題に取り組むには、経済政策の設計とテストが必要である。 しかし、適切な(マイクロレベルの)経済データがなく、実験の機会が限られているため、実際にはこれは難しい。 本研究では、経済平等と生産性を効果的にトレードオフできるダイナミック経済における税政策を発見する社会プランナーを訓練する。 我々は,エージェントと政府の両方が学習し,適応する経済シミュレーションに基づいて,動的税制政策を学ぶための2段階の深層強化学習手法を提案する。 データ駆動型アプローチは、経済モデリングの前提を活用せず、観測データのみから学習する。 主な貢献は4つある。 まず,競争圧力と市場動態を特徴とする経済シミュレーション環境を提案する。 我々は,学習エージェントの行動や特化などを含む経済理論と整合した基礎税体系が機能することを示すことにより,シミュレーションを検証した。 第2に,aiを主体とする税制政策は,サエズ税の枠組みを含む基準政策に対して,平等と生産性のトレードオフを16%向上させることを示した。 第三に、新たな特徴をいくつか紹介する: aiによる税政策は、基準と質的に異なる、上位税率と低所得者に対する純補助金を設定する。 さらに、AI主体の税政策は、AIエージェントが学習した創発的な税制ゲーミング戦略に直面して強く機能する。 最後に、AI主導の税政策は、人間の参加者による実験で使用する場合にも有効である。 MTurkで実施された実験では、AI税政策は、サエズフレームワークが提供するものと類似した平等と生産性のトレードオフと、高い逆所得の重み付け社会福祉を提供する。

Tackling real-world socio-economic challenges requires designing and testing economic policies. However, this is hard in practice, due to a lack of appropriate (micro-level) economic data and limited opportunity to experiment. In this work, we train social planners that discover tax policies in dynamic economies that can effectively trade-off economic equality and productivity. We propose a two-level deep reinforcement learning approach to learn dynamic tax policies, based on economic simulations in which both agents and a government learn and adapt. Our data-driven approach does not make use of economic modeling assumptions, and learns from observational data alone. We make four main contributions. First, we present an economic simulation environment that features competitive pressures and market dynamics. We validate the simulation by showing that baseline tax systems perform in a way that is consistent with economic theory, including in regard to learned agent behaviors and specializations. Second, we show that AI-driven tax policies improve the trade-off between equality and productivity by 16% over baseline policies, including the prominent Saez tax framework. Third, we showcase several emergent features: AI-driven tax policies are qualitatively different from baselines, setting a higher top tax rate and higher net subsidies for low incomes. Moreover, AI-driven tax policies perform strongly in the face of emergent tax-gaming strategies learned by AI agents. Lastly, AI-driven tax policies are also effective when used in experiments with human participants. In experiments conducted on MTurk, an AI tax policy provides an equality-productivity trade-off that is similar to that provided by the Saez framework along with higher inverse-income weighted social welfare.
翻訳日:2022-12-08 22:32:42 公開日:2020-04-28
# データ並列トレーニングにおける重み更新の自動クロスレプリカシャーディング

Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training ( http://arxiv.org/abs/2004.13336v1 )

ライセンス: Link先を確認
Yuanzhong Xu, HyoukJoong Lee, Dehao Chen, Hongjun Choi, Blake Hechtman, Shibo Wang(参考訳) ディープニューラルネットワークのデータ並列同期トレーニングでは、異なるデバイス(複製)がトレーニングバッチの異なるパーティションで同じプログラムを実行するが、重み付けは分割にバッチ次元を持たないため、すべてのレプリカで重み更新計算が繰り返される。 これは、大きな重みを持つ典型的な言語モデルや、大規模なトレーニングで典型的な、複製単位のバッチサイズが小さいモデルにおける、パフォーマンスとスケーラビリティのボトルネックになり得る。 本稿では、静的解析とトレーニング計算グラフの変換を用いて、効率的な通信プリミティブとデータフォーマッティングを用いてレプリカ間での重み更新計算を自動的にシャードする手法を提案する。 本手法は,クラウドTPU上での典型的な画像および言語モデルの大幅な高速化を実現し,モデルコードの変更を必要としないことを示す。 この技術は、従来の高価な(ADAM)と安価な(SGD)オプティマイザのギャップを埋めるのに役立つ。 GoogleのMLPerf 0.6で最先端のトレーニングパフォーマンスを達成するのに役立ちました。

In data-parallel synchronous training of deep neural networks, different devices (replicas) run the same program with different partitions of the training batch, but weight update computation is repeated on all replicas, because the weights do not have a batch dimension to partition. This can be a bottleneck for performance and scalability in typical language models with large weights, and models with small per-replica batch size which is typical in large-scale training. This paper presents an approach to automatically shard the weight update computation across replicas with efficient communication primitives and data formatting, using static analysis and transformations on the training computation graph. We show this technique achieves substantial speedups on typical image and language models on Cloud TPUs, requiring no change to model code. This technique helps close the gap between traditionally expensive (ADAM) and cheap (SGD) optimizers, as they will only take a small part of training step time and have similar peak memory usage. It helped us to achieve state-of-the-art training performance in Google's MLPerf 0.6 submission.
翻訳日:2022-12-08 22:32:15 公開日:2020-04-28
# 非写実画像を用いた擬似リハーサル

Pseudo Rehearsal using non photo-realistic images ( http://arxiv.org/abs/2004.13414v1 )

ライセンス: Link先を確認
Bhasker Sri Harsha Suri, Kalidas Yeturu(参考訳) ディープニューラルネットワークは、新しいタスクの学習に直面しているときに、以前の学習タスクを忘れる。 これを破滅的忘れという。 ニューラルネットワークを以前のタスクのトレーニングデータでリハーサルすることで、ネットワークが破滅的な忘れ物から保護することができる。 リハーサルには過去のデータ全体を保存する必要があるため、Pseudoリハーサルが提案され、前回のデータに属するサンプルを合成してリハーサルする。 画像分類設定において、現在の手法は、フォトリアリスティックな合成データを生成しようとするが、ニューラルネットワークは、写真リアリスティックではなく、以前のタスクの良好な保持を実現することができることを実証した。 また,生成されたデータにフォトリアリズムを持つという制約を課すことで,擬似リハーサルのための計算資源やメモリ資源の消費を大幅に削減できることを示した。

Deep Neural networks forget previously learnt tasks when they are faced with learning new tasks. This is called catastrophic forgetting. Rehearsing the neural network with the training data of the previous task can protect the network from catastrophic forgetting. Since rehearsing requires the storage of entire previous data, Pseudo rehearsal was proposed, where samples belonging to the previous data are generated synthetically for rehearsal. In an image classification setting, while current techniques try to generate synthetic data that is photo-realistic, we demonstrated that Neural networks can be rehearsed on data that is not photo-realistic and still achieve good retention of the previous task. We also demonstrated that forgoing the constraint of having photo realism in the generated data can result in a significant reduction in the consumption of computational and memory resources for pseudo rehearsal.
翻訳日:2022-12-08 22:26:06 公開日:2020-04-28
# 重り付きペイオフを有する確率線形帯域のほぼ最適レグレット

Nearly Optimal Regret for Stochastic Linear Bandits with Heavy-Tailed Payoffs ( http://arxiv.org/abs/2004.13465v1 )

ライセンス: Link先を確認
Bo Xue, Guanghui Wang, Yimu Wang and Lijun Zhang(参考訳) 本稿では,有限作用集合を持つ確率線形バンディットの問題について考察する。 既存の仕事のほとんどは、支払いは境界付きまたは準ゲージであり、金融市場のようないくつかのシナリオで違反する可能性があると仮定している。 この問題を解決するために、線形帯域幅を重み付きペイオフで解析し、そこでは、ある$\epsilon\in(0,1]$に対して有限の1+\epsilon$モーメントを認める。 平均の中央値と動的切り離しの中央値を通して、$\widetilde{O}(d^{\frac{1}{2}}T^{\frac{1}{1+\epsilon}})$のサブ線形後悔境界を楽しむ2つの新しいアルゴリズムを提案し、$d$は文脈情報の次元であり、$T$は時間水平線である。 一方、我々は$\Omega(d^{\frac{\epsilon}{1+\epsilon}}T^{\frac{1}{1+\epsilon}})$low boundを提供し、これは、$\epsilon=1$のときの$d$と$T$の順に、下界のポリ対数因子に一致することを意味する。 最後に, アルゴリズムの有効性を実証するために数値実験を行い, 実験結果が理論的な保証を強く支持することを示した。

In this paper, we study the problem of stochastic linear bandits with finite action sets. Most of existing work assume the payoffs are bounded or sub-Gaussian, which may be violated in some scenarios such as financial markets. To settle this issue, we analyze the linear bandits with heavy-tailed payoffs, where the payoffs admit finite $1+\epsilon$ moments for some $\epsilon\in(0,1]$. Through median of means and dynamic truncation, we propose two novel algorithms which enjoy a sublinear regret bound of $\widetilde{O}(d^{\frac{1}{2}}T^{\frac{1}{1+\epsilon}})$, where $d$ is the dimension of contextual information and $T$ is the time horizon. Meanwhile, we provide an $\Omega(d^{\frac{\epsilon}{1+\epsilon}}T^{\frac{1}{1+\epsilon}})$ lower bound, which implies our upper bound matches the lower bound up to polylogarithmic factors in the order of $d$ and $T$ when $\epsilon=1$. Finally, we conduct numerical experiments to demonstrate the effectiveness of our algorithms and the empirical results strongly support our theoretical guarantees.
翻訳日:2022-12-08 22:25:51 公開日:2020-04-28
# 季節環境のための線形帯域

A Linear Bandit for Seasonal Environments ( http://arxiv.org/abs/2004.13576v1 )

ライセンス: Link先を確認
Giuseppe Di Benedetto, Vito Bellini, Giovanni Zappella(参考訳) コンテキストバンディットアルゴリズムは非常に人気があり、オンラインのパーソナライズドレコメンデーションを提供するためにレコメンデーションシステムで広く使われている。 再帰的な仮定は報酬関数の定常性であり、現実世界のほとんどの応用では非現実的である。 例えば、音楽レコメンデーションのシナリオでは、ハロウィーンやクリスマスなどの特定のイベントで人々の音楽の味が突然変化し、すぐに以前の音楽の味に戻すことができる。 そのため、これらの変更に迅速に対応できるアルゴリズムが必要です。 また,学習過程をスクラッチから再起動することなく再起する可能性のある,異なる定常期間に収集した報奨を有効活用したい。 増大する文献は報酬の非定常性の問題に対処し、変化する環境に迅速に適応できるアルゴリズムを提供している。 しかし、我々の知る限り、報酬関数の季節変化を扱うアルゴリズムは存在しない。 本稿では,報奨関数の突然の変化を検出し,適応するコンテキストバンディットアルゴリズムを提案する。 提案手法は,非定常環境において最先端のアルゴリズムに勝ることを示す。 合成データと実データの両方で実験を行いました。

Contextual bandit algorithms are extremely popular and widely used in recommendation systems to provide online personalised recommendations. A recurrent assumption is the stationarity of the reward function, which is rather unrealistic in most of the real-world applications. In the music recommendation scenario for instance, people's music taste can abruptly change during certain events, such as Halloween or Christmas, and revert to the previous music taste soon after. We would therefore need an algorithm which can promptly react to these changes. Moreover, we would like to leverage already observed rewards collected during different stationary periods which can potentially reoccur, without the need of restarting the learning process from scratch. A growing literature has addressed the problem of reward's non-stationarity, providing algorithms that could quickly adapt to the changing environment. However, up to our knowledge, there is no algorithm which deals with seasonal changes of the reward function. Here we present a contextual bandit algorithm which detects and adapts to abrupt changes of the reward function and leverages previous estimations whenever the environment falls back to a previously observed state. We show that the proposed method can outperform state-of-the-art algorithms for non-stationary environments. We ran our experiment on both synthetic and real datasets.
翻訳日:2022-12-08 22:25:03 公開日:2020-04-28
# 線形仮説とニューラルネットワークのための逆学習保証

Adversarial Learning Guarantees for Linear Hypotheses and Neural Networks ( http://arxiv.org/abs/2004.13617v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Natalie Frank, Mehryar Mohri(参考訳) 逆あるいはテスト時間の堅牢性は、テスト入力に対する摂動に対する分類器の感受性を測定する。 このような摂動に対する防御設計に関する最近の研究は盛んに行われているが、敵対的ロバスト性の理論はよく分かっていない。 そこで本研究では,Rademacher複雑性のレンズを通して,逆向きの設定における一般化の理解に焦点をあてる。 任意の$r \geq 1$ に対して$l_r$-norm で測定された逆摂動を伴う線形仮説の逆経験的ラデマッハ複雑性の上限と下限を与える。 これは [Yin et al.'19] の最近の結果を一般化し、$r = \infty$ のケースを研究し、線形仮説クラスにおける [Khim と Loh'19] の最近の研究と比較して入力次元性への依存をより詳細に分析する。 次に、分析を拡張して、1つのReLUユニットに対してRadecher複雑性を下限と上限に設定する。 最後に,1つの隠れ層を持つフィードフォワードニューラルネットワークに対して,逆ラデマッハ複雑性境界を与える。 以前の作品とは異なり、サロゲート上のバウンドとは対照的に、与えられたネットワークの逆ラデマッハ複雑性の境界を直接提供する。 我々の分析の副産物は、線形仮説のラデマッハ複雑性の厳密な境界にもつながり、そこでは詳細な解析を行い、既存の境界との比較を示す。

Adversarial or test time robustness measures the susceptibility of a classifier to perturbations to the test input. While there has been a flurry of recent work on designing defenses against such perturbations, the theory of adversarial robustness is not well understood. In order to make progress on this, we focus on the problem of understanding generalization in adversarial settings, via the lens of Rademacher complexity. We give upper and lower bounds for the adversarial empirical Rademacher complexity of linear hypotheses with adversarial perturbations measured in $l_r$-norm for an arbitrary $r \geq 1$. This generalizes the recent result of [Yin et al.'19] that studies the case of $r = \infty$, and provides a finer analysis of the dependence on the input dimensionality as compared to the recent work of [Khim and Loh'19] on linear hypothesis classes. We then extend our analysis to provide Rademacher complexity lower and upper bounds for a single ReLU unit. Finally, we give adversarial Rademacher complexity bounds for feed-forward neural networks with one hidden layer. Unlike previous works we directly provide bounds on the adversarial Rademacher complexity of the given network, as opposed to a bound on a surrogate. A by-product of our analysis also leads to tighter bounds for the Rademacher complexity of linear hypotheses, for which we give a detailed analysis and present a comparison with existing bounds.
翻訳日:2022-12-08 22:24:43 公開日:2020-04-28
# ECG分析のためのディープラーニング - PTB-XLのベンチマークと考察

Deep Learning for ECG Analysis: Benchmarks and Insights from PTB-XL ( http://arxiv.org/abs/2004.13701v1 )

ライセンス: Link先を確認
Nils Strodthoff, Patrick Wagner, Tobias Schaeffter, Wojciech Samek(参考訳) 心電図は非常に一般的で非侵襲的な診断法であり、その解釈は自動解釈アルゴリズムによってますます支持されている。 自動ECG解釈の分野の進歩は、トレーニングのための適切なデータセットの欠如と、異なるアルゴリズムの互換性を確保するための明確に定義された評価手順の欠如によって、現在まで妨げられている。 これらの問題を緩和するために、我々は最近公開されたTB-XLデータセットのベンチマーク結果を提出し、年齢や性別の予測から信号品質の評価に至るまで、様々なECG文予測タスクから様々なタスクをカバーした。 畳み込みニューラルネットワーク、特にresnetとinceptionベースのアーキテクチャは、機能ベースのアルゴリズムよりも、すべてのタスクで最高のパフォーマンスを示しています。 これらの結果は、隠れ階層化、モデル不確かさ、探索的解釈可能性分析の観点から分類アルゴリズムに関する深い洞察によって補完される。 ICBEB2018チャレンジECGデータセットのベンチマーク結果も提示し, PTB-XLで事前訓練した分類器を用いた転帰学習の可能性について検討した。 このリソースを用いて、ecg分析アルゴリズムの構造化ベンチマークのためのリソースとしてptb-xlデータセットを確立し、この分野の研究者にこれらの取り組みに参加するように促す。

Electrocardiography is a very common, non-invasive diagnostic procedure and its interpretation is increasingly supported by automatic interpretation algorithms. The progress in the field of automatic ECG interpretation has up to now been hampered by a lack of appropriate datasets for training as well as a lack of well-defined evaluation procedures to ensure comparability of different algorithms. To alleviate these issues, we put forward first benchmarking results for the recently published, freely accessible PTB-XL dataset, covering a variety of tasks from different ECG statement prediction tasks over age and gender prediction to signal quality assessment. We find that convolutional neural networks, in particular resnet- and inception-based architectures, show the strongest performance across all tasks outperforming feature-based algorithms by a large margin. These results are complemented by deeper insights into the classification algorithm in terms of hidden stratification, model uncertainty and an exploratory interpretability analysis. We also put forward benchmarking results for the ICBEB2018 challenge ECG dataset and discuss prospects of transfer learning using classifiers pretrained on PTB-XL. With this resource, we aim to establish the PTB-XL dataset as a resource for structured benchmarking of ECG analysis algorithms and encourage other researchers in the field to join these efforts.
翻訳日:2022-12-08 22:23:54 公開日:2020-04-28
# PyTorchにおけるストリーニングテンソルとネットワークプルーニング

Streamlining Tensor and Network Pruning in PyTorch ( http://arxiv.org/abs/2004.13770v1 )

ライセンス: Link先を確認
Michela Paganini and Jessica Forde(参考訳) オーバーパラメトリゼーションの実証的な利点と、リソース制約のあるデバイスに高速で持続可能な、プライベートなオンデバイスモデルをデプロイする必要があることによる、最先端の機械学習モデルの爆発と対照的に、コミュニティはモデル圧縮の中心的な戦略として、刈り取り、量子化、蒸留といった技術に焦点を当ててきた。 このコントリビューションは、PyTorchでのニューラルネットワークプルーニングのための共通インターフェースの採用を促進することを目的として、最近追加されたPyTorch torch.nn.utils.pruneモジュールについて説明する。これは、共有されたオープンソースのプルーニング機能を提供し、トレーニング前後のモデルサイズとキャパシティを低減するための技術的実装障壁を低くするものだ。 本稿では,モジュールのユーザインタフェース,実装詳細の解明,サンプル使用例の紹介,提案する機能を新しいプルーニングメソッドに拡張する方法を提案する。

In order to contrast the explosion in size of state-of-the-art machine learning models that can be attributed to the empirical advantages of over-parametrization, and due to the necessity of deploying fast, sustainable, and private on-device models on resource-constrained devices, the community has focused on techniques such as pruning, quantization, and distillation as central strategies for model compression. Towards the goal of facilitating the adoption of a common interface for neural network pruning in PyTorch, this contribution describes the recent addition of the PyTorch torch.nn.utils.prune module, which provides shared, open source pruning functionalities to lower the technical implementation barrier to reducing model size and capacity before, during, and/or after training. We present the module's user interface, elucidate implementation details, illustrate example usage, and suggest ways to extend the contributed functionalities to new pruning methods.
翻訳日:2022-12-08 22:23:32 公開日:2020-04-28
# Multi-Verse Optimizer を用いた非線形回帰解析

Nonlinear Regression Analysis Using Multi-Verse Optimizer ( http://arxiv.org/abs/2005.10642v1 )

ライセンス: Link先を確認
Jayri Bagchi and Tapas Si(参考訳) 回帰分析は、ビジネス、スポーツ分析などの予測分析に使用される重要な機械学習タスクである。 回帰解析において、最適化アルゴリズムは回帰モデルにおける係数の探索において重要な役割を果たす。 本稿では,最近開発されたメタヒューリスティック・マルチヴァース・オプティマイザ(MVO)を用いた非線形回帰解析を提案する。 ベンチマーク非線形回帰問題10に対して,提案手法を適用した。 Particle Swarm Optimizer (PSO)との比較研究が行われている。 実験の結果,提案手法はPSOアルゴリズムよりも統計的に優れていることが示された。

Regression analysis is an important machine learning task used for predictive analytic in business, sports analysis, etc. In regression analysis, optimization algorithms play a significant role in search the coefficients in the regression model. In this paper, nonlinear regression analysis using a recently developed meta-heuristic Multi-Verse Optimizer (MVO) is proposed. The proposed method is applied to 10 well-known benchmark nonlinear regression problems. A comparative study has been conducted with Particle Swarm Optimizer (PSO). The experimental results demonstrate that the proposed method statistically outperforms PSO algorithm.
翻訳日:2022-12-08 22:23:13 公開日:2020-04-28
# 仕事を見せるのはいつもうまくいかない

Showing Your Work Doesn't Always Work ( http://arxiv.org/abs/2004.13705v1 )

ライセンス: Link先を確認
Raphael Tang, Jaejun Lee, Ji Xin, Xinyu Liu, Yaoliang Yu, Jimmy Lin(参考訳) 自然言語処理では、ニューラルネットワークの実験結果を最もよく報告する方法が最近人気になっている。 実験結果の報告を改善する"show your work: improved reporting of experimental results"と題されたある模範的な出版物は、計算予算に関して、ベストチューニングモデルの期待される検証の有効性を報告することを提唱している。 本稿では,本論文を批判的に検討する。 統計的一般化性に関しては、このアプローチには見当たらない落とし穴や注意点がある。 分析により,推定者は偏りがあり,誤りを想定していることが示された。 推定器は負の誤差を好んでおり、自己抑制された信頼区間が低い。 我々は偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。 私たちのコードベースはhttp://github.com/castorini/meanmaxにあります。

In natural language processing, a recently popular line of work explores how to best report the experimental results of neural networks. One exemplar publication, titled "Show Your Work: Improved Reporting of Experimental Results," advocates for reporting the expected validation effectiveness of the best-tuned model, with respect to the computational budget. In the present work, we critically examine this paper. As far as statistical generalizability is concerned, we find unspoken pitfalls and caveats with this approach. We analytically show that their estimator is biased and uses error-prone assumptions. We find that the estimator favors negative errors and yields poor bootstrapped confidence intervals. We derive an unbiased alternative and bolster our claims with empirical evidence from statistical simulation. Our codebase is at http://github.com/castorini/meanmax.
翻訳日:2022-12-08 22:17:21 公開日:2020-04-28
# DTCA:説明可能なクレーム検証のための決定木に基づくコアテンションネットワーク

DTCA: Decision Tree-based Co-Attention Networks for Explainable Claim Verification ( http://arxiv.org/abs/2004.13455v1 )

ライセンス: Link先を確認
Lianwei Wu, Yuan Rao, Yongqiang Zhao, Hao Liang, Ambreen Nazir(参考訳) 近年,近年広く認識されている説明可能なクレーム検証のための適切なニューラルネットワークにより,信頼できる情報源から有効な証拠を発見する方法が数多くある。 しかし、これらの方法では、証拠の発見プロセスは不透明で説明できない。 同時に、発見された証拠は、クレームの全シーケンスの解釈可能性に大まかに向けるだけでなく、クレームの誤った部分に焦点を当てるには不十分である。 本稿では,説明可能なクレーム検証の証拠を見つけるための決定木に基づくコアテンションモデル(dtca)を提案する。 具体的には,まず決定木に基づくエビデンスモデル(dte)を構築し,信頼度の高いコメントを,透過的かつ解釈可能な方法で証拠として選択する。 次に,コ・アテンション・セルフアテンション・ネットワーク(CaSa)を設計し,選択したエビデンスをクレームと相互作用させる。 1) DTEを訓練して、最適な判定基準を決定し、より強力な証拠を得る。 2) 証拠を利用して,請求項の虚偽部分を見出す。 2つの公開データセットであるRumourEvalとPHEMEの実験は、DTCAがクレーム検証の結果の説明を提供するだけでなく、最先端のパフォーマンスも達成し、それぞれF1スコアを3.11%、2.41%向上させることを示した。

Recently, many methods discover effective evidence from reliable sources by appropriate neural networks for explainable claim verification, which has been widely recognized. However, in these methods, the discovery process of evidence is nontransparent and unexplained. Simultaneously, the discovered evidence only roughly aims at the interpretability of the whole sequence of claims but insufficient to focus on the false parts of claims. In this paper, we propose a Decision Tree-based Co-Attention model (DTCA) to discover evidence for explainable claim verification. Specifically, we first construct Decision Tree-based Evidence model (DTE) to select comments with high credibility as evidence in a transparent and interpretable way. Then we design Co-attention Self-attention networks (CaSa) to make the selected evidence interact with claims, which is for 1) training DTE to determine the optimal decision thresholds and obtain more powerful evidence; and 2) utilizing the evidence to find the false parts in the claim. Experiments on two public datasets, RumourEval and PHEME, demonstrate that DTCA not only provides explanations for the results of claim verification but also achieves the state-of-the-art performance, boosting the F1-score by 3.11%, 2.41%, respectively.
翻訳日:2022-12-08 22:16:51 公開日:2020-04-28
# 脳ネットワーク分類のための機械学習手法:皮質形態ネットワークを用いた自閉症診断への応用

Machine Learning Methods for Brain Network Classification: Application to Autism Diagnosis using Cortical Morphological Networks ( http://arxiv.org/abs/2004.13321v1 )

ライセンス: Link先を確認
Ismail Bilgen and Goktug Guvercin and Islem Rekik(参考訳) 自閉症スペクトラム障害(asd)は、異なるレベルでの脳の接続に影響する。 それでも、磁気共鳴画像(MRI)を用いてそのような効果を非侵襲的に区別することは、ASDの不均一性による機械学習診断フレームワークにとって非常に困難である。 これまでのネットワーク神経科学は、主に機能的(機能的MRIに由来する)と構造的(拡散MRIに由来する)脳の接続に焦点を当てており、脳の領域間の関係的な形態的変化を捉えていないかもしれない。 実際、従来のT1強調MRIから派生した形態的脳ネットワークを用いたASD診断のための機械学習(ML)研究は非常に少ない。 このギャップを埋めるために,kaggleコンペティションを組織し,神経障害診断のための機械学習パイプラインのプールを構築し,t1強調mri由来の皮質形態学的ネットワークを用いたasd診断への応用を行った。 競技中、参加者にはトレーニングデータセットが提供され、公開テストデータでのみパフォーマンスをチェックすることが許された。 最終評価は、正確性、感度、特異性指標に基づいて、公開および隠れたテストデータセットの両方で実施された。 各パフォーマンスメトリクスを別々にランク付けし、最終ランキングはすべてのランキングの平均に基づいて決定された。 第1位チームは70%の精度、72.5%の感度、67.5%の特異性を達成し、第2位チームはそれぞれ63.8%、62.5%、65%を達成した。 競合する機械学習環境でML診断手法を設計するための参加者の活用により、皮質形態学ネットワークを用いたASD診断のための幅広いML手法の探索とベンチマークが可能となった。

Autism spectrum disorder (ASD) affects the brain connectivity at different levels. Nonetheless, non-invasively distinguishing such effects using magnetic resonance imaging (MRI) remains very challenging to machine learning diagnostic frameworks due to ASD heterogeneity. So far, existing network neuroscience works mainly focused on functional (derived from functional MRI) and structural (derived from diffusion MRI) brain connectivity, which might not capture relational morphological changes between brain regions. Indeed, machine learning (ML) studies for ASD diagnosis using morphological brain networks derived from conventional T1-weighted MRI are very scarce. To fill this gap, we leverage crowdsourcing by organizing a Kaggle competition to build a pool of machine learning pipelines for neurological disorder diagnosis with application to ASD diagnosis using cortical morphological networks derived from T1-weighted MRI. During the competition, participants were provided with a training dataset and only allowed to check their performance on a public test data. The final evaluation was performed on both public and hidden test datasets based on accuracy, sensitivity, and specificity metrics. Teams were ranked using each performance metric separately and the final ranking was determined based on the mean of all rankings. The first-ranked team achieved 70% accuracy, 72.5% sensitivity, and 67.5% specificity, while the second-ranked team achieved 63.8%, 62.5%, 65% respectively. Leveraging participants to design ML diagnostic methods within a competitive machine learning setting has allowed the exploration and benchmarking of wide spectrum of ML methods for ASD diagnosis using cortical morphological networks.
翻訳日:2022-12-08 22:15:57 公開日:2020-04-28
# ロバストな生成型adversarial network

Robust Generative Adversarial Network ( http://arxiv.org/abs/2004.13344v1 )

ライセンス: Link先を確認
Shufei Zhang, Zhuang Qian, Kaizhu Huang, Jimin Xiao, Yuan He(参考訳) generative adversarial network (gans) は強力な生成モデルであるが、通常は不安定性や一般化の問題に苦しむ。 既存の研究の多くは、一般化特性を無視しながら判別器の訓練を安定化することに焦点を当てている。 本研究では,訓練試料の近傍における局所的ロバスト性を促進することにより,gansの一般化能力の向上を目指す。 また、トレーニングセットの小さな近傍におけるロバスト性が、よりよい一般化につながることを証明します。 特に,小さなワッサースタイン球内の \textit{worst-case} 設定において,生成器と判別器が互いに競合するロバストな最適化フレームワークを設計する。 ジェネレータは、実データ分布に \textit{the worst input distribution} (ほとんどのganで使われるガウス分布ではなく) をマップしようとするが、判別器は、偽の分布 \textit{ with the worst perturbation} を区別しようとする。 我々は,従来のGANよりも厳密な一般化上限を得ることができ,GANよりもRGANの方が理論的に優れていることを証明した。 CIFAR-10, STL-10, CelebAデータセットの一連の実験により, 提案したロバストなフレームワークは, 5つのベースラインGANモデルに対してほぼ一貫した改善が可能であることが示された。

Generative adversarial networks (GANs) are powerful generative models, but usually suffer from instability and generalization problem which may lead to poor generations. Most existing works focus on stabilizing the training of the discriminator while ignoring the generalization properties. In this work, we aim to improve the generalization capability of GANs by promoting the local robustness within the small neighborhood of the training samples. We also prove that the robustness in small neighborhood of training sets can lead to better generalization. Particularly, we design a robust optimization framework where the generator and discriminator compete with each other in a \textit{worst-case} setting within a small Wasserstein ball. The generator tries to map \textit{the worst input distribution} (rather than a Gaussian distribution used in most GANs) to the real data distribution, while the discriminator attempts to distinguish the real and fake distribution \textit{with the worst perturbation}. We have proved that our robust method can obtain a tighter generalization upper bound than traditional GANs under mild assumptions, ensuring a theoretical superiority of RGAN over GANs. A series of experiments on CIFAR-10, STL-10 and CelebA datasets indicate that our proposed robust framework can improve on five baseline GAN models substantially and consistently.
翻訳日:2022-12-08 22:14:58 公開日:2020-04-28
# 土地被覆分類のためのメタラーニング

Meta-Learning for Few-Shot Land Cover Classification ( http://arxiv.org/abs/2004.13390v1 )

ライセンス: Link先を確認
Marc Ru{\ss}wurm, Sherrie Wang, Marco K\"orner, David Lobell(参考訳) 地球の表面の表現は、ある地理的領域から別の領域まで様々である。 例えば、都市部の出現は大陸によって異なり、季節性は植生の出現に影響を与える。 都市や植生のような単一のカテゴリ内の多様性を捉えるには、大きなモデルキャパシティが必要であり、その結果、大きなデータセットが必要になる。 本研究では,この多様性を,ある領域からのデータサンプルが少ないため,モデルが目に見えない領域に適応できる帰納的移行学習問題とみなす。 グローバルおよび地域分布データセットを用いた分類・分節タスクにおけるモデル非依存メタラーニング(MAML)アルゴリズムの評価を行った。 その結果,(1)sen12msデータセットと(2)deepglobeデータでは,ソースドメインとターゲットドメインが異なる場合,事前学習と微調整を上回っていることがわかった。 これは、メタラーニングによるモデル最適化が、従来のグラデーションに基づく教師付き学習が特徴やラベルシフトの欠如に適しているのに対して、地域ごとに高い多様性を示すデータを持つ地球科学のタスクに役立つことを示している。

The representations of the Earth's surface vary from one geographic region to another. For instance, the appearance of urban areas differs between continents, and seasonality influences the appearance of vegetation. To capture the diversity within a single category, like as urban or vegetation, requires a large model capacity and, consequently, large datasets. In this work, we propose a different perspective and view this diversity as an inductive transfer learning problem where few data samples from one region allow a model to adapt to an unseen region. We evaluate the model-agnostic meta-learning (MAML) algorithm on classification and segmentation tasks using globally and regionally distributed datasets. We find that few-shot model adaptation outperforms pre-training with regular gradient descent and fine-tuning on (1) the Sen12MS dataset and (2) DeepGlobe data when the source domain and target domain differ. This indicates that model optimization with meta-learning may benefit tasks in the Earth sciences whose data show a high degree of diversity from region to region, while traditional gradient-based supervised learning remains suitable in the absence of a feature or label shift.
翻訳日:2022-12-08 22:14:31 公開日:2020-04-28
# 遺伝的プログラミングによる公平な分類器の学習

Genetic programming approaches to learning fair classifiers ( http://arxiv.org/abs/2004.13282v1 )

ライセンス: Link先を確認
William La Cava and Jason H. Moore(参考訳) 社会は重要な意思決定のために分類器のようなアルゴリズムに頼るようになり、公平性のような倫理的保証の必要性が生まれた。 公正性は通常、集団内の保護されたグループに対して、分類器の統計値がほぼ等しいことを問うことで定義される。 本稿では, 遺伝的プログラミングにフェアネスを組み込んだアルゴリズムの提案の動機付けとして, 公平性に対する最近のアプローチについて述べる。 我々は2つの考えを提案する。 1つ目は、公平性目標を多目的最適化に組み込むことである。 2つ目は、保護群の交叉上のケースを動的に定義するために語彙選択を適用することである。 語彙選択が圧力モデルに適しており、フェアネスが望まれる潜在的に無限に多くの部分群に対してうまく機能する理由を述べる。 我々は,近年の遺伝的プログラミング手法を用いて,公平性制約が必要な4つのデータセットのモデルを構築し,ゲーム理論的な解を用いた先行手法と性能を実証的に比較した。 方法は、パレート最適である部分群フェアネスと精度のトレードオフを生成する能力に基づいて評価される。 その結果, 遺伝的プログラミング手法, 特にランダム検索が, この課題に適していることが示唆された。

Society has come to rely on algorithms like classifiers for important decision making, giving rise to the need for ethical guarantees such as fairness. Fairness is typically defined by asking that some statistic of a classifier be approximately equal over protected groups within a population. In this paper, current approaches to fairness are discussed and used to motivate algorithmic proposals that incorporate fairness into genetic programming for classification. We propose two ideas. The first is to incorporate a fairness objective into multi-objective optimization. The second is to adapt lexicase selection to define cases dynamically over intersections of protected groups. We describe why lexicase selection is well suited to pressure models to perform well across the potentially infinitely many subgroups over which fairness is desired. We use a recent genetic programming approach to construct models on four datasets for which fairness constraints are necessary, and empirically compare performance to prior methods utilizing game-theoretic solutions. Methods are assessed based on their ability to generate trade-offs of subgroup fairness and accuracy that are Pareto optimal. The result show that genetic programming methods in general, and random search in particular, are well suited to this task.
翻訳日:2022-12-08 22:08:23 公開日:2020-04-28
# ニューラルマシン翻訳モデルによるバイリンガル知識の評価

Assessing the Bilingual Knowledge Learned by Neural Machine Translation Models ( http://arxiv.org/abs/2004.13270v1 )

ライセンス: Link先を確認
Shilin He, Xing Wang, Shuming Shi, Michael R. Lyu, Zhaopeng Tu(参考訳) 機械翻訳(MT)システムは、訓練例からバイリンガル語彙、文法、意味論の深い知識を自動的に学習することで、異なる言語間のテキストを翻訳する。 ニューラルマシン翻訳(NMT)はMTの分野をリードしているが、その仕組みや理由については理解が不十分である。 本稿では,NMTモデルで学習したバイリンガル知識を,二言語辞書の解釈可能な表である句表を用いて評価することにより,そのギャップを埋める。 NMTモデルが正しく予測するトレーニング例から句表を抽出する。 広く使われているデータセットに関する広範な実験は、フレーズテーブルが言語ペアやランダムな種に対して合理的で一貫性があることを示している。 解釈可能な句表と組み合わせることで,NMTモデルは単純から複雑にパターンを学習し,訓練例から本質的なバイリンガル知識を抽出する。 また、バイリンガル知識の学習に影響を与える可能性のあるいくつかの進歩(例えば、バック翻訳)を再考し、興味深い発見を報告する。 本研究は,NMTを統計モデルで解釈する新たな角度を開き,最近のNMTモデル改善の実証的支援を提供すると考えている。

Machine translation (MT) systems translate text between different languages by automatically learning in-depth knowledge of bilingual lexicons, grammar and semantics from the training examples. Although neural machine translation (NMT) has led the field of MT, we have a poor understanding on how and why it works. In this paper, we bridge the gap by assessing the bilingual knowledge learned by NMT models with phrase table -- an interpretable table of bilingual lexicons. We extract the phrase table from the training examples that an NMT model correctly predicts. Extensive experiments on widely-used datasets show that the phrase table is reasonable and consistent against language pairs and random seeds. Equipped with the interpretable phrase table, we find that NMT models learn patterns from simple to complex and distill essential bilingual knowledge from the training examples. We also revisit some advances that potentially affect the learning of bilingual knowledge (e.g., back-translation), and report some interesting findings. We believe this work opens a new angle to interpret NMT with statistic models, and provides empirical supports for recent advances in improving NMT models.
翻訳日:2022-12-08 22:06:39 公開日:2020-04-28
# 対話タスクのためのモデルベースアクタクリティカルのサンプル効率

Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue Task ( http://arxiv.org/abs/2004.13657v1 )

ライセンス: Link先を確認
Katya Kudashkina, Valliappa Chockalingam, Graham W. Taylor, Michael Bowling(参考訳) 機械学習に依存する人間とコンピュータの対話型システムは、デジタルアシスタントを日々使っている何百万人もの人々の生活において最重要視されている。 しかし、データの可用性と新しいサンプルを取得するコストによって、さらなる進歩は制限されている。 この問題に対処する1つの方法は、現在のアプローチのサンプル効率を改善することである。 解法として,対話型対話タスクのためのモデルに基づく強化学習アルゴリズムを提案する。 我々は、一般的なアクター批判的手法に基づいて、学習エージェントを増強し、環境ダイナミクスのモデルを学ぶ環境モデルとプランナーを追加します。 その結果,対話型タスクを模倣するシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて70倍のサンプルが必要であり,漸近的に2~倍の性能を示すことがわかった。 さらに,ソフトプランナーポリシーを計算し,モデルベースと同等に計算コストの低いモデルフリーエージェントを産出するモデルフリーポリシーをさらに更新する,新たな貢献を提案する。 このモデルベースのアーキテクチャは、他の人間とコンピュータの対話的なタスクに拡張できる基盤として機能し、この方向にさらなる進歩をもたらす。

Human-computer interactive systems that rely on machine learning are becoming paramount to the lives of millions of people who use digital assistants on a daily basis. Yet, further advances are limited by the availability of data and the cost of acquiring new samples. One way to address this problem is by improving the sample efficiency of current approaches. As a solution path, we present a model-based reinforcement learning algorithm for an interactive dialogue task. We build on commonly used actor-critic methods, adding an environment model and planner that augments a learning agent to learn the model of the environment dynamics. Our results show that, on a simulation that mimics the interactive task, our algorithm requires 70 times fewer samples, compared to the baseline of commonly used model-free algorithm, and demonstrates 2~times better performance asymptotically. Moreover, we introduce a novel contribution of computing a soft planner policy and further updating a model-free policy yielding a less computationally expensive model-free agent as good as the model-based one. This model-based architecture serves as a foundation that can be extended to other human-computer interactive tasks allowing further advances in this direction.
翻訳日:2022-12-08 21:59:33 公開日:2020-04-28
# 脊椎医療報告生成のための統一型ニューラルラーニングとシンボリック推論

Unifying Neural Learning and Symbolic Reasoning for Spinal Medical Report Generation ( http://arxiv.org/abs/2004.13577v1 )

ライセンス: Link先を確認
Zhongyi Han, Benzheng Wei, Yilong Yin, Shuo Li(参考訳) 脊椎放射線学における医療報告の自動生成、すなわち、臨床的な意思決定を支援するために、脊椎医レベルの診断レポートを直接作成することは、医療における人工知能の領域において、新しくながら基礎的な研究である。 しかし、視覚知覚と高レベルの推論プロセスを伴う非常に複雑なタスクであるため、非常に困難である。 本稿では,深層神経学習とシンボリック論理推論を統合し,脊髄医用レポート生成のための人間型学習を実現するニューラルシンボリック学習(nsl)フレームワークを提案する。 一般的に、nslフレームワークはまず深層ニューラルネットワークを使用して人間の視覚知覚を模倣し、標的脊髄構造の異常を検出する。 具体的には,シンボルグラフ推論モジュールを,事前のドメイン知識を埋め込んで,複雑で可変性の高い脊髄構造のセマンティックセマンティックセグメンテーションを実現することで,生成する逆数ネットワークに補間する逆数グラフネットワークを設計する。 nslは第2に、メタ解釈学習による異常の検出エンティティの教師なし因果効果分析を実現する、人間のような象徴的論理推論を行う。 NSLは最終的にこれらの疾患の発見を統一テンプレートに満たし、総合的な医療報告の生成に成功した。 実世界の臨床データセットに採用した場合,脊髄の医療報告生成能力に関する一連の実証研究は,このアルゴリズムが既存の脊髄構造検出法をはるかに上回ることを示した。 これらは、コンピュータ支援診断に寄与する臨床ツールとしての可能性を示している。

Automated medical report generation in spine radiology, i.e., given spinal medical images and directly create radiologist-level diagnosis reports to support clinical decision making, is a novel yet fundamental study in the domain of artificial intelligence in healthcare. However, it is incredibly challenging because it is an extremely complicated task that involves visual perception and high-level reasoning processes. In this paper, we propose the neural-symbolic learning (NSL) framework that performs human-like learning by unifying deep neural learning and symbolic logical reasoning for the spinal medical report generation. Generally speaking, the NSL framework firstly employs deep neural learning to imitate human visual perception for detecting abnormalities of target spinal structures. Concretely, we design an adversarial graph network that interpolates a symbolic graph reasoning module into a generative adversarial network through embedding prior domain knowledge, achieving semantic segmentation of spinal structures with high complexity and variability. NSL secondly conducts human-like symbolic logical reasoning that realizes unsupervised causal effect analysis of detected entities of abnormalities through meta-interpretive learning. NSL finally fills these discoveries of target diseases into a unified template, successfully achieving a comprehensive medical report generation. When it employed in a real-world clinical dataset, a series of empirical studies demonstrate its capacity on spinal medical report generation as well as show that our algorithm remarkably exceeds existing methods in the detection of spinal structures. These indicate its potential as a clinical tool that contributes to computer-aided diagnosis.
翻訳日:2022-12-08 21:59:14 公開日:2020-04-28
# 物体検出のための多変量信頼度校正

Multivariate Confidence Calibration for Object Detection ( http://arxiv.org/abs/2004.13546v1 )

ライセンス: Link先を確認
Fabian K\"uppers, Jan Kronenberger, Amirhossein Shantia, Anselm Haselhoff(参考訳) ニューラルネットワークのバイアスのない信頼推定は、特に安全クリティカルなアプリケーションには不可欠である。 偏りのある信頼推定をキャリブレーションする多くの手法が開発されている。 分類には様々な方法があるが、対象検出の分野はまだ解決されていない。 そこで本稿では,物体検出手法の偏り(あるいは不一致)を推定し,推定値の校正を行う新しい枠組みを提案する。 分類器校正の分野における関連する作業との主な違いは、対象検出器の回帰出力の付加情報も校正に用いることである。 我々のアプローチは、画像の位置とボックススケールに関して、初めて校正された信頼度評価を得ることを可能にする。 さらに,物体検出器の誤校正を評価するための新しい手法を提案する。 最後に,本手法は,物体検出タスクにおける最先端のキャリブレーションモデルより優れており,異なる位置とスケールで信頼性の高い推定値を提供する。

Unbiased confidence estimates of neural networks are crucial especially for safety-critical applications. Many methods have been developed to calibrate biased confidence estimates. Though there is a variety of methods for classification, the field of object detection has not been addressed yet. Therefore, we present a novel framework to measure and calibrate biased (or miscalibrated) confidence estimates of object detection methods. The main difference to related work in the field of classifier calibration is that we also use additional information of the regression output of an object detector for calibration. Our approach allows, for the first time, to obtain calibrated confidence estimates with respect to image location and box scale. In addition, we propose a new measure to evaluate miscalibration of object detectors. Finally, we show that our developed methods outperform state-of-the-art calibration models for the task of object detection and provides reliable confidence estimates across different locations and scales.
翻訳日:2022-12-08 21:58:48 公開日:2020-04-28
# 少数派:敵対的パッチを擁護

Minority Reports Defense: Defending Against Adversarial Patches ( http://arxiv.org/abs/2004.13799v1 )

ライセンス: Link先を確認
Michael McCoyd, Won Park, Steven Chen, Neil Shah, Ryan Roggenkemper, Minjune Hwang, Jason Xinyu Liu and David Wagner(参考訳) 深層学習画像分類は、たとえ攻撃者が画像の小さなパッチだけを変更しても、敵の攻撃に対して脆弱である。 そこで本研究では,パッチ攻撃に対する防御として,パッチの配置位置を部分的にオクルーディングすることでパッチ攻撃を完全に隠蔽する手法を提案する。 我々は,CIFAR-10,Fashion MNIST,MNISTに対して,特定のサイズのパッチ攻撃に対する認証されたセキュリティを提供することを実証する。

Deep learning image classification is vulnerable to adversarial attack, even if the attacker changes just a small patch of the image. We propose a defense against patch attacks based on partially occluding the image around each candidate patch location, so that a few occlusions each completely hide the patch. We demonstrate on CIFAR-10, Fashion MNIST, and MNIST that our defense provides certified security against patch attacks of a certain size.
翻訳日:2022-12-08 21:57:38 公開日:2020-04-28
# 埋め込み場における方向多重グラフの入射 一般化

The Immersion of Directed Multi-graphs in Embedding Fields. Generalisations ( http://arxiv.org/abs/2004.13384v1 )

ライセンス: Link先を確認
Bogdan Bocse and Ioan Radu Jinga(参考訳) 本研究の目的は,同一のアーキテクチャデータ層において,入力,出力,潜時テンソルの表現を具現化するために,関係分類,記号,知覚感覚,知覚遅延データのハイブリッド表現の一般化モデルを概説することである。 この表現は、コンピュータビジョンにおける様々な機械学習モデル、NLP/NLU、クロスドメインクエリと関数を直接適用可能な強化学習で現在使用されている。 これは、視覚的、言語的、聴覚的な潜在表現を含むテンソル形式間の新しい類似性と距離関係を定義し、構築し、計算するために、様々な潜在空間からの埋め込みを表す少なくともいくつかのエッジ属性を持つ有向テンソル型多グラフを付与することにより達成される。

The purpose of this paper is to outline a generalised model for representing hybrids of relational-categorical, symbolic, perceptual-sensory and perceptual-latent data, so as to embody, in the same architectural data layer, representations for the input, output and latent tensors. This variety of representation is currently used by various machine-learning models in computer vision, NLP/NLU, reinforcement learning which allows for direct application of cross-domain queries and functions. This is achieved by endowing a directed Tensor-Typed Multi-Graph with at least some edge attributes which represent the embeddings from various latent spaces, so as to define, construct and compute new similarity and distance relationships between and across tensorial forms, including visual, linguistic, auditory latent representations, thus stitching the logical-categorical view of the observed universe to the Bayesian/statistical view.
翻訳日:2022-12-08 21:50:19 公開日:2020-04-28
# 花びのレインボーdqn剤の未発見パートナーによる評価

Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners ( http://arxiv.org/abs/2004.13291v1 )

ライセンス: Link先を確認
Rodrigo Canaan, Xianbo Gao, Youjin Chung, Julian Togelius, Andy Nealen and Stefan Menzel(参考訳) ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。 共有戦略によってゲームでほぼ完全なスコアを達成できるエージェントは存在するが、パートナーと戦略が事前に分かっていないアドホックな協調設定では、比較的進歩がほとんど行われていない。 本稿では,人気のあるレインボーdqnアーキテクチャを用いた自己遊びによって訓練されたエージェントは,トレーニング中に見られなかった単純なルールベースエージェントとうまく連携できず,逆に,個々のルールベースエージェント,あるいはこれらのエージェントの混合でさえも,優れた自己プレイスコアを達成することができないことを示す。

Hanabi is a cooperative game that challenges exist-ing AI techniques due to its focus on modeling the mental states ofother players to interpret and predict their behavior. While thereare agents that can achieve near-perfect scores in the game byagreeing on some shared strategy, comparatively little progresshas been made in ad-hoc cooperation settings, where partnersand strategies are not known in advance. In this paper, we showthat agents trained through self-play using the popular RainbowDQN architecture fail to cooperate well with simple rule-basedagents that were not seen during training and, conversely, whenthese agents are trained to play with any individual rule-basedagent, or even a mix of these agents, they fail to achieve goodself-play scores.
翻訳日:2022-12-08 21:50:00 公開日:2020-04-28
# 二重遷移損失に基づく雑音ラベルによる関係抽出の実践的枠組み

A Practical Framework for Relation Extraction with Noisy Labels Based on Doubly Transitional Loss ( http://arxiv.org/abs/2004.13786v1 )

ライセンス: Link先を確認
Shanchan Wu and Kai Fan(参考訳) 人間のアノテーションやルールに基づく自動ラベリングは関係抽出のためのデータ強化に有効な方法である。 しかし、例えば遠方の監督による不注意なラベル付け問題は、既存の多くの手法の性能を悪化させる可能性がある。 この問題に対処するために,提案する2つの遷移機構を備えた標準特徴抽出器と新しい雑音分類器を含む,実用的なエンドツーエンドディープラーニングフレームワークを導入する。 1つの遷移は基本的に、真と雑音のラベル間の変換を暗黙的に表す隠された層間の非線形変換によってパラメータ化され、他のモデルパラメータと共に容易に最適化できる。 もう1つは、ラベル間の直接変換をキャプチャする明示的な確率遷移行列であるが、EMアルゴリズムから導出する必要がある。 私たちはNYTデータセットとSemEval 2018 Task 7で実験を行います。 実験の結果は、最先端の手法よりも同等か良い性能を示している。

Either human annotation or rule based automatic labeling is an effective method to augment data for relation extraction. However, the inevitable wrong labeling problem for example by distant supervision may deteriorate the performance of many existing methods. To address this issue, we introduce a practical end-to-end deep learning framework, including a standard feature extractor and a novel noisy classifier with our proposed doubly transitional mechanism. One transition is basically parameterized by a non-linear transformation between hidden layers that implicitly represents the conversion between the true and noisy labels, and it can be readily optimized together with other model parameters. Another is an explicit probability transition matrix that captures the direct conversion between labels but needs to be derived from an EM algorithm. We conduct experiments on the NYT dataset and SemEval 2018 Task 7. The empirical results show comparable or better performance over state-of-the-art methods.
翻訳日:2022-12-08 21:48:21 公開日:2020-04-28
# Deep Conversational Recommender Systems: ゴール指向対話システムのための新しいフロンティア

Deep Conversational Recommender Systems: A New Frontier for Goal-Oriented Dialogue Systems ( http://arxiv.org/abs/2004.13245v1 )

ライセンス: Link先を確認
Dai Hoang Tran, Quan Z. Sheng, Wei Emma Zhang, Salma Abdalla Hamad, Munazza Zaib, Nguyen H. Tran, Lina Yao, Nguyen Lu Dang Khoa(参考訳) 近年,自然言語処理技術を活用したレコメンデータシステムの新たな話題が注目され,その応用例としてConversational Recommender System (CRS)がある。 コンテンツベースで協調的なフィルタリングアプローチを持つ従来のレコメンデータシステムとは異なり、CRSは対話型対話を通じてユーザの好みを学習し、モデル化する。 本研究では,最近のCRSの進化を要約し,深層学習アプローチをCRSに適用し,実りある結果を得た。 まず,深層会話型レコメンダシステム(deep conversational recommender systems, dcrs)の開発において,研究課題を分析し,その課題を提示する。 最後に、この活気ある地域の今後の方向性について論じる。

In recent years, the emerging topics of recommender systems that take advantage of natural language processing techniques have attracted much attention, and one of their applications is the Conversational Recommender System (CRS). Unlike traditional recommender systems with content-based and collaborative filtering approaches, CRS learns and models user's preferences through interactive dialogue conversations. In this work, we provide a summarization of the recent evolution of CRS, where deep learning approaches are applied to CRS and have produced fruitful results. We first analyze the research problems and present key challenges in the development of Deep Conversational Recommender Systems (DCRS), then present the current state of the field taken from the most recent researches, including the most common deep learning models that benefit DCRS. Finally, we discuss future directions for this vibrant area.
翻訳日:2022-12-08 21:48:08 公開日:2020-04-28
# テキスト文書における教師なし意味文ランキング方式

An Unsupervised Semantic Sentence Ranking Scheme for Text Documents ( http://arxiv.org/abs/2005.02158v1 )

ライセンス: Link先を確認
Hao Zhang, Jie Wang(参考訳) 本稿では,ssr (semantic sentencerank) について述べる。ssr (unsupervised scheme, unsupervised scheme) は,その相対的重要性に応じて1つの文書中の文章を自動的にランク付けする手法である。 特に、ssrは、テキスト文書から本質的な単語と句を抽出し、それぞれ、句と単語についての意味句グラフと、文上の意味文グラフを構築するための意味尺度を用いる。 記事構造バイアスのPageRankの2つの変種を適用し、第1グラフのフレーズと単語、第2グラフの文をスコアする。 そしてこれらのスコアを組み合わせて、各文の最終スコアを生成する。 最後に、ssrは、意味サブトピッククラスタリングによる最終スコアとトピックの多様性に基づいて、文章をランク付けするための多目的最適化問題を解く。 2次時間で実行されるSSRの実装が提示され、SummBankベンチマークでは、各審査員のランキングよりも優れ、すべての審査員の合計ランキングと好意的に比較される。

This paper presents Semantic SentenceRank (SSR), an unsupervised scheme for automatically ranking sentences in a single document according to their relative importance. In particular, SSR extracts essential words and phrases from a text document, and uses semantic measures to construct, respectively, a semantic phrase graph over phrases and words, and a semantic sentence graph over sentences. It applies two variants of article-structure-biased PageRank to score phrases and words on the first graph and sentences on the second graph. It then combines these scores to generate the final score for each sentence. Finally, SSR solves a multi-objective optimization problem for ranking sentences based on their final scores and topic diversity through semantic subtopic clustering. An implementation of SSR that runs in quadratic time is presented, and it outperforms, on the SummBank benchmarks, each individual judge's ranking and compares favorably with the combined ranking of all judges.
翻訳日:2022-12-08 21:47:53 公開日:2020-04-28