このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210412となっている論文です。

PDF登録状況(公開日: 20210412)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ベイズニューラルネットワークによるハッブル定数の高精度・高精度推定のための大規模重力レンズモデリング [全文訳有]

Large-Scale Gravitational Lens Modeling with Bayesian Neural Networks for Accurate and Precise Inference of the Hubble Constant ( http://arxiv.org/abs/2012.00042v2 )

ライセンス: CC BY 4.0
Ji Won Park, Sebastian Wagner-Carena, Simon Birrer, Philip J. Marshall, Joshua Yao-Yu Lin, Aaron Roodman (for the LSST Dark Energy Science Collaboration)(参考訳) 我々は、ハッブル定数(H_0$)決定のための数百の時間遅延重力レンズのモデリングにおける近似ベイズニューラルネットワーク(BNN)の使用について検討する。 我々のBNNは、レンズ銀河光を含む強いレンズ付き活動銀河核(AGN)の合成HST品質の画像について訓練した。 BNNは、外せん断場の楕円形パワーロー質量プロファイルを管理するモデルパラメータの後方PDFを正確に特徴付けることができる。 次に,bnnが推定した後方pdfをh_0$推論に展開し,再現可能な専用の監視キャンペーンによる時間遅延測定をシミュレーションした。 適切に測定された時間遅延とレンズの環境に対する適切な事前セットを仮定すると、推定された$H_0$においてレンズ毎の中央値の精度は9.3$\%となる。 200個のテストセットレンズの単純な組み合わせにより、0.5$\textrm{km s}^{-1} \textrm{mpc}^{-1}$ (0.7\%$) の精度が得られ、この$h_0$リカバリテストでは検出可能なバイアスがない。 トレーニングセット生成、BNNトレーニング、および$H_0$推論を含むパイプライン全体の計算時間は、200レンズの平均で1レンズあたり9分、サンプルサイズが大きくなるにつれて1レンズあたり6分に収束する。 完全に自動化され、効率的であるため、このパイプラインは$h_0$推論のためのレンズモデリングにおけるアンサンブルレベルのシステマティクスを探求するための有望なツールです。

We investigate the use of approximate Bayesian neural networks (BNNs) in modeling hundreds of time-delay gravitational lenses for Hubble constant ($H_0$) determination. Our BNN was trained on synthetic HST-quality images of strongly lensed active galactic nuclei (AGN) with lens galaxy light included. The BNN can accurately characterize the posterior PDFs of model parameters governing the elliptical power-law mass profile in an external shear field. We then propagate the BNN-inferred posterior PDFs into ensemble $H_0$ inference, using simulated time delay measurements from a plausible dedicated monitoring campaign. Assuming well-measured time delays and a reasonable set of priors on the environment of the lens, we achieve a median precision of $9.3$\% per lens in the inferred $H_0$. A simple combination of 200 test-set lenses results in a precision of 0.5 $\textrm{km s}^{-1} \textrm{ Mpc}^{-1}$ ($0.7\%$), with no detectable bias in this $H_0$ recovery test. The computation time for the entire pipeline -- including the training set generation, BNN training, and $H_0$ inference -- translates to 9 minutes per lens on average for 200 lenses and converges to 6 minutes per lens as the sample size is increased. Being fully automated and efficient, our pipeline is a promising tool for exploring ensemble-level systematics in lens modeling for $H_0$ inference.
翻訳日:2021-06-06 21:07:54 公開日:2021-04-12
# (参考訳) 画像の逆問題に対するモデル適応 [全文訳有]

Model Adaptation for Inverse Problems in Imaging ( http://arxiv.org/abs/2012.00139v2 )

ライセンス: CC BY 4.0
Davis Gilton, Gregory Ongie, Rebecca Willett(参考訳) ディープニューラルネットワークは、計算イメージングで生じる様々な逆問題に対してうまく適用されている。 これらのネットワークは通常、逆転する計測プロセスを記述するフォワードモデルを使用して訓練される。 しかし、これらのアプローチはフォワードモデルの変化に敏感であり、テスト時にネットワークがトレーニングしたモデルからフォワードモデルが少しでも変化する場合、再構成性能は大幅に低下する可能性がある。 既知のフォワードモデルで初期逆問題を解決するために訓練されたネットワークを考えると、その変更を十分に理解することなく、フォワードモデルの変化に適応する2つの新しいプロシージャを提案する。 我々のアプローチは、より多くのラベル付きデータ(すなわち、基底真理画像)にアクセスする必要はない。 これらの単純なモデル適応アプローチは,磁気共鳴イメージングにおけるデブラリング,超解像,アンサンプ画像再構成など,様々な逆問題において経験的成功をおさめている。

Deep neural networks have been applied successfully to a wide variety of inverse problems arising in computational imaging. These networks are typically trained using a forward model that describes the measurement process to be inverted, which is often incorporated directly into the network itself. However, these approaches are sensitive to changes in the forward model: if at test time the forward model varies (even slightly) from the one the network was trained for, the reconstruction performance can degrade substantially. Given a network trained to solve an initial inverse problem with a known forward model, we propose two novel procedures that adapt the network to a change in the forward model, even without full knowledge of the change. Our approaches do not require access to more labeled data (i.e., ground truth images). We show these simple model adaptation approaches achieve empirical success in a variety of inverse problems, including deblurring, super-resolution, and undersampled image reconstruction in magnetic resonance imaging.
翻訳日:2021-06-06 17:15:02 公開日:2021-04-12
# 深部病変追跡装置:4次元縦断イメージング研究における病変のモニタリング

Deep Lesion Tracker: Monitoring Lesions in 4D Longitudinal Imaging Studies ( http://arxiv.org/abs/2012.04872v2 )

ライセンス: Link先を確認
Jinzheng Cai, Youbao Tang, Ke Yan, Adam P. Harrison, Jing Xiao, Gigin Lin, Le Lu(参考訳) 縦断研究における治療反応のモニタリングは臨床における重要な役割を担っている。 連続画像追跡における病変の正確な同定は、モニタリング手順の中核である。 通常、これは画像と解剖学的考察の両方を取り入れている。 しかし、手動で一致する病変は労働集約的で時間を要する。 本研究では,出現信号と解剖信号の両方を用いた深層学習手法であるdeep lesion tracker(dlt)を提案する。 解剖学的制約を組み込むために,病変が視覚的に類似するがスプリアス領域と一致することを防止する解剖学的信号エンコーダを提案する。 さらに,3次元相互相関の重い計算負荷を回避するため,シャムネットワークの新しい定式化を提案する。 また,より多種多様な画像をネットワークに提示するために,データ収集の障壁を克服する自己教師付き学習(SSL)戦略を提案する。 追跡者の訓練と評価のために,公開deeplesionデータベースから3891個の病巣対からなる第1病巣追跡ベンチマークを紹介,公開する。 提案手法であるDLTは, 平均誤差距離7mmの病変中心を同定する。 これはリード登録アルゴリズムよりも5%優れているが、全ctボリュームで14倍高速である。 我々は、検出器や類似性学習の代替よりもさらに多くの改善を示す。 dltはまた、100の縦断的研究の外部臨床テストセットをうまく一般化し、88%の精度を達成した。 最後に, dltを自動腫瘍モニタリングワークフローに挿入し, 病変治療反応の評価において85%の精度が得られ, 手動入力の精度よりわずか0.46%低い。

Monitoring treatment response in longitudinal studies plays an important role in clinical practice. Accurately identifying lesions across serial imaging follow-up is the core to the monitoring procedure. Typically this incorporates both image and anatomical considerations. However, matching lesions manually is labor-intensive and time-consuming. In this work, we present deep lesion tracker (DLT), a deep learning approach that uses both appearance- and anatomical-based signals. To incorporate anatomical constraints, we propose an anatomical signal encoder, which prevents lesions being matched with visually similar but spurious regions. In addition, we present a new formulation for Siamese networks that avoids the heavy computational loads of 3D cross-correlation. To present our network with greater varieties of images, we also propose a self-supervised learning (SSL) strategy to train trackers with unpaired images, overcoming barriers to data collection. To train and evaluate our tracker, we introduce and release the first lesion tracking benchmark, consisting of 3891 lesion pairs from the public DeepLesion database. The proposed method, DLT, locates lesion centers with a mean error distance of 7 mm. This is 5% better than a leading registration algorithm while running 14 times faster on whole CT volumes. We demonstrate even greater improvements over detector or similarity-learning alternatives. DLT also generalizes well on an external clinical test set of 100 longitudinal studies, achieving 88% accuracy. Finally, we plug DLT into an automatic tumor monitoring workflow where it leads to an accuracy of 85% in assessing lesion treatment responses, which is only 0.46% lower than the accuracy of manual inputs.
翻訳日:2021-05-16 02:04:48 公開日:2021-04-12
# evalda: 潜在ディリクレ割り当てに対する効率的な回避攻撃

EvaLDA: Efficient Evasion Attacks Towards Latent Dirichlet Allocation ( http://arxiv.org/abs/2012.04864v2 )

ライセンス: Link先を確認
Qi Zhou, Haipeng Chen, Yitao Zheng, Zhen Wang(参考訳) 最も強力なトピックモデルのひとつとして、LDA(Latent Dirichlet Allocation)は、文書理解、情報検索、ピア・リビューアの割り当てなど、幅広いタスクで使用されている。 その大きな人気にもかかわらず、ldaの安全性の研究はほとんど行われていない。 これは、LDAに基づく感情分析やピアレビューアの割り当てのような、セキュリティクリティカルなタスクに深刻なリスクをもたらす。 本稿では,LDAモデルが推定時間における良性文書例の逆摂動に対して脆弱であるかどうかを考察する。 最適化問題としてLDAモデルへの回避攻撃を形式化し、NPハードであることを証明する。 次に,新しい効率的なアルゴリズム EvaLDA を提案し,その解法を提案する。 EvaLDAの有効性を広範囲な経験的評価により明らかにした。 例えば、NIPSデータセットでは、EvaLDAは、犠牲者文書内の単語の1%を類似した単語に置き換えることによって、ターゲットトピックのランクを平均10から7に引き上げることができる。 我々の研究は、LDAモデルへの回避攻撃のパワーと限界に関する重要な洞察を提供する。

As one of the most powerful topic models, Latent Dirichlet Allocation (LDA) has been used in a vast range of tasks, including document understanding, information retrieval and peer-reviewer assignment. Despite its tremendous popularity, the security of LDA has rarely been studied. This poses severe risks to security-critical tasks such as sentiment analysis and peer-reviewer assignment that are based on LDA. In this paper, we are interested in knowing whether LDA models are vulnerable to adversarial perturbations of benign document examples during inference time. We formalize the evasion attack to LDA models as an optimization problem and prove it to be NP-hard. We then propose a novel and efficient algorithm, EvaLDA to solve it. We show the effectiveness of EvaLDA via extensive empirical evaluations. For instance, in the NIPS dataset, EvaLDA can averagely promote the rank of a target topic from 10 to around 7 by only replacing 1% of the words with similar words in a victim document. Our work provides significant insights into the power and limitations of evasion attacks to LDA models.
翻訳日:2021-05-16 01:47:37 公開日:2021-04-12
# ハイブリッドイベントカメラのための非同期カルマンフィルタ

An Asynchronous Kalman Filter for Hybrid Event Cameras ( http://arxiv.org/abs/2012.05590v2 )

ライセンス: Link先を確認
Ziwei Wang, Yonhon Ng, Cedric Scheerlinck, Robert Mahony(参考訳) イベントカメラは、ぼやけずにHDRの視覚情報をキャプチャするのに理想的だが、静的またはゆっくりと変化するシーンでは性能が良くない。 逆に、従来の画像センサは、ゆっくりと変化するシーンの絶対強度を効果的に測定するが、高いダイナミックレンジや素早く変化するシーンでは不十分である。 本稿では,ハイダイナミックレンジ(hdr)シナリオのためのイベントベースの映像再構成パイプラインを提案する。 提案アルゴリズムは,時間的にフレームデータをイベントで補間するフレーム拡張前処理ステップを含む。 拡張フレームとイベントデータは、両センサの統一不確実性モデルの下で、新しい非同期カルマンフィルタを用いて融合される。 実験結果は、照明条件や高速動作に挑戦する公開データセットと、HDR参照による新しいデータセットの両方で評価される。 提案アルゴリズムは,絶対強度誤差(48%削減)と画像類似度指数(平均11%改善)の両方において,最先端の手法より優れている。

Event cameras are ideally suited to capture HDR visual information without blur but perform poorly on static or slowly changing scenes. Conversely, conventional image sensors measure absolute intensity of slowly changing scenes effectively but do poorly on high dynamic range or quickly changing scenes. In this paper, we present an event-based video reconstruction pipeline for High Dynamic Range (HDR) scenarios. The proposed algorithm includes a frame augmentation pre-processing step that deblurs and temporally interpolates frame data using events. The augmented frame and event data are then fused using a novel asynchronous Kalman filter under a unifying uncertainty model for both sensors. Our experimental results are evaluated on both publicly available datasets with challenging lighting conditions and fast motions and our new dataset with HDR reference. The proposed algorithm outperforms state-of-the-art methods in both absolute intensity error (48% reduction) and image similarity indexes (average 11% improvement).
翻訳日:2021-05-15 06:12:52 公開日:2021-04-12
# BERTをベースとした特許分析の自由

BERT based freedom to operate patent analysis ( http://arxiv.org/abs/2105.00817v1 )

ライセンス: Link先を確認
Michael Freunek and Andr\'e Bodmer(参考訳) 本稿では,BERTを自由に適用し,特許分析と特許検索を行う手法を提案する。 この方法によれば、BERTは独立したクレームに対する特許記述のトレーニングによって微調整される。 各説明は,対応するクレームによって保護される発明を表す。 このような訓練されたBERTは、発明や製品の簡潔な記述に基づいて、関連する特許を識別または命令することができる。 本手法は,特許クラス G06T1/00 で BERT を訓練し,DOCDB で記述した G06T1/60 に分類される5つの発明に BERT を適用した。 DOCDBの要約は欧州特許庁のESPACENETで入手できる。

In this paper we present a method to apply BERT to freedom to operate patent analysis and patent searches. According to the method, BERT is fine-tuned by training patent descriptions to the independent claims. Each description represents an invention which is protected by the corresponding claims. Such a trained BERT could be able to identify or order freedom to operate relevant patents based on a short description of an invention or product. We tested the method by training BERT on the patent class G06T1/00 and applied the trained BERT on five inventions classified in G06T1/60, described via DOCDB abstracts. The DOCDB abstract are available on ESPACENET of the European Patent Office.
翻訳日:2021-05-04 20:42:48 公開日:2021-04-12
# 要約には何がありますか? 病院の要約の進歩に向けた基礎研究

What's in a Summary? Laying the Groundwork for Advances in Hospital-Course Summarization ( http://arxiv.org/abs/2105.00816v1 )

ライセンス: Link先を確認
Griffin Adams, Emily Alsentzer, Mert Ketenci, Jason Zucker, No\'emie Elhadad(参考訳) 臨床物語の要約は長年の研究課題である。 本稿では,病院コース要約の課題を紹介する。 患者の入院中に書かれた文書を考えると、患者の入院の物語を記した段落を作成する。 我々は,109,000の入院(2mの資料)の英語テキストからテキストへのデータセットとそれに対応する要約プロキシを構築し,臨床医が作成した「英国病院コース」を退院ノートの一部として記述した。 探索的な分析によると、BHCの段落は、長い抽出された断片で非常に抽象的であり、簡潔で包括的であり、ソースノートとは異なるスタイルや内容の組織であり、最小の語彙の凝集を示し、銀標準の参照を表す。 この複雑な文書要約タスクをモデル化するための複数の意味を明らかにする。

Summarization of clinical narratives is a long-standing research problem. Here, we introduce the task of hospital-course summarization. Given the documentation authored throughout a patient's hospitalization, generate a paragraph that tells the story of the patient admission. We construct an English, text-to-text dataset of 109,000 hospitalizations (2M source notes) and their corresponding summary proxy: the clinician-authored "Brief Hospital Course" paragraph written as part of a discharge note. Exploratory analyses reveal that the BHC paragraphs are highly abstractive with some long extracted fragments; are concise yet comprehensive; differ in style and content organization from the source notes; exhibit minimal lexical cohesion; and represent silver-standard references. Our analysis identifies multiple implications for modeling this complex, multi-document summarization task.
翻訳日:2021-05-04 20:42:15 公開日:2021-04-12
# (参考訳) antコロニーアルゴリズムに基づく画像補間の進展 [全文訳有]

Advances on image interpolation based on ant colony algorithm ( http://arxiv.org/abs/2104.12863v1 )

ライセンス: CC BY 4.0
Olivier Rukundo, Hanqiang Cao(参考訳) 本稿では,高分解能画像スケーリングのためのアリコロニーアルゴリズム(AACA)に基づく画像補間について述べる。 提案アルゴリズムと従来提案されていたアントコロニーアルゴリズム(OBACA)に基づく双線形補間最適化の違いは,AACAがグローバル重み付けを用いるのに対して,OBACAは局所重み付け方式を用いる点である。 aacaアルゴリズムが提案した大域重み付けの強さは、隣接する4つのピクセル群に存在するフェロモンマトリクス情報のみを使用して、どのケースが最大の大域重み値に値するかを決定する。 さらに,本論文で言及したアルゴリズムを参考に,提案したAACAアルゴリズムのより高い性能を示す実験結果が得られた。

This paper presents an advance on image interpolation based on ant colony algorithm (AACA) for high-resolution image scaling. The difference between the proposed algorithm and the previously proposed optimization of bilinear interpolation based on ant colony algorithm (OBACA) is that AACA uses global weighting, whereas OBACA uses a local weighting scheme. The strength of the proposed global weighting of the AACA algorithm depends on employing solely the pheromone matrix information present on any group of four adjacent pixels to decide which case deserves a maximum global weight value or not. Experimental results are further provided to show the higher performance of the proposed AACA algorithm with reference to the algorithms mentioned in this paper.
翻訳日:2021-05-04 08:23:44 公開日:2021-04-12
# (参考訳) 画像上の異なる車両の車両種別及びナンバープレート数の検出 [全文訳有]

Detecting Vehicle Type and License Plate Number of different Vehicles on Images ( http://arxiv.org/abs/2104.09568v1 )

ライセンス: CC BY 4.0
Aashna Ahuja, Arindam Chaudhuri(参考訳) 車両の増加に伴い、車両追跡は都市部で直面する大きな課題の1つとなっている。 本稿では,利用者が探している特定の車両を,車両の種類と2の要因によって特定できるモデルの開発を試みる。 ナンバーナンバーは車のナンバー。 提案システムでは,車両タイプ検出にマスクr-cnnモデル,ライセンスプレート検出にwpodnetとpytesseractを併用し,文字の予測を行う。

With ever increasing number of vehicles, vehicular tracking is one of the major challenges faced by urban areas. In this paper we try to develop a model that can locate a particular vehicle that the user is looking for depending on two factors 1. the Type of vehicle and the 2. License plate number of the car. The proposed system uses a unique mixture consisting of Mask R-CNN model for vehicle type detection, WpodNet and pytesseract for License Plate detection and Prediction of letters in it.
翻訳日:2021-05-04 08:07:15 公開日:2021-04-12
# Zoom-to-Inpaint:高頻度詳細画像インペインティング

Zoom-to-Inpaint: Image Inpainting with High-Frequency Details ( http://arxiv.org/abs/2012.09401v2 )

ライセンス: Link先を確認
Soo Ye Kim, Kfir Aberman, Nori Kanazawa, Rahul Garg, Neal Wadhwa, Huiwen Chang, Nikhil Karnad, Munchurl Kim, Orly Liba(参考訳) 深層学習は画像の描画において飛躍的な進歩をもたらしたが、現在の手法では現実的な高周波の詳細を合成できないことが多い。 本稿では,大まかに再構成された出力に超解像を適用し,高分解能で精製し,出力を元の解像度にダウンスケールする手法を提案する。 精細化ネットワークに高解像度の画像を導入することで、我々のフレームワークは、スペクトルバイアスによって通常滑らかにされる細部を再構築することができる。 本研究では,大規模ホールにおける改良ネットワークの訓練を支援するため,訓練が進むにつれて欠落領域の大きさが増加するプログレッシブ・ラーニング手法を提案する。 当社のズームイン,精製,ズームアウト戦略は,高分解能の監督とプログレッシブ・ラーニングと相まって,任意のcnnベースのインペインティング法に適用可能な高周波詳細化のためのフレームワークに依存しないアプローチを構成する。 本手法の有効性を示すために, 定性的, 定量的評価とアブレーション解析を行った。 この一見シンプルで強力なアプローチは、最先端の塗装方法より優れている。

Although deep learning has enabled a huge leap forward in image inpainting, current methods are often unable to synthesize realistic high-frequency details. In this paper, we propose applying super-resolution to coarsely reconstructed outputs, refining them at high resolution, and then downscaling the output to the original resolution. By introducing high-resolution images to the refinement network, our framework is able to reconstruct finer details that are usually smoothed out due to spectral bias - the tendency of neural networks to reconstruct low frequencies better than high frequencies. To assist training the refinement network on large upscaled holes, we propose a progressive learning technique in which the size of the missing regions increases as training progresses. Our zoom-in, refine and zoom-out strategy, combined with high-resolution supervision and progressive learning, constitutes a framework-agnostic approach for enhancing high-frequency details that can be applied to any CNN-based inpainting method. We provide qualitative and quantitative evaluations along with an ablation analysis to show the effectiveness of our approach. This seemingly simple, yet powerful approach, outperforms state-of-the-art inpainting methods.
翻訳日:2021-05-02 07:27:26 公開日:2021-04-12
# (参考訳) モンテカルロの空間的統合と重要度サンプリング [全文訳有]

Spatial Monte Carlo Integration with Annealed Importance Sampling ( http://arxiv.org/abs/2012.11198v2 )

ライセンス: CC BY 4.0
Muneki Yasuda and Kaiji Sekimoto(参考訳) isingモデル(ボルツマンマシン)への期待評価は、統計機械学習を含む様々な応用に不可欠である。 しかし、一般に、この評価は難解な複数の和や積分を必要とするため、計算的に困難である。 モンテカルロ積分(MCI)はよく知られた近似法であり、より効果的なMCIのような近似法が最近提案され、空間モンテカルロ積分(SMCI)と呼ばれる。 しかし、SMCI(およびMCI)を用いて得られた推定値は、サンプリング品質の劣化により、低温下でのIsingモデルにおいて低い精度を示す。 annealed importance sampling (ais) はマルコフ連鎖モンテカルロ法に基づく重要サンプリングの一種であり、重要度重みによって低温領域の性能低下を抑制することができる。 本研究では,AISとSMCIを組み合わせたIsingモデルの期待値を評価するための新しい手法を提案する。 提案手法は高温領域と低温領域の両方で効率よく動作し,理論的・数値的に実証される。

Evaluating expectations on an Ising model (or Boltzmann machine) is essential for various applications, including statistical machine learning. However, in general, the evaluation is computationally difficult because it involves intractable multiple summations or integrations; therefore, it requires approximation. Monte Carlo integration (MCI) is a well-known approximation method; a more effective MCI-like approximation method was proposed recently, called spatial Monte Carlo integration (SMCI). However, the estimations obtained using SMCI (and MCI) exhibit a low accuracy in Ising models under a low temperature owing to degradation of the sampling quality. Annealed importance sampling (AIS) is a type of importance sampling based on Markov chain Monte Carlo methods that can suppress performance degradation in low-temperature regions with the force of importance weights. In this study, a new method is proposed to evaluate the expectations on Ising models combining AIS and SMCI. The proposed method performs efficiently in both high- and low-temperature regions, which is demonstrated theoretically and numerically.
翻訳日:2021-04-29 07:42:25 公開日:2021-04-12
# 多言語低リソース音声認識のための逆メタサンプリング

Adversarial Meta Sampling for Multilingual Low-Resource Speech Recognition ( http://arxiv.org/abs/2012.11896v3 )

ライセンス: Link先を確認
Yubei Xiao, Ke Gong, Pan Zhou, Guolin Zheng, Xiaodan Liang, Liang Lin(参考訳) 低リソース自動音声認識(ASR)は、低リソースターゲット言語データがASRモデルを十分に訓練できないため、困難である。 この問題を解決するために、メタラーニングは、各ソース言語のASRを多数の小さなASRタスクに定式化し、メタラーニングは異なるソース言語から全てのタスクのモデル初期化を行い、未知のターゲット言語への高速適応にアクセスする。 しかし、異なるソース言語では、その量と難易度は、異なるデータスケールと多様な音韻学的システムによって大きく異なり、タスクの質とタスクの差異の不均衡の問題を引き起こし、多言語メタラーニングasr(mml-asr)の失敗に繋がる。 そこで本研究では,MML-ASRを改善するために,AMS (Adversarial Meta sample) アプローチを開発した。 MML-ASRでタスクをサンプリングする場合、AMSは各ソース言語のタスクサンプリング確率を適応的に決定する。 具体的には、各ソース言語に対して、クエリ損失が大きい場合、そのタスクはその量と難易度の観点からASRモデルをトレーニングするために十分にサンプリングされていないため、余分な学習のためにより頻繁にサンプリングすべきである。 この事実に触発されて、すべてのソース言語ドメインの履歴的タスククエリ損失をネットワークに入力し、MML-ASRの現在のクエリ損失を逆向きに増加させるタスクサンプリングポリシーを学習する。 これにより、学習したタスクサンプリングポリシーは各言語の学習状況を習得し、より効果的な学習を行うために各言語に対して良好なタスクサンプリング確率を予測することができる。 最後に、MML-ASRにAMSを適用する際の2つの多言語データセットの実験結果と、他の低リソース音声タスクへのAMSの適用性およびトランスファーラーニングASRアプローチの有効性を示す。

Low-resource automatic speech recognition (ASR) is challenging, as the low-resource target language data cannot well train an ASR model. To solve this issue, meta-learning formulates ASR for each source language into many small ASR tasks and meta-learns a model initialization on all tasks from different source languages to access fast adaptation on unseen target languages. However, for different source languages, the quantity and difficulty vary greatly because of their different data scales and diverse phonological systems, which leads to task-quantity and task-difficulty imbalance issues and thus a failure of multilingual meta-learning ASR (MML-ASR). In this work, we solve this problem by developing a novel adversarial meta sampling (AMS) approach to improve MML-ASR. When sampling tasks in MML-ASR, AMS adaptively determines the task sampling probability for each source language. Specifically, for each source language, if the query loss is large, it means that its tasks are not well sampled to train ASR model in terms of its quantity and difficulty and thus should be sampled more frequently for extra learning. Inspired by this fact, we feed the historical task query loss of all source language domain into a network to learn a task sampling policy for adversarially increasing the current query loss of MML-ASR. Thus, the learnt task sampling policy can master the learning situation of each language and thus predicts good task sampling probability for each language for more effective learning. Finally, experiment results on two multilingual datasets show significant performance improvement when applying our AMS on MML-ASR, and also demonstrate the applicability of AMS to other low-resource speech tasks and transfer learning ASR approaches.
翻訳日:2021-04-26 07:23:40 公開日:2021-04-12
# 病院超音波手術における高忠実・機械学習強化キューネットワークシミュレーションモデル

A High-fidelity, Machine-learning Enhanced Queueing Network Simulation Model for Hospital Ultrasound Operations ( http://arxiv.org/abs/2104.07451v1 )

ライセンス: Link先を確認
Yihan Pan, Zhenghang Xu, Jin Guang, Jingjing Sun, Chengwenjian Wang, Xuanming Zhang, Xinyun Chen, J.G. Dai, Yichuan Ding, Pengyi Shi, Hongxin Pan, Kai Yang, and Song Wu(参考訳) 中国の深センにある大規模教育病院と協働し,超音波センタのための高精度シミュレーションモデルを構築し,待ち時間,ソジュルン時間などの重要な性能指標を高精度に予測した。 正確なシミュレーションモデルを構築するための重要な課題は、超音波センターでの複雑な患者の経路を理解することである。 そこで本研究では,待ち行列ネットワークモデルに対する新しい2レベルルーティングコンポーネントを提案する。 機械学習ツールを用いて,待ち行列モデルの重要コンポーネントをデータから高精度に校正する。

We collaborate with a large teaching hospital in Shenzhen, China and build a high-fidelity simulation model for its ultrasound center to predict key performance metrics, including the distributions of queue length, waiting time and sojourn time, with high accuracy. The key challenge to build an accurate simulation model is to understanding the complicated patient routing at the ultrasound center. To address the issue, we propose a novel two-level routing component to the queueing network model. We apply machine learning tools to calibrate the key components of the queueing model from data with enhanced accuracy.
翻訳日:2021-04-16 14:46:45 公開日:2021-04-12
# (参考訳) 機械学習に基づくtbm負荷パラメータのリアルタイム予測モデル [全文訳有]

Real-time Forecast Models for TBM Load Parameters Based on Machine Learning Methods ( http://arxiv.org/abs/2104.06353v1 )

ライセンス: CC BY 4.0
Xianjie Gao, Xueguan Song, Maolin Shi, Chao Zhang and Hongwei Zhang(参考訳) 高速進行速度と人的安全の向上により、トンネル掘削機(TBM)は様々なトンネル建設計画で広く利用されている。 tbm負荷パラメータ(トルク、進行速度、推力を含む)の動的モデリングは、この複合工学システムの設計、安全運転、および故障予測において重要な役割を担っている。 本稿では,現状のtbm運用データに基づいて,機械学習(ml)手法を用いてtbm負荷パラメータのリアルタイム予測モデルを構築し,現在のデータが収集される限り,tbm負荷パラメータの将来的な値を瞬時に提供する。 モデル複雑性を低減し、一般化を改善するため、予測タスクの本質的特徴を抽出するために、最小絶対縮小および選択法(Lasso)を適用した。 実験の結果,深層学習法に基づく予測モデルが得られた。 再帰的なニューラルネットワークとその変種は、浅層学習法(例えば、浅層学習法)に基づくものよりも優れています。 ベクトル回帰とランダムフォレストをサポートする。 さらに、Lassoベースの特徴抽出は、結果のモデルの性能を大幅に改善する。

Because of the fast advance rate and the improved personnel safety, tunnel boring machines (TBMs) have been widely used in a variety of tunnel construction projects. The dynamic modeling of TBM load parameters (including torque, advance rate and thrust) plays an essential part in the design, safe operation and fault prognostics of this complex engineering system. In this paper, based on in-situ TBM operational data, we use the machine-learning (ML) methods to build the real-time forecast models for TBM load parameters, which can instantaneously provide the future values of the TBM load parameters as long as the current data are collected. To decrease the model complexity and improve the generalization, we also apply the least absolute shrinkage and selection (Lasso) method to extract the essential features of the forecast task. The experimental results show that the forecast models based on deep-learning methods, {\it e.g.}, recurrent neural network and its variants, outperform the ones based on the shallow-learning methods, {\it e.g.}, support vector regression and random forest. Moreover, the Lasso-based feature extraction significantly improves the performance of the resultant models.
翻訳日:2021-04-15 05:29:15 公開日:2021-04-12
# (参考訳) LSTMニューラルネットワークによる最初期の地震マグニチュード推定精度の推定:予備解析 [全文訳有]

Predicting the Accuracy of Early-est Earthquake Magnitude Estimates with an LSTM Neural Network: A Preliminary Analysis ( http://arxiv.org/abs/2104.05712v1 )

ライセンス: CC BY 4.0
Massimo Nazaria(参考訳) 本報告では,地震発生後1分間に早期推定値の精度を予測するためのLSTMニューラルネットワークの予備解析を行った。

This report presents a preliminary analysis of an LSTM neural network designed to predict the accuracy of magnitude estimates computed by Early-est during the first minutes after an earthquake occurs.
翻訳日:2021-04-15 05:11:16 公開日:2021-04-12
# (参考訳) Dense Passage Retriever の再現性の検討 [全文訳有]

A Replication Study of Dense Passage Retriever ( http://arxiv.org/abs/2104.05740v1 )

ライセンス: CC BY 4.0
Xueguang Ma, Kai Sun, Ronak Pradeep, and Jimmy Lin(参考訳) 学習された高密度表現を用いたテキスト検索は、近年、スパースバッグ・オブ・ワード表現を用いた「伝統的な」テキスト検索に代わる有望な代替手段として浮上している。 最近の研究で注目されているのは、Karpukhinらによって提案されたDPR技術である。 (2020) エンド・ツー・エンドの質問応答。 本研究は,著者らが提供したモデルチェックポイントから始まるが,それ以外は,我々のグループのPyserini IRツールキットとPyGaggleニューラルテキストランキングライブラリの独立した実装から始まる。 実験の結果,dprの理解を深める上で重要な2つの発見が得られた。第1に,bm25ベースラインの有効性を報告していないこと,また,分散ハイブリッド検索の結果も報告している。 第2に,レトリバーからのエビデンスと改良された回答スパンスコアリング手法を組み込むことで,元の作業とまったく同じモデルを用いて,エンドツーエンドの質問応答効率を向上させることができる。

Text retrieval using learned dense representations has recently emerged as a promising alternative to "traditional" text retrieval using sparse bag-of-words representations. One recent work that has garnered much attention is the dense passage retriever (DPR) technique proposed by Karpukhin et al. (2020) for end-to-end open-domain question answering. We present a replication study of this work, starting with model checkpoints provided by the authors, but otherwise from an independent implementation in our group's Pyserini IR toolkit and PyGaggle neural text ranking library. Although our experimental results largely verify the claims of the original paper, we arrived at two important additional findings that contribute to a better understanding of DPR: First, it appears that the original authors under-report the effectiveness of the BM25 baseline and hence also dense--sparse hybrid retrieval results. Second, by incorporating evidence from the retriever and an improved answer span scoring technique, we are able to improve end-to-end question answering effectiveness using exactly the same models as in the original work.
翻訳日:2021-04-15 05:05:12 公開日:2021-04-12
# (参考訳) 分割ニューラルネットワークのモデル反転攻撃に対する実用的防御 [全文訳有]

Practical Defences Against Model Inversion Attacks for Split Neural Networks ( http://arxiv.org/abs/2104.05743v1 )

ライセンス: CC BY 4.0
Tom Titcombe, Adam J. Hall, Pavlos Papadopoulos, Daniele Romanini(参考訳) 本稿では,ネットワーク分割型フェデレーション学習システムが悪意のある計算サーバによるモデルインバージョン攻撃に影響を受けやすい脅威モデルについて述べる。 攻撃者によるデータ分布に関する知識を限定して,攻撃を効果的に実施できることを実証する。 モデルインバージョンを防御するための簡易な付加雑音法を提案し,mnistの許容精度トレードオフにおいて攻撃効果を著しく低減できることを示す。 さらに,既存の防御手法であるnopeeknnが露出から異なる情報を保護していることを示し,ユーザデータを完全に保護するためには,複合的な防御が必要であることを示唆する。

We describe a threat model under which a split network-based federated learning system is susceptible to a model inversion attack by a malicious computational server. We demonstrate that the attack can be successfully performed with limited knowledge of the data distribution by the attacker. We propose a simple additive noise method to defend against model inversion, finding that the method can significantly reduce attack efficacy at an acceptable accuracy trade-off on MNIST. Furthermore, we show that NoPeekNN, an existing defensive method, protects different information from exposure, suggesting that a combined defence is necessary to fully protect private user data.
翻訳日:2021-04-15 04:55:20 公開日:2021-04-12
# (参考訳) ポルトガル語とモザンビークのバントゥー語エマクワ語の並列コーパスに向けて [全文訳有]

Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa of Mozambique ( http://arxiv.org/abs/2104.05753v1 )

ライセンス: CC BY 4.0
Felermino D. M. A. Ali, Andrew Caines, Jaimito L. A. Malavi(参考訳) 大規模な並列コーパスが利用可能になったことにより、機械翻訳モデルの性能が大幅に向上した。 しかし、世界中のほとんどの言語では、そのようなコーパスの存在は稀である。 モザンビークで話されているエマクフワ語は、NLPの用語ではほとんどのアフリカの言語と同様に低リソースである。 計算と言語の両方のリソースが不足しており、私たちの知る限り、emakhuwaを含む並列コーパスはほとんど存在しない。 本稿では,ジェホバのウィットネスのウェブサイトやアフリカ・ストーリーブックのウェブサイト,人権の普遍宣言,モザンビークの法的文書など,さまざまな資料から得られたテキストの集合体であるエマフワ・ポルトガルの平行コーパスの作成について述べる。 データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。 完成予定の正常化プロセスの後、コーパスは自由に研究用として利用できるようになる。

Major advancement in the performance of machine translation models has been made possible in part thanks to the availability of large-scale parallel corpora. But for most languages in the world, the existence of such corpora is rare. Emakhuwa, a language spoken in Mozambique, is like most African languages low-resource in NLP terms. It lacks both computational and linguistic resources and, to the best of our knowledge, few parallel corpora including Emakhuwa already exist. In this paper we describe the creation of the Emakhuwa-Portuguese parallel corpus, which is a collection of texts from the Jehovah's Witness website and a variety of other sources including the African Story Book website, the Universal Declaration of Human Rights and Mozambican legal documents. The dataset contains 47,415 sentence pairs, amounting to 699,976 word tokens of Emakhuwa and 877,595 word tokens in Portuguese. After normalization processes which remain to be completed, the corpus will be made freely available for research use.
翻訳日:2021-04-15 04:45:09 公開日:2021-04-12
# (参考訳) Tensor Processing Primitives: ディープラーニングワークロードの効率性と可搬性のためのプログラミング抽象化 [全文訳有]

Tensor Processing Primitives: A Programming Abstraction for Efficiency and Portability in Deep Learning Workloads ( http://arxiv.org/abs/2104.05755v1 )

ライセンス: CC BY 4.0
Evangelos Georganas, Dhiraj Kalamkar, Sasikanth Avancha, Menachem Adelman, Cristina Anderson, Alexander Breuer, Abhisek Kundu, Vasimuddin Md, Sanchit Misra, Ramanarayan Mohanty, Hans Pabst, Barukh Ziv, Alexander Heinecke(参考訳) 過去10年間、新しいDeep Learning (DL)アルゴリズム/ワークロードとハードウェアは、幅広い問題に対処するために開発されてきた。 ワークロード/ハードウェアエコシステムの進歩にもかかわらず、DLシステムのプログラミング方法論は停滞しています。 DL-workloadsは、DL-librariesから高度に最適化された、プラットフォーム固有の、あるいは柔軟性のないカーネルを利用するか、新しい演算子の場合、低負荷性能のDL-frameworkプリミティブを介して参照実装を構築する。 dl-ワークロードを高生産性で効率的にポータブルに実装するためのプログラミング抽象化であるtensor processing primitives(tpp)を紹介する。 TPPはコンパクトだが汎用的な2Dテンソル作用素(または仮想テンソルISA)の集合を定義し、後に高次元テンソル上の複素作用素を構成するためにビルディングブロックとして利用することができる。 TPP仕様はプラットフォームに依存しないので、TPPで表現されたコードはポータブルである。 我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードを用いたアプローチの有効性を示す。

During the past decade, novel Deep Learning (DL) algorithms/workloads and hardware have been developed to tackle a wide range of problems. Despite the advances in workload/hardware ecosystems, the programming methodology of DL-systems is stagnant. DL-workloads leverage either highly-optimized, yet platform-specific and inflexible kernels from DL-libraries, or in the case of novel operators, reference implementations are built via DL-framework primitives with underwhelming performance. This work introduces the Tensor Processing Primitives (TPP), a programming abstraction striving for efficient, portable implementation of DL-workloads with high-productivity. TPPs define a compact, yet versatile set of 2D-tensor operators (or a virtual Tensor ISA), which subsequently can be utilized as building-blocks to construct complex operators on high-dimensional tensors. The TPP specification is platform-agnostic, thus code expressed via TPPs is portable, whereas the TPP implementation is highly-optimized and platform-specific. We demonstrate the efficacy of our approach using standalone kernels and end-to-end DL-workloads expressed entirely via TPPs that outperform state-of-the-art implementations on multiple platforms.
翻訳日:2021-04-15 04:39:05 公開日:2021-04-12
# (参考訳) 意味情報を用いたドメイン適応単眼深度推定 [全文訳有]

Domain Adaptive Monocular Depth Estimation With Semantic Information ( http://arxiv.org/abs/2104.05764v1 )

ライセンス: CC BY 4.0
Fei Lu, Hyeonwoo Yu, Jean Oh(参考訳) 深層学習の出現は単眼深度推定に印象的な進歩をもたらし、例えば教師付き単眼深度推定は徹底的に研究されている。 しかし、RGB画像に従って正確な深度基底の真理を収集することは時間と費用のかかる作業であるため、RGBから深度へのデータセットの大量利用は必ずしも不可能である。 ネットワークはデータセットスケールの問題に対処するために、別のデータセットでトレーニングすることができるが、トレーニングされたモデルは、ドメインの相違によりターゲットドメインに一般化するのは難しい。 敵対的ドメインアライメントは、以前の作品における単純な画像分類タスクのドメインシフトを軽減する効果を実証した。 しかしながら、従来のアプローチではネットワークの機能マップのみを考慮し、条件付きアライメントを扱うことはほとんどない。 本稿では,ドメイン間のギャップを狭めるために,意味情報を活用した対向学習モデルを提案する。 KITTIとCityscapesを含む単眼深度推定タスクのデータセットを用いて,提案したコンパクトモデルは,複雑な最新モデルに匹敵する最先端性能を達成し,遠隔地の境界や物体に対する良好な結果を示す。

The advent of deep learning has brought an impressive advance to monocular depth estimation, e.g., supervised monocular depth estimation has been thoroughly investigated. However, the large amount of the RGB-to-depth dataset may not be always available since collecting accurate depth ground truth according to the RGB image is a time-consuming and expensive task. Although the network can be trained on an alternative dataset to overcome the dataset scale problem, the trained model is hard to generalize to the target domain due to the domain discrepancy. Adversarial domain alignment has demonstrated its efficacy to mitigate the domain shift on simple image classification tasks in previous works. However, traditional approaches hardly handle the conditional alignment as they solely consider the feature map of the network. In this paper, we propose an adversarial training model that leverages semantic information to narrow the domain gap. Based on the experiments conducted on the datasets for the monocular depth estimation task including KITTI and Cityscapes, the proposed compact model achieves state-of-the-art performance comparable to complex latest models and shows favorable results on boundaries and objects at far distances.
翻訳日:2021-04-15 04:09:41 公開日:2021-04-12
# (参考訳) 資源配分のための補償半帯域

Censored Semi-Bandits for Resource Allocation ( http://arxiv.org/abs/2104.05781v1 )

ライセンス: CC BY 4.0
Arun Verma, Manjesh K. Hanawal, Arun Rajkumar, Raman Sankaran(参考訳) 本稿では,各ステップのリソースをアームに割り当て,損失を観測する,検閲されたセミバンド構成における資源の逐次割当の問題について考察する。 損失は2つの隠れたパラメータに依存する。1つはarmに固有のが、リソース割り当てには依存せず、もう1つは割り当てられたリソースに依存する。 より具体的には、割り当てられたリソースが一定の(しかし未知の)arm依存しきい値を超えると、arm の損失は 0 となる。 目標は、期待される損失を最小限に抑えるリソース割り当てを学ぶことです。 問題は各アームの損失分布としきい値が不明であるためである。 我々は,MP-MAB(Multiple-Pla y Multi-Armed Bandits)と Combinatorial Semi-Banditsの「等価」を確立することで,この設定について検討する。 本稿では,MP-MAB と Combinatorial Semi-Bandits の既知のアルゴリズムを用いて,これらの等価性を探索する。 合成生成データに関する実験は,提案アルゴリズムの性能保証を検証する。

We consider the problem of sequentially allocating resources in a censored semi-bandits setup, where the learner allocates resources at each step to the arms and observes loss. The loss depends on two hidden parameters, one specific to the arm but independent of the resource allocation, and the other depends on the allocated resource. More specifically, the loss equals zero for an arm if the resource allocated to it exceeds a constant (but unknown) arm dependent threshold. The goal is to learn a resource allocation that minimizes the expected loss. The problem is challenging because the loss distribution and threshold value of each arm are unknown. We study this setting by establishing its `equivalence' to Multiple-Play Multi-Armed Bandits (MP-MAB) and Combinatorial Semi-Bandits. Exploiting these equivalences, we derive optimal algorithms for our problem setting using known algorithms for MP-MAB and Combinatorial Semi-Bandits. The experiments on synthetically generated data validate the performance guarantees of the proposed algorithms.
翻訳日:2021-04-15 03:57:47 公開日:2021-04-12
# (参考訳) 機械学習を用いた中性子照射 {\alpha}-Uにおけるフィッションガス気泡分布, ランタニド輸送, 熱伝導率劣化の解明 [全文訳有]

Understanding Fission Gas Bubble Distribution, Lanthanide Transportation, and Thermal Conductivity Degradation in Neutron-irradiated {\alpha}-U Using Machine Learning ( http://arxiv.org/abs/2104.05786v1 )

ライセンス: CC BY 4.0
Lu Cai, Fei Xu, Fidelma Dilemma, Daniel J. Murray, Cynthia A. Adkins, Larry K Aagesen Jr, Min Xian, Luca Caprriot, Tiankai Yao(参考訳) UZrをベースとする金属核燃料は、米国で次世代のナトリウム冷却高速炉の候補となっている。 アメリカの研究用原子炉は1960年代からこの燃料型の使用と試験を行っており、燃料性能に関するかなりの経験と知識を蓄積している。 しかし、ほとんどの知識は実証的なままである。 燃料性能に関する機械的理解の欠如は、商業用途におけるUZr燃料の認定を妨げている。 本稿では, 機械学習アルゴリズムを応用した先進的な放射線照射試験と組み合わせたデータ駆動型アプローチを提案する。 具体的には,中性子照射されたu-10zr環状燃料で収集された高度放散試験データに基づき,約19,000個の核分裂ガス気泡を異なるカテゴリに自動検出,分類し,放射温度勾配に沿ったランタノイド蒸散と定量的にリンクする手法を開発した。 アプローチは多用途であり、照射された核燃料の二次相の再分配や熱伝導率の低下など、異なる結合した照射効果を研究するために修正することができる。

UZr based metallic nuclear fuel is the leading candidate for next-generation sodium-cooled fast reactors in the United States. US research reactors have been using and testing this fuel type since the 1960s and accumulated considerable experience and knowledge about the fuel performance. However, most of knowledge remains empirical. The lack of mechanistic understanding of fuel performance is preventing the qualification of UZr fuel for commercial use. This paper proposes a data-driven approach, coupled with advanced post irradiation examination, powered by machine learning algorithms, to facilitate the development of such understandings by providing unpreceded quantified new insights into fission gas bubbles. Specifically, based on the advanced postirradiation examination data collected on a neutron-irradiated U-10Zr annular fuel, we developed a method to automatically detect, classify ~19,000 fission gas bubbles into different categories, and quantitatively link the data to lanthanide transpiration along the radial temperature gradient. The approach is versatile and can be modified to study different coupled irradiation effects, such as secondary phase redistribution and degradation of thermal conductivity, in irradiated nuclear fuel.
翻訳日:2021-04-15 03:56:45 公開日:2021-04-12
# (参考訳) 加速勾配降下による効率的な最適輸送アルゴリズム [全文訳有]

Efficient Optimal Transport Algorithm by Accelerated Gradient descent ( http://arxiv.org/abs/2104.05802v1 )

ライセンス: CC BY 4.0
Dongsheng An, Na Lei and Xianfeng Gu(参考訳) 機械学習やディープラーニングなど、さまざまな分野において、最適な輸送(OT)が重要な役割を果たす。 しかし,大規模問題に対する離散的最適輸送計画の精度と効率性は依然として極めて困難である。 近年、シンクホーンアルゴリズムに基づく手法では、素問題にエントロピー正則化器を追加し、効率と精度のトレードオフを得る。 本論文では,ネステロフの平滑化技術に基づく効率と精度の向上を目的とした新しいアルゴリズムを提案する。 基本的に、カントロヴィチポテンシャルの非スムート c-変換は滑らかなlog-sum-exp関数によって近似され、最終的に元のスムートでないカントロヴィチ双対汎関数(エネルギー)を滑らかにする。 スムーズなカントロビッチ関数は高速近位勾配アルゴリズム(FISTA)によって効率的に最適化できる。 理論的には、提案手法の計算複雑性は、シンクホーンアルゴリズムよりも低い$O(n^{\frac{5}{2}} \sqrt{\log n} /\epsilon)$で与えられる。 実験により,Sinkhornアルゴリズムと比較して,提案手法がより高速に収束し,同じパラメータで精度が向上することを示した。

Optimal transport (OT) plays an essential role in various areas like machine learning and deep learning. However, computing discrete optimal transport plan for large scale problems with adequate accuracy and efficiency is still highly challenging. Recently, methods based on the Sinkhorn algorithm add an entropy regularizer to the prime problem and get a trade off between efficiency and accuracy. In this paper, we propose a novel algorithm to further improve the efficiency and accuracy based on Nesterov's smoothing technique. Basically, the non-smooth c-transform of the Kantorovich potential is approximated by the smooth Log-Sum-Exp function, which finally smooths the original non-smooth Kantorovich dual functional (energy). The smooth Kantorovich functional can be optimized by the fast proximal gradient algorithm (FISTA) efficiently. Theoretically, the computational complexity of the proposed method is given by $O(n^{\frac{5}{2}} \sqrt{\log n} /\epsilon)$, which is lower than that of the Sinkhorn algorithm. Empirically, compared with the Sinkhorn algorithm, our experimental results demonstrate that the proposed method achieves faster convergence and better accuracy with the same parameter.
翻訳日:2021-04-15 03:49:34 公開日:2021-04-12
# (参考訳) 意味的構文解析の実践から学ぶ [全文訳有]

Learning from Executions for Semantic Parsing ( http://arxiv.org/abs/2104.05819v1 )

ライセンス: CC BY 4.0
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) semantic parsingは自然言語(nl)の発話を機械解釈可能なプログラムに翻訳することを目的としている。 発話プログラムペアの高価なアノテーションは、現代のニューラルモデルが現実のアプリケーションに展開する際の大きなボトルネックとして長年認識されてきた。 本研究では,無ラベルNL音声とともに限られた量の注釈付きデータが利用できるセミ教師付き学習の課題に焦点を当てる。 NL発話に対応するプログラムは常に実行可能でなければならないという観測に基づいて、未ラベル発話のための実行可能プログラムを生成するようパーサに促すことを提案する。 実行可能プログラムの探索空間が大きいため、自己学習やトップk辺縁可能性トレーニングといったビームサーチに基づく近似を用いる従来の手法ではうまく動作しない。 代わりに、後進正規化の観点から実行から学習する問題を考察し、新しい訓練目標を提案する。 半教師付き学習と教師付き学習のギャップを橋渡しし,新しい目的が従来の手法よりも優れていることを示した。

Semantic parsing aims at translating natural language (NL) utterances onto machine-interpretabl e programs, which can be executed against a real-world environment. The expensive annotation of utterance-program pairs has long been acknowledged as a major bottleneck for the deployment of contemporary neural models to real-life applications. In this work, we focus on the task of semi-supervised learning where a limited amount of annotated data is available together with many unlabeled NL utterances. Based on the observation that programs which correspond to NL utterances must be always executable, we propose to encourage a parser to generate executable programs for unlabeled utterances. Due to the large search space of executable programs, conventional methods that use approximations based on beam-search such as self-training and top-k marginal likelihood training, do not perform as well. Instead, we view the problem of learning from executions from the perspective of posterior regularization and propose a set of new training objectives. Experimental results on Overnight and GeoQuery show that our new objectives outperform conventional methods, bridging the gap between semi-supervised and supervised learning.
翻訳日:2021-04-15 03:28:20 公開日:2021-04-12
# (参考訳) 意味解析のためのデータ合成の学習 [全文訳有]

Learning to Synthesize Data for Semantic Parsing ( http://arxiv.org/abs/2104.05827v1 )

ライセンス: CC BY 4.0
Bailin Wang, Wenpeng Yin, Xi Victoria Lin and Caiming Xiong(参考訳) 近年,意味解析のためのデータ合成が注目されている。 しかし、ほとんどの手法は、生成過程において手作りの(高精度な)規則を必要とし、多様な未知のデータ探索を妨げる。 本研究では,プログラムの構成(例えばsql)をモデル化する(非ニューラルな)pcfgと,プログラムを発話にマッピングするbartベースの翻訳モデルを特徴とする生成モデルを提案する。 PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。 さらに、PCFGを用いて構成を明示的にモデル化することで、目に見えないプログラムをよりよく探索し、より多様なデータを生成する。 提案手法は,GeoQueryとSpiderの標準ベンチマークに基づいて,テキスト対SQL解析のドメイン内設定とドメイン外設定の両方で評価する。 実験の結果,モデルから生成した合成データは,セマンティックパーサがより優れた合成とドメインの一般化を実現するのに大いに役立つことがわかった。

Synthesizing data for semantic parsing has gained increasing attention recently. However, most methods require handcrafted (high-precision) rules in their generative process, hindering the exploration of diverse unseen data. In this work, we propose a generative model which features a (non-neural) PCFG that models the composition of programs (e.g., SQL), and a BART-based translation model that maps a program to an utterance. Due to the simplicity of PCFG and pre-trained BART, our generative model can be efficiently learned from existing data at hand. Moreover, explicitly modeling compositions using PCFG leads to a better exploration of unseen programs, thus generate more diverse data. We evaluate our method in both in-domain and out-of-domain settings of text-to-SQL parsing on the standard benchmarks of GeoQuery and Spider, respectively. Our empirical results show that the synthesized data generated from our model can substantially help a semantic parser achieve better compositional and domain generalization.
翻訳日:2021-04-15 03:11:55 公開日:2021-04-12
# (参考訳) 生成モデルを用いた意味セグメンテーション:半教師付き学習と強い領域外一般化 [全文訳有]

Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization ( http://arxiv.org/abs/2104.05833v1 )

ライセンス: CC BY 4.0
Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, Sanja Fidler(参考訳) 限定されたラベル付きデータによるディープネットワークのトレーニング 強力な一般化能力の達成は、人間のアノテーション作業を減らすための鍵となる。 これは半教師付き学習の目標であり、より広く利用可能なラベル付きデータを利用して小さなラベル付きデータセットを補完する。 本稿では,画像とラベルの両方の生成モデルを用いて,識別レベルのタスクを識別する新しいフレームワークを提案する。 具体的には,共同画像ラベル分布を捕捉し,ラベル付き画像のみを補足した大量のラベル付き画像を用いて効率よく訓練する生成対向ネットワークを学習する。 StyleGAN2の上にアーキテクチャを構築し、ラベル合成ブランチを付加します。 目標画像をまずエンコーダネットワークを介してジョイント潜在空間に埋め込み、テスト時間最適化を行い、次に推論埋め込みからラベルを生成することにより、テスト時の画像ラベリングを実現する。 医用画像分割と部分的顔分割の2つの重要な領域でアプローチを評価した。 医療画像におけるctからmriへの転送や、実際の顔の写真から絵画、彫刻、さらには漫画や動物の顔まで、ドメイン外の極端な一般化を示す最初の例である。 Project Page: \url{https://nv-tlabs.git hub.io/semanticGAN/}

Training deep networks with limited labeled data while achieving a strong generalization ability is key in the quest to reduce human annotation efforts. This is the goal of semi-supervised learning, which exploits more widely available unlabeled data to complement small labeled data sets. In this paper, we propose a novel framework for discriminative pixel-level tasks using a generative model of both images and labels. Concretely, we learn a generative adversarial network that captures the joint image-label distribution and is trained efficiently using a large set of unlabeled images supplemented with only few labeled ones. We build our architecture on top of StyleGAN2, augmented with a label synthesis branch. Image labeling at test time is achieved by first embedding the target image into the joint latent space via an encoder network and test-time optimization, and then generating the label from the inferred embedding. We evaluate our approach in two important domains: medical image segmentation and part-based face segmentation. We demonstrate strong in-domain performance compared to several baselines, and are the first to showcase extreme out-of-domain generalization, such as transferring from CT to MRI in medical imaging, and photographs of real faces to paintings, sculptures, and even cartoons and animal faces. Project Page: \url{https://nv-tlabs.git hub.io/semanticGAN/}
翻訳日:2021-04-15 03:01:48 公開日:2021-04-12
# (参考訳) 文脈言語モデルにおける関係世界知識表現:レビュー [全文訳有]

Relational world knowledge representation in contextual language models: A review ( http://arxiv.org/abs/2104.05837v1 )

ライセンス: CC BY 4.0
Tara Safavi, Danai Koutra(参考訳) リレーショナルナレッジベース(英: Relational knowledge bases、KB)は、機械における世界知識表現のための確立されたツールである。 正確さと解釈性では有利だが、手動で設計したスキーマに準拠するため、これらの利点のためにデータモデリングの柔軟性を犠牲にすることが多い。 本稿では,自然言語処理の観点をkbsの限界に当てはめ,神経文脈言語モデル(lms)を訓練し,自由テキスト形式でリレーショナル・ナレッジを内在化・表現することで,その対処法を検討する。 本研究では,非構造化テキストのみによる自己教師付き事前学習において得られた暗黙的関係知識を,KBエンティティおよび/または関係のレベルで明示的に監督する作業とを考慮し,KBの監督レベルに基づく文脈的関係知識表現のための新しい分類法を提案する。 我々は,LM と KB は相補的な表現ツールであり,KB は LM によって柔軟かつ表現的にモデル化可能な実写精度の高い標準を提供するとともに,今後の研究の方向性について提案する。

Relational knowledge bases (KBs) are established tools for world knowledge representation in machines. While they are advantageous for their precision and interpretability, they usually sacrifice some data modeling flexibility for these advantages because they adhere to a manually engineered schema. In this review, we take a natural language processing perspective to the limitations of KBs, examining how they may be addressed in part by training neural contextual language models (LMs) to internalize and express relational knowledge in free-text form. We propose a novel taxonomy for relational knowledge representation in contextual LMs based on the level of KB supervision provided, considering both works that probe LMs for implicit relational knowledge acquired during self-supervised pretraining on unstructured text alone, and works that explicitly supervise LMs at the level of KB entities and/or relations. We conclude that LMs and KBs are complementary representation tools, as KBs provide a high standard of factual precision which can in turn be flexibly and expressively modeled by LMs, and provide suggestions for future research in this direction.
翻訳日:2021-04-15 02:38:27 公開日:2021-04-12
# (参考訳) 自然言語理解のための学習目標 [全文訳有]

Targeted Adversarial Training for Natural Language Understanding ( http://arxiv.org/abs/2104.05847v1 )

ライセンス: CC BY 4.0
Lis Pereira, Xiaodong Liu, Hao Cheng, Hoifung Poon, Jianfeng Gao, Ichiro Kobayashi(参考訳) 自然言語理解のための対戦訓練を改善するために,TAT(Targeted Adversarial Training)アルゴリズムを提案する。 鍵となる考え方は、現在のミスをイントロスペクションし、敵のトレーニングステップをモデルが最も好む場所に優先順位付けることです。 実験の結果,TAT は GLUE の標準対人訓練よりも精度を向上し,XNLI の最先端ゼロショット結果が得られた。 私たちのコードはhttps://github.com/n amisan/mt-dnn.com/でリリースされます。

We present a simple yet effective Targeted Adversarial Training (TAT) algorithm to improve adversarial training for natural language understanding. The key idea is to introspect current mistakes and prioritize adversarial training steps to where the model errs the most. Experiments show that TAT can significantly improve accuracy over standard adversarial training on GLUE and attain new state-of-the-art zero-shot results on XNLI. Our code will be released at: https://github.com/n amisan/mt-dnn.
翻訳日:2021-04-15 02:13:26 公開日:2021-04-12
# (参考訳) モノクロ3次元物体検出のための幾何認識データ拡張 [全文訳有]

Geometry-aware data augmentation for monocular 3D object detection ( http://arxiv.org/abs/2104.05858v1 )

ライセンス: CC BY 4.0
Qing Lian, Botao Ye, Ruijia Xu, Weilong Yao, Tong Zhang(参考訳) 本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。 重要な課題は、深さ回復問題は単眼データに当てはまらないことである。 本研究ではまず,既存の手法が,異なる幾何学的シフトが発生した場合の深さを頑健に推定できないことを明らかにする。 特に、現在の検出器に対する画像ベースおよびインスタンスベースの一連の操作を通じて、既存の検出器は、深さと物体の大きさと位置の両方の一貫性のある関係を捉えるのに脆弱であることを示す。 この問題を緩和し、検出器の堅牢性を向上させるため、上記の操作を対応する4つの3D対応データ拡張技術に変換する。 画像レベルでは、焦点距離、受容場、位置を含むカメラシステムをランダムに操作し、幾何学的シフトを伴う新しいトレーニング画像を生成する。 インスタンスレベルでは、フォアグラウンドオブジェクトを収穫し、ランダムに他のシーンにペーストして、新たなトレーニングインスタンスを生成します。 提案された拡張手法はすべて、オブジェクトの幾何学的関係がそれらの幾何学が操作される間保存されるという利点を共有している。 提案手法により, 深度回復の不安定性を効果的に緩和するだけでなく, 最終3次元検出性能も大幅に向上した。 これにより、KITTI と nuScenes のモノクロ3D 検出ベンチマークが改良され、最先端の結果が得られた。

This paper focuses on monocular 3D object detection, one of the essential modules in autonomous driving systems. A key challenge is that the depth recovery problem is ill-posed in monocular data. In this work, we first conduct a thorough analysis to reveal how existing methods fail to robustly estimate depth when different geometry shifts occur. In particular, through a series of image-based and instance-based manipulations for current detectors, we illustrate existing detectors are vulnerable in capturing the consistent relationships between depth and both object apparent sizes and positions. To alleviate this issue and improve the robustness of detectors, we convert the aforementioned manipulations into four corresponding 3D-aware data augmentation techniques. At the image-level, we randomly manipulate the camera system, including its focal length, receptive field and location, to generate new training images with geometric shifts. At the instance level, we crop the foreground objects and randomly paste them to other scenes to generate new training instances. All the proposed augmentation techniques share the virtue that geometry relationships in objects are preserved while their geometry is manipulated. In light of the proposed data augmentation methods, not only the instability of depth recovery is effectively alleviated, but also the final 3D detection performance is significantly improved. This leads to superior improvements on the KITTI and nuScenes monocular 3D detection benchmarks with state-of-the-art results.
翻訳日:2021-04-15 02:02:25 公開日:2021-04-12
# (参考訳) RECON: 潜在目標モデルによるオープンワールドナビゲーションの迅速探索 [全文訳有]

RECON: Rapid Exploration for Open-World Navigation with Latent Goal Models ( http://arxiv.org/abs/2104.05859v1 )

ライセンス: CC BY 4.0
Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine(参考訳) 多様な環境における自律ナビゲーションのためのロボット学習システムについて述べる。 本手法の核となる2つの構成要素は, (i) 環境の接続を反映するが幾何学的再構成や局所化を必要としない非パラメトリック写像と, (ii) 効率的な構築と横断を可能にする距離と動作の潜在変数モデルである。 モデルは、事前の経験の大規模なデータセットに基づいてトレーニングされ、現在の画像とゴール画像の間を移動するために必要な期待される時間と次のアクションを予測する。 この方法でモデルをトレーニングすることで、入力画像の情報を邪魔することなく、目標の表現を堅牢にし、新しい環境を素早く探索するシステムをデプロイするのに役立つ。 本手法を移動式地上ロボットに適用し,様々な屋外ナビゲーションシナリオで実演する。 提案手法は20分で最大80mの半径で画像として特定された新たな目標に到達することを学び、変化する環境において確実に目標を再検討できる。 また,本手法は既知の障害物や気象条件に対する頑健性を示す。 私たちは、実験とデモのビデオのためにプロジェクトのWebサイトを訪れることを推奨します。

We describe a robotic learning system for autonomous navigation in diverse environments. At the core of our method are two components: (i) a non-parametric map that reflects the connectivity of the environment but does not require geometric reconstruction or localization, and (ii) a latent variable model of distances and actions that enables efficiently constructing and traversing this map. The model is trained on a large dataset of prior experience to predict the expected amount of time and next action needed to transit between the current image and a goal image. Training the model in this way enables it to develop a representation of goals robust to distracting information in the input images, which aids in deploying the system to quickly explore new environments. We demonstrate our method on a mobile ground robot in a range of outdoor navigation scenarios. Our method can learn to reach new goals, specified as images, in a radius of up to 80 meters in just 20 minutes, and reliably revisit these goals in changing environments. We also demonstrate our method's robustness to previously-unseen obstacles and variable weather conditions. We encourage the reader to visit the project website for videos of our experiments and demonstrations https://sites.google .com/view/recon-robo t
翻訳日:2021-04-15 01:47:16 公開日:2021-04-12
# (参考訳) ソフトウェア工学におけるユーザフィードバック分析のための事前学習モデルの評価:アプリレビューの分類に関する研究 [全文訳有]

Evaluating Pre-Trained Models for User Feedback Analysis in Software Engineering: A Study on Classification of App-Reviews ( http://arxiv.org/abs/2104.05861v1 )

ライセンス: CC BY 4.0
Mohammad Abdul Hadi, Fatemeh H. Fard(参考訳) コンテキスト: アプリストアやソーシャルメディアでユーザによって書かれたモバイルアプリレビューは、アプリ開発者にとって重要なリソースである。アプリのレビューを分析することは、ソフトウェアエンジニアリングの多くの分野(要件エンジニアリング、テストなど)で有用であることが証明されている。 アプリレビューの自動分類には、ラベル付きデータセットを手作業でキュレートする必要がある。 分類の目的が変わったとき(例) バグとユーザビリティの問題や感情の識別) 新しいデータセットにはラベルを付ける必要がある。 最近の訓練済みニューラルネットワークモデル(ptm)は、教師なしの方法で大きなコーパスで訓練され、同様の自然言語処理問題を解決することに成功している。 既存のモデルと比較して,アプリケーションレビュー分類における PTM のメリットと,複数設定での PTM の転送可能性について検討する。 方法: 文献から得られた6つのデータセットを用いて, 従来の手法と比較して, PTMの精度と時間効率を実証的に検討した。 さらに,アプリレビューに基づいてトレーニングしたPTMの性能について検討した。 ドメイン固有のPTM)。 我々は、ptmを複数の設定で評価するために異なる研究方法を設定した:バイナリ対マルチクラス分類、ゼロショット分類(モデルに新しいラベルが導入されたとき)、マルチタスク設定、異なるリソースからのレビューの分類。 データセットは、Google Play Store、Apple App Store、Twitterデータから、手動でアプリレビューデータセットにラベル付けされる。 いずれの場合も、マイクロおよびマクロの精度、リコール、およびf1-scoreが使用され、モデルのトレーニングと予測に要する時間を報告します。

Context: Mobile app reviews written by users on app stores or social media are significant resources for app developers.Analyzing app reviews have proved to be useful for many areas of software engineering (e.g., requirement engineering, testing). Automatic classification of app reviews requires extensive efforts to manually curate a labeled dataset. When the classification purpose changes (e.g. identifying bugs versus usability issues or sentiment), new datasets should be labeled, which prevents the extensibility of the developed models for new desired classes/tasks in practice. Recent pre-trained neural language models (PTM) are trained on large corpora in an unsupervised manner and have found success in solving similar Natural Language Processing problems. However, the applicability of PTMs is not explored for app review classification Objective: We investigate the benefits of PTMs for app review classification compared to the existing models, as well as the transferability of PTMs in multiple settings. Method: We empirically study the accuracy and time efficiency of PTMs compared to prior approaches using six datasets from literature. In addition, we investigate the performance of the PTMs trained on app reviews (i.e. domain-specific PTMs) . We set up different studies to evaluate PTMs in multiple settings: binary vs. multi-class classification, zero-shot classification (when new labels are introduced to the model), multi-task setting, and classification of reviews from different resources. The datasets are manually labeled app review datasets from Google Play Store, Apple App Store, and Twitter data. In all cases, Micro and Macro Precision, Recall, and F1-scores will be used and we will report the time required for training and prediction with the models.
翻訳日:2021-04-15 01:24:29 公開日:2021-04-12
# (参考訳) 異種知識グラフを用いた科学ニュース記事表現学習について [全文訳有]

On Representation Learning for Scientific News Articles Using Heterogeneous Knowledge Graphs ( http://arxiv.org/abs/2104.05866v1 )

ライセンス: CC BY 4.0
Angelika Romanou, Panayiotis Smeros, Karl Aberer(参考訳) 誤った情報や情報インフレーションの時代には、生成されたニュースの信頼性評価が本質的である。 しかし、ニュースで提示される限られた参照を考えると、事実チェックは難しい。 この課題は、ニュース記事に関連する知識グラフを利用して超越することができる。 本稿では,科学ニュース記事と引用科学出版物との有向グラフをモデル化し,科学ニュース記事表現を作成する手法を提案する。 実験に使用されたネットワークは、科学ニュース記事、そのトピック、引用された研究文献、および対応する著者で構成されています。 本稿では,1)リレーショナルグラフ畳み込みネットワーク(R-GCN),2)ヘテロジニアスグラフニューラルネットワーク(HetGNN),3)ヘテロジニアスグラフ変換器(HGT)の3つのアプローチを実装し,提案する。 a) ニュース記事 - ペーパーリンクとb) ニュース記事 - 記事トピックリンク。 その結果、知識追跡と科学的ニュース信頼性評価の分野におけるグラフニューラルネットワークアプローチの有望な応用が示された。

In the era of misinformation and information inflation, the credibility assessment of the produced news is of the essence. However, fact-checking can be challenging considering the limited references presented in the news. This challenge can be transcended by utilizing the knowledge graph that is related to the news articles. In this work, we present a methodology for creating scientific news article representations by modeling the directed graph between the scientific news articles and the cited scientific publications. The network used for the experiments is comprised of the scientific news articles, their topic, the cited research literature, and their corresponding authors. We implement and present three different approaches: 1) a baseline Relational Graph Convolutional Network (R-GCN), 2) a Heterogeneous Graph Neural Network (HetGNN) and 3) a Heterogeneous Graph Transformer (HGT). We test these models in the downstream task of link prediction on the: a) news article - paper links and b) news article - article topic links. The results show promising applications of graph neural network approaches in the domains of knowledge tracing and scientific news credibility assessment.
翻訳日:2021-04-15 01:01:03 公開日:2021-04-12
# wikiHowを用いたビジュアルゴールステップ推論

Visual Goal-Step Inference using wikiHow ( http://arxiv.org/abs/2104.05845v1 )

ライセンス: Link先を確認
Yue Yang, Artemis Panagopoulou, Qing Lyu, Li Zhang, Mark Yatskar, Chris Callison-Burch(参考訳) 手続き的な出来事は、しばしば一連のステップからなる高レベルの目標と考えることができる。 目標のステップのサブシーケンスを推測することは、人工知能システムが人間の活動について推論するのに役立つ。 NLPにおける過去の研究は、テキストのゴールステップ推論の課題を検討した。 視覚的な類似点を紹介する。 モデルにテキスト目標を付与し、4つの候補画像の中からその目標に向けての有効なステップを選択する,Visual Goal-Step Inference (VGSI) タスクを提案する。 我々の仕事は最先端のミューティモーダルモデルでは難しい。 人行動を表す72,294枚の画像からなるwikiHowから抽出した新しいデータセットを紹介した。 我々のデータから学んだ知識は、HowTo100Mのような他のデータセットに効果的に転送できることを示し、多重選択の精度を15%から20%向上させる。 我々のタスクは手続きイベントに関するマルチモーダル推論を促進する。

Procedural events can often be thought of as a high level goal composed of a sequence of steps. Inferring the sub-sequence of steps of a goal can help artificial intelligence systems reason about human activities. Past work in NLP has examined the task of goal-step inference for text. We introduce the visual analogue. We propose the Visual Goal-Step Inference (VGSI) task where a model is given a textual goal and must choose a plausible step towards that goal from among four candidate images. Our task is challenging for state-of-the-art muitimodal models. We introduce a novel dataset harvested from wikiHow that consists of 772,294 images representing human actions. We show that the knowledge learned from our data can effectively transfer to other datasets like HowTo100M, increasing the multiple-choice accuracy by 15% to 20%. Our task will facilitate multi-modal reasoning about procedural events.
翻訳日:2021-04-14 13:50:56 公開日:2021-04-12
# ディープニューラルネットワークにおける大域的収束保証のレシピ

A Recipe for Global Convergence Guarantee in Deep Neural Networks ( http://arxiv.org/abs/2104.05785v1 )

ライセンス: Link先を確認
Kenji Kawaguchi, Qingyun Sun(参考訳) 既存の(確率的な)勾配勾配勾配のグローバル収束保証は、ニューラル・タンジェント・カーネル(NTK)体制を超えた実践的な深層学習体制における実践的な深層ネットワークには適用されない。 本稿では,NTK体制を超えた実践的体制において,表現性条件と呼ばれる検証可能な条件下でグローバル収束を保証するアルゴリズムを提案する。 表現性条件は、データ依存とアーキテクチャ依存の両方と定義されており、NTK体制を超えた実践的な設定に結果を適用するための鍵となる特性である。 一方、表現性条件は、狭い隠れ層と1つの幅の層を持つ完全連結深層ニューラルネットワークに対してデータ独立に保持することが理論的に証明されている。 一方、表現性条件は、様々な標準画像データセットによるバッチ正規化を伴う深い(畳み込み)resnetに対してデータ依存的に保持されるように数値的に示される。 また,提案手法はヒューリスティックアルゴリズムと同等の一般化性能を有し,同じハイパーパラメータと総イテレーション数を有することを示した。 したがって,提案アルゴリズムは,実践的な状況下での深層学習の理論的保証を提供するためのステップとみなすことができる。

Existing global convergence guarantees of (stochastic) gradient descent do not apply to practical deep networks in the practical regime of deep learning beyond the neural tangent kernel (NTK) regime. This paper proposes an algorithm, which is ensured to have global convergence guarantees in the practical regime beyond the NTK regime, under a verifiable condition called the expressivity condition. The expressivity condition is defined to be both data-dependent and architecture-depende nt, which is the key property that makes our results applicable for practical settings beyond the NTK regime. On the one hand, the expressivity condition is theoretically proven to hold data-independently for fully-connected deep neural networks with narrow hidden layers and a single wide layer. On the other hand, the expressivity condition is numerically shown to hold data-dependently for deep (convolutional) ResNet with batch normalization with various standard image datasets. We also show that the the proposed algorithm has generalization performances comparable with those of the heuristic algorithm, with the same hyper-parameters and total number of iterations. Therefore, the proposed algorithm can be viewed as a step towards providing theoretical guarantees for deep learning in the practical regime.
翻訳日:2021-04-14 13:50:43 公開日:2021-04-12
# 私の表現はXか? Probe‐Ably

Does My Representation Capture X? Probe-Ably ( http://arxiv.org/abs/2104.05807v1 )

ライセンス: Link先を確認
Deborah Ferreira, Julia Rozanova, Mokanarangan Thayaparan, Marco Valentino, Andr\'e Freitas(参考訳) 探索(または診断分類)は、与えられた中間的特徴の集合が神経モデルの表現に存在しているかどうかを調べるための一般的な戦略となっている。 ナイーブ探究研究は誤った結果をもたらすかもしれないが、近年の様々な研究は、探究の落とし穴を補うより信頼性の高い方法論を示唆している。 しかし、これらのベストプラクティスは多様で進化の早いものなのです。 提案手法に沿った一連の探索実験の実行プロセスを簡略化するために,提案手法を応用した拡張可能な探索フレームワークであるプローブを,利用者の入力に対する探索メソッドの適用をサポートし,自動化する。

Probing (or diagnostic classification) has become a popular strategy for investigating whether a given set of intermediate features is present in the representations of neural models. Naive probing studies may have misleading results, but various recent works have suggested more reliable methodologies that compensate for the possible pitfalls of probing. However, these best practices are numerous and fast-evolving. To simplify the process of running a set of probing experiments in line with suggested methodologies, we introduce Probe-Ably: an extendable probing framework which supports and automates the application of probing methods to the user's inputs
翻訳日:2021-04-14 13:50:24 公開日:2021-04-12
# SpartQA : 空間推論のためのテキスト質問回答ベンチマーク

SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning ( http://arxiv.org/abs/2104.05832v1 )

ライセンス: Link先を確認
Roshanak Mirzaee, Hossein Rajaby Faghihi, Qiang Ning, Parisa Kordjmashidi(参考訳) 本稿では,従来の作業でカバーされていないより現実的な空間現象を含む自然言語テキスト上での空間推論のための質問応答(QA)ベンチマークを提案する。 我々は,この課題を改善するための遠隔監視手法を提案する。 具体的には、視覚シーンと対応するQAペアの空間的記述を自動的に生成する文法と推論ルールを設計する。 実験により、これらの自動生成データに対するさらなる事前学習は、空間的理解におけるLMの能力を大幅に向上することを示し、それによって2つの外部データセットであるbAbIとboolQの解決に役立ちます。 この研究が、テキストによる空間的推論のためのより洗練されたモデルの調査を促進することを願っている。

This paper proposes a question-answering (QA) benchmark for spatial reasoning on natural language text which contains more realistic spatial phenomena not covered by prior work and is challenging for state-of-the-art language models (LM). We propose a distant supervision method to improve on this task. Specifically, we design grammar and reasoning rules to automatically generate a spatial description of visual scenes and corresponding QA pairs. Experiments show that further pretraining LMs on these automatically generated data significantly improves LMs' capability on spatial understanding, which in turn helps to better solve two external datasets, bAbI, and boolQ. We hope that this work can foster investigations into more sophisticated models for spatial reasoning over text.
翻訳日:2021-04-14 13:48:13 公開日:2021-04-12
# 起源の族と選択の族--重度低リソース機械翻訳のための超並列レキシコン化反復事前学習

Family of Origin and Family of Choice: Massively Parallel Lexiconized Iterative Pretraining for Severely Low Resource Machine Translation ( http://arxiv.org/abs/2104.05848v1 )

ライセンス: Link先を確認
Zhong Zhou, Alex Waibel(参考訳) 我々は、大量のソース並列性を利用して、あらかじめ知られている閉じたテキストを極めて低いリソース言語に翻訳する。 私たちの貢献は4倍です。 まず、124のソース言語を経験的にランク付けし、低リソース言語に近づき、上位数を選択する。 我々は、言語ファミリー・オブ・オリジン(FAMO)の言語定義を、我々のメトリクス・オブ・チョイス(FAMC)を用いて、上位言語を実証的に定義する。 第二に, 聖書データセットと医学的emeaデータセットからの低資源データの約1,000行 (~3.5\%) を訓練するために, 反復的に事前学習された多言語順序保存レキシコン化トランスフォーマ(ipml)を構築する。 英語を仮定的に低資源言語としてスペイン語から翻訳すると、多言語ベースラインで+24.7 bleu、非対称ベースラインで+10.2 bleu が増加する。 第3に、非常に低資源のマヤ語であるEast Pokomchiも使用しています。 最後に、名前付きエンティティを正確に翻訳するために、注文保存の語彙化コンポーネントを追加します。 我々は124のソース言語で2,939の聖書名を持つエンティティを巨大な辞書テーブルとして構築し、66以上のリソース言語をカバーしている。 ランダムにサンプリングされた1,093行の低リソースデータをトレーニングし、30.022行の聖書のスペイン語翻訳試験で30.3BLEUスコア、医療EMEAデータセットでポルトガル語翻訳の42.8BLEUスコアに達した。

We translate a closed text that is known in advance into a severely low resource language by leveraging massive source parallelism. Our contribution is four-fold. Firstly, we rank 124 source languages empirically to determine their closeness to the low resource language and select the top few. We call the linguistic definition of language family Family of Origin (FAMO), and we call the empirical definition of higher-ranked languages using our metrics Family of Choice (FAMC). Secondly, we build an Iteratively Pretrained Multilingual Order-preserving Lexiconized Transformer (IPML) to train on ~1,000 lines (~3.5\%) of low resource data from the Bible dataset and the medical EMEA dataset. Using English as a hypothetical low resource language to translate from Spanish, we obtain a +24.7 BLEU increase over a multilingual baseline, and a +10.2 BLEU increase over our asymmetric baseline. Thirdly, we also use a real severely low resource Mayan language, Eastern Pokomchi. Finally, we add an order-preserving lexiconized component to translate named entities accurately. We build a massive lexicon table for 2,939 Bible named entities in 124 source languages, and include many that occur once and covers more than 66 severely low resource languages. Training on randomly sampled 1,093 lines of low resource data, we reach a 30.3 BLEU score for Spanish-English translation testing on 30,022 lines of Bible, and a 42.8 BLEU score for Portuguese-English translation on the medical EMEA dataset.
翻訳日:2021-04-14 13:48:00 公開日:2021-04-12
# パートナーから人口へ:協調と慣習の階層的ベイズ的説明

From partners to populations: A hierarchical Bayesian account of coordination and convention ( http://arxiv.org/abs/2104.05857v1 )

ライセンス: Link先を確認
Robert D. Hawkins, Michael Franke, Michael C. Frank, Kenny Smith, Thomas L. Griffiths, Noah D. Goodman(参考訳) 言語はコーディネート問題に対する強力な解決策であり、私たちの言葉が私たちの頭の中での信念や意図とどのように対応するかについて、安定的で共有された期待を提供する。 しかし、可変的で静止しない社会環境での言語の使用は、柔軟であるために言語表現を必要とする:古い単語は、新しいアドホックまたはパートナー固有の意味をその場で獲得する。 本稿では,この2つの基本観測の長期的緊張を和らげることを目的とした,規則形成の階層的ベイズ理論を紹介する。 より具体的には、コミュニケーションの中心的な計算問題は、従来の定式化のように単なる伝達ではなく、複数の時間スケールでの学習と適応であると主張する。 我々の説明では、ダイアド的相互作用における迅速な学習は、パートナー固有の共通基盤での協調を可能にする一方、社会的慣行は、複数のパートナーとの相互作用から抽象化された安定した先行概念である。 本研究は,(1)同一パートナーとの反復的相互作用におけるより効率的な参照表現の収束,(2)新規パートナーへのパートナー特化共通グラウンドの段階的移行,(3)コンベンションが最終的に形成するコミュニケーションの文脈の影響について,いくつかの現象を説明する上で,我々のモデルがどのように認知的基盤を提供するかを示すシミュレーションとともに,新しい経験的データを提案する。

Languages are powerful solutions to coordination problems: they provide stable, shared expectations about how the words we say correspond to the beliefs and intentions in our heads. Yet language use in a variable and non-stationary social environment requires linguistic representations to be flexible: old words acquire new ad hoc or partner-specific meanings on the fly. In this paper, we introduce a hierarchical Bayesian theory of convention formation that aims to reconcile the long-standing tension between these two basic observations. More specifically, we argue that the central computational problem of communication is not simply transmission, as in classical formulations, but learning and adaptation over multiple timescales. Under our account, rapid learning within dyadic interactions allows for coordination on partner-specific common ground, while social conventions are stable priors that have been abstracted away from interactions with multiple partners. We present new empirical data alongside simulations showing how our model provides a cognitive foundation for explaining several phenomena that have posed a challenge for previous accounts: (1) the convergence to more efficient referring expressions across repeated interaction with the same partner, (2) the gradual transfer of partner-specific common ground to novel partners, and (3) the influence of communicative context on which conventions eventually form.
翻訳日:2021-04-14 13:47:25 公開日:2021-04-12
# 完全分解階層型タッカー構造を用いたビデオ認識のための超小型RNNの実現に向けて

Towards Extremely Compact RNNs for Video Recognition with Fully Decomposed Hierarchical Tucker Structure ( http://arxiv.org/abs/2104.05758v1 )

ライセンス: Link先を確認
Miao Yin, Siyu Liao, Xiao-Yang Liu, Xiaodong Wang and Bo Yuan(参考訳) リカレントニューラルネットワーク(RNN)はシーケンス解析やモデリングに広く利用されている。 しかしながら、高次元データを処理する場合、RNNは通常、非常に大きなモデルサイズを必要とするため、一連のデプロイメント課題が発生する。 RNNモデルのサイズを減らすために様々な先行研究が提案されているが、資源制限環境でのRNNモデルの実行は依然として非常に難しい問題である。 本稿では,完全分解階層型タッカー(fdht)構造を持つ超コンパクトなrnnモデルを開発することを提案する。 HT分解は、他のテンソル分解法よりもはるかに高いストレージコスト削減を提供するだけでなく、コンパクトなRNNモデルの精度向上をもたらす。 一方、RNNの入力-隠蔽層のみを分解できる既存のテンソル分解法とは異なり、本提案手法により、RNNモデル全体の包括的圧縮を極めて高精度に行うことができる。 いくつかのビデオ認識データセットを用いた実験結果から,提案した完全分解階層型タッカーベースLSTM(FDHT-LSTM)は極めてコンパクトで高効率であることがわかった。 我々の知る限りでは、FDHT-LSTMは、異なるデータセット上で数千のパラメータ(3,132~8,808)しか持たずに、常に非常に高い精度を達成する。 TT-LSTMやTR-LSTM、BT-LSTMといった最先端の圧縮RNNモデルと比較して、FDHT-LSTMは、パラメータの次数(3,985xから10,711x)と精度の大幅な改善(0.6%から12.7%)の両方を同時に享受する。

Recurrent Neural Networks (RNNs) have been widely used in sequence analysis and modeling. However, when processing high-dimensional data, RNNs typically require very large model sizes, thereby bringing a series of deployment challenges. Although various prior works have been proposed to reduce the RNN model sizes, executing RNN models in resource-restricted environments is still a very challenging problem. In this paper, we propose to develop extremely compact RNN models with fully decomposed hierarchical Tucker (FDHT) structure. The HT decomposition does not only provide much higher storage cost reduction than the other tensor decomposition approaches but also brings better accuracy performance improvement for the compact RNN models. Meanwhile, unlike the existing tensor decomposition-based methods that can only decompose the input-to-hidden layer of RNNs, our proposed fully decomposition approach enables the comprehensive compression for the entire RNN models with maintaining very high accuracy. Our experimental results on several popular video recognition datasets show that our proposed fully decomposed hierarchical tucker-based LSTM (FDHT-LSTM) is extremely compact and highly efficient. To the best of our knowledge, FDHT-LSTM, for the first time, consistently achieves very high accuracy with only few thousand parameters (3,132 to 8,808) on different datasets. Compared with the state-of-the-art compressed RNN models, such as TT-LSTM, TR-LSTM and BT-LSTM, our FDHT-LSTM simultaneously enjoys both order-of-magnitude (3,985x to 10,711x) fewer parameters and significant accuracy improvement (0.6% to 12.7%).
翻訳日:2021-04-14 13:45:33 公開日:2021-04-12
# 医学的コード課題に対するアクティブラーニング

Active learning for medical code assignment ( http://arxiv.org/abs/2104.05741v1 )

ライセンス: Link先を確認
Martha Dais Ferreira, Michal Malyska, Nicola Sahar, Riccardo Miotto, Fernando Paulovich, Evangelos Milios(参考訳) 機械学習(ML)は、Electronic Health Records(EHR)から意味のある情報を自動抽出して、手術、臨床、財務の意思決定を支援するために広く使われている。 しかし、mlモデルは十分な結果を提供するために多くの注釈付き例を必要とするが、臨床医がラベルしたデータのコストが高いため、ほとんどの医療シナリオでは不可能である。 アクティブラーニング(al)は、教師付きアルゴリズムをさらに訓練するために専門家がラベル付けする最も有益なインスタンスを選択するプロセスである。 臨床領域における多ラベルテキスト分類におけるALの有効性を示す。 この文脈では、よく知られたalメソッドのセットを適用し、immit-iiiデータセットにicd-9コードを自動的に割り当てるのに役立つ。 以上の結果から,情報化インスタンスの選択は,トレーニングセットの大幅な削減(全インスタンスの8.3\%)で満足な分類を提供することがわかった。 AL手法は,モデル性能を維持しながら手作業によるアノテーションのコストを大幅に削減できる。

Machine Learning (ML) is widely used to automatically extract meaningful information from Electronic Health Records (EHR) to support operational, clinical, and financial decision-making. However, ML models require a large number of annotated examples to provide satisfactory results, which is not possible in most healthcare scenarios due to the high cost of clinician-labeled data. Active Learning (AL) is a process of selecting the most informative instances to be labeled by an expert to further train a supervised algorithm. We demonstrate the effectiveness of AL in multi-label text classification in the clinical domain. In this context, we apply a set of well-known AL methods to help automatically assign ICD-9 codes on the MIMIC-III dataset. Our results show that the selection of informative instances provides satisfactory classification with a significantly reduced training set (8.3\% of the total instances). We conclude that AL methods can significantly reduce the manual annotation cost while preserving model performance.
翻訳日:2021-04-14 13:44:29 公開日:2021-04-12
# オープンドメインストーリー生成評価のためのPlot-guided Adversarial Exampleの構築

Plot-guided Adversarial Example Construction for Evaluating Open-domain Story Generation ( http://arxiv.org/abs/2104.05801v1 )

ライセンス: Link先を確認
Sarik Ghazarian, Zixi Liu, Akash SM, Ralph Weischedel, Aram Galstyan, Nanyun Peng(参考訳) オープンドメインのストーリー生成の最近の進歩により、信頼性の高い自動評価メトリクスの欠如は、ストーリー生成の急速な発展を妨げる、ますます重要な問題になりつつある。 この点で実施した研究によれば、学習可能な評価指標は、人間の判断と高い相関関係を持つことによって、より正確な評価を約束している。 信頼性の高い学習可能な評価基準を得る上で重要なボトルネックは、分類器の高品質なトレーニングデータがないことである。 以前の著作は、テキストレベルでの反復、矛盾、無関係なコンテンツのようなシステム上の欠点を模倣するために、あり得る実例に依存しており、それは、機械で生成された物語の特徴である、\textit{unnatural} と \textit{oversimplify} である。 ストーリー生成に使用される制御可能な要素の構造化表現である {\em plots} を用いて,より包括的でないストーリー群を生成することで,これらの問題に取り組むことを提案する。 これらのプロットはコンパクトで構造化されているため、意図しない性質のテキストを生成するのが容易であり、同時に生成した文の文法的正確性と自然性を維持している。 生成した不明瞭な記事の品質を向上させるため,より曖昧なテキストの集合を選択するために, \citet{zellers2018swag} が提示する逆フィルタリング手法を適用する。 実験の結果, 得られたデータに基づいてトレーニングした評価指標は, 精度の高い自動評価結果となり, 基準値と比較すると, 人的判断と極めてよく相関していることがわかった。

With the recent advances of open-domain story generation, the lack of reliable automatic evaluation metrics becomes an increasingly imperative issue that hinders the fast development of story generation. According to conducted researches in this regard, learnable evaluation metrics have promised more accurate assessments by having higher correlations with human judgments. A critical bottleneck of obtaining a reliable learnable evaluation metric is the lack of high-quality training data for classifiers to efficiently distinguish plausible and implausible machine-generated stories. Previous works relied on \textit{heuristically manipulated} plausible examples to mimic possible system drawbacks such as repetition, contradiction, or irrelevant content in the text level, which can be \textit{unnatural} and \textit{oversimplify} the characteristics of implausible machine-generated stories. We propose to tackle these issues by generating a more comprehensive set of implausible stories using {\em plots}, which are structured representations of controllable factors used to generate stories. Since these plots are compact and structured, it is easier to manipulate them to generate text with targeted undesirable properties, while at the same time maintain the grammatical correctness and naturalness of the generated sentences. To improve the quality of generated implausible stories, we further apply the adversarial filtering procedure presented by \citet{zellers2018swag} to select a more nuanced set of implausible texts. Experiments show that the evaluation metrics trained on our generated data result in more reliable automatic assessments that correlate remarkably better with human judgments compared to the baselines.
翻訳日:2021-04-14 13:44:15 公開日:2021-04-12
# 胸部X線を用いたCOVID-19検出 : 肺分画は一般化に重要であるか?

COVID-19 detection using chest X-rays: is lung segmentation important for generalization? ( http://arxiv.org/abs/2104.06176v1 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi, Romis Attux(参考訳) 比較的小さく混合されたデータセットを用いて,胸部x線をcovid-19,正常,肺炎と分類するように訓練された深層ニューラルネットワーク(dnn)の一般化能を評価した。 肺の分節と分類を行うためのDNNアーキテクチャを提案する。 セグメンテーションモジュール(U-Net)、オリジナルの中間モジュール、分類モジュール(DenseNet201)をスタックする。 DenseNet201と比較しました。 一般化を評価するために,外部データセットを用いてdnnをテストし,ベイズ推論を用いてf1-scoreなどの性能指標の確率分布を推定した。 提案したDNNは外部テストデータセットで0.917 AUC, DenseNetでは0.906。 ベイズ推定では, セグメンテーションによる平均精度は76.1%, [0.695, 0.826] 95%で, セグメンテーションは71.7%, [0.646, 0.786] であった。 我々は,レイヤワイド関連伝搬(LRP)とブリキシアスコアを用いた新しいDNN評価手法を提案する。 LRPヒートマップは、放射線学者が強い新型コロナウイルスの症状と高いブリキシアスコアを報告した地域が、DNN分類において最も重要な地域であることを示唆している。 外部検証では、内部検証よりも精度が低く、データセットバイアスを示し、セグメンテーションが減少する。 外部データセットとLRP分析のパフォーマンスは、DNNを小さな混合データセットでトレーニングし、COVID-19を検出することを示唆している。

We evaluated the generalization capability of deep neural networks (DNNs), trained to classify chest X-rays as COVID-19, normal or pneumonia, using a relatively small and mixed dataset. We proposed a DNN architecture to perform lung segmentation and classification. It stacks a segmentation module (U-Net), an original intermediate module and a classification module (DenseNet201). We compared it to a DenseNet201. To evaluate generalization, we tested the DNNs with an external dataset (from distinct localities) and used Bayesian inference to estimate the probability distributions of performance metrics, like F1-Score. Our proposed DNN achieved 0.917 AUC on the external test dataset, and the DenseNet, 0.906. Bayesian inference indicated mean accuracy of 76.1% and [0.695, 0.826] 95% HDI with segmentation and, without segmentation, 71.7% and [0.646, 0.786]. We proposed a novel DNN evaluation technique, using Layer-wise Relevance Propagation (LRP) and the Brixia score. LRP heatmaps indicated that areas where radiologists found strong COVID-19 symptoms and attributed high Brixia scores are the most important for the stacked DNN classification. External validation showed smaller accuracies than internal validation, indicating dataset bias, which segmentation reduces. Performance in the external dataset and LRP analysis suggest that DNNs can be trained in small and mixed datasets and detect COVID-19.
翻訳日:2021-04-14 13:37:22 公開日:2021-04-12
# 総括的なbertアンサンブルでcovid-19インフォデミックと戦う

Fighting the COVID-19 Infodemic with a Holistic BERT Ensemble ( http://arxiv.org/abs/2104.05745v1 )

ライセンス: Link先を確認
Giorgos Tziafas, Konstantinos Kogkalidis, Tommaso Caselli(参考訳) 本稿では,6つの変圧器を用いた事前学習エンコーダに基づく誤情報検出タスクのアンサンブルモデルであるTOKOFOUシステムについて述べる。 各タスクの質問に対して各モデルを微調整し、多数決のアプローチを用いて予測スコアを集計する。 TOKOFOUはF1総合得点89.7%を獲得し、ランキング1位となった。

This paper describes the TOKOFOU system, an ensemble model for misinformation detection tasks based on six different transformer-based pre-trained encoders, implemented in the context of the COVID-19 Infodemic Shared Task for English. We fine tune each model on each of the task's questions and aggregate their prediction scores using a majority voting approach. TOKOFOU obtains an overall F1 score of 89.7%, ranking first.
翻訳日:2021-04-14 13:36:13 公開日:2021-04-12
# 検索例によるショットインテント分類とスロットフィリング

Few-shot Intent Classification and Slot Filling with Retrieved Examples ( http://arxiv.org/abs/2104.05763v1 )

ライセンス: Link先を確認
Dian Yu and Luheng He and Yuan Zhang and Xinya Du and Panupong Pasupat and Qi Li(参考訳) わずかなショット学習は、自然言語理解システムが新しいセマンティックラベルを学習する必要があるときのような、重要な実用的なシナリオで発生する。 本稿では,目的分類とスロット充填タスクの検索に基づく手法について検討する。 Retrieval-based method make predictions based based based on labeled examples in the search index that is similar to the input, and can adapt to new domain by simply by the change the index without without without the retrain。 しかし、スロットフィリングのような複雑なラベル空間を持つタスクにそのようなメソッドを適用するのは簡単ではない。 そこで本研究では,同一ラベルのスパンに対して,新しいバッチソフトマックス目標を用いて類似した文脈化表現を学習するスパンレベルの検索手法を提案する。 推定時,検索したスパンのラベルを用いて,最も高い集計スコアを持つ最終構造を構築する。 提案手法は,CLINCおよびSNIPSベンチマークにおいて,複数ショット設定で過去のシステムより優れていた。

Few-shot learning arises in important practical scenarios, such as when a natural language understanding system needs to learn new semantic labels for an emerging, resource-scarce domain. In this paper, we explore retrieval-based methods for intent classification and slot filling tasks in few-shot settings. Retrieval-based methods make predictions based on labeled examples in the retrieval index that are similar to the input, and thus can adapt to new domains simply by changing the index without having to retrain the model. However, it is non-trivial to apply such methods on tasks with a complex label space like slot filling. To this end, we propose a span-level retrieval method that learns similar contextualized representations for spans with the same label via a novel batch-softmax objective. At inference time, we use the labels of the retrieved spans to construct the final structure with the highest aggregated score. Our method outperforms previous systems in various few-shot settings on the CLINC and SNIPS benchmarks.
翻訳日:2021-04-14 13:36:05 公開日:2021-04-12
# 医用テキストのパラグラフレベル簡易化

Paragraph-level Simplification of Medical Texts ( http://arxiv.org/abs/2104.05767v1 )

ライセンス: Link先を確認
Ashwin Devaraj, Iain J. Marshall, Byron C. Wallace, Junyi Jessy Li(参考訳) 医学テキストを簡素化する学習の問題を考える。 バイオメディシンの最も信頼性の高い最新の情報はジャーゴンで密集しており、従って実際の観客にはアクセスできないため、これは重要である。 さらに、手作業による単純化は急速に成長している生物医学文献にはスケールせず、自動化アプローチの必要性を動機付けている。 残念ながら、このタスクには大規模なリソースはありません。 本研究は, 異なる臨床トピックに関連するすべての証拠を要約した, 専門的および在来的な要約を含む, 英語の並列テキストの新しいコーパスを紹介する。 そこで我々は,科学文献に基づいて事前学習したマスク付き言語モデルから,確率スコアに基づく新しい指標を提案する。 この自動測定は,既存のヒューリスティックよりも技術と在来の要約の区別がよいことを示す。 我々は,ベースラインエンコーダ・デコーダトランスフォーマモデルを単純化するために導入し,評価し,これらを新たに拡張し,ジャルゴン項生成のためのデコーダを明示的にペナライズする手法を提案する。

We consider the problem of learning to simplify medical texts. This is important because most reliable, up-to-date information in biomedicine is dense with jargon and thus practically inaccessible to the lay audience. Furthermore, manual simplification does not scale to the rapidly growing body of biomedical literature, motivating the need for automated approaches. Unfortunately, there are no large-scale resources available for this task. In this work we introduce a new corpus of parallel texts in English comprising technical and lay summaries of all published evidence pertaining to different clinical topics. We then propose a new metric based on likelihood scores from a masked language model pretrained on scientific texts. We show that this automated measure better differentiates between technical and lay summaries than existing heuristics. We introduce and evaluate baseline encoder-decoder Transformer models for simplification and propose a novel augmentation to these in which we explicitly penalize the decoder for producing "jargon" terms; we find that this yields improvements over baselines in terms of readability.
翻訳日:2021-04-14 13:35:48 公開日:2021-04-12
# ニューラルネットワークモデルのための相性評価法

Evaluating Saliency Methods for Neural Language Models ( http://arxiv.org/abs/2104.05824v1 )

ライセンス: Link先を確認
Shuoyang Ding, Philipp Koehn(参考訳) saliencyメソッドはニューラルネットワークの予測を解釈するために広く使われているが、saliencyメソッドの異なる変種は、同じモデルによってなされる同じ予測の解釈にもよく一致しない。 これらのケースでは、分析に使用するのに十分な信頼度があるのか、どのように判断するか? この問題に対処するため,我々はNLPモデルの基本カテゴリであるニューラル言語モデルに基づいて,サリエンシ手法の包括的,定量的評価を行う。 予測解釈の質を2つの視点から評価し、それぞれがこれらの解釈の望ましい性質である可能性と忠実性を表す。 本評価は,既存の構文的および意味的合意の人間の注釈から構築した4つの異なるデータセットに基づいて,文レベルと文書レベルの両方で実施する。 評価を通して, 塩分法が低品質の解釈をもたらす様々な方法を特定した。 このような手法をニューラルネットワークモデルにデプロイする作業は、洞察を引き出す前に、解釈を慎重に検証することを推奨する。

Saliency methods are widely used to interpret neural network predictions, but different variants of saliency methods often disagree even on the interpretations of the same prediction made by the same model. In these cases, how do we identify when are these interpretations trustworthy enough to be used in analyses? To address this question, we conduct a comprehensive and quantitative evaluation of saliency methods on a fundamental category of NLP models: neural language models. We evaluate the quality of prediction interpretations from two perspectives that each represents a desirable property of these interpretations: plausibility and faithfulness. Our evaluation is conducted on four different datasets constructed from the existing human annotation of syntactic and semantic agreements, on both sentence-level and document-level. Through our evaluation, we identified various ways saliency methods could yield interpretations of low quality. We recommend that future work deploying such methods to neural language models should carefully validate their interpretations before drawing insights.
翻訳日:2021-04-14 13:35:31 公開日:2021-04-12
# 3D Pose による多視点画像変換

Multi-View Image-to-Image Translation Supervised by 3D Pose ( http://arxiv.org/abs/2104.05779v1 )

ライセンス: Link先を確認
Idit Diamant, Oranit Dror, Hai Victor Habi, Arnon Netzer(参考訳) 人物画像生成のための多視点画像変換の課題に対処する。 目標は、すべてのビューに対してポーズ一貫性のある写真リアリスティックなマルチビュー画像を合成することである。 提案するエンドツーエンドフレームワークは,カメラ視点毎の複数画像間翻訳モデルの連立学習に基づいている。 共同学習は、共有された3次元人間のポーズに対する制約によって課され、すべての視点における2次元のポーズプロジェクションの一貫性を奨励する。 CMU-Panopticデータセットの実験結果は、標準のイメージ・ツー・イメージベースラインと比較して、すべてのビューに一貫性のある新しいポーズを持つ人の写真リアルな画像を生成する上で、提案するフレームワークの有効性を示す。 コードは https://github.com/s ony-si/MultiView-Img 2Img

We address the task of multi-view image-to-image translation for person image generation. The goal is to synthesize photo-realistic multi-view images with pose-consistency across all views. Our proposed end-to-end framework is based on a joint learning of multiple unpaired image-to-image translation models, one per camera viewpoint. The joint learning is imposed by constraints on the shared 3D human pose in order to encourage the 2D pose projections in all views to be consistent. Experimental results on the CMU-Panoptic dataset demonstrate the effectiveness of the suggested framework in generating photo-realistic images of persons with new poses that are more consistent across all views in comparison to a standard Image-to-Image baseline. The code is available at: https://github.com/s ony-si/MultiView-Img 2Img
翻訳日:2021-04-14 13:31:26 公開日:2021-04-12
# ラベルの平滑化 : エキスパートアノテーションから不確かさを捉える

Spatially Varying Label Smoothing: Capturing Uncertainty from Expert Annotations ( http://arxiv.org/abs/2104.05788v1 )

ライセンス: Link先を確認
Mobarakol Islam and Ben Glocker(参考訳) 画像分割のタスクは、解剖学的構造間の境界の正確な位置に関する曖昧さのため、本質的にうるさい。 我々は、この情報は専門家のアノテーションから余分なコストで抽出でき、最先端のニューラルネットワークに統合されると、ソフト確率予測と基礎となる不確実性の間の校正を改善することができると主張している。 そこで我々は,アウトプット予測の校正に有効であることを示す基底真理ラベルの'blurred'バージョン上でネットワークをトレーニングするラベル平滑化(ls)を構築した。 しかし、LSは局所構造を考慮に入れておらず、非あいまいな領域においても信頼性の低い過度に滑らかな予測をもたらす。 本稿では,セマンティックセグメンテーションにおける構造的不確実性を捉えるソフトラベリング手法であるSpatially Varying Label Smoothing (SVLS)を提案する。 SVLSはまた、複数のラベルマップが利用可能である場合に、レーザー間不確実性を組み込むのに自然に役立ちます。 提案手法は,画像モダリティの異なる4つの臨床的セグメンテーションタスク,クラス数,単層および多層の専門家アノテーションに対して広く検証されている。 その結果,SVLSは単純であるにもかかわらず,不確実性とモデル校正性を改善した優れた境界予測が得られることがわかった。

The task of image segmentation is inherently noisy due to ambiguities regarding the exact location of boundaries between anatomical structures. We argue that this information can be extracted from the expert annotations at no extra cost, and when integrated into state-of-the-art neural networks, it can lead to improved calibration between soft probabilistic predictions and the underlying uncertainty. We built upon label smoothing (LS) where a network is trained on 'blurred' versions of the ground truth labels which has been shown to be effective for calibrating output predictions. However, LS is not taking the local structure into account and results in overly smoothed predictions with low confidence even for non-ambiguous regions. Here, we propose Spatially Varying Label Smoothing (SVLS), a soft labeling technique that captures the structural uncertainty in semantic segmentation. SVLS also naturally lends itself to incorporate inter-rater uncertainty when multiple labelmaps are available. The proposed approach is extensively validated on four clinical segmentation tasks with different imaging modalities, number of classes and single and multi-rater expert annotations. The results demonstrate that SVLS, despite its simplicity, obtains superior boundary prediction with improved uncertainty and model calibration.
翻訳日:2021-04-14 13:31:13 公開日:2021-04-12
# 一般化可能なマルチカメラ3D歩行者検出

Generalizable Multi-Camera 3D Pedestrian Detection ( http://arxiv.org/abs/2104.05813v1 )

ライセンス: Link先を確認
Jo\~ao Paulo Lima, Rafael Roberto, Lucas Figueiredo, Francisco Sim\~oes, Veronica Teichrieb(参考訳) 本稿では,対象シーンからのデータを用いて訓練する必要がないマルチカメラ3D歩行者検出手法を提案する。 既設のモノクロ検出器から人体のポーズと人のバウンディングボックスに基づいて,新しいヒューリスティックを用いて地上の歩行者位置を推定する。 次に、これらの場所をワールドグランドプレーンに投影し、クライクカバー問題の新たな定式化と融合させます。 また, ドメイン一般化された人物再同定モデルを用いて, 融合中の歩行者の出現を利用するための任意のステップを提案する。 WILDTRACKデータセットに対する提案手法の評価を行った。 0.569のmodaと0.78のf-scoreを取得し、最先端の一般化検出技術よりも優れている。

We present a multi-camera 3D pedestrian detection method that does not need to train using data from the target scene. We estimate pedestrian location on the ground plane using a novel heuristic based on human body poses and person's bounding boxes from an off-the-shelf monocular detector. We then project these locations onto the world ground plane and fuse them with a new formulation of a clique cover problem. We also propose an optional step for exploiting pedestrian appearance during fusion by using a domain-generalizable person re-identification model. We evaluated the proposed approach on the challenging WILDTRACK dataset. It obtained a MODA of 0.569 and an F-score of 0.78, superior to state-of-the-art generalizable detection techniques.
翻訳日:2021-04-14 13:30:52 公開日:2021-04-12
# ローカライゼーションに基づくトラッキング

Localization-Based Tracking ( http://arxiv.org/abs/2104.05823v1 )

ライセンス: Link先を確認
Derek Gloudemans, Daniel B. Work(参考訳) 高精細度ビデオからのオブジェクトトラッカーのエンドツーエンド生産をリアルタイムかつ高精度に行うことは、各フレームにおけるオブジェクト検出コストが問題となる。 本研究では,検出や共同検出,追跡パラダイムによる追跡を追従する,任意のトラッカへの拡張であるlbt(localization-bas ed tracking)を提案する。 ローカライゼーションベースのトラッキングは、検出速度を高め、一致したエラーを避けるためにオブジェクトを含む可能性のあるリージョンのみに焦点を当てる。 UA-DETRACデータセットとMOT20データセットの2つの例トラッカー(KIOUとSORT)の拡張としてLBTを評価した。 LBT拡張トラッカーは、PR-MOTA、PR-MOTP、およびほとんどの追跡対象をUA-DETRACベンチマークで評価し、新しい最先端技術を確立した。 KIOUによる検出によるトラッキングと比較して、LBT拡張KIOUはフレームレートが25%高く、UA-DETRACデータセット上のPR-MOTAの精度は1.1%向上している。 LBT拡張SORTはUA-DETRACデータセット上で62%の高速化と3.2%のPR-MOTA増加を達成する。 MOT20では、LBT拡張KIOUは検出によるトラッキングよりも50%高いフレームレートを持ち、MOTAでは0.4%精度である。 提出時点では、我々のLBT拡張KIOUトラッカーはMOT20ベンチマークで10位となっている。

End-to-end production of object tracklets from high resolution video in real-time and with high accuracy remains a challenging problem due to the cost of object detection on each frame. In this work we present Localization-based Tracking (LBT), an extension to any tracker that follows the tracking by detection or joint detection and tracking paradigms. Localization-based Tracking focuses only on regions likely to contain objects to boost detection speed and avoid matching errors. We evaluate LBT as an extension to two example trackers (KIOU and SORT) on the UA-DETRAC and MOT20 datasets. LBT-extended trackers outperform all other reported algorithms in terms of PR-MOTA, PR-MOTP, and mostly tracked objects on the UA-DETRAC benchmark, establishing a new state-of-the art. relative to tracking by detection with KIOU, LBT-extended KIOU achieves a 25% higher frame-rate and is 1.1% more accurate in terms of PR-MOTA on the UA-DETRAC dataset. LBT-extended SORT achieves a 62% speedup and a 3.2% increase in PR-MOTA on the UA-DETRAC dataset. On MOT20, LBT-extended KIOU has a 50% higher frame-rate than tracking by detection and is 0.4% more accurate in terms of MOTA. As of submission time, our LBT-extended KIOU tracker places 10th overall on the MOT20 benchmark.
翻訳日:2021-04-14 13:30:42 公開日:2021-04-12
# 特徴適応のためのコンテキストHyperNetworks

Contextual HyperNetworks for Novel Feature Adaptation ( http://arxiv.org/abs/2104.05860v1 )

ライセンス: Link先を確認
Angus Lamb, Evgeny Saveliev, Yingzhen Li, Sebastian Tschiatschek, Camilla Longden, Simon Woodhead, Jos\'e Miguel Hern\'andez-Lobato, Richard E. Turner, Pashmina Cameron, Cheng Zhang(参考訳) ディープラーニングは多くのアプリケーションで最先端の成果を得ているが、ニューラルネットワークが一定の出力次元を生成するように訓練されているため、ニューラルネットワークアーキテクチャを新しい出力機能に適応させることは依然として課題である。 この問題は、リコメンデータシステム内の項目などの新しい出力機能を、ほとんど、あるいは全く関連しない観察で継続的に追加するオンライン学習環境では特に深刻である。 そのため、時間とデータ効率の両立した新しい特徴にニューラルネットワークを適用する方法が望まれる。 そこで本稿では,既存のデータだけでなく,新機能に関連する任意の観測やメタデータを活用することで,基本モデルを新機能に拡張するためのパラメータを生成する補助モデルであるContextual HyperNetwork (CHN)を提案する。 予測時には、CHNは1つのフォワードパスだけでニューラルネットワークを通過し、再トレーニングや微調整のアプローチと比較して、大幅なスピードアップをもたらす。 CHNの性能を評価するため,部分変分オートエンコーダ(P-VAE)をCHNを用いて拡張する。 本システムでは,既存のインプテーションやメタラーニングベースラインに比べて,レコメンデータシステム,eラーニング,医療タスクにまたがる新たな機能に対して,マイズショット学習性能が向上することを示す。

While deep learning has obtained state-of-the-art results in many applications, the adaptation of neural network architectures to incorporate new output features remains a challenge, as neural networks are commonly trained to produce a fixed output dimension. This issue is particularly severe in online learning settings, where new output features, such as items in a recommender system, are added continually with few or no associated observations. As such, methods for adapting neural networks to novel features which are both time and data-efficient are desired. To address this, we propose the Contextual HyperNetwork (CHN), an auxiliary model which generates parameters for extending the base model to a new feature, by utilizing both existing data as well as any observations and/or metadata associated with the new feature. At prediction time, the CHN requires only a single forward pass through a neural network, yielding a significant speed-up when compared to re-training and fine-tuning approaches. To assess the performance of CHNs, we use a CHN to augment a partial variational autoencoder (P-VAE), a deep generative model which can impute the values of missing features in sparsely-observed data. We show that this system obtains improved few-shot learning performance for novel features over existing imputation and meta-learning baselines across recommender systems, e-learning, and healthcare tasks.
翻訳日:2021-04-14 13:24:26 公開日:2021-04-12
# 線形順序問題とデータのランキング可能性について

On the Linear Ordering Problem and the Rankability of Data ( http://arxiv.org/abs/2104.05816v1 )

ライセンス: Link先を確認
Thomas R. Cameron, Sebastian Charmot, Jonad Pulaj(参考訳) 2019年、アンダーソンら。 ランク可能性(rankability)の概念は、データセットに固有のランク付け能力を指す。 本稿では,線形順序付け問題(lop)の実証的考察を行い,それを用いてデータのランク付け可能性を分析する。 具体的には、データのどのパーセンテージが最適なランキングに適合しているかを定量化するために線形度が用いられる。 スポーツの文脈では、これはランキングが後から正確に予測できるゲームの数に類似している。 実際、適切な目的関数の下では、lopによって計算される最適なランキングは、ランキングの下位精度を最大化する。 さらに,すべてのオプティマを列挙することなく,最適なランキング間の多様性を測定するために使用できる2つの最適なランキング間の最大ケンドールtauランキング距離を計算するバイナリプログラムを開発した。 最後に、スポーツと大学のランキングの世界からいくつかの例を示し、これらの概念を説明し、結果を示す。

In 2019, Anderson et al. proposed the concept of rankability, which refers to a dataset's inherent ability to be meaningfully ranked. In this article, we give an expository review of the linear ordering problem (LOP) and then use it to analyze the rankability of data. Specifically, the degree of linearity is used to quantify what percentage of the data aligns with an optimal ranking. In a sports context, this is analogous to the number of games that a ranking can correctly predict in hindsight. In fact, under the appropriate objective function, we show that the optimal rankings computed via the LOP maximize the hindsight accuracy of a ranking. Moreover, we develop a binary program to compute the maximal Kendall tau ranking distance between two optimal rankings, which can be used to measure the diversity among optimal rankings without having to enumerate all optima. Finally, we provide several examples from the world of sports and college rankings to illustrate these concepts and demonstrate our results.
翻訳日:2021-04-14 13:21:49 公開日:2021-04-12
# Deconfounding Scores:Weak Overlapによる因果効果推定のための特徴表現

Deconfounding Scores: Feature Representations for Causal Effect Estimation with Weak Overlap ( http://arxiv.org/abs/2104.05762v1 )

ライセンス: Link先を確認
Alexander D'Amour and Alexander Franks(参考訳) 治療の因果効果の信頼できる推定を得るための重要な条件は重複である(a.a。 肯定性: 因果調整を行うために使用される特徴の分布は、処理群と制御群であまりにも異なるものではない。 重なり合いが悪い場合、特に重み付けを取り入れた場合、因果効果推定器は脆くなることがある。 この問題に対処するため、多くの提案(共同設立者選択法や次元縮小法を含む)が特徴表現を取り入れ、処理群と制御群とのより優れた重複を誘発する。 これらの提案における重要な懸念は、この表現が効果推定子に共起バイアスをもたらす可能性があることである。 本稿では,推定対象の偏りを伴わずに重なりを生じさせる特徴表現であるデコンウンディングスコアを紹介する。 分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。 概念の証明として、ガウス共変量を用いた簡易な設定で分解スコアの族を特徴づけ、いくつかの単純なシミュレーションにおいて、これらのスコアが優れた有限サンプル特性を持つ推定器を構築するために使用できることを示す。 特に,IPWや重みのバランスによく適用される標準正規化に代えて,この手法が魅力的な方法であることを示す。

A key condition for obtaining reliable estimates of the causal effect of a treatment is overlap (a.k.a. positivity): the distributions of the features used to perform causal adjustment cannot be too different in the treated and control groups. In cases where overlap is poor, causal effect estimators can become brittle, especially when they incorporate weighting. To address this problem, a number of proposals (including confounder selection or dimension reduction methods) incorporate feature representations to induce better overlap between the treated and control groups. A key concern in these proposals is that the representation may introduce confounding bias into the effect estimator. In this paper, we introduce deconfounding scores, which are feature representations that induce better overlap without biasing the target of estimation. We show that deconfounding scores satisfy a zero-covariance condition that is identifiable in observed data. As a proof of concept, we characterize a family of deconfounding scores in a simplified setting with Gaussian covariates, and show that in some simple simulations, these scores can be used to construct estimators with good finite-sample properties. In particular, we show that this technique could be an attractive alternative to standard regularizations that are often applied to IPW and balancing weights.
翻訳日:2021-04-14 13:21:11 公開日:2021-04-12
# 次世代コンピューティングパラダイムに向けて : ロボットシステムにおける近似コンピューティングと環境実験,ケーススタディ,実践的意義

Towards a Next Generation Computing Paradigm: Approximate Computing in Robotics Systems and Environment-Experime ntation, Case Study and Practical Implications ( http://arxiv.org/abs/2104.05773v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua(参考訳) 近似計算は、時間とエネルギーを品質と交換するために使用できる計算領域であり、組み込みシステムで有用である。 エネルギーは、ロボットのようなバッテリ駆動の組み込みシステムの主要な資源だ。 近似計算は、ロボットの制御機能の近似バージョンを生成する技術として用いられ、劣化した品質のコストで計算のためのエネルギーを分配することができる。 通常、関数のプログラマは、システムの全体的な安全性のために安全である劣化の程度を指定する。 しかし、複数のサブシステムが共存し、それぞれの機能のいくつかが近似された協調環境では、システム全体の安全性が損なわれる可能性がある。 本稿では,複数の同一ロボットを倉庫内で動作させ,ロボットの経路計画機能を近似する。 計画された経路は個々のロボット(つまり)にとって安全である。 ラックと衝突しない)ことから、ロボット同士が衝突することを示した。 したがって、もしそれが将来の主流パラダイムである必要があるなら、この新しいパラダイムの力をフル活用するために、そのような状況で制御された近似を行う必要がある。

Approximate computing is a computation domain which can be used to trade time and energy with quality and therefore is useful in embedded systems. Energy is the prime resource in battery-driven embedded systems, like robots. Approximate computing can be used as a technique to generate approximate version of the control functionalities of a robot, enabling it to ration energy for computation at the cost of degraded quality. Usually, the programmer of the function specifies the extent of degradation that is safe for the overall safety of the system. However, in a collaborative environment, where several sub-systems co-exist and some of the functionality of each of them have been approximated, the safety of the overall system may be compromised. In this paper, we consider multiple identical robots operate in a warehouse, and the path planning function of the robot is approximated. Although the planned paths are safe for individual robots (i.e. they do not collide with the racks), we show that this leads to a collision among the robots. So, a controlled approximation needs to be carried out in such situations to harness the full power of this new paradigm if it needs to be a mainstream paradigm in future.
翻訳日:2021-04-14 13:20:25 公開日:2021-04-12
# 低解像度フローとマスクアップサンプリングを用いた高能率時空ビデオ超解像

Efficient Space-time Video Super Resolution using Low-Resolution Flow and Mask Upsampling ( http://arxiv.org/abs/2104.05778v1 )

ライセンス: Link先を確認
Saikat Dutta, Nisarg A. Shah, Anurag Mittal(参考訳) 本稿では,低分解能・低フレームレートビデオから高解像度スローモーションビデオを生成することを目的とした,時空超解の効率的な解法を提案する。 単純化された解決策は、ビデオスーパーレゾリューションとビデオフレーム補間モデルの逐次実行である。 しかし、この種の解はメモリ非効率であり、高い推論時間を持ち、時空関係特性を適切に利用することはできない。 この範囲で、まず2次モデリングを用いてLR空間を補間する。 入力LRフレームは、最先端のビデオ超解法を用いて超解される。 LR補間フレームの合成に用いられるフローマップとブレンディングマスクは、バイリニアアップサンプリングを用いてHR空間で再利用される。 これはHR中間フレームの粗い推定につながり、しばしば運動境界に沿ってアーティファクトを含む。 残差学習によるHR中間フレームの品質向上のために,改良ネットワークを用いた。 我々のモデルは軽量であり、REDS STSRバリデーションセットの最先端モデルよりも性能が良い。

This paper explores an efficient solution for Space-time Super-Resolution, aiming to generate High-resolution Slow-motion videos from Low Resolution and Low Frame rate videos. A simplistic solution is the sequential running of Video Super Resolution and Video Frame interpolation models. However, this type of solutions are memory inefficient, have high inference time, and could not make the proper use of space-time relation property. To this extent, we first interpolate in LR space using quadratic modeling. Input LR frames are super-resolved using a state-of-the-art Video Super-Resolution method. Flowmaps and blending mask which are used to synthesize LR interpolated frame is reused in HR space using bilinear upsampling. This leads to a coarse estimate of HR intermediate frame which often contains artifacts along motion boundaries. We use a refinement network to improve the quality of HR intermediate frame via residual learning. Our model is lightweight and performs better than current state-of-the-art models in REDS STSR Validation set.
翻訳日:2021-04-14 13:20:07 公開日:2021-04-12
# スーパーアプリ代替データによるユーザの所得予測の強化

Enhancing User' s Income Estimation with Super-App Alternative Data ( http://arxiv.org/abs/2104.05831v1 )

ライセンス: Link先を確認
Gabriel Suarez, Juan Raful, Maria A. Luque, Carlos F. Valencia, Alejandro Correa-Bahnsen(参考訳) 本稿では,スーパーアプリからの代替データを利用して,利用者の所得推定モデルを強化する。 それは、これらの代替データソースのパフォーマンスと、金融システム情報のみを考慮に入れた業界に受容された官僚所得推定器のパフォーマンスを比較し、その代替データが、官僚所得推定器が持っていない情報を取り込むことに成功した。 本稿では,Stochastic Gradient Boosting InterpretationのためのTreeSHAPメソッドを実装することにより,スーパーアプリ内の顧客の行動パターンとトランザクションパターンのどちらが,ユーザの収入を推定する上でより強力な予測力を持つかを明らかにする。 本論文は、金融機関がリスクプロファイルの構築に代替データを導入しようとする動機を示すものである。

This paper presents the advantages of alternative data from Super-Apps to enhance user' s income estimation models. It compares the performance of these alternative data sources with the performance of industry-accepted bureau income estimators that takes into account only financial system information; successfully showing that the alternative data manage to capture information that bureau income estimators do not. By implementing the TreeSHAP method for Stochastic Gradient Boosting Interpretation, this paper highlights which of the customer' s behavioral and transactional patterns within a Super-App have a stronger predictive power when estimating user' s income. Ultimately, this paper shows the incentive for financial institutions to seek to incorporate alternative data into constructing their risk profiles.
翻訳日:2021-04-14 13:18:16 公開日:2021-04-12
# 量子バレン高原のコスト集中と狭い峡谷への等価性

Equivalence of quantum barren plateaus to cost concentration and narrow gorges ( http://arxiv.org/abs/2104.05868v1 )

ライセンス: Link先を確認
Andrew Arrasmith, Zo\"e Holmes, M. Cerezo, Patrick J. Coles(参考訳) パラメータ化量子回路(PQCs)の最適化は、短期量子コンピュータを利用する主要なアプローチである。 しかし、量子認識オプティマイザへの進歩を妨げるPQCのコスト関数の展望については、ほとんど分かっていない。 本研究では, PQCsにおいて観測された3つの景観特徴の関連性について検討する。(1)指数関数的に消失する勾配(バレン台地),(2)平均に関する指数関数的なコスト集中,(3)指数関数的に狭くなるミニナ(狭峡地)。 これら3つの現象が同時に起こることを解析的に証明する。 この結果の重要な意味は、計算上より高価な勾配よりも、コスト差によってバレン高原を数値的に診断できるということである。 より広い範囲において、我々の研究は、量子力学が特定のコストランドスケープ(そうでなければ数学的に可能である)を除外していることを示しており、その結果は量子基礎の観点から興味深い。

Optimizing parameterized quantum circuits (PQCs) is the leading approach to make use of near-term quantum computers. However, very little is known about the cost function landscape for PQCs, which hinders progress towards quantum-aware optimizers. In this work, we investigate the connection between three different landscape features that have been observed for PQCs: (1) exponentially vanishing gradients (called barren plateaus), (2) exponential cost concentration about the mean, and (3) the exponential narrowness of minina (called narrow gorges). We analytically prove that these three phenomena occur together, i.e., when one occurs then so do the other two. A key implication of this result is that one can numerically diagnose barren plateaus via cost differences rather than via the computationally more expensive gradients. More broadly, our work shows that quantum mechanics rules out certain cost landscapes (which otherwise would be mathematically possible), and hence our results are interesting from a quantum foundations perspective.
翻訳日:2021-04-14 13:18:03 公開日:2021-04-12
# Evidence-based Prescriptive Analytics, CAUSAL Digital Twinと学習推定アルゴリズム

Evidence-based Prescriptive Analytics, CAUSAL Digital Twin and a Learning Estimation Algorithm ( http://arxiv.org/abs/2104.05828v1 )

ライセンス: Link先を確認
PG Madhavan(参考訳) EbPA(Evidence-based Prescriptive Analytics)は、ビジネス生産性を向上させる最適な運用セットポイントを決定するために必要である。 EbPAは、接続された資産のシステムのDYNAMICSにおける原因・影響関係を定量化するCAUSAL Digital Twins(CDTs)における、何の分析と対実実験の結果である。 本稿では,CausalityとCausal Graphsの基礎を解説し,LCDT(Learning Causal Digital Twin)ソリューションを開発した。 LCDTは学習用デジタルツインであり、パラメータは最小限の設定でオンラインでオンラインで学習されるため、デジタルツインのデプロイ作業は大幅に単純化される。 軸受系の実振動データを用いてLCDTの原理実証を行い, 因果因子推定の結果, 解析結果, 反実実験の実施を強く奨励した。

Evidence-based Prescriptive Analytics (EbPA) is necessary to determine optimal operational set-points that will improve business productivity. EbPA results from what-if analysis and counterfactual experimentation on CAUSAL Digital Twins (CDTs) that quantify cause-effect relationships in the DYNAMICS of a system of connected assets. We describe the basics of Causality and Causal Graphs and develop a Learning Causal Digital Twin (LCDT) solution; our algorithm uses a simple recurrent neural network with some innovative modifications incorporating Causal Graph simulation. Since LCDT is a learning digital twin where parameters are learned online in real-time with minimal pre-configuration, the work of deploying digital twins will be significantly simplified. A proof-of-principle of LCDT was conducted using real vibration data from a system of bearings; results of causal factor estimation, what-if analysis study and counterfactual experiment are very encouraging.
翻訳日:2021-04-14 13:16:16 公開日:2021-04-12
# (参考訳) 人間の行動認識と予測のためのイベントベースのタイムスタンプ画像符号化ネットワーク [全文訳有]

Event-based Timestamp Image Encoding Network for Human Action Recognition and Anticipation ( http://arxiv.org/abs/2104.05145v1 )

ライセンス: CC0 1.0
Chaoxing Huang(参考訳) イベントカメラは、低消費電力の非同期高周波センサであり、人間の行動理解作業に適している。 イベントデータの時空間情報を適切にエンコードし、標準コンピュータビジョンツールを使用してデータから学習することが不可欠である。 本研究では,イベントデータの極性情報を含む空間時空間画像の入力と出力を行うタイムスタンプ画像符号化2dネットワークを提案する。 さらに、将来のタイムスタンプ画像生成装置を作成し、将来のアクション情報を生成し、アクションが完了していないときの人間のアクションを予測する。 実験の結果,本手法は実世界行動認識におけるrgbベースベンチマークと同程度の性能を達成でき,ジェスチャー認識による技術(sota)結果も達成できることがわかった。 今後のタイムスタンプ画像生成モデルでは,動作完了時の予測精度が効果的に向上する。 また,行動認識と予測における動作情報と出現情報の重要性について考察する。

Event camera is an asynchronous, high frequencyvision sensor with low power consumption, which is suitable forhuman action understanding task. It is vital to encode the spatial-temporal information of event data properly and use standardcomputer vision tool to learn from the data. In this work, wepropose a timestamp image encoding 2D network, which takes theencoded spatial-temporal images with polarity information of theevent data as input and output the action label. In addition, wepropose a future timestamp image generator to generate futureaction information to aid the model to anticipate the humanaction when the action is not completed. Experiment results showthat our method can achieve the same level of performance asthose RGB-based benchmarks on real world action recognition,and also achieve the state of the art (SOTA) result on gesturerecognition. Our future timestamp image generating model caneffectively improve the prediction accuracy when the action is notcompleted. We also provide insight discussion on the importanceof motion and appearance information in action recognition andanticipation.
翻訳日:2021-04-14 05:21:48 公開日:2021-04-12
# (参考訳) 機械翻訳における参照フリーピア評価の評価 [全文訳有]

Assessing Reference-Free Peer Evaluation for Machine Translation ( http://arxiv.org/abs/2104.05146v1 )

ライセンス: CC BY 4.0
Sweta Agrawal, George Foster, Markus Freitag, Colin Cherry(参考訳) 参照なし評価は、機械翻訳の評価を大幅にスケーラブルにする可能性があり、新しい言語やドメインに容易にピボットできる。 近年,大規模な多言語モデルによって与えられる確率は,基準自由度として用いると,技術結果の状態を達成できることが示されている。 我々はこのモデルの様々な変更を試し、それをスケールアップすることでbleuのパフォーマンスにマッチできることを実証する。 このアプローチの様々な潜在的な弱点を分析し、驚くほど堅牢であり、幅広い領域と異なるシステム品質で合理的なパフォーマンスを提供する可能性が高いことを発見した。

Reference-free evaluation has the potential to make machine translation evaluation substantially more scalable, allowing us to pivot easily to new languages or domains. It has been recently shown that the probabilities given by a large, multilingual model can achieve state of the art results when used as a reference-free metric. We experiment with various modifications to this model and demonstrate that by scaling it up we can match the performance of BLEU. We analyze various potential weaknesses of the approach and find that it is surprisingly robust and likely to offer reasonable performance across a broad spectrum of domains and different system qualities.
翻訳日:2021-04-14 05:04:10 公開日:2021-04-12
# (参考訳) ミスマッチ埋め込みによる要約文間不整合の推定 [全文訳有]

Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings ( http://arxiv.org/abs/2104.05156v1 )

ライセンス: CC BY 4.0
Oleg Vasilyev, John Bohannon(参考訳) 本稿では,忠実性を重視した新しい参照フリー要約品質評価尺度を提案する。 この尺度は、ソース文書に関する要約の可能なすべての微妙な矛盾を見つけ、数えるように設計されている。 Mismatched Embeddings による概要テキスト不整合推定器 ESTIME は,要約レベル SummEval データセットのエキスパートスコアと,一貫性だけでなく,頻度においても他の一般的な評価指標よりも強い相関関係を持つ。 また,人間の要約に微妙な事実誤りを生成する手法も導入した。 ESTIMEは他の一般的な評価方法よりも微妙な誤りに敏感であることを示す。

We propose a new reference-free summary quality evaluation measure, with emphasis on the faithfulness. The measure is designed to find and count all possible minute inconsistencies of the summary with respect to the source document. The proposed ESTIME, Estimator of Summary-to-Text Inconsistency by Mismatched Embeddings, correlates with expert scores in summary-level SummEval dataset stronger than other common evaluation measures not only in Consistency but also in Fluency. We also introduce a method of generating subtle factual errors in human summaries. We show that ESTIME is more sensitive to subtle errors than other common evaluation measures.
翻訳日:2021-04-14 04:48:56 公開日:2021-04-12
# (参考訳) メモリ誘導型教師なし画像-画像間翻訳 [全文訳有]

Memory-guided Unsupervised Image-to-image Translation ( http://arxiv.org/abs/2104.05170v1 )

ライセンス: CC BY 4.0
Somi Jeong, Youngjung Kim, Eungbean Lee, Kwanghoon Sohn(参考訳) 本稿では,インスタンスレベルの画像・画像翻訳のための新しい教師なしフレームワークを提案する。 最近の進歩は追加のオブジェクトアノテーションの導入によるものだが、既存のメソッドは複数の異なるオブジェクトでイメージを処理できないことが多い。 主な原因は、推論中に全体像にグローバルなスタイルを適用し、インスタンスとバックグラウンド、あるいはインスタンス内の大きなスタイルの相違を考慮していないことである。 この問題に対処するために,ローカルスタイルの変動を明示的に理由づけたクラス対応メモリネットワークを提案する。 クラス毎のスタイルの変化を記録し、テスト時にオブジェクト検出器を必要とせずにアクセスするために、一連の読み取り/更新操作を備えたキー値メモリ構造が導入される。 キーはメモリアイテムを割り当てるためのドメインに依存しないコンテンツ表現を格納し、値はドメイン固有のスタイル表現をエンコードする。 また,メモリ項目の識別能力を高めるために,特徴的コントラスト損失も提示する。 メモリを組み込むことで、ドメイン間でクラス認識と正確なスタイル表現を転送できることを示す。 実験結果から,本モデルが最近のインスタンスレベルの手法より優れ,最先端の性能を実現することが示された。

We present a novel unsupervised framework for instance-level image-to-image translation. Although recent advances have been made by incorporating additional object annotations, existing methods often fail to handle images with multiple disparate objects. The main cause is that, during inference, they apply a global style to the whole image and do not consider the large style discrepancy between instance and background, or within instances. To address this problem, we propose a class-aware memory network that explicitly reasons about local style variations. A key-values memory structure, with a set of read/update operations, is introduced to record class-wise style variations and access them without requiring an object detector at the test time. The key stores a domain-agnostic content representation for allocating memory items, while the values encode domain-specific style representations. We also present a feature contrastive loss to boost the discriminative power of memory items. We show that by incorporating our memory, we can transfer class-aware and accurate style representations across domains. Experimental results demonstrate that our model outperforms recent instance-level methods and achieves state-of-the-art performance.
翻訳日:2021-04-14 04:40:53 公開日:2021-04-12
# (参考訳) 部分検証による分類の自動機構設計

Automated Mechanism Design for Classification with Partial Verification ( http://arxiv.org/abs/2104.05182v1 )

ライセンス: CC BY 4.0
Hanrui Zhang, Yu Cheng, Vincent Conitzer(参考訳) そこで本研究では,各型が (他の型よりも) 制限された型のみを報告できる部分的検証による自動機構設計の問題について検討する。 啓示原理が必ずしも成り立たない場合や、型が極端に異なる好みを持つ場合の硬さを証明します。 これらの難易度の結果を踏まえて、全ての型が結果に対して同じ好みを共有している設定における真理的なメカニズムに焦点を当てる。 本研究では, 最適決定論的真理機構を求める効率的なアルゴリズムを含む, アルゴリズム的, 構造的結果をいくつか提示し, 凸性に基づくキャラクタリゼーションにより, 最適ランダム化真理機構を求めるためのより高速なアルゴリズムを提案する。 次に、主のコストが各型に割り当てられた結果の組み合わせの関数であるより一般的な設定を考える。 特に、コスト関数が部分モジュラーな場合に着目し、コスト関数が加法的となる古典的な設定において、本質的に全ての結果の一般化を与える。 本結果は,部分検証による自動機構設計のための比較的完全な画像を提供する。

We study the problem of automated mechanism design with partial verification, where each type can (mis)report only a restricted set of types (rather than any other type), induced by the principal's limited verification power. We prove hardness results when the revelation principle does not necessarily hold, as well as when types have even minimally different preferences. In light of these hardness results, we focus on truthful mechanisms in the setting where all types share the same preference over outcomes, which is motivated by applications in, e.g., strategic classification. We present a number of algorithmic and structural results, including an efficient algorithm for finding optimal deterministic truthful mechanisms, which also implies a faster algorithm for finding optimal randomized truthful mechanisms via a characterization based on convexity. We then consider a more general setting, where the principal's cost is a function of the combination of outcomes assigned to each type. In particular, we focus on the case where the cost function is submodular, and give generalizations of essentially all our results in the classical setting where the cost function is additive. Our results provide a relatively complete picture for automated mechanism design with partial verification.
翻訳日:2021-04-14 04:25:27 公開日:2021-04-12
# (参考訳) 人間とエイリアンの人工知能による科学の加速

Accelerating science with human versus alien artificial intelligences ( http://arxiv.org/abs/2104.05188v1 )

ライセンス: CC BY 4.0
Jamshid Sourati, James Evans(参考訳) データ駆動型人工知能モデルは、望ましい性質を持つ新しい材料の発見や、新しい治療法やワクチンのターゲットとなる発明など、科学的および技術的進歩のための強力な予測エンジンを作成するために使われてきた。 これらのAIアプローチは典型的に、発見と発明の風景を継続的に変える人間の予測エンジン(科学者と発明家)の分布を無視している。 結果として、AI仮説は人間の専門家の代わりに設計され、句読化された集団の進歩のためにそれらを補完することができない。 ここでは、専門家に認知的に利用可能な推論をトレーニングすることで、人間の専門知識の分布を自己監督モデルに組み込むことで、将来の人間の発見や発明のAI予測を劇的に改善することを示す。 a)価値あるエネルギー関連材料を提唱するモデルへの専門家の認識を含めると、材料予測の精度は100%程度、(b)新しい疾患の治療のために何千もの薬を再導入することの精度は43%、(c)臨床試験で検査された新型コロナウイルスワクチン候補は260%向上する。 これらのモデルは、人間の予測とそれを作る科学者を予測することで成功する。 しかし、群衆を避けるためにaiをチューニングすることで、科学的に有望な「アリエン」仮説を生み出し、科学的な進歩を加速するだけでなく、介入なしには想像も追跡もできない。 集団的人間の偏見を同定し修正することにより、これらのモデルは発見のための科学教育を改革することで、人間の予測を改善する機会も提案する。

Data-driven artificial intelligence models fed with published scientific findings have been used to create powerful prediction engines for scientific and technological advance, such as the discovery of novel materials with desired properties and the targeted invention of new therapies and vaccines. These AI approaches typically ignore the distribution of human prediction engines -- scientists and inventor -- who continuously alter the landscape of discovery and invention. As a result, AI hypotheses are designed to substitute for human experts, failing to complement them for punctuated collective advance. Here we show that incorporating the distribution of human expertise into self-supervised models by training on inferences cognitively available to experts dramatically improves AI prediction of future human discoveries and inventions. Including expert-awareness into models that propose (a) valuable energy-relevant materials increases the precision of materials predictions by ~100%, (b) repurposing thousands of drugs to treat new diseases increases precision by 43%, and (c) COVID-19 vaccine candidates examined in clinical trials by 260%. These models succeed by predicting human predictions and the scientists who will make them. By tuning AI to avoid the crowd, however, it generates scientifically promising "alien" hypotheses unlikely to be imagined or pursued without intervention, not only accelerating but punctuating scientific advance. By identifying and correcting for collective human bias, these models also suggest opportunities to improve human prediction by reformulating science education for discovery.
翻訳日:2021-04-14 04:24:29 公開日:2021-04-12
# (参考訳) contextized knowledge-aware attentive neural network: enhance answer selection with knowledge

Contextualized Knowledge-aware Attentive Neural Network: Enhancing Answer Selection with Knowledge ( http://arxiv.org/abs/2104.05216v1 )

ライセンス: CC BY 4.0
Yang Deng, Yuexiang Xie, Yaliang Li, Min Yang, Wai Lam, Ying Shen(参考訳) 対話システムや質問応答(qa)など、多くの自然言語処理アプリケーションに関与している回答選択は、現実の様々な背景知識を無視して、従来の方法が一般的に問題となるため、実際には重要かつ困難なタスクである。 本稿では,知識グラフ(kg)からの外部知識を用いて回答選択モデルを強化する手法を広範囲に検討する。 まず,KGからの外部知識とテキスト情報との密接な相互作用を考慮し,QA文表現を学習するコンテキスト知識相互作用学習フレームワークKNNを提案する。 次に,質問と回答の文脈ベースと知識ベースの相互作用を要約するために,知識認識注意機構を2種類開発した。 さらに,KG情報の多様性と複雑さに対処するため,構造化グラフ畳み込みネットワーク(GCN)による構造情報による知識表現学習を改善し,多視点知識認識機構を通じてコンテキストベースおよび知識ベース文表現を包括的に学習する,コンテキスト対応知識認識注意ニューラルネットワーク(CKANN)を提案する。 本稿では, WikiQA, TREC QA, InsuranceQA, Yahoo QAの4つのベンチマークQAデータセットを用いて評価を行った。 その結果,kgから外部知識を取り入れることの利点を検証し,本手法の強固な優越性と広範な適用性を示す。

Answer selection, which is involved in many natural language processing applications such as dialog systems and question answering (QA), is an important yet challenging task in practice, since conventional methods typically suffer from the issues of ignoring diverse real-world background knowledge. In this paper, we extensively investigate approaches to enhancing the answer selection model with external knowledge from knowledge graph (KG). First, we present a context-knowledge interaction learning framework, Knowledge-aware Neural Network (KNN), which learns the QA sentence representations by considering a tight interaction with the external knowledge from KG and the textual information. Then, we develop two kinds of knowledge-aware attention mechanism to summarize both the context-based and knowledge-based interactions between questions and answers. To handle the diversity and complexity of KG information, we further propose a Contextualized Knowledge-aware Attentive Neural Network (CKANN), which improves the knowledge representation learning with structure information via a customized Graph Convolutional Network (GCN) and comprehensively learns context-based and knowledge-based sentence representation via the multi-view knowledge-aware attention mechanism. We evaluate our method on four widely-used benchmark QA datasets, including WikiQA, TREC QA, InsuranceQA and Yahoo QA. Results verify the benefits of incorporating external knowledge from KG, and show the robust superiority and extensive applicability of our method.
翻訳日:2021-04-14 04:23:26 公開日:2021-04-12
# (参考訳) ENOS:ハイブリッドデジタルおよびコンピュートインメモリDNN加速器のためのエネルギー対応ネットワーク演算子探索 [全文訳有]

ENOS: Energy-Aware Network Operator Search for Hybrid Digital and Compute-in-Memory DNN Accelerators ( http://arxiv.org/abs/2104.05217v1 )

ライセンス: CC BY-SA 4.0
Shamma Nasrin, Ahish Shylendra, Yuti Kadakia, Nick Iliev, Wilfred Gomes, Theja Tulabandhula, and Amit Ranjan Trivedi(参考訳) 本研究では、ディープニューラルネットワーク(DNN)アクセラレーターのエネルギー精度トレードオフに対処する、新しいEnergy-Aware Network Operator Search(ENOS)アプローチを提案する。 近年,DNNの計算効率を向上させるために新しい推論演算子が提案されている。 オペレーターを増強し、対応する新しいコンピューティングモードも検討されている。 しかし、DNN演算子の単純化は、特に複雑な処理タスクにおいて、低精度のコストが伴う。 提案するENOSフレームワークにより、推論演算子と計算モードを最適に階層的に統合し、所望のエネルギーと精度のバランスを実現する。 enosにおける探索は連続最適化問題として定式化され、典型的な勾配降下法を用いて解くことができ、トレーニングコストを最小にし、より大きなdnnに拡張できる。 ENOSを2つの設定で特徴付けます。 最初の設定では、デジタルアクセラレーターについて、異なるオペレーターに再設定できるマルチプライアキュムレート(mac)コアのenosについて論じる。 単段最適化と二段最適化を併用したENOS学習法について検討・比較を行った。 また、1つのトレーニングステップで1つのレイヤの割り当てのみを学ぶenosのシーケンシャルな演算子割当戦略についても検討し、最適なオペレータ割当に向けての収束の柔軟性を高める。 さらに、ベイズ原理に従って、ENOSのサンプリングに基づく変分モードも提示される。 ENOSは、CIFAR10とCIFAR100上の人気のあるDNNShuffleNetとSqueezeNetに特徴付けられる。

This work proposes a novel Energy-Aware Network Operator Search (ENOS) approach to address the energy-accuracy trade-offs of a deep neural network (DNN) accelerator. In recent years, novel inference operators have been proposed to improve the computational efficiency of a DNN. Augmenting the operators, their corresponding novel computing modes have also been explored. However, simplification of DNN operators invariably comes at the cost of lower accuracy, especially on complex processing tasks. Our proposed ENOS framework allows an optimal layer-wise integration of inference operators and computing modes to achieve the desired balance of energy and accuracy. The search in ENOS is formulated as a continuous optimization problem, solvable using typical gradient descent methods, thereby scalable to larger DNNs with minimal increase in training cost. We characterize ENOS under two settings. In the first setting, for digital accelerators, we discuss ENOS on multiply-accumulate (MAC) cores that can be reconfigured to different operators. ENOS training methods with single and bi-level optimization objectives are discussed and compared. We also discuss a sequential operator assignment strategy in ENOS that only learns the assignment for one layer in one training step, enabling greater flexibility in converging towards the optimal operator allocations. Furthermore, following Bayesian principles, a sampling-based variational mode of ENOS is also presented. ENOS is characterized on popular DNNs ShuffleNet and SqueezeNet on CIFAR10 and CIFAR100.
翻訳日:2021-04-14 04:22:17 公開日:2021-04-12
# (参考訳) 自然言語生成改善のための追加目的としての主観的集団評価の推定 [全文訳有]

Estimating Subjective Crowd-Evaluations as an Additional Objective to Improve Natural Language Generation ( http://arxiv.org/abs/2104.05224v1 )

ライセンス: CC BY 4.0
Jakob Nyberg, Ramesh Manuvinakurike, Maike Paetzel-Pr\"usmann(参考訳) 人間の評価は自然言語処理アルゴリズムの性能を評価する最も一般的な手法の1つである。 同様に、自然言語生成モデルによって生成される文の質を人格を用いて測定することが一般的である。 本稿では,マルチタスク学習環境における言語生成モデルの学習過程における主観評価の利用について検討する。 事例研究として,6種類の言語生成モデルについて,群衆による対話コーパスを用いて微調整を行った。 これらのモデルのうち2つはマルチタスク学習を取り入れ、明確な学習目標の一部としてラインの主観評価を使用する。 生成した対話行の人間による評価は、マルチタスクモデルによって生成された発話が、最も典型的であり、最も会話を前進させ、最も攻撃的であることを示す。 これらの有望な最初の結果に基づいて、言語モデルトレーニングに主観的人間評価を取り入れた将来の研究の方向性を議論し、開発プロセス中にユーザーをループに留める。

Human ratings are one of the most prevalent methods to evaluate the performance of natural language processing algorithms. Similarly, it is common to measure the quality of sentences generated by a natural language generation model using human raters. In this paper, we argue for exploring the use of subjective evaluations within the process of training language generation models in a multi-task learning setting. As a case study, we use a crowd-authored dialogue corpus to fine-tune six different language generation models. Two of these models incorporate multi-task learning and use subjective ratings of lines as part of an explicit learning goal. A human evaluation of the generated dialogue lines reveals that utterances generated by the multi-tasking models were subjectively rated as the most typical, most moving the conversation forward, and least offensive. Based on these promising first results, we discuss future research directions for incorporating subjective human evaluations into language model training and to hence keep the human user in the loop during the development process.
翻訳日:2021-04-14 04:05:15 公開日:2021-04-12
# (参考訳) Edgeless-GNN: 教師なしの誘導型エッジレスネットワーク埋め込み [全文訳有]

Edgeless-GNN: Unsupervised Inductive Edgeless Network Embedding ( http://arxiv.org/abs/2104.05225v1 )

ライセンス: CC BY 4.0
Yong-Min Shin, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) グラフニューラルネットワーク (GNN) を用いて, メッセージパッシングによる表現能力の向上により, グラフの効率的な表現学習を実現することを目的として, エッジレスノードを新たに入力するユーザなどの問題について検討した。 本研究は,接続のないエッジレスノードへのメッセージ転送は不可能であるため,gnnをこの問題に適用できないことによるものである。 この課題に対処するため,非教師付き帰納学習により,エッジレスノードでもノード埋め込みを生成可能な新しいフレームワークであるEdgeless-GNNを提案する。 具体的には,ノード属性の類似性に基づいて,各ノードの近傍アグリゲーションによって定義されるGNNの計算グラフを置き換えるために,$k$-nearest neighbor graph(k$NNG)を利用する。 既知のネットワーク構造はモデルパラメータのトレーニングに使用されるが、損失関数はモデルがネットワーク構造を学ぶように確立される。 エッジレスノードに対しては、$k$NNG構成を計算グラフとして使用することで、埋め込みを誘導的に推論する。 各種ダウンストリーム機械学習(ML)タスクの性能を評価することで、Edgeless-GNNがインダクティブネットワーク埋め込みの最先端手法を一貫して上回っていることを実証的に示す。 我々のフレームワークはGNNモデルに依存しないため、GNNモデルはニーズやMLタスクに応じて適切に選択できる。

We study the problem of embedding edgeless nodes such as users who newly enter the underlying network, while using graph neural networks (GNNs) widely studied for effective representation learning of graphs thanks to its highly expressive capability via message passing. Our study is motivated by the fact that GNNs cannot be adopted for our problem since message passing to such edgeless nodes having no connections is impossible. To tackle this challenge, we propose Edgeless-GNN, a new framework that enables GNNs to generate node embeddings even for edgeless nodes through unsupervised inductive learning. Specifically, we utilize a $k$-nearest neighbor graph ($k$NNG) based on the similarity of node attributes to replace the GNN's computation graph defined by the neighborhood-based aggregation of each node. The known network structure is used to train model parameters, whereas a loss function is established in such a way that our model learns the network structure. For the edgeless nodes, we inductively infer embeddings by using edges via $k$NNG construction as a computation graph. By evaluating the performance of various downstream machine learning (ML) tasks, we empirically demonstrate that Edgeless-GNN consistently outperforms state-of-the-art methods of inductive network embedding. Our framework is GNN-model-agnostic; thus, GNN models can be appropriately chosen according to ones' needs and ML tasks.
翻訳日:2021-04-14 03:47:09 公開日:2021-04-12
# (参考訳) SuperSim:スウェーデン語における単語類似性と関連性のテストセット [全文訳有]

SuperSim: a test set for word similarity and relatedness in Swedish ( http://arxiv.org/abs/2104.05228v1 )

ライセンス: CC BY 4.0
Simon Hengchen and Nina Tahmasebi(参考訳) 言語モデルは評価するのが非常に難しい。 SuperSimは、人間の判断に精通したスウェーデンの大規模な類似性と関連性テストセットです。 テストセットは5つのアノテータによって関連性と類似性の両方について独立に判断される1,360ワードペアで構成されている。 スウェーデンのGigaword corpusとスウェーデンのWikipediaダンプという2つのスウェーデンのデータセットでトレーニングされた3つの異なるモデル(Word2Vec、fastText、GloVe)を評価し、将来の比較のためのベースラインを提供する。 完全なアノテーション付きテストセット、コード、ベースラインモデル、データをリリースします。

Language models are notoriously difficult to evaluate. We release SuperSim, a large-scale similarity and relatedness test set for Swedish built with expert human judgments. The test set is composed of 1,360 word-pairs independently judged for both relatedness and similarity by five annotators. We evaluate three different models (Word2Vec, fastText, and GloVe) trained on two separate Swedish datasets, namely the Swedish Gigaword corpus and a Swedish Wikipedia dump, to provide a baseline for future comparison. We release the fully annotated test set, code, baseline models, and data.
翻訳日:2021-04-14 03:23:19 公開日:2021-04-12
# (参考訳) 診断予測性を改善するための前頭側頭葉認知症の分類に基づく人工知能手法 [全文訳有]

Artificial Intelligence Methods Based Hierarchical Classification of Frontotemporal Dementia to Improve Diagnostic Predictability ( http://arxiv.org/abs/2104.05235v1 )

ライセンス: CC BY 4.0
Km Poonam, Rajlakshmi Guha, Partha P Chakrabarti(参考訳) Frontotemporal Dementia(FTD)患者は認知能力、経営的・行動的特徴、言語能力の喪失、記憶能力の低下を経験している。 FTDスペクトルは、皮質萎縮と症状の異なるパターンに基づいて、主に行動変化型FTD(bvFTD)、非流動性一次進行性失語(nfvPPA)、意味変化型一次進行性失語(svPPA)の3つの変種を含む。 本研究の目的は,皮質厚みデータに人工知能(AI)のデータ駆動技術を適用し,各被験者のMRI画像を階層的にFTDのスペクトルの1つに分類することである。 このデータはFreeSurferソフトウェアによって計算される。 皮質厚みデータのノイズを最小限に抑えるために,最小の一値セグメント同化核(susan)技術を用いた。 具体的には,前頭頭葉変性ニューロイメージングイニシアチブ(niftd)データベースから204名の被験者を抽出し,その1つの診断カテゴリー(bvftd,svppa,nfvppa, cognitively normal)で診断した。 自動分類モデルでは, サポートベクトルマシン (SVM) , 線形判別分析 (LDA) , ナイブベイズ法 (Nieブベイズ法) による分類精度が86.5, 76, 72.7 となり, 精度82.7, 73.4, 69.2 の従来型単一クラスモデルに対して, 10倍のクロスバリデーション解析を行った。

Patients with Frontotemporal Dementia (FTD) have impaired cognitive abilities, executive and behavioral traits, loss of language ability, and decreased memory capabilities. Based on the distinct patterns of cortical atrophy and symptoms, the FTD spectrum primarily includes three variants: behavioral variant FTD (bvFTD), non-fluent variant primary progressive aphasia (nfvPPA), and semantic variant primary progressive aphasia (svPPA). The purpose of this study is to classify MRI images of every single subject into one of the spectrums of the FTD in a hierarchical order by applying data-driven techniques of Artificial Intelligence (AI) on cortical thickness data. This data is computed by FreeSurfer software. We used the Smallest Univalue Segment Assimilating Nucleus (SUSAN) technique to minimize the noise in cortical thickness data. Specifically, we took 204 subjects from the frontotemporal lobar degeneration neuroimaging initiative (NIFTD) database to validate this approach, and each subject was diagnosed in one of the diagnostic categories (bvFTD, svPPA, nfvPPA and cognitively normal). Our proposed automated classification model yielded classification accuracy of 86.5, 76, and 72.7 with support vector machine (SVM), linear discriminant analysis (LDA), and Naive Bayes methods, respectively, in 10-fold cross-validation analysis, which is a significant improvement on a traditional single multi-class model with an accuracy of 82.7, 73.4, and 69.2.
翻訳日:2021-04-14 03:11:32 公開日:2021-04-12
# (参考訳) 誤情報検出の統一について [全文訳有]

On Unifying Misinformation Detection ( http://arxiv.org/abs/2104.05243v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Belinda Z. Li, Sinong Wang, Pascale Fung, Hao Ma, Wen-tau Yih, Madian Khabsa(参考訳) 本稿では,複数の誤情報領域を1つの統一的な設定でモデル化する汎用的誤情報モデルUnifiedM2を紹介する。 このモデルは、ニュースバイアスの検出、クリックベイト、フェイクニュース、噂の検証の4つのタスクを扱うように訓練されている。 これらのタスクをまとめることで、UnifiedM2は誤った情報をよりリッチに表現し、すべてのタスクに対して最先端または同等のパフォーマンスをもたらす。 さらに、UnifiedM2の学習表現は、見知らぬ誤情報タスク/データセットと、見つからないイベントに対するモデルの一般化可能性のわずかな学習に役立つことを示す。

In this paper, we introduce UnifiedM2, a general-purpose misinformation model that jointly models multiple domains of misinformation with a single, unified setup. The model is trained to handle four tasks: detecting news bias, clickbait, fake news, and verifying rumors. By grouping these tasks together, UnifiedM2learns a richer representation of misinformation, which leads to state-of-the-art or comparable performance across all tasks. Furthermore, we demonstrate that UnifiedM2's learned representation is helpful for few-shot learning of unseen misinformation tasks/datasets and model's generalizability to unseen events.
翻訳日:2021-04-14 03:00:15 公開日:2021-04-12
# (参考訳) ノイズラベルからのロバスト分類:胸部x線異常評価のための追加知識の統合 [全文訳有]

Robust Classification from Noisy Labels: Integrating Additional Knowledge for Chest Radiography Abnormality Assessment ( http://arxiv.org/abs/2104.05261v1 )

ライセンス: CC BY 4.0
Sebastian G\"undel, Arnaud A. A. Setio, Florin C. Ghesu, Sasa Grbic, Bogdan Georgescu, Andreas Maier, Dorin Comaniciu(参考訳) 胸部X線撮影は, 種々の心臓および肺の異常を診断するための日常臨床で実施される最も一般的な放射線検査である。 大量のデータを読み、報告し、単一の放射線科医に対して1日に100件以上の研究を行い、高い解釈精度を維持することが課題となる。 大規模な公開データセットの導入により、自動異常分類のための一連の新しいシステムが生まれた。 しかし、これらのデータセットのラベルは、自然言語処理された医療報告を用いて取得され、性能に影響を及ぼすような大量のラベルノイズが生じる。 本研究では,このようなサブ最適データからラベルノイズを処理する新しいトレーニング戦略を提案する。 4名の放射線技師によって再読まれた訓練データのサブセットで事前ラベルの確率を測定し,訓練中にラベルノイズに対するトレーニングモデルの堅牢性を高めるために使用した。 さらに,胸部x線撮影で観察された異常の高一致を活用し,この情報を用いてラベルノイズの影響をさらに低減する。 さらに、解剖学的知識は、肺と心臓のセグメンテーションを予測するためのシステムと空間的知識ラベルを訓練することで取り入れられる。 異なる処理技術を適用した各種スキャナから派生した複数のデータセットと画像を扱うため,新たな画像正規化手法を提案する。 86,876人の患者の胸部x線写真297,541点の広範な収集実験を行い,2つのデータセットから17点の異常に対して最先端のパフォーマンスレベルが得られた。 平均AUCスコアが0.880の全ての異常に対して、提案したトレーニング戦略は、パフォーマンススコアを大幅に改善するために使用できる。

Chest radiography is the most common radiographic examination performed in daily clinical practice for the detection of various heart and lung abnormalities. The large amount of data to be read and reported, with more than 100 studies per day for a single radiologist, poses a challenge in consistently maintaining high interpretation accuracy. The introduction of large-scale public datasets has led to a series of novel systems for automated abnormality classification. However, the labels of these datasets were obtained using natural language processed medical reports, yielding a large degree of label noise that can impact the performance. In this study, we propose novel training strategies that handle label noise from such suboptimal data. Prior label probabilities were measured on a subset of training data re-read by 4 board-certified radiologists and were used during training to increase the robustness of the training model to the label noise. Furthermore, we exploit the high comorbidity of abnormalities observed in chest radiography and incorporate this information to further reduce the impact of label noise. Additionally, anatomical knowledge is incorporated by training the system to predict lung and heart segmentation, as well as spatial knowledge labels. To deal with multiple datasets and images derived from various scanners that apply different post-processing techniques, we introduce a novel image normalization strategy. Experiments were performed on an extensive collection of 297,541 chest radiographs from 86,876 patients, leading to a state-of-the-art performance level for 17 abnormalities from 2 datasets. With an average AUC score of 0.880 across all abnormalities, our proposed training strategies can be used to significantly improve performance scores.
翻訳日:2021-04-14 02:51:01 公開日:2021-04-12
# (参考訳) スウェーデンのオープンドメイン会話言語モデルの構築 [全文訳有]

Building a Swedish Open-Domain Conversational Language Model ( http://arxiv.org/abs/2104.05277v1 )

ライセンス: CC BY 4.0
Tobias Norlund and Agnes Stenbom(参考訳) 我々は,オンライン議論フォーラムflashbackのデータを用いて,スウェーデン語で会話する訓練を受けた最初の大規模生成言語モデルを評価する作業を行っている。 我々は,モデルが多種多様な話題に対して,人間的かつ情報的な方法で会話に応答できる場合が多いことを示す,人間評価パイロット研究を行う。 オンラインフォーラムのデータは会話システムを構築するのに有用であるが、不注意なアプリケーションがもたらすネガティブな結果と、それらに対して積極的な対策を取る必要性を反映している。

We present on-going work of evaluating the, to our knowledge, first large generative language model trained to converse in Swedish, using data from the online discussion forum Flashback. We conduct a human evaluation pilot study that indicates the model is often able to respond to conversations in both a human-like and informative manner, on a diverse set of topics. While data from online forums can be useful to build conversational systems, we reflect on the negative consequences that incautious application might have, and the need for taking active measures to safeguard against them.
翻訳日:2021-04-14 02:22:27 公開日:2021-04-12
# (参考訳) 3次元点雲を用いた草原果樹の単一枝のモデル化 [全文訳有]

Approach for modeling single branches of meadow orchard trees with 3D point clouds ( http://arxiv.org/abs/2104.05282v1 )

ライセンス: CC BY 4.0
Jonas Straub, David Reiser and Hans W. Griepentrog(参考訳) 果樹園の栽培は生物多様性に有益であり、集中栽培された果樹園よりも著しく高い。 本研究の目的は,牧草地内の独立樹の採集点を自動的に決定する木モデルを作ることである。 ここで示されるアルゴリズムは、予め設定された3dポイントクラウドに基づくスケルトンモデルを構築することができる。 ポイントを先頭の枝に割り当て、仮想ツリーモデルを構築し、全体の精度は95.19パーセントに達した。 このモデルは、自動刈り取りのための木の形状に関する必要な情報を提供した。

The cultivation of orchard meadows provides an ecological benefit for biodiversity, which is significantly higher than in intensively cultivated orchards. The goal of this research is to create a tree model to automatically determine possible pruning points for stand-alone trees within meadows. The algorithm which is presented here is capable of building a skeleton model based on a pre-segmented photogrammetric 3D point cloud. Good results were achieved in assigning the points to their leading branches and building a virtual tree model, reaching an overall accuracy of 95.19 %. This model provided the necessary information about the geometry of the tree for automated pruning.
翻訳日:2021-04-14 02:04:46 公開日:2021-04-12
# (参考訳) ニューラルネットワークに基づくインスタンスセグメンテーションによるキャベツの体積と葉面積の計算 [全文訳有]

Volume and leaf area calculation of cabbage with a neural network-based instance segmentation ( http://arxiv.org/abs/2104.05284v1 )

ライセンス: CC BY 4.0
Nils Lueling, David Reiser, Hans W. Griepentrog(参考訳) 果実の大きさと葉面積は植物の健康にとって重要な指標であり、植物の栄養管理、植物保護および収穫にとって重要な指標である。 本研究では,果実の体積とキャベツの葉面積を画像ベースで測定する手法を提案する。 この目的のために、マスク領域に基づく畳み込みニューラルネットワーク(Mask R-CNN)を訓練し、葉からキャベツ果実を分割し、対応する植物に割り当てた。 その結果, 単一カメラを用いた場合であっても, 果実の大きさを92.6%, 葉面積を89.8%の精度で計算できることがわかった。

Fruit size and leaf area are important indicators for plant health and are of interest for plant nutrient management, plant protection and harvest. In this research, an image-based method for measuring the fruit volume as well as the leaf area for cabbage is presented. For this purpose, a mask region-based convolutional neural network (Mask R-CNN) was trained to segment the cabbage fruit from the leaves and assign it to the corresponding plant. The results indicated that even with a single camera, the developed method can provide a calculation accuracy of fruit size of 92.6% and an accuracy of leaf area of 89.8% on individual plant level.
翻訳日:2021-04-14 01:58:19 公開日:2021-04-12
# (参考訳) 機械学習とディープラーニング [全文訳有]

Machine learning and deep learning ( http://arxiv.org/abs/2104.05314v1 )

ライセンス: CC BY 4.0
Christian Janiesch Patrick Zschech Kai Heinrich(参考訳) 今日、人工知能機能を提供するインテリジェントシステムは、しばしば機械学習に依存している。 機械学習は、問題固有のトレーニングデータから学習し、分析モデルの構築と関連するタスクのプロセスを自動化するシステムの能力を記述する。 ディープラーニングは、ニューラルネットワークに基づく機械学習の概念である。 多くのアプリケーションにおいて、ディープラーニングモデルは浅い機械学習モデルや従来のデータ分析アプローチよりも優れている。 本稿では,機械学習とディープラーニングの基礎を要約し,現在の知的システムの体系的基盤に関するより広範な理解を生み出す。 特に、関連する用語と概念を概念的に区別し、機械学習とディープラーニングによる自動分析モデル構築のプロセスを説明し、電子市場やネットワークビジネスの分野においてこのようなインテリジェントなシステムを実装する際に生じる課題について議論する。 これらは自然に技術的側面を超えて、人間と機械の相互作用と人工知能のキャビテーションの問題を浮き彫りにする。

Today, intelligent systems that offer artificial intelligence capabilities often rely on machine learning. Machine learning describes the capacity of systems to learn from problem-specific training data to automate the process of analytical model building and solve associated tasks. Deep learning is a machine learning concept based on artificial neural networks. For many applications, deep learning models outperform shallow machine learning models and traditional data analysis approaches. In this article, we summarize the fundamentals of machine learning and deep learning to generate a broader understanding of the methodical underpinning of current intelligent systems. In particular, we provide a conceptual distinction between relevant terms and concepts, explain the process of automated analytical model building through machine learning and deep learning, and discuss the challenges that arise when implementing such intelligent systems in the field of electronic markets and networked business. These naturally go beyond technological aspects and highlight issues in human-machine interaction and artificial intelligence servitization.
翻訳日:2021-04-14 01:52:30 公開日:2021-04-12
# (参考訳) 新型コロナウイルスの偽ツイートを早期に検出するための半教師付きコアテンションネットワークと外因性および内因性シグナルの組み合わせ [全文訳有]

Combining exogenous and endogenous signals with a semi-supervised co-attention network for early detection of COVID-19 fake tweets ( http://arxiv.org/abs/2104.05321v1 )

ライセンス: CC BY 4.0
Rachit Bansal, William Scott Paka, Nidhi, Shubhashis Sengupta, Tanmoy Chakraborty(参考訳) フェイクツイートは絶え間なく増加しており、拡散に対抗するための即時対策を要求している。 新型コロナウイルス(COVID-19)では、誤報のあるツイートを早期に警告し、中立化し、被害を軽減する必要がある。 偽ニュースを早期に検出する既存の方法のほとんどは、大きなツイートをラベル付けするのに十分な伝搬情報を持っていると仮定している。 そこで本研究では,ラベル付きデータを用いて学習しながら,つぶやきに関する外因性および内因性信号を活用する新しい早期検出モデルであるendemicを提案する。 まず,新しいデータセットである ctf for early covid-19 twitter fake news を開発し,早期検出を検証するための行動テストセットを追加した。 フォロー・フォロー、ユーザー・ツイート、ツイート・リツイートのコネクションを持つ異種グラフを構築し、グラフ埋め込みモデルを訓練し、伝播情報を集約する。 グラフ埋め込みとコンテキスト特徴は内在的であり、時間関係のウェブスクラッド情報は外在的信号を構成する。 ENDEMICは、限定ラベル付きデータの課題を克服し、半教師付きで訓練されている。 信号表現を最適に融合するコアテンション機構を提案する。 ECTF、PolitFact、GossipCopの実験結果から、ENDEMICは早期の偽ツイートの検出に高い信頼性を示し、9つの最先端メソッドを著しく上回っている。

Fake tweets are observed to be ever-increasing, demanding immediate countermeasures to combat their spread. During COVID-19, tweets with misinformation should be flagged and neutralized in their early stages to mitigate the damages. Most of the existing methods for early detection of fake news assume to have enough propagation information for large labeled tweets -- which may not be an ideal setting for cases like COVID-19 where both aspects are largely absent. In this work, we present ENDEMIC, a novel early detection model which leverages exogenous and endogenous signals related to tweets, while learning on limited labeled data. We first develop a novel dataset, called CTF for early COVID-19 Twitter fake news, with additional behavioral test sets to validate early detection. We build a heterogeneous graph with follower-followee, user-tweet, and tweet-retweet connections and train a graph embedding model to aggregate propagation information. Graph embeddings and contextual features constitute endogenous, while time-relative web-scraped information constitutes exogenous signals. ENDEMIC is trained in a semi-supervised fashion, overcoming the challenge of limited labeled data. We propose a co-attention mechanism to fuse signal representations optimally. Experimental results on ECTF, PolitiFact, and GossipCop show that ENDEMIC is highly reliable in detecting early fake tweets, outperforming nine state-of-the-art methods significantly.
翻訳日:2021-04-14 01:35:41 公開日:2021-04-12
# (参考訳) MinkLoc++: 位置認識のためのライダーと単分子画像融合 [全文訳有]

MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition ( http://arxiv.org/abs/2104.05327v1 )

ライセンス: CC BY 4.0
Jacek Komorowski, Monika Wysoczanska, Tomasz Trzcinski(参考訳) 本稿では,LiDARからの点雲とRGBカメラからの画像という,一対のセンサ読み取りに基づく識別型マルチモーダルディスクリプタを提案する。 当社のディスクリプタminkloc++は、ロボットや自動運転車のアプリケーションにおける場所認識、再ローカライズ、ループクロージャの目的に使用できる。 我々は、各モードを別々に処理し、処理パイプラインの最終部分で融合するレイト・フュージョン・アプローチを用いる。 提案手法は,標準位置認識ベンチマークにおける最先端性能を実現する。 また,マルチモーダルディスクリプタをトレーニングする場合,支配的モダリティ問題を同定する。 この問題は、ネットワークがトレーニングデータにより大きな適合度を持つモダリティに焦点を合わせると現れる。 これにより、トレーニング中の損失は減少するが、評価セットの最適でないパフォーマンスにつながる。 本稿では,マルチモーダルニューラルネットワークを訓練する深層メトリック学習手法を用いて,そのようなリスクの検出と軽減について述べる。 私たちのコードはプロジェクトウェブサイトで公開されている。 https://github.com/j ac99/minkloc3drgb。

We introduce a discriminative multimodal descriptor based on a pair of sensor readings: a point cloud from a LiDAR and an image from an RGB camera. Our descriptor, named MinkLoc++, can be used for place recognition, re-localization and loop closure purposes in robotics or autonomous vehicles applications. We use late fusion approach, where each modality is processed separately and fused in the final part of the processing pipeline. The proposed method achieves state-of-the-art performance on standard place recognition benchmarks. We also identify dominating modality problem when training a multimodal descriptor. The problem manifests itself when the network focuses on a modality with a larger overfit to the training data. This drives the loss down during the training but leads to suboptimal performance on the evaluation set. In this work we describe how to detect and mitigate such risk when using a deep metric learning approach to train a multimodal neural network. Our code is publicly available on the project website: https://github.com/j ac99/MinkLoc3DRGB.
翻訳日:2021-04-14 01:23:36 公開日:2021-04-12
# (参考訳) データセットの不均衡に対してメタリーナーはどの程度敏感か? [全文訳有]

How Sensitive are Meta-Learners to Dataset Imbalance? ( http://arxiv.org/abs/2104.05344v1 )

ライセンス: CC BY 4.0
Mateusz Ochal, Massimiliano Patacchiola, Amos Storkey, Jose Vazquez, Sen Wang(参考訳) Meta-Learning(ML)は、Few-Shot Learning(FSL)アルゴリズムをメタデータセットからサンプリングされたタスクのバッチに露出させることで、トレーニングツールとして有用であることが証明されている。 しかし、標準的なトレーニング手順は、オブジェクトクラスが異なる周波数で発生する可能性が高い実世界の動的な性質を見落としている。 不均衡なタスクは教師付き手法の性能に悪影響を及ぼすと一般的に理解されているが、不均衡なメタデータセットがFSL評価タスクに与える影響について重要な研究は行われていない。 この研究はこの問題の規模と範囲を明らかにする。 その結果,ML手法はタスクレベルでのメタデータセットの不均衡に対して,類似の不均衡比(\rho<20$)よりも頑健であり,ロングテールデータセットにおいても大きな不均衡率(\rho=65$)で効果が保たれることがわかった。 これらの結果は、データセットの不均衡とドメインシフトの下で一般化可能な特徴を学習できるMLアルゴリズムの暗黙的な強みを強調している。 実験を再現するコードはオープンソースライセンスでリリースされている。

Meta-Learning (ML) has proven to be a useful tool for training Few-Shot Learning (FSL) algorithms by exposure to batches of tasks sampled from a meta-dataset. However, the standard training procedure overlooks the dynamic nature of the real-world where object classes are likely to occur at different frequencies. While it is generally understood that imbalanced tasks harm the performance of supervised methods, there is no significant research examining the impact of imbalanced meta-datasets on the FSL evaluation task. This study exposes the magnitude and extent of this problem. Our results show that ML methods are more robust against meta-dataset imbalance than imbalance at the task-level with a similar imbalance ratio ($\rho<20$), with the effect holding even in long-tail datasets under a larger imbalance ($\rho=65$). Overall, these results highlight an implicit strength of ML algorithms, capable of learning generalizable features under dataset imbalance and domain-shift. The code to reproduce the experiments is released under an open-source license.
翻訳日:2021-04-14 01:05:36 公開日:2021-04-12
# (参考訳) 高速並列MR画像再構成のためのデュアルオクタベ・コンボリューション [全文訳有]

Dual-Octave Convolution for Accelerated Parallel MR Image Reconstruction ( http://arxiv.org/abs/2104.05345v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Zhanyuan Yang, Geng Chen, Yong Xu, Ling Shao(参考訳) 磁気共鳴(MR)画像取得は本質的に長いプロセスであり、複数のアンダーサンプル画像の同時取得による加速は、常に研究の対象となっている。 本稿では,実成分と虚成分の両方からマルチスケールな空間周波数特徴を学習し,高速並列mr画像再構成を実現するデュアルオクターブ畳み込み(dual-octconv)を提案する。 オクターブ畳み込みを用いて複素演算を再構成することにより,mr画像のよりリッチな表現を捉えることができると同時に,空間冗長性を大幅に低減できることを示す。 より具体的には、入力特徴写像と畳み込み核はまず2つの成分(実数と虚数)に分割され、次にその空間周波数に応じて4つの群に分けられる。 次に、グループ内情報更新およびグループ間情報交換を行い、異なるグループ間でコンテキスト情報を集約する。 i) 様々な空間周波数における実成分と虚成分の相互作用を奨励し、よりリッチな表現能力を達成すること,および (ii) 実成分と虚成分の複数の空間周波数特性を学習することで受容場を拡大することである。 マルチコイルMR画像再構成の高速化における提案モデルの性能評価を行った。 異なるアンダーサンプリングパターンと加速度因子の下で,in vivo(in vivo)膝データセットを用いた広範囲な実験を行った。 高速並列MR画像再構成におけるモデルの有用性を実験的に検証した。 私たちのコードは、github.com/chunmeife ng/Dual-OctConvで利用可能です。

Magnetic resonance (MR) image acquisition is an inherently prolonged process, whose acceleration by obtaining multiple undersampled images simultaneously through parallel imaging has always been the subject of research. In this paper, we propose the Dual-Octave Convolution (Dual-OctConv), which is capable of learning multi-scale spatial-frequency features from both real and imaginary components, for fast parallel MR image reconstruction. By reformulating the complex operations using octave convolutions, our model shows a strong ability to capture richer representations of MR images, while at the same time greatly reducing the spatial redundancy. More specifically, the input feature maps and convolutional kernels are first split into two components (i.e., real and imaginary), which are then divided into four groups according to their spatial frequencies. Then, our Dual-OctConv conducts intra-group information updating and inter-group information exchange to aggregate the contextual information across different groups. Our framework provides two appealing benefits: (i) it encourages interactions between real and imaginary components at various spatial frequencies to achieve richer representational capacity, and (ii) it enlarges the receptive field by learning multiple spatial-frequency features of both the real and imaginary components. We evaluate the performance of the proposed model on the acceleration of multi-coil MR image reconstruction. Extensive experiments are conducted on an {in vivo} knee dataset under different undersampling patterns and acceleration factors. The experimental results demonstrate the superiority of our model in accelerated parallel MR image reconstruction. Our code is available at: github.com/chunmeife ng/Dual-OctConv.
翻訳日:2021-04-14 00:52:16 公開日:2021-04-12
# (参考訳) ロバストニューラルネットワークのためのスパース符号化フロントエンド [全文訳有]

Sparse Coding Frontend for Robust Neural Networks ( http://arxiv.org/abs/2104.05353v1 )

ライセンス: CC BY-SA 4.0
Can Bakiskan, Metehan Cekic, Ahmet Dundar Sezer, Upamanyu Madhow(参考訳) ディープニューラルネットワークは、小さくて逆向きに作られた摂動に弱いことが知られている。 これらの攻撃に対する最も効果的な防御方法は、敵の訓練の変種である。 本稿では,クリーンな画像に対してのみ訓練される過激な防御について紹介する: スパースコーディングベースのフロントエンドは,分類器に到達する前に,敵の攻撃を著しく弱めている。 我々は,CIFAR-10データセットに対する防衛をLinf,L2,L1境界攻撃を含む広範囲な攻撃タイプで評価し,防衛の汎用的アプローチとしての可能性を実証した。

Deep Neural Networks are known to be vulnerable to small, adversarially crafted, perturbations. The current most effective defense methods against these adversarial attacks are variants of adversarial training. In this paper, we introduce a radically different defense trained only on clean images: a sparse coding based frontend which significantly attenuates adversarial attacks before they reach the classifier. We evaluate our defense on CIFAR-10 dataset under a wide range of attack types (including Linf , L2, and L1 bounded attacks), demonstrating its promise as a general-purpose approach for defense.
翻訳日:2021-04-14 00:23:01 公開日:2021-04-12
# (参考訳) 地域境界を破る:世界パンデミックに関する学術的・社会的コミュニケーション的嗜好の比較 [全文訳有]

Breaking Community Boundary: Comparing Academic and Social Communication Preferences regarding Global Pandemics ( http://arxiv.org/abs/2104.05409v1 )

ライセンス: CC BY 4.0
Qingqing Zhou and Chengzhi Zhang(参考訳) 世界的な新型コロナウイルスの感染拡大を受け、パンデミックは広く議論されている。 これは、多くの科学論文とソーシャルメディア上のユーザー生成コンテンツの量で明らかである。 本稿では,コミュニケーション嗜好の違いの観点から,パンデミックに関する学術的コミュニケーションと社会的コミュニケーションを比較することを目的とする。 グローバルなパンデミックに関する継続的な研究のための情報提供を目的としており、学術と社会コミュニティ間の知識障壁や情報不平等を排除している。 まず,パンデミック関連記事の全文とメタデータと,記事に言及したTwitterデータを収集した。 第2に,記事や関連ツイートの話題や感情傾向を抽出し,分析した。 最後に,パンデミックに関連した学術コミュニティと社会コミュニティの差異分析を行った。 研究者と一般人のパンデミックコミュニケーション嗜好(情報ニーズ,態度傾向など)を生成するために,得られたデータをマイニングした。 論文に言及した50,338件の論文と927,266件の対応ツイートから,研究認識の一貫性と特定の研究トピックの選好に関する学界と社会の世界的なパンデミックに関するコミュニケーションの相違が明らかになった。 また,大規模パンデミック関連ツイートの分析により,コミュニティ間のコミュニケーション嗜好の違いが確認された。

The global spread of COVID-19 has caused pandemics to be widely discussed. This is evident in the large number of scientific articles and the amount of user-generated content on social media. This paper aims to compare academic communication and social communication about the pandemic from the perspective of communication preference differences. It aims to provide information for the ongoing research on global pandemics, thereby eliminating knowledge barriers and information inequalities between the academic and the social communities. First, we collected the full text and the metadata of pandemic-related articles and Twitter data mentioning the articles. Second, we extracted and analyzed the topics and sentiment tendencies of the articles and related tweets. Finally, we conducted pandemic-related differential analysis on the academic community and the social community. We mined the resulting data to generate pandemic communication preferences (e.g., information needs, attitude tendencies) of researchers and the public, respectively. The research results from 50,338 articles and 927,266 corresponding tweets mentioning the articles revealed communication differences about global pandemics between the academic and the social communities regarding the consistency of research recognition and the preferences for particular research topics. The analysis of large-scale pandemic-related tweets also confirmed the communication preference differences between the two communities.
翻訳日:2021-04-14 00:13:04 公開日:2021-04-12
# (参考訳) feynを用いた記号回帰へのアプローチ [全文訳有]

An Approach to Symbolic Regression Using Feyn ( http://arxiv.org/abs/2104.05417v1 )

ライセンス: CC BY 4.0
Kevin Ren\'e Brol{\o}s, Meera Vieira Machado, Chris Cave, Jaan Kasak, Valdemar Stentoft-Hansen, Victor Galindo Batanero, Tom Jelen, Casper Wilstrup(参考訳) 本稿では,feynと呼ばれる教師付き機械学習ツールを紹介する。 このツールを駆動するシミュレーションエンジンはqlatticeと呼ばれる。 QLatticeは、Richard Feynman氏のパス積分定式化にヒントを得た、教師付き機械学習ツールである。 これらのモデルを数学的方程式として解釈可能なグラフとして定式化し、解釈可能性、複雑性、モデル性能のトレードオフを完全に決定できる。 QLatticeの内部動作について簡単に触れ、科学的な問題にpythonパッケージであるFeynを適用する方法について説明する。 従来の機械学習アプローチとどう違うのか、それらと何が共通しているか、そして象徴的回帰と共通点のいくつかを示す。 このアプローチの利点をブラックボックスモデルとは対照的に説明する。 これを説明するために、基本的なデータセットを使用して調査ワークフローを実施し、qlatticeが機能間の関係を判断し、データディスカバリを行う上でどのように役立つかを示します。

In this article we introduce the supervised machine learning tool called Feyn. The simulation engine that powers this tool is called the QLattice. The QLattice is a supervised machine learning tool inspired by Richard Feynman's path integral formulation, that explores many potential models that solves a given problem. It formulates these models as graphs that can be interpreted as mathematical equations, allowing the user to completely decide on the trade-off between interpretability, complexity and model performance. We touch briefly upon the inner workings of the QLattice, and show how to apply the python package, Feyn, to scientific problems. We show how it differs from traditional machine learning approaches, what it has in common with them, as well as some of its commonalities with symbolic regression. We describe the benefits of this approach as opposed to black box models. To illustrate this, we go through an investigative workflow using a basic data set and show how the QLattice can help you reason about the relationships between your features and do data discovery.
翻訳日:2021-04-14 00:00:18 公開日:2021-04-12
# (参考訳) 多言語言語モデルによる読解行動の予測 [全文訳有]

Multilingual Language Models Predict Human Reading Behavior ( http://arxiv.org/abs/2104.05433v1 )

ライセンス: CC BY 4.0
Nora Hollenstein, Federico Pirovano, Ce Zhang, Lena J\"ager and Lisa Beinborn(参考訳) 大規模言語モデルが人間の読書行動のパターンを予測できるかどうかを分析する。 オランダ語,英語,ドイツ語,ロシア語の自然文処理を反映する読解時間尺度を予測するために,言語固有のトランスフォーマーモデルと多言語事前学習トランスフォーマーモデルの性能を比較する。 これは、トランスフォーマーモデルが人間の処理メカニズムに匹敵する方法で言語における相対的な重要性を暗黙的にエンコードしていることを示している。 BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。 一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。

We analyze if large language models are able to predict patterns of human reading behavior. We compare the performance of language-specific and multilingual pretrained transformer models to predict reading time measures reflecting natural human sentence processing on Dutch, English, German, and Russian texts. This results in accurate models of human reading behavior, which indicates that transformer models implicitly encode relative importance in language in a way that is comparable to human processing mechanisms. We find that BERT and XLM models successfully predict a range of eye tracking features. In a series of experiments, we analyze the cross-domain and cross-language abilities of these models and show how they reflect human sentence processing.
翻訳日:2021-04-13 23:48:17 公開日:2021-04-12
# (参考訳) 因果グラフ発見のためのNOTEARSの不適合性 [全文訳有]

Unsuitability of NOTEARS for Causal Graph Discovery ( http://arxiv.org/abs/2104.05441v1 )

ライセンス: CC BY 4.0
Marcus Kaiser, Maksim Sipos(参考訳) 因果発見法は、観測データから因果関係を表すDAG構造を特定することを目的としている。 本稿では, 実運用環境でのロバスト性をテストすることが重要であることを強調する。 主な例として, notears 法を分析し, スケール不変性が欠如していることを示す。 NOTEARSは,残差を説明するデータから擬似DAGを同定することを目的とした手法である。 我々は notears はデータから真に因果関係を特定するのに適していないと結論づける。

Causal Discovery methods aim to identify a DAG structure that represents causal relationships from observational data. In this article, we stress that it is important to test such methods for robustness in practical settings. As our main example, we analyze the NOTEARS method, for which we demonstrate a lack of scale-invariance. We show that NOTEARS is a method that aims to identify a parsimonious DAG from the data that explains the residual variance. We conclude that NOTEARS is not suitable for identifying truly causal relationships from the data.
翻訳日:2021-04-13 23:21:37 公開日:2021-04-12
# (参考訳) 内部変位モニタリングのためのアノテートリソースの開発 [全文訳有]

Developing Annotated Resources for Internal Displacement Monitoring ( http://arxiv.org/abs/2104.05459v1 )

ライセンス: CC BY 4.0
Fabio Poletto, Yunbai Zhang, Andre Panisson, Yelena Mejova, Daniela Paolotti, Sylvain Ponserre(参考訳) 本稿では,新たなアノテーションフレームワークの設計と開発について詳述し,モニタリングプラットフォームIDETECTの精度向上を目的とした内部配置監視センターとのコラボレーションの結果として,内部配置のための注釈付きリソースについて述べる。 スキーマには、原因、転職した人数、場所、日付など、イベントの多面的記述が含まれている。 文書の関連性や型などの情報抽出の改善を目的とした高次ファセットを提案する。 また,文書分類タスクにおける機械学習の適用事例について報告する。 最後に、データセットベンチマーク開発における標準化スキーマの重要性と、信頼性の高い災害監視インフラの開発への影響について論じる。

This paper describes in details the design and development of a novel annotation framework and of annotated resources for Internal Displacement, as the outcome of a collaboration with the Internal Displacement Monitoring Centre, aimed at improving the accuracy of their monitoring platform IDETECT. The schema includes multi-faceted description of the events, including cause, quantity of people displaced, location and date. Higher-order facets aimed at improving the information extraction, such as document relevance and type, are proposed. We also report a case study of machine learning application to the document classification tasks. Finally, we discuss the importance of standardized schema in dataset benchmark development and its impact on the development of reliable disaster monitoring infrastructure.
翻訳日:2021-04-13 23:14:48 公開日:2021-04-12
# (参考訳) 機械学習分類器における予測誤差の理解 [全文訳有]

Understanding Prediction Discrepancies in Machine Learning Classifiers ( http://arxiv.org/abs/2104.05467v1 )

ライセンス: CC BY 4.0
Xavier Renard, Thibault Laugel, Marcin Detyniecki(参考訳) 多数の分類器を同じデータでトレーニングして、テスト期間中に同様のパフォーマンスを達成できる一方で、かなり異なる分類パターンを学習することができる。 この現象は予測不一致と呼ばれ、しばしば類似した性能を持つモデルではなく、あるモデルの盲点選択と関連づけられる。 選択を行う場合、機械学習の実践者は、モデルの違い、限界、同意する場所、そうでない場所について何も理解しません。 しかし、彼の選択は、選択された分類パターンに基づいて最終決定を行うため、インスタンスを不一致ゾーンに分類する具体的な結果をもたらす。 結果の任意の性質に加えて、機会の喪失や公平性の欠如など、悪い選択がさらにネガティブな結果をもたらす可能性がある。 本稿では,同一データ上で訓練された最高の性能モデル群における予測誤差を分析し,この問題に対処することを提案する。 モデル非依存のアルゴリズムであるDIGは、不一致を局所的に捉え、説明し、その潜在的な望ましくない結果を予測することによって、モデルを選択する際に最良の教育的判断を行えるようにする。 実験を再現するコードはすべて利用可能です。

A multitude of classifiers can be trained on the same data to achieve similar performances during test time, while having learned significantly different classification patterns. This phenomenon, which we call prediction discrepancies, is often associated with the blind selection of one model instead of another with similar performances. When making a choice, the machine learning practitioner has no understanding on the differences between models, their limits, where they agree and where they don't. But his/her choice will result in concrete consequences for instances to be classified in the discrepancy zone, since the final decision will be based on the selected classification pattern. Besides the arbitrary nature of the result, a bad choice could have further negative consequences such as loss of opportunity or lack of fairness. This paper proposes to address this question by analyzing the prediction discrepancies in a pool of best-performing models trained on the same data. A model-agnostic algorithm, DIG, is proposed to capture and explain discrepancies locally, to enable the practitioner to make the best educated decision when selecting a model by anticipating its potential undesired consequences. All the code to reproduce the experiments is available.
翻訳日:2021-04-13 23:02:00 公開日:2021-04-12
# (参考訳) オートパイロット行動のプレビューによるメンタルモデルの構築 [全文訳有]

Building Mental Models through Preview of Autopilot Behaviors ( http://arxiv.org/abs/2104.05470v1 )

ライセンス: CC BY 4.0
Yuan Shen and Niviru Wijayaratne and Katherine Driggs-Campbell(参考訳) 効果的な人間と車両の協調は、安全と信頼のために適切な車両の振る舞いを判断する必要がない。 将来の予測モジュールを追加することで、以前の作業を改善するため、私たちはAutoPreviewというフレームワークを導入しました。 自動操縦の動作のプレビューは、車両との最初の探査段階において、スムーズな人間と車両の協調を保証するのに役立つ。 その実用性を示すために,人間と車両の協調に関する事例研究を行い,carlaシミュレータを用いたプロトタイプを構築した。 さらに、我々のAutoPreviewframework が直接の相互作用と比較して、オートパイロットの振る舞いをより深く理解できるかどうかを研究するために、オブジェクト間制御実験(n=10)を行った。 ourresultsは、autopreviewframework は、実際に、ヘルパーがオートパイロットの振る舞いを理解し、適切なメンタルモデルを開発することを示唆している。

Effective human-vehicle collaboration requires an appropriate un-derstanding of vehicle behavior for safety and trust. Improvingon our prior work by adding a future prediction module, we in-troduce our framework, calledAutoPreview, to enable humans topreview autopilot behaviors prior to direct interaction with thevehicle. Previewing autopilot behavior can help to ensure smoothhuman-vehicle collaboration during the initial exploration stagewith the vehicle. To demonstrate its practicality, we conducted acase study on human-vehicle collaboration and built a prototypeof our framework with the CARLA simulator. Additionally, weconducted a between-subject control experiment (n=10) to studywhether ourAutoPreviewframew ork can provide a deeper under-standing of autopilot behavior compared to direct interaction. Ourresults suggest that theAutoPreviewframew ork does, in fact, helpusers understand autopilot behavior and develop appropriate men-tal models
翻訳日:2021-04-13 22:47:00 公開日:2021-04-12
# (参考訳) 読み上げ音声における特徴検出のための深層学習 [全文訳有]

Deep Learning for Prominence Detection in Children's Read Speech ( http://arxiv.org/abs/2104.05488v1 )

ライセンス: CC BY-SA 4.0
Kamini Sabu, Mithilesh Vaidya, Preeti Rao(参考訳) 表現的読解は、口頭読解流の特質とされ、言い回しと発音の韻律的実現を包含する。 オーラルリーディングの評価の文脈では、話者のテキスト理解を確立するのに役立つ。 本研究は,音声韻律的特徴とレキシコ・シンタクティック特徴を用いた話者非依存な単語検出のための,子どもの読み書きのラベル付きデータセットについて考察する。 事前調整されたランダムな森林アンサンブル予測器はRNNシーケンス分類器に置き換えられ、より長い発話における潜在的なコンテキスト依存性を利用する。 さらに,エンド・ツー・エンド方式で基本周波数,強度,スペクトル形状の低レベル音響輪郭から単語レベル特徴を得るために深層学習を適用した。 パフォーマンスの比較は、さまざまな機能タイプと、さまざまな機能学習アーキテクチャで示され、目立った単語予測は、可能な限り洞察を引き出す。

Expressive reading, considered the defining attribute of oral reading fluency, comprises the prosodic realization of phrasing and prominence. In the context of evaluating oral reading, it helps to establish the speaker's comprehension of the text. We consider a labeled dataset of children's reading recordings for the speaker-independent detection of prominent words using acoustic-prosodic and lexico-syntactic features. A previous well-tuned random forest ensemble predictor is replaced by an RNN sequence classifier to exploit potential context dependency across the longer utterance. Further, deep learning is applied to obtain word-level features from low-level acoustic contours of fundamental frequency, intensity and spectral shape in an end-to-end fashion. Performance comparisons are presented across the different feature types and across different feature learning architectures for prominent word prediction to draw insights wherever possible.
翻訳日:2021-04-13 22:42:28 公開日:2021-04-12
# (参考訳) MRF-UNetによる画像セグメンテーションの専門家製品 [全文訳有]

An MRF-UNet Product of Experts for Image Segmentation ( http://arxiv.org/abs/2104.05495v1 )

ライセンス: CC BY 4.0
Mikael Brudfors, Ya\"el Balbastre, John Ashburner, Geraint Rees, Parashkev Nachev, S\'ebastien Ourselin, M. Jorge Cardoso(参考訳) バックプロパゲーションによって訓練された畳み込みニューラルネットワーク(cnns)は、セマンティクスセグメンテーションタスクで前例のない成功を収めているが、分散データに苦しむことが知られている。 一方、マルコフランダムフィールド(MRF)は、UNetsよりも柔軟性が低いが、過度に適合する傾向があるラベルよりも単純な分布を符号化する。 本稿では, unet と mrf の分布の積を計算し, 両者の戦略を融合させることを提案する。 この積は難解であるため、反復平均場アプローチを用いて近似分布を解く。 MRF-UNetはバックプロパゲーションによって共同で訓練される。 条件付きランダムフィールド(CRF)を用いた他の研究と比較すると、MRFは画像データに依存しないため、過度な適合を抑えることができる。 3dニューロイメージングデータを用いて,このネットワークが分布外サンプルへの一般化を改善することを示した。 さらに、精度を維持しつつパラメータ全体の数を減らすことができる。 これらの結果から,従来のMRFのスムーズさはCNNモデルに統合された場合の過度な適合を抑えることが示唆された。 私たちの実装はhttps://github.com/b albasty/nitorchで利用可能です。

While convolutional neural networks (CNNs) trained by back-propagation have seen unprecedented success at semantic segmentation tasks, they are known to struggle on out-of-distribution data. Markov random fields (MRFs) on the other hand, encode simpler distributions over labels that, although less flexible than UNets, are less prone to over-fitting. In this paper, we propose to fuse both strategies by computing the product of distributions of a UNet and an MRF. As this product is intractable, we solve for an approximate distribution using an iterative mean-field approach. The resulting MRF-UNet is trained jointly by back-propagation. Compared to other works using conditional random fields (CRFs), the MRF has no dependency on the imaging data, which should allow for less over-fitting. We show on 3D neuroimaging data that this novel network improves generalisation to out-of-distribution samples. Furthermore, it allows the overall number of parameters to be reduced while preserving high accuracy. These results suggest that a classic MRF smoothness prior can allow for less over-fitting when principally integrated into a CNN model. Our implementation is available at https://github.com/b albasty/nitorch.
翻訳日:2021-04-13 22:30:41 公開日:2021-04-12
# (参考訳) 失読症診断のためのグラフ埋め込みによる脳結合ネットワークのモデル化 [全文訳有]

Modelling Brain Connectivity Networks by Graph Embedding for Dyslexia Diagnosis ( http://arxiv.org/abs/2104.05497v1 )

ライセンス: CC BY 4.0
Marco A. Formoso, Andr\'es Ortiz, Francisco J. Mart\'inez-Murcia, Nicol\'as Gallego-Molina, Juan L. Luque(参考訳) 脳波(EEG)から情報を抽出するためのいくつかの方法が開発されている。 その1つは位相振幅結合(PAC)であり、これは異なるEEGバンドと電極の位相と振幅の同期を測定するためのクロス周波数結合(CFC)法の一種である。 これにより、同期的に活性化される脳領域に関する情報が提供され、最終的にはこれらの領域間の機能的接続のマーカーとなる。 本研究では、脳波における異なる電極間の関係を求めることにより、電極内および電極間PACを算出する。 そして、接続情報は、異なるノードが電極であり、それらの間のエッジPAC値であるグラフとして扱われる。 これらの構造は、マルチチャネルEEGサンプルの分類にさらに使用できる特徴ベクトルを作成するために埋め込まれている。 提案手法は,7歳児の失読症診断のためのタスクにおいて,特定の聴覚刺激を用いて取得した分類脳波サンプルに適用した。 提案手法は最大 0.73 までの auc 値を提供し、最も判別可能な電極と脳波帯を選択できる。

Several methods have been developed to extract information from electroencephalogram s (EEG). One of them is Phase-Amplitude Coupling (PAC) which is a type of Cross-Frequency Coupling (CFC) method, consisting in measure the synchronization of phase and amplitude for the different EEG bands and electrodes. This provides information regarding brain areas that are synchronously activated, and eventually, a marker of functional connectivity between these areas. In this work, intra and inter electrode PAC is computed obtaining the relationship among different electrodes used in EEG. The connectivity information is then treated as a graph in which the different nodes are the electrodes and the edges PAC values between them. These structures are embedded to create a feature vector that can be further used to classify multichannel EEG samples. The proposed method has been applied to classified EEG samples acquired using specific auditory stimuli in a task designed for dyslexia disorder diagnosis in seven years old children EEG's. The proposed method provides AUC values up to 0.73 and allows selecting the most discriminant electrodes and EEG bands.
翻訳日:2021-04-13 22:18:57 公開日:2021-04-12
# (参考訳) L3DAS21 Challenge: 3Dオーディオ信号処理のための機械学習 [全文訳有]

L3DAS21 Challenge: Machine Learning for 3D Audio Signal Processing ( http://arxiv.org/abs/2104.05499v1 )

ライセンス: CC BY 4.0
Eric Guizzo, Riccardo F. Gramaccioni, Saeid Jamili, Christian Marinoni, Edoardo Massaro, Claudia Medaglia, Giuseppe Nachira, Leonardo Nucciarelli, Ludovica Paglialunga, Marco Pennese, Sveva Pepe, Enrico Rocchi, Aurelio Uncini, Danilo Comminiello(参考訳) L3DAS21 Challengeは、3D音声信号処理のための機械学習の共同研究を促進することを目的としており、特に3D音声強調(SE)と3D音声ローカライゼーションと検出(SELD)に焦点を当てている。 この課題に加えて、65時間の3DオーディオコーパスであるL3DAS21データセットをリリースし、データの使用と結果の提出を容易にするPython APIを伴います。 通常、3Dオーディオタスクに対する機械学習のアプローチは、単一パースペクティブなアンビニクス記録または単一カプセルマイクの配列に基づいている。 そこで本研究では,マルチソース・マルチパースペクティブ・アンビソニック・レコーディングを2つの1次アビソニック・マイクロホンで構成した,新しいマルチチャネル・オーディオ構成を提案する。 私たちの知る限りでは、これらのタスクにデュアルマイクのAmbisonics構成が使用されるのは初めてです。 本稿では,SELD 用 FaSNet とSELD 用 SELDNet の両タスクのベースラインモデルと結果について述べる。 このレポートは、L3DAS21チャレンジに参加するために必要なすべての情報を提供し、L3DAS21データセットの詳細、課題タスク、ベースラインモデルについて説明することを目的としている。

The L3DAS21 Challenge is aimed at encouraging and fostering collaborative research on machine learning for 3D audio signal processing, with particular focus on 3D speech enhancement (SE) and 3D sound localization and detection (SELD). Alongside with the challenge, we release the L3DAS21 dataset, a 65 hours 3D audio corpus, accompanied with a Python API that facilitates the data usage and results submission stage. Usually, machine learning approaches to 3D audio tasks are based on single-perspective Ambisonics recordings or on arrays of single-capsule microphones. We propose, instead, a novel multichannel audio configuration based multiple-source and multiple-perspective Ambisonics recordings, performed with an array of two first-order Ambisonics microphones. To the best of our knowledge, it is the first time that a dual-mic Ambisonics configuration is used for these tasks. We provide baseline models and results for both tasks, obtained with state-of-the-art architectures: FaSNet for SE and SELDNet for SELD. This report is aimed at providing all needed information to participate in the L3DAS21 Challenge, illustrating the details of the L3DAS21 dataset, the challenge tasks and the baseline models.
翻訳日:2021-04-13 22:12:01 公開日:2021-04-12
# (参考訳) ツイート中の自己申告可能性とCOVID-19症状を識別するための微調整トランスフォーマー [全文訳有]

Fine-Tuning Transformers for Identifying Self-Reporting Potential Cases and Symptoms of COVID-19 in Tweets ( http://arxiv.org/abs/2104.05501v1 )

ライセンス: CC BY 4.0
Max Fleming, Priyanka Dondeti, Caitlin N. Dreisbach, Adam Poliak(参考訳) 我々は2021年のソーシャルメディアマイニング・フォー・ヘルス・アプリケーション(smm4h)におけるタスク5と6の共有タスクに対するストレートフォワード・アプローチについて述べる。 本システムでは,各タスクの精細な精細調整と,他のタスクのモデルを精細に調整する。 新型コロナウイルスの症状を報告したツイート(第5章)や、COVID-19に関連するツイートが自己報告されているのか、非個人報告なのか、ウイルスに関する文献/ニュース言及なのか(第6章)。

We describe our straight-forward approach for Tasks 5 and 6 of 2021 Social Media Mining for Health Applications (SMM4H) shared tasks. Our system is based on fine-tuning Distill- BERT on each task, as well as first fine-tuning the model on the other task. We explore how much fine-tuning is necessary for accurately classifying tweets as containing self-reported COVID-19 symptoms (Task 5) or whether a tweet related to COVID-19 is self-reporting, non-personal reporting, or a literature/news mention of the virus (Task 6).
翻訳日:2021-04-13 22:00:51 公開日:2021-04-12
# (参考訳) 製品変異体同定のための解釈可能な方法 [全文訳有]

Interpretable Methods for Identifying Product Variants ( http://arxiv.org/abs/2104.05504v1 )

ライセンス: CC BY 4.0
Rebecca West, Khalifeh Al Jadda, Unaiza Ahsan, Huiming Qu, Xiquan Cui(参考訳) 大規模な製品選択を行うeコマース企業にとって、優れた顧客ショッピング体験を作り、権威あるブランドイメージを育むためには、有意義な方法で製品の組織化とグループ化が重要である。 プロダクトをグループ化する重要な方法の1つは、変種がほとんど同じであり、わずかながら異なる相違点(例)を持つような、製品の変種族を特定することである。 カラーまたはパックサイズ)。 本稿では,製品変種を特定するための新しいアプローチを提案する。 制約付きクラスタリングとNLP技術(例えば)を組み合わせる。 バニラ分類法を用いて,非構造化製品名から製品姓を抽出し,類似モデル番号の商品を識別し,既存のベースラインと比較して優れた性能を得る。 さらに、幅広いカテゴリ(例えば、)の高精度な要求を満たすことを含む、特定のビジネス基準を満たすようにアルゴリズムを設計する。 器具、装飾品、道具、建築資材など モデルの解釈性を優先順位付けすることで、すべてのビジネスパートナがアクセスし、理解できるようにします。

For e-commerce companies with large product selections, the organization and grouping of products in meaningful ways is important for creating great customer shopping experiences and cultivating an authoritative brand image. One important way of grouping products is to identify a family of product variants, where the variants are mostly the same with slight and yet distinct differences (e.g. color or pack size). In this paper, we introduce a novel approach to identifying product variants. It combines both constrained clustering and tailored NLP techniques (e.g. extraction of product family name from unstructured product title and identification of products with similar model numbers) to achieve superior performance compared with an existing baseline using a vanilla classification approach. In addition, we design the algorithm to meet certain business criteria, including meeting high accuracy requirements on a wide range of categories (e.g. appliances, decor, tools, and building materials, etc.) as well as prioritizing the interpretability of the model to make it accessible and understandable to all business partners.
翻訳日:2021-04-13 21:55:43 公開日:2021-04-12
# (参考訳) 弱視による自己訓練 [全文訳有]

Self-Training with Weak Supervision ( http://arxiv.org/abs/2104.05514v1 )

ライセンス: CC BY 4.0
Giannis Karamanolakis, Subhabrata Mukherjee, Guoqing Zheng and Ahmed Hassan Awadallah(参考訳) 最先端のディープニューラルネットワークには大規模なラベル付きトレーニングデータが必要である。 ドメイン固有のルールという形での弱い監督は、弱いラベル付きトレーニングデータを自動的に生成するこのような設定で有用であることが示されている。 しかし,本質的なヒューリスティックでうるさい性質から,ルールの弱い学習は困難である。 もうひとつの課題はルールカバレッジと重複であり、弱い監視に関する事前の作業は、弱いルールで覆われたインスタンスのみを考慮し、貴重なラベルのないデータを残しておく。 本研究では、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。 この目的のために、コンテキスト化された表現を考慮し、弱いルールでカバーされないインスタンスの擬似ラベルを予測するモデル(スチューデント)による自己学習を通じて、タスク固有のラベルなしデータを活用する。 さらに,学生の擬似ラベルを弱いルールラベルで集約する方法を学習するルールアテンションネットワーク(教師)を開発し,その忠実さとインスタンスの基盤となるコンテキストを条件とした。 最後に、ラベルなしデータ、ドメイン固有のルール、少量のラベル付きデータによるエンドツーエンドトレーニングのための半教師付き学習目標を構築する。 テキスト分類のための6つのベンチマークデータセットに関する広範な実験は、最先端のベースラインよりも大幅に改善したアプローチの有効性を示しています。

State-of-the-art deep neural networks require large-scale labeled training data that is often expensive to obtain or not available for many tasks. Weak supervision in the form of domain-specific rules has been shown to be useful in such settings to automatically generate weakly labeled training data. However, learning with weak rules is challenging due to their inherent heuristic and noisy nature. An additional challenge is rule coverage and overlap, where prior work on weak supervision only considers instances that are covered by weak rules, thus leaving valuable unlabeled data behind. In this work, we develop a weak supervision framework (ASTRA) that leverages all the available data for a given task. To this end, we leverage task-specific unlabeled data through self-training with a model (student) that considers contextualized representations and predicts pseudo-labels for instances that may not be covered by weak rules. We further develop a rule attention network (teacher) that learns how to aggregate student pseudo-labels with weak rule labels, conditioned on their fidelity and the underlying context of an instance. Finally, we construct a semi-supervised learning objective for end-to-end training with unlabeled data, domain-specific rules, and a small amount of labeled data. Extensive experiments on six benchmark datasets for text classification demonstrate the effectiveness of our approach with significant improvements over state-of-the-art baselines.
翻訳日:2021-04-13 21:48:36 公開日:2021-04-12
# (参考訳) 荒地におけるダイヤモンド:GANラテント空間を横切ることでイメージリアリズムを改善する [全文訳有]

Diamond in the rough: Improving image realism by traversing the GAN latent space ( http://arxiv.org/abs/2104.05518v1 )

ライセンス: CC BY 4.0
Jeffrey Wen, Fabian Benitez-Quiroz, Qianli Feng, Aleix Martinez(参考訳) わずか数年で、gans(generative adversarial networks)によって合成された画像のフォトリアリズムは、ネットワークの複雑さ(例えば層の追加、中間的潜在空間、スタイル変換パラメータなど)の増加によって、ある程度合理的からほぼ完全になった。 この軌道は、最先端のGANの多くを到達不能に大きくし、大量の計算資源を使わずに多くのものを解き放った。 そこで本研究では,既存の低複雑度ganから追加性能を絞り込む手法について検討する。 形式的には,フォトリアリズムを改良した潜在空間における方向を求めるための教師なし手法を提案する。 提案手法は,生成した画像の忠実度を向上しながらネットワークを変化させる。 我々は、画像空間の最小変化をもたらす潜在空間の方向を見つけるために、単純な生成元反転を用いる。 潜在空間の学習された構造を利用すると、この方向に移動すると多くの画像アーティファクトが修正され、画像がより現実的になる。 我々は,Frechet Inception Distance (FID) の改善が,従来のGANや教師あり手法を超越した軌道上に存在することを示し,質的に定量的に検証した。 さらに拡張し,サンプルの変動とリアリズムのバランスをとる経路に沿って潜在ベクトルを自動的に選択する最適化手法を提案する。 本手法を様々なデータセットと複雑な3つのアーキテクチャに適用し,手法の一般化可能性を示す。 低複雑さと既存ネットワークの実用性の拡大により、GANの民主化を奨励したい。

In just a few years, the photo-realism of images synthesized by Generative Adversarial Networks (GANs) has gone from somewhat reasonable to almost perfect largely by increasing the complexity of the networks, e.g., adding layers, intermediate latent spaces, style-transfer parameters, etc. This trajectory has led many of the state-of-the-art GANs to be inaccessibly large, disengaging many without large computational resources. Recognizing this, we explore a method for squeezing additional performance from existing, low-complexity GANs. Formally, we present an unsupervised method to find a direction in the latent space that aligns with improved photo-realism. Our approach leaves the network unchanged while enhancing the fidelity of the generated image. We use a simple generator inversion to find the direction in the latent space that results in the smallest change in the image space. Leveraging the learned structure of the latent space, we find moving in this direction corrects many image artifacts and brings the image into greater realism. We verify our findings qualitatively and quantitatively, showing an improvement in Frechet Inception Distance (FID) exists along our trajectory which surpasses the original GAN and other approaches including a supervised method. We expand further and provide an optimization method to automatically select latent vectors along the path that balance the variation and realism of samples. We apply our method to several diverse datasets and three architectures of varying complexity to illustrate the generalizability of our approach. By expanding the utility of low-complexity and existing networks, we hope to encourage the democratization of GANs.
翻訳日:2021-04-13 21:24:52 公開日:2021-04-12
# (参考訳) 仮想試着用布型インタラクティブトランス [全文訳有]

Cloth Interactive Transformer for Virtual Try-On ( http://arxiv.org/abs/2104.05519v1 )

ライセンス: CC BY 4.0
Bin Ren, Hao Tang, Fanyang Meng, Runwei Ding, Ling Shao, Philip H.S. Torr, Nicu Sebe(参考訳) 2D画像に基づく仮想試行は、マルチメディアやコンピュータビジョンのコミュニティから注目を集めている。 しかし、既存の画像ベースの仮想試着手法のほとんどは、両者の相互相関を考慮せずに、直接、人とショップ内服の表現を結びつける。 さらに、グローバルに一貫した結果を生成する上で重要な長距離情報も、通常の畳み込み操作によって確立することが困難である。 そこで本稿では,この2つの問題を解消するため,仮想試着用2段布型インタラクティブトランス(cit)を提案する。 最初の段階では、より合理的な長距離関係を捉えることができる学習可能な薄板スプライン変換を実現するために、CITマッチングブロックを設計する。 結果として、歪んだインショップ服はより自然に見えます。 第2段階では,グローバルな相互依存を確立するための新しいCIT推論ブロックを提案する。 この相互依存に基づき、入力データ内の重要な領域を強調することができ、その結果、試行結果をより現実的なものにすることができる。 パブリックなファッションデータセットに関する大規模な実験により、私たちのCITは、定性的かつ定量的に新しい最先端のバーチャルトライオンパフォーマンスを達成できることを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/A mazingren/CIT.comで入手できる。

2D image-based virtual try-on has attracted increased attention from the multimedia and computer vision communities. However, most of the existing image-based virtual try-on methods directly put both person and the in-shop clothing representations together, without considering the mutual correlation between them. What is more, the long-range information, which is crucial for generating globally consistent results, is also hard to be established via the regular convolution operation. To alleviate these two problems, in this paper we propose a novel two-stage Cloth Interactive Transformer (CIT) for virtual try-on. In the first stage, we design a CIT matching block, aiming to perform a learnable thin-plate spline transformation that can capture more reasonable long-range relation. As a result, the warped in-shop clothing looks more natural. In the second stage, we propose a novel CIT reasoning block for establishing the global mutual interactive dependence. Based on this mutual dependence, the significant region within the input data can be highlighted, and consequently, the try-on results can become more realistic. Extensive experiments on a public fashion dataset demonstrate that our CIT can achieve the new state-of-the-art virtual try-on performance both qualitatively and quantitatively. The source code and trained models are available at https://github.com/A mazingren/CIT.
翻訳日:2021-04-13 21:10:17 公開日:2021-04-12
# (参考訳) A-FMI: 特徴マップによる深層ネットワークからの属性の学習 [全文訳有]

A-FMI: Learning Attributions from Deep Networks via Feature Map Importance ( http://arxiv.org/abs/2104.05527v1 )

ライセンス: CC0 1.0
An Zhang, Xiang Wang, Chengfang Fang, Jie Shi, Tat-seng Chua, Zehua Chen(参考訳) 勾配に基づく帰属法は畳み込みニューラルネットワーク(CNN)の理解に役立つ。 しかし, 属性特徴の冗長性と, 重要な特徴を識別し, 説明焦点シフトを生じさせる勾配飽和問題は, 属性手法が直面する課題である。 本稿では,1)属性,強い関連性,2)cnnモデルに忠実な各特徴マップの寄与を洗練するための新しい概念である特徴マップ重要度(fmi),3)対象画像と参照画像とを結合する勾配飽和問題に対処するために,fmiを用いた新しい帰属法(a-fmi)を提案し,fmiを特徴マップの粒度における差分参照参照に割り当てる。 ImageNetデータセットの視覚的検査と質的評価を通じて、A-FMIの持つ忠実さ、参照の選択への敏感さ、クラス識別性、そして様々なCNNアーキテクチャにおける一般的な帰属手法と比較して優れた説明性能を示す。

Gradient-based attribution methods can aid in the understanding of convolutional neural networks (CNNs). However, the redundancy of attribution features and the gradient saturation problem, which weaken the ability to identify significant features and cause an explanation focus shift, are challenges that attribution methods still face. In this work, we propose: 1) an essential characteristic, Strong Relevance, when selecting attribution features; 2) a new concept, feature map importance (FMI), to refine the contribution of each feature map, which is faithful to the CNN model; and 3) a novel attribution method via FMI, termed A-FMI, to address the gradient saturation problem, which couples the target image with a reference image, and assigns the FMI to the difference-from-refe rence at the granularity of feature map. Through visual inspections and qualitative evaluations on the ImageNet dataset, we show the compelling advantages of A-FMI on its faithfulness, insensitivity to the choice of reference, class discriminability, and superior explanation performance compared with popular attribution methods across varying CNN architectures.
翻訳日:2021-04-13 20:52:33 公開日:2021-04-12
# (参考訳) エンドツーエンドcnn加速における全寿命コストの最適化 [全文訳有]

Optimizing the Whole-life Cost in End-to-end CNN Acceleration ( http://arxiv.org/abs/2104.05541v1 )

ライセンス: CC BY 4.0
Jiaqi Zhang, Xiangru Chen, Sandip Ray, Tao Li(参考訳) CNNの加速はコンピュータビジョンの成功以来、緊張が高まっている。 畳み込み層のみのために提案された加速器によってプロシースできない不均一な機能層により、現代のCNN加速器は、多種多様な計算を行列/ベクトル演算に変換するか、畳み込みにおけるデータ再利用の機会を失うか、あるいは各層に専用の機能ユニットを導入し、不使用と高更新コストをもたらす。 全体のコスト効率を高めるためには、cnn層を効率的に処理し、あらゆる種類の既存および新興層に適用できる汎用性を持つ加速ソリューションが必要である。 この目的のために、我々は、既存のCNNアクセラレーターによって効率的にプロシース可能な、CNN全体の計算を標準的畳み込み(GCONV)の連鎖に変換する手法であるGCONV Chainを提案する。 本稿では,GCONV Chainモデルを包括的に分析し,GCONV Chainをサポートするフルスタック実装を提案する。 一方、7つのvar-ious cnnの結果は、gconvチェーンが既存のcnn加速器の性能とエネルギー効率を平均3.4倍と3.2倍に改善していることを示している。 一方、gconv chainはcnn accelera-tionに対して、開発者の努力とユーザに対する総所有コストの両方を含む、低寿命のコストを提供する。

The acceleration of CNNs has gained increasing atten-tion since their success in computer vision. With the heterogeneous functional layers that cannot be pro-cessed by the accelerators proposed for convolution layers only, modern end-to-end CNN acceleration so-lutions either transform the diverse computation into matrix/vector arithmetic, which loses data reuse op-portunities in convolution, or introduce dedicated functional unit to each kind of layer, which results in underutilization and high update expense. To enhance the whole-life cost efficiency, we need an acceleration solution that is efficient in processing CNN layers and has the generality to apply to all kinds of existing and emerging layers. To this end, we pro-pose GCONV Chain, a method to convert the entire CNN computation into a chain of standard general convolutions (GCONV) that can be efficiently pro-cessed by the existing CNN accelerators. This paper comprehensively analyzes the GCONV Chain model and proposes a full-stack implementation to support GCONV Chain. On one hand, the results on seven var-ious CNNs demonstrate that GCONV Chain improves the performance and energy efficiency of existing CNN accelerators by an average of 3.4x and 3.2x re-spectively. On the other hand, we show that GCONV Chain provides low whole-life costs for CNN accelera-tion, including both developer efforts and total cost of ownership for the users.
翻訳日:2021-04-13 20:33:40 公開日:2021-04-12
# (参考訳) 言語処理のための強化学習に関する調査

Survey on reinforcement learning for language processing ( http://arxiv.org/abs/2104.05565v1 )

ライセンス: CC BY 4.0
Victor Uc-Cetina, Nicolas Navarro-Guerrero, Anabel Martin-Gonzalez, Cornelius Weber, Stefan Wermter(参考訳) 近年, 様々な自然言語処理タスクの解法において, 強化学習(RL)アルゴリズムを重要な要素として活用する研究が進められている。 例えば、深層学習を活用するこれらのアルゴリズムの中には、会話システムへの道を見出したものもある。 本稿では,自然言語処理における様々な問題に対するrl法の利用可能性について,主に会話型システムに着目し,その関連性が高まることに着目して,rl法の現状について概説する。 この問題の詳細な説明と、なぜRLがそれらを解決するのに適しているのかについて議論する。 また,これらの手法の利点と限界も分析する。 最後に,強化学習の恩恵を受ける自然言語処理における有望な研究方向について詳述する。

In recent years some researchers have explored the use of reinforcement learning (RL) algorithms as key components in the solution of various natural language processing tasks. For instance, some of these algorithms leveraging deep neural learning have found their way into conversational systems. This paper reviews the state of the art of RL methods for their possible use for different problems of natural language processing, focusing primarily on conversational systems, mainly due to their growing relevance. We provide detailed descriptions of the problems as well as discussions of why RL is well-suited to solve them. Also, we analyze the advantages and limitations of these methods. Finally, we elaborate on promising research directions in natural language processing that might benefit from reinforcement learning.
翻訳日:2021-04-13 20:06:54 公開日:2021-04-12
# (参考訳) IoTのためのディープラーニング [全文訳有]

Deep Learning for IoT ( http://arxiv.org/abs/2104.05569v1 )

ライセンス: CC BY 4.0
Tao Lin(参考訳) ディープラーニングやその他の機械学習アプローチは、IoTやIoTに関連する多くのシステムにデプロイされる。 しかし、敵が履歴データを改ざんすることで、システムに抜け穴をあけるという課題に直面している。 本稿ではまず,敵対的機械学習の総合点について述べる。 そして、ペトリネットのような従来の手法では、この問題を効率的に解けない。 より効率的なIoTデータ分析を支援するために,ディープラーニング(リカレントニューラルネットワーク)に基づく検索手法を提案する。 さらに,敵マシンの傾き領域における敵によるハッキングを回避するために,データ検索ソリューションに関する研究を行った。 さらに、敵対的なディープラーニングに基づいて、IoT設定でこのフレームワークを実装する方法について、新たなアプローチを指示する。

Deep learning and other machine learning approaches are deployed to many systems related to Internet of Things or IoT. However, it faces challenges that adversaries can take loopholes to hack these systems through tampering history data. This paper first presents overall points of adversarial machine learning. Then, we illustrate traditional methods, such as Petri Net cannot solve this new question efficiently. To help IoT data analysis more efficient, we propose a retrieval method based on deep learning (recurrent neural network). Besides, this paper presents a research on data retrieval solution to avoid hacking by adversaries in the fields of adversary machine leaning. It further directs the new approaches in terms of how to implementing this framework in IoT settings based on adversarial deep learning.
翻訳日:2021-04-13 20:06:04 公開日:2021-04-12
# (参考訳) 自動復号型奥行き埋め込みによる主観評価からの学習 [全文訳有]

Learning from Subjective Ratings Using Auto-Decoded Deep Latent Embeddings ( http://arxiv.org/abs/2104.05570v1 )

ライセンス: CC BY 4.0
Bowen Li, Xinping Ren, Ke Yan, Le Lu, Guotong Xie, Jing Xiao, Dar-In Tai, Adam P. Harrison(参考訳) 応用によっては、放射線診断は高い層間および層内変動に関連付けられる。 ほとんどのコンピュータ支援診断(CAD)ソリューションは、そのようなデータを非可逆的として扱い、学習アルゴリズムをかなり矛盾するラベルノイズやバイアスに晒す。 したがって、ラベルの主観性を管理することは、医療画像解析における根本的な問題である。 この課題に対処するために、オートデコーダフレームワークを用いて各レーダの傾向を明示的にモデル化するオートデコード深層埋め込み(ADDLE)を導入する。 単純な線形変換の後、潜在変数は任意の点と複数の点のバックボーンに注入でき、モデルが診断に対するレートラー固有の効果を考慮できる。 重要なことは、ADDLEはトレーニング中の画像ごとに複数のラッカーを期待していないため、病院のアーカイブから抽出したデータから容易に学習できるということだ。 さらに、より多くのレートが加わり、トレーニングの複雑さが増すことはない。 推論の間、各レートをシミュレートし、「平均」または「欲深い」仮想レーティングを生成することができる。 2d超音波(us)から肝ステアトーシスを診断する問題について検討し, 46, 084の検診と65の異なる検診者由来の米国臨床検診を併用して検討した。 金標準生検診断用別データセットを用いて診断性能を評価した。 ADDLEは、65倍のパラメータを必要とするものを含む他のアノテータノイズアプローチよりも優れている一方で、標準分類器よりも10.5%の重症脂肪症を診断するための曲線(AUC)下の部分領域を改善することができる。

Depending on the application, radiological diagnoses can be associated with high inter- and intra-rater variabilities. Most computer-aided diagnosis (CAD) solutions treat such data as incontrovertible, exposing learning algorithms to considerable and possibly contradictory label noise and biases. Thus, managing subjectivity in labels is a fundamental problem in medical imaging analysis. To address this challenge, we introduce auto-decoded deep latent embeddings (ADDLE), which explicitly models the tendencies of each rater using an auto-decoder framework. After a simple linear transformation, the latent variables can be injected into any backbone at any and multiple points, allowing the model to account for rater-specific effects on the diagnosis. Importantly, ADDLE does not expect multiple raters per image in training, meaning it can readily learn from data mined from hospital archives. Moreover, the complexity of training ADDLE does not increase as more raters are added. During inference each rater can be simulated and a 'mean' or 'greedy' virtual rating can be produced. We test ADDLE on the problem of liver steatosis diagnosis from 2D ultrasound (US) by collecting 46 084 studies along with clinical US diagnoses originating from 65 different raters. We evaluated diagnostic performance using a separate dataset with gold-standard biopsy diagnoses. ADDLE can improve the partial areas under the curve (AUCs) for diagnosing severe steatosis by 10.5% over standard classifiers while outperforming other annotator-noise approaches, including those requiring 65 times the parameters.
翻訳日:2021-04-13 20:01:36 公開日:2021-04-12
# (参考訳) 分散非同期選択最適化(DASO)によるニューラルネットワークトレーニングの高速化 [全文訳有]

Accelerating Neural Network Training with Distributed Asynchronous and Selective Optimization (DASO) ( http://arxiv.org/abs/2104.05588v1 )

ライセンス: CC BY 4.0
Daniel Coquelin, Charlotte Debus, Markus G\"otz, Fabrice von der Lehr, James Kahn, Martin Siggel, and Achim Steit(参考訳) データとモデルの複雑さの増加に伴い、ニューラルネットワークのトレーニングに要する時間は大きくなっている。 トレーニング時間の指数的な増加に対応するため、ユーザは、コンピュータクラスタ上で大規模な分散リソースを使用するために、データ並列ニューラルネットワーク(DPNN)に目を向けている。 現在のDPNNアプローチでは、通信操作をブロックする全プロセスの勾配を同期し平均化することで、ネットワークパラメータの更新を実装している。 この同期はアルゴリズムのボトルネックの中心である。 これに対抗するために,マルチGPU計算ノードアーキテクチャを活用してネットワークトレーニングを高速化する分散非同期選択最適化(DASO)手法を提案する。 DASOはノードローカルネットワークとグローバルネットワークで構成される階層的非同期通信方式を用いて,学習過程におけるグローバル同期率を調整する。 DASOは従来のデータ並列トレーニング手法と比較して,従来のネットワークや最先端ネットワークでは最大34%のトレーニング時間を短縮できることを示す。

With increasing data and model complexities, the time required to train neural networks has become prohibitively large. To address the exponential rise in training time, users are turning to data parallel neural networks (DPNN) to utilize large-scale distributed resources on computer clusters. Current DPNN approaches implement the network parameter updates by synchronizing and averaging gradients across all processes with blocking communication operations. This synchronization is the central algorithmic bottleneck. To combat this, we introduce the Distributed Asynchronous and Selective Optimization (DASO) method which leverages multi-GPU compute node architectures to accelerate network training. DASO uses a hierarchical and asynchronous communication scheme comprised of node-local and global networks while adjusting the global synchronization rate during the learning process. We show that DASO yields a reduction in training time of up to 34% on classical and state-of-the-art networks, as compared to other existing data parallel training methods.
翻訳日:2021-04-13 19:51:19 公開日:2021-04-12
# (参考訳) pac bayesian performance guarantees for deep (stochastic) network in medical imaging (英語) [全文訳有]

PAC Bayesian Performance Guarantees for Deep (Stochastic) Networks in Medical Imaging ( http://arxiv.org/abs/2104.05600v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Xingchen Zhao, Anastasia Sosnovskikh, Seong Jae Hwang(参考訳) 深層ニューラルネットワークの医療画像への応用は、ある意味では一般的である。 それでも、ディープラーニングムーブメントの"側面のツーン"は、ディープネットワークが何らかの形で過剰に適合しがちで、データセットが小さい場合にはうまく一般化できない、という主張である。 この主張はベースレスではなく、一般化誤差のPAC境界が深いネットワークにとって大きすぎる(すなわち論理的に意味がない)という観察に由来する可能性が高い。 これとは対照的に、PAC-Bayesianフレームワークを用いた最近の進歩は、大規模(確率的な)ネットワークと標準データセット(例えば、MNISTとCIFAR-10)の一般化誤差に非空境界を示す。 これらのテクニックを、より小さな医療想像データセット(isic 2018チャレンジセット)に適用します。 さらに,PAC-Bayesian フレームワークを用いて行われていないセグメンテーションタスクにおけるディープネットワークの一般化を検討する。 重要視されるのは, 試料サイズが激減しているにもかかわらず, 結果境界も空でないことである。 以上より,医用画像領域における深部確率ネットワークに対するPAC-Bayesian境界の適用性を示した。

Application of deep neural networks to medical imaging tasks has in some sense become commonplace. Still, a "thorn in the side" of the deep learning movement is the argument that deep networks are somehow prone to overfitting and are thus unable to generalize well when datasets are small. The claim is not baseless and likely stems from the observation that PAC bounds on generalization error are usually so large for deep networks that they are vacuous (i.e., logically meaningless). Contrary to this, recent advances using the PAC-Bayesian framework have instead shown non-vacuous bounds on generalization error for large (stochastic) networks and standard datasets (e.g., MNIST and CIFAR-10). We apply these techniques to a much smaller medical imagining dataset (the ISIC 2018 challenge set). Further, we consider generalization of deep networks on segmentation tasks which has not commonly been done using the PAC-Bayesian framework. Importantly, we observe that the resultant bounds are also non-vacuous despite the sharp reduction in sample size. In total, our results demonstrate the applicability of PAC-Bayesian bounds for deep stochastic networks in the medical imaging domain.
翻訳日:2021-04-13 19:39:27 公開日:2021-04-12
# (参考訳) 生成型adversarial networkにおける過剰パラメータ化の理解

Understanding Overparameterization in Generative Adversarial Networks ( http://arxiv.org/abs/2104.05605v1 )

ライセンス: CC BY 4.0
Yogesh Balaji, Mohammadmahdi Sajedi, Neha Mukund Kalibhat, Mucong Ding, Dominik St\"oger, Mahdi Soltanolkotabi, Soheil Feizi(参考訳) GAN(Generative Adversarial Networks)のような教師なしのディープラーニング手法の幅広いクラスは、モデルのパラメータ数が一定の閾値を超える過パラメータ化モデルのトレーニングを含む。 教師付き学習における大きな研究は、勾配降下 (gd) のグローバル最適解への収束において、モデル過剰パラメータ化の重要性を示している。 対照的に、教師なしの設定と GAN には、非凸凸のミニマックス最適化問題が含まれており、グラディエント・Descent/Ascent (GDA) を用いてしばしば訓練される。 非凸凹問題におけるGDAのグローバルサドル点への収束におけるモデル過度パラメータ化の役割と利点は、はるかに理解されていない。 本稿では,GANにおけるモデル過度パラメータ化の重要性を理論的にも経験的にも包括的に分析する。 理論的には、1ドル層ニューラルネットワークジェネレータと線形判別器を備えた過度パラメータ化GANモデルにおいて、GDAは基礎となる非凸凹 min-max 問題の大域的なサドル点に収束する。 我々の知る限りでは、このような環境でGDAをグローバルに収束させる最初の結果である。 我々の理論は、特定の仮定に従うより広範な非線形ジェネレータや判別器(より深いジェネレータやランダムな特徴判別器を含む)のクラスに対するより一般的な結果に基づいている。 また, CIFAR-10 と Celeb-A データセットを用いた大規模実験により, GAN におけるモデル過度パラメータ化の役割を実証的に検討した。 実験により、オーバーパラメータ化により、様々なモデルアーキテクチャやデータセットで生成されたサンプルの品質が向上することが示された。 注目すべきことに、オーバーパラメータ化はGDAのボード全体の高速でより安定した収束挙動をもたらす。

A broad class of unsupervised deep learning methods such as Generative Adversarial Networks (GANs) involve training of overparameterized models where the number of parameters of the model exceeds a certain threshold. A large body of work in supervised learning have shown the importance of model overparameterization in the convergence of the gradient descent (GD) to globally optimal solutions. In contrast, the unsupervised setting and GANs in particular involve non-convex concave mini-max optimization problems that are often trained using Gradient Descent/Ascent (GDA). The role and benefits of model overparameterization in the convergence of GDA to a global saddle point in non-convex concave problems is far less understood. In this work, we present a comprehensive analysis of the importance of model overparameterization in GANs both theoretically and empirically. We theoretically show that in an overparameterized GAN model with a $1$-layer neural network generator and a linear discriminator, GDA converges to a global saddle point of the underlying non-convex concave min-max problem. To the best of our knowledge, this is the first result for global convergence of GDA in such settings. Our theory is based on a more general result that holds for a broader class of nonlinear generators and discriminators that obey certain assumptions (including deeper generators and random feature discriminators). We also empirically study the role of model overparameterization in GANs using several large-scale experiments on CIFAR-10 and Celeb-A datasets. Our experiments show that overparameterization improves the quality of generated samples across various model architectures and datasets. Remarkably, we observe that overparameterization leads to faster and more stable convergence behavior of GDA across the board.
翻訳日:2021-04-13 19:24:39 公開日:2021-04-12
# (参考訳) ディジタルロック物理における等変幾何学習:モースグラフから生成因子と有効透水性テンソルを推定する [全文訳有]

Equivariant geometric learning for digital rock physics: estimating formation factor and effective permeability tensors from Morse graph ( http://arxiv.org/abs/2104.05608v1 )

ライセンス: CC BY 4.0
Chen Cai, Nikolaos Vlassis, Lucas Magee, Ran Ma, Zeyu Xiong, Bahador Bahmani, Teng-Fong Wong, Yusu Wang, WaiChing Sun(参考訳) マイクロCT画像から生成因子と透過性を直接予測するSE(3)-equivariant graph neural network (GNN) を提案する。 FFTソルバは形成係数と有効透過性の両方を計算するために確立され、孔空間の位相と幾何学は永続性に基づくモースグラフで表される。 それらは共に、ニューラルネットワークのトレーニング、検証、テストのためのデータベースを構成する。 グラフとユークリッド畳み込みのアプローチはどちらも、フォワード予測のためのミクロ構造の特徴を表現するために低次元潜在空間を生成するためにニューラルネットワークを使用しているが、SE(3)同変ニューラルネットワークは、特にトレーニングデータが制限された場合、より正確な予測を生成する。 数値実験により、新しいSE(3)アプローチは、材料フレームの差分を満たす予測につながるが、古典的畳み込みニューラルネットワーク(CNN)からの予測は、トレーニングデータの座標系に急激な依存を被ることが示されている。 cnnとグラフ畳み込みニューラルネットワーク(gnn)のトレーニングから推定される予測と等価制約の有無による予測の比較は、等価グラフニューラルネットワークが等価制約を課さずにcnnやgnnよりも良く機能していることを示している。

We present a SE(3)-equivariant graph neural network (GNN) approach that directly predicting the formation factor and effective permeability from micro-CT images. FFT solvers are established to compute both the formation factor and effective permeability, while the topology and geometry of the pore space are represented by a persistence-based Morse graph. Together, they constitute the database for training, validating, and testing the neural networks. While the graph and Euclidean convolutional approaches both employ neural networks to generate low-dimensional latent space to represent the features of the micro-structures for forward predictions, the SE(3) equivariant neural network is found to generate more accurate predictions, especially when the training data is limited. Numerical experiments have also shown that the new SE(3) approach leads to predictions that fulfill the material frame indifference whereas the predictions from classical convolutional neural networks (CNN) may suffer from spurious dependence on the coordinate system of the training data. Comparisons among predictions inferred from training the CNN and those from graph convolutional neural networks (GNN) with and without the equivariant constraint indicate that the equivariant graph neural network seems to perform better than the CNN and GNN without enforcing equivariant constraints.
翻訳日:2021-04-13 19:23:05 公開日:2021-04-12
# (参考訳) 単一のオフライン環境からゼロショットダイナミクスを一般化する拡張現実モデル [全文訳有]

Augmented World Models Facilitate Zero-Shot Dynamics Generalization From a Single Offline Environment ( http://arxiv.org/abs/2104.05632v1 )

ライセンス: CC BY 4.0
Philip J. Ball, Cong Lu, Jack Parker-Holder, Stephen Roberts(参考訳) 大規模オフラインデータセットからの強化学習は、潜在的に安全で非現実的な探索なしにポリシを学習する能力を提供します。 過去数年間、データ収集と学習ポリシーの異なる振る舞いを修正するという課題に対処する上で、重要な進歩があった。 しかし、既存の手法でパフォーマンスを最大90%削減できるオンライン環境にポリシーを移行する際のダイナミクスの変化にはほとんど注意が払われていない。 本稿では,AugWM(Augmented World Models)を用いてこの問題に対処する。 我々は,ロボットの物理的特性の潜在的な変化を捉えようとする単純な変換によって学習したダイナミクスモデルを強化し,より強固なポリシーを実現する。 この新しい環境でポリシーをトレーニングするだけでなく、コンテキストとしてサンプル化された拡張を提供することで、環境の変化に適応できるようにしています。 テスト時には、新しい環境に対応する拡張を近似することで、自己教師型でコンテキストを学習する。 我々は,100以上の異なるダイナミックス設定に対する我々のアプローチを厳格に評価し,この単純なアプローチが最近の最先端ベースラインのゼロショット一般化を著しく改善し,ベースラインが失敗するポリシを成功させることを示す。

Reinforcement learning from large-scale offline datasets provides us with the ability to learn policies without potentially unsafe or impractical exploration. Significant progress has been made in the past few years in dealing with the challenge of correcting for differing behavior between the data collection and learned policies. However, little attention has been paid to potentially changing dynamics when transferring a policy to the online setting, where performance can be up to 90% reduced for existing methods. In this paper we address this problem with Augmented World Models (AugWM). We augment a learned dynamics model with simple transformations that seek to capture potential changes in physical properties of the robot, leading to more robust policies. We not only train our policy in this new setting, but also provide it with the sampled augmentation as a context, allowing it to adapt to changes in the environment. At test time we learn the context in a self-supervised fashion by approximating the augmentation which corresponds to the new environment. We rigorously evaluate our approach on over 100 different changed dynamics settings, and show that this simple approach can significantly improve the zero-shot generalization of a recent state-of-the-art baseline, often achieving successful policies where the baseline fails.
翻訳日:2021-04-13 18:58:32 公開日:2021-04-12
# (参考訳) 自然駆動データにおけるオンランプマージ解析のための教師なし車線変更同定 [全文訳有]

Unsupervised Lane-Change Identification for On-Ramp Merge Analysis in Naturalistic Driving Data ( http://arxiv.org/abs/2104.05661v1 )

ライセンス: CC BY-SA 4.0
Lars Klitzke, Kay Gimm, Carsten Koch, Frank K\"oster(参考訳) コネクテッド・アンド・オートマチック・ビークルズ(CAV)は、将来の産業・民間交通部門を変革する計画である。 システムの複雑さのため、技術がパブリックドメインにマージする前には、機能検証と安全面の検証が不可欠である。 近年、シナリオ駆動型アプローチは、シナリオの堅固なデータベースの必要性を強調するCAVに対して受け入れられている。 大規模な研究施設であるテストベッドローワーサクソン (TFNDS) は、自動車のシナリオのデータベースにかなりの情報を提供することができる。 しかし、その目的のために、興味のあるシナリオを識別し、収集された軌跡データに分類する必要がある。 本研究は,この問題に対処し,シナリオ分類と評価を可能にするオンランプシナリオ識別のためのフレームワークを提案する。 フレームワークの有効性は、TFNDSで収集されたデータセットで示される。

Connected and Automated Vehicles (CAVs) are envisioned to transform the future industrial and private transportation sectors. Due to the complexity of the systems, functional verification and validation of safety aspects are essential before the technology merges into the public domain. In recent years, a scenario-driven approach has gained acceptance for CAVs emphasizing the requirement of a solid data basis of scenarios. The large-scale research facility Test Bed Lower Saxony (TFNDS) enables the provision of substantial information for a database of scenarios on motorways. For that purpose, however, the scenarios of interest must be identified and categorized in the collected trajectory data. This work addresses this problem and proposes a framework for on-ramp scenario identification that also enables for scenario categorization and assessment. The efficacy of the framework is shown with a dataset collected on the TFNDS.
翻訳日:2021-04-13 18:41:04 公開日:2021-04-12
# (参考訳) MTにおけるユーザ信頼を改善するバックトランスレーションフィードバック [全文訳有]

Backtranslation Feedback Improves User Confidence in MT, Not Quality ( http://arxiv.org/abs/2104.05688v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar, Michal Nov\'ak, Mat\'u\v{s} \v{Z}ilinec, Ond\v{r}ej Bojar, Mateo Obreg\'on, Robin L. Hill, Fr\'ed\'eric Blain, Marina Fomicheva, Lucia Specia, Lisa Yankovskaya(参考訳) テキストを未知の言語に翻訳することは、アウトバウンド翻訳(outbound translation)と呼ばれ、基本的な機械翻訳機能を超えて、ユーザエクスペリエンスが改善の余地を持つ現代的なニーズである。 我々は、逆変換、品質推定(アライメント付き)、ソースパラフレージングの3つの方法を示すことにより、アウトバウンド翻訳に対するユーザの信頼度と最終的な品質が影響を受けることを実証する。 本稿では,英語からチェコ語,エストニア語へのアウトバウンド翻訳実験について述べる。 提案するフィードバックモジュールの効果について検討し,機械翻訳システムの品質がこれらの結果にどのように影響するか,ユーザによる成功の認識にさらに注目する。 逆変換のフィードバックは、プロセス全体に対して混合効果を持つ: 生成した翻訳に対するユーザの信頼度を高めるが、客観的な品質ではない。

Translating text into a language unknown to the text's author, dubbed outbound translation, is a modern need for which the user experience has significant room for improvement, beyond the basic machine translation facility. We demonstrate this by showing three ways in which user confidence in the outbound translation, as well as its overall final quality, can be affected: backward translation, quality estimation (with alignment) and source paraphrasing. In this paper, we describe an experiment on outbound translation from English to Czech and Estonian. We examine the effects of each proposed feedback module and further focus on how the quality of machine translation systems influence these findings and the user perception of success. We show that backward translation feedback has a mixed effect on the whole process: it increases user confidence in the produced translation, but not the objective quality.
翻訳日:2021-04-13 18:23:59 公開日:2021-04-12
# (参考訳) マスケッド言語モデリングの帰納的バイアスについて:統計的から構文的依存性へ [全文訳有]

On the Inductive Bias of Masked Language Modeling: From Statistical to Syntactic Dependencies ( http://arxiv.org/abs/2104.05694v1 )

ライセンス: CC BY 4.0
Tianyi Zhang and Tatsunori Hashimoto(参考訳) 教師なしの方法でトークンのマスキングと予測が,言語構造と下流のパフォーマンス向上をいかに生み出すかを検討する。 最近の理論では、事前訓練された言語モデルは下流タスクのクローズ削減として暗黙的に作用するマスクを通して有用な帰納的バイアスを得ることが示唆されている。 しかし,このようなクローゼ様マスクだけでは,実際に使用されるランダムマスキング戦略の成功は説明できないことを示す。 3つの分類データセットに対してタスク固有のレキシコンを用いてクローゼ様マスクを構築し,プリトレーニングされたパフォーマンス向上の大部分は、レキシコンとは無関係な汎用マスクによるものであることを示す。 これらの汎用マスクの実証的な成功を説明するために,マスケッド言語モデル(MLM)の目的と,グラフィカルモデルにおける統計的依存を学習するための既存の手法との対応性を示す。 これを用いて,MLMにおけるこれらの学習された統計的依存関係を抽出し,それらの依存関係が構文構造の形で有用な帰納的バイアスをコードしていることを示す。 教師なし解析評価では、暗黙の統計依存構造上に最小のスパンニングツリーを形成するだけで、教師なし解析の古典的手法(58.74 vs. 55.91 UUAS)より優れる。

We study how masking and predicting tokens in an unsupervised fashion can give rise to linguistic structures and downstream performance gains. Recent theories have suggested that pretrained language models acquire useful inductive biases through masks that implicitly act as cloze reductions for downstream tasks. While appealing, we show that the success of the random masking strategy used in practice cannot be explained by such cloze-like masks alone. We construct cloze-like masks using task-specific lexicons for three different classification datasets and show that the majority of pretrained performance gains come from generic masks that are not associated with the lexicon. To explain the empirical success of these generic masks, we demonstrate a correspondence between the Masked Language Model (MLM) objective and existing methods for learning statistical dependencies in graphical models. Using this, we derive a method for extracting these learned statistical dependencies in MLMs and show that these dependencies encode useful inductive biases in the form of syntactic structures. In an unsupervised parsing evaluation, simply forming a minimum spanning tree on the implied statistical dependence structure outperforms a classic method for unsupervised parsing (58.74 vs. 55.91 UUAS).
翻訳日:2021-04-13 18:10:25 公開日:2021-04-12
# (参考訳) 共同ユニバーサル構文解析と意味解析 [全文訳有]

Joint Universal Syntactic and Semantic Parsing ( http://arxiv.org/abs/2104.05696v1 )

ライセンス: CC BY 4.0
Elias Stengel-Eskin, Kenton Murray, Sheng Zhang, Aaron Steven White, Benjamin Van Durme(参考訳) 構文とセマンティクスを共同で解析する試みは数多く行われているが、一方のドメインでのハイパフォーマンスは通常、もう一方のパフォーマンスの価格で提供される。 このトレードオフは、構文-概念インターフェイスにおけるリッチな相互作用に焦点を当てた大規模な研究と矛盾する。 我々は,Universal Decompositional Semantics (UDS) データセットに含まれるリッチな構文的および意味的アノテーションを利用して,Universal Dependencies と UDS を共同で解析し,どちらの形式においても最先端の結果が得られるような複数のモデルアーキテクチャを探索する。 構文と意味論の合同モデルの振る舞いを解析し,構文・意味論インターフェースで言語理論が支持するパターンを探索する。 次に、結合モデリングが多言語設定に一般化する程度を調査し、8つの言語で同様の傾向を見出す。

While numerous attempts have been made to jointly parse syntax and semantics, high performance in one domain typically comes at the price of performance in the other. This trade-off contradicts the large body of research focusing on the rich interactions at the syntax-semantics interface. We explore multiple model architectures which allow us to exploit the rich syntactic and semantic annotations contained in the Universal Decompositional Semantics (UDS) dataset, jointly parsing Universal Dependencies and UDS to obtain state-of-the-art results in both formalisms. We analyze the behaviour of a joint model of syntax and semantics, finding patterns supported by linguistic theory at the syntax-semantics interface. We then investigate to what degree joint modeling generalizes to a multilingual setting, where we find similar trends across 8 languages.
翻訳日:2021-04-13 17:36:41 公開日:2021-04-12
# (参考訳) スケッチから写真への合成における逆開領域適応 [全文訳有]

Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis ( http://arxiv.org/abs/2104.05703v1 )

ライセンス: CC BY 4.0
Xiaoyu Xiang, Ding Liu, Xiao Yang, Yiheng Zhu, Xiaohui Shen, Jan P. Allebach(参考訳) 本稿では,学習データにそのクラスのスケッチが欠落している場合でも,フリーハンドスケッチからリアルな写真をクラスラベルで合成することを目的とした,オープンドメインのスケッチ・ツー・フォト翻訳について検討する。 トレーニング監督の欠如とフリーハンドスケッチとフォトドメイン間の大きな幾何学的歪みのため、これは困難である。 写真から欠落したフリーハンドスケッチを合成するために,スケッチ・ツー・フォトと写真・スケッチ生成を共同で学習するフレームワークを提案する。 しかし、偽のスケッチから訓練されたジェネレータは、合成されたスケッチと実際のスケッチのドメインギャップのため、欠落したクラスのスケッチを扱う際に不満足な結果をもたらす可能性がある。 この問題を軽減するために,我々は,ジェネレータを偽スケッチを現実のスケッチとして扱えるようにするための,シンプルで効果的なオープンドメインサンプリングと最適化戦略を提案する。 本手法は,インドメインデータのスケッチ・ツー・フォトおよびフォト・ツー・スケッチマッピングを活用し,それらをオープンドメインクラスに一般化する。 ScribbleとSketchyCOCOのデータセット上で本手法を検証する。 近年の競合手法と比較して,本手法はリアルな色やテクスチャを合成し,様々なカテゴリのオープンドメインスケッチの幾何学的構成を維持できることを示す。

In this paper, we explore the open-domain sketch-to-photo translation, which aims to synthesize a realistic photo from a freehand sketch with its class label, even if the sketches of that class are missing in the training data. It is challenging due to the lack of training supervision and the large geometry distortion between the freehand sketch and photo domains. To synthesize the absent freehand sketches from photos, we propose a framework that jointly learns sketch-to-photo and photo-to-sketch generation. However, the generator trained from fake sketches might lead to unsatisfying results when dealing with sketches of missing classes, due to the domain gap between synthesized sketches and real ones. To alleviate this issue, we further propose a simple yet effective open-domain sampling and optimization strategy to "fool" the generator into treating fake sketches as real ones. Our method takes advantage of the learned sketch-to-photo and photo-to-sketch mapping of in-domain data and generalizes them to the open-domain classes. We validate our method on the Scribble and SketchyCOCO datasets. Compared with the recent competing methods, our approach shows impressive results in synthesizing realistic color, texture, and maintaining the geometric composition for various categories of open-domain sketches.
翻訳日:2021-04-13 17:05:21 公開日:2021-04-12
# (参考訳) ポイントクラウドハンドリングのための効率的なグラフ畳み込みネットワークを目指して [全文訳有]

Towards Efficient Graph Convolutional Networks for Point Cloud Handling ( http://arxiv.org/abs/2104.05706v1 )

ライセンス: CC BY 4.0
Yawei Li, He Chen, Zhaopeng Cui, Radu Timofte, Marc Pollefeys, Gregory Chirikjian, Luc Van Gool(参考訳) 本稿では,点クラウド上で学習するグラフ畳み込みネットワーク(GCN)の計算効率を向上させることを目的とする。 通常、K$-nearest neighbor (KNN) 探索と多層パーセプトロン (MLP) からなる基本グラフ畳み込みについて検討する。 そこでの演算を数学的に解析することにより,GCNの効率を向上させる2つの知見を得た。 1) 3次元表現の局所的幾何学的構造情報は,KNN探索による近傍特徴の収集に依存するGCN全体にわたって円滑に伝播する。 これにより、GCNにおける複数のKNN検索が簡単になる。 2)グラフ特徴集合の順序をシャッフルし、MLPが等価あるいは類似の複合演算に導く。 これらの結果に基づき,GCNの計算手順を最適化する。 一連の実験により、最適化されたネットワークは計算の複雑さを減らし、メモリ消費を減らし、予測速度を加速し、ポイントクラウド上での学習の精度を同等に保った。 コードは \url{https://github.com/o fsoundof/EfficientGC N.git} で入手できる。

In this paper, we aim at improving the computational efficiency of graph convolutional networks (GCNs) for learning on point clouds. The basic graph convolution that is typically composed of a $K$-nearest neighbor (KNN) search and a multilayer perceptron (MLP) is examined. By mathematically analyzing the operations there, two findings to improve the efficiency of GCNs are obtained. (1) The local geometric structure information of 3D representations propagates smoothly across the GCN that relies on KNN search to gather neighborhood features. This motivates the simplification of multiple KNN searches in GCNs. (2) Shuffling the order of graph feature gathering and an MLP leads to equivalent or similar composite operations. Based on those findings, we optimize the computational procedure in GCNs. A series of experiments show that the optimized networks have reduced computational complexity, decreased memory consumption, and accelerated inference speed while maintaining comparable accuracy for learning on point clouds. Code will be available at \url{https://github.com/o fsoundof/EfficientGC N.git}.
翻訳日:2021-04-13 16:45:08 公開日:2021-04-12
# (参考訳) LocalViT:ビジョントランスフォーマーにローカリティをもたらす [全文訳有]

LocalViT: Bringing Locality to Vision Transformers ( http://arxiv.org/abs/2104.05707v1 )

ライセンス: CC BY 4.0
Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool(参考訳) 視覚トランスフォーマーに局所性機構を導入する方法について検討する。 トランスフォーマーネットワークは機械翻訳を起源とし、特に長いシーケンス内の長距離依存性のモデリングが得意である。 トークン埋め込み間のグローバルな相互作用はトランスフォーマの自己着信機構によってうまくモデル化できるが、ローカル領域内の情報交換のための局所性機構が欠如している。 しかし、画像の局所性は線、エッジ、形状、さらには物体といった構造に関係するため、画像にとって不可欠である。 フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。 この一見単純な解は、フィードフォワードネットワークと逆残差ブロックの比較に着想を得たものである。 局所性機構の重要性は、1)局所性機構を組み込むために幅広い設計選択(活性化機能、層配置、拡張比)が利用可能であり、全ての適切な選択がベースラインよりも性能向上につながる可能性があり、2)同じ局所性機構が4つの視覚トランスフォーマにうまく適用され、局所性概念の一般化を示す。 特に、ImageNet2012分類では、局所性に富んだ変換器は、パラメータの数と計算労力が無視できるほど増加し、ベースラインのDeiT-TとPVT-Tを2.6 %、および3.1 %で上回る。 コードは \url{https://github.com/o fsoundof/LocalViT} で入手できる。

We study how to introduce locality mechanisms into vision transformers. The transformer network originates from machine translation and is particularly good at modelling long-range dependencies within a long sequence. Although the global interaction between the token embeddings could be well modelled by the self-attention mechanism of transformers, what is lacking a locality mechanism for information exchange within a local region. Yet, locality is essential for images since it pertains to structures like lines, edges, shapes, and even objects. We add locality to vision transformers by introducing depth-wise convolution into the feed-forward network. This seemingly simple solution is inspired by the comparison between feed-forward networks and inverted residual blocks. The importance of locality mechanisms is validated in two ways: 1) A wide range of design choices (activation function, layer placement, expansion ratio) are available for incorporating locality mechanisms and all proper choices can lead to a performance gain over the baseline, and 2) The same locality mechanism is successfully applied to 4 vision transformers, which shows the generalization of the locality concept. In particular, for ImageNet2012 classification, the locality-enhanced transformers outperform the baselines DeiT-T and PVT-T by 2.6\% and 3.1\% with a negligible increase in the number of parameters and computational effort. Code is available at \url{https://github.com/o fsoundof/LocalViT}.
翻訳日:2021-04-13 16:27:10 公開日:2021-04-12
# (参考訳) マクロ平均値:レアタイプも重要 [全文訳有]

Macro-Average: Rare Types Are Important Too ( http://arxiv.org/abs/2104.05700v1 )

ライセンス: CC BY-SA 4.0
Thamme Gowda, Weiqiu You, Constantine Lignos, Jonathan May(参考訳) 機械翻訳(MT)における従来のコーパスレベルの評価指標は、流布とよく相関するが、妥当性の反映に苦慮している。 セグメントレベルの人的判断に基づいて訓練されたモデルベースMTメトリクスは、強い相関関係の結果によって魅力的な代替物として現れている。 しかし、これらのモデルは、新しいドメインと言語のために潜在的に高価な再トレーニングを必要とする。 さらに、彼らの決定は本質的に不透明であり、好ましくない偏見を反映しているように見える。 我々は、単純な型ベースの分類器メトリックである macrof1 を調査し、その mt 評価への適用性について検討する。 macrof1は直接評価で競争しており、下流の言語間情報検索タスクのパフォーマンスを示すのに他を上回っている。 さらに,supervised と unsupervised のニューラルマシン翻訳を効果的に比較するために macrof1 が利用可能であることを示す。

While traditional corpus-level evaluation metrics for machine translation (MT) correlate well with fluency, they struggle to reflect adequacy. Model-based MT metrics trained on segment-level human judgments have emerged as an attractive replacement due to strong correlation results. These models, however, require potentially expensive re-training for new domains and languages. Furthermore, their decisions are inherently non-transparent and appear to reflect unwelcome biases. We explore the simple type-based classifier metric, MacroF1, and study its applicability to MT evaluation. We find that MacroF1 is competitive on direct assessment, and outperforms others in indicating downstream cross-lingual information retrieval task performance. Further, we show that MacroF1 can be used to effectively compare supervised and unsupervised neural machine translation, and reveal significant qualitative differences in the methods' outputs.
翻訳日:2021-04-13 15:43:34 公開日:2021-04-12
# StylePTB: きめ細かい制御可能なテキストスタイル転送のための構成ベンチマーク

StylePTB: A Compositional Benchmark for Fine-grained Controllable Text Style Transfer ( http://arxiv.org/abs/2104.05196v1 )

ライセンス: Link先を確認
Yiwei Lyu, Paul Pu Liang, Hai Pham, Eduard Hovy, Barnab\'as P\'oczos, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) テキストスタイル転送は、ソース文定数から中核的な意味を維持しながら、ターゲットとしたスタイル変化のあるテキストを制御的に生成することを目的としている。 既存のスタイル転送ベンチマークの多くは、主に個々のハイレベルなセマンティックな変更(例)に焦点を当てている。 これは高いレベルで制御可能であるが、文の構造、強調、および文の内容を含むきめ細かい制御を提供しない。 本稿では,(1) テキストの原子語彙,構文,セマンティクス,セマンティクスにまたがる21のきめ細かなスタイリスティックな文からなる大規模ベンチマークであるStylePTBと,(2) より複雑で高レベルな転送のためのビルディングブロックとして,きめ細かなスタイリスティックな変化をモデル化可能な複数転送の合成を提案する。 StylePTBの既存のメソッドをベンチマークすることで、細粒度の変化をモデル化するのに苦労し、複数のスタイルを構成するのがさらに難しいことが分かる。 その結果、StylePTBは、制御可能なテキストスタイルの転送、構成モデル、および非絡み合い表現の学習における将来の研究を促進することを願っている。 これらの課題を解決することは、制御可能なテキスト生成への重要なステップを示す。

Text style transfer aims to controllably generate text with targeted stylistic changes while maintaining core meaning from the source sentence constant. Many of the existing style transfer benchmarks primarily focus on individual high-level semantic changes (e.g. positive to negative), which enable controllability at a high level but do not offer fine-grained control involving sentence structure, emphasis, and content of the sentence. In this paper, we introduce a large-scale benchmark, StylePTB, with (1) paired sentences undergoing 21 fine-grained stylistic changes spanning atomic lexical, syntactic, semantic, and thematic transfers of text, as well as (2) compositions of multiple transfers which allow modeling of fine-grained stylistic changes as building blocks for more complex, high-level transfers. By benchmarking existing methods on StylePTB, we find that they struggle to model fine-grained changes and have an even more difficult time composing multiple styles. As a result, StylePTB brings novel challenges that we hope will encourage future research in controllable text style transfer, compositional models, and learning disentangled representations. Solving these challenges would present important steps towards controllable text generation.
翻訳日:2021-04-13 14:42:23 公開日:2021-04-12
# 帰納的世界状態表現のためのupdater-extractorアーキテクチャ

Updater-Extractor Architecture for Inductive World State Representations ( http://arxiv.org/abs/2104.05500v1 )

ライセンス: Link先を確認
Arseny Moskvichev, James A. Liu(参考訳) 伝統的にNLPモデルの開発には、トレーニングと応用の2つの段階がある。 トレーニング後(アプリケーション時間)に取得した情報の保持は、(トランスフォーマーの場合)モデルのコンテキストウィンドウのサイズ、または(RNNの場合)長いシーケンスに関連する実践的な困難によってアーキテクチャ的に制限される。 本稿では,任意の長さのシーケンスを処理し,言語入力に基づいて世界に関する知識を洗練させる,トランスフォーマーベースの新しいアーキテクチャである Updater-Extractor を提案する。 我々は、入ってくる情報をその世界状態表現に組み込むようモデルを明示的に訓練し、強い帰納的一般化と極端に長距離依存を扱う能力を得る。 我々は我々のアプローチに理論的基礎を与える補題を証明する。 この結果はまた、Truncated Back-Propagation Through Time(Transformer XLなど)の変種でトレーニングされたモデルの成功と失敗モードに関する洞察を提供する。 実証的に、3つの異なるタスクにおけるモデルパフォーマンスを調査し、その可能性を実証する。 このプレプリントはまだ進行中です。 現在、我々は容易に解釈できるタスクに焦点を合わせており、提案したアイデアを将来的なNLPアプリケーションに適用する。

Developing NLP models traditionally involves two stages - training and application. Retention of information acquired after training (at application time) is architecturally limited by the size of the model's context window (in the case of transformers), or by the practical difficulties associated with long sequences (in the case of RNNs). In this paper, we propose a novel transformer-based Updater-Extractor architecture and a training procedure that can work with sequences of arbitrary length and refine its knowledge about the world based on linguistic inputs. We explicitly train the model to incorporate incoming information into its world state representation, obtaining strong inductive generalization and the ability to handle extremely long-range dependencies. We prove a lemma that provides a theoretical basis for our approach. The result also provides insight into success and failure modes of models trained with variants of Truncated Back-Propagation Through Time (such as Transformer XL). Empirically, we investigate the model performance on three different tasks, demonstrating its promise. This preprint is still a work in progress. At present, we focused on easily interpretable tasks, leaving the application of the proposed ideas to practical NLP applications for the future.
翻訳日:2021-04-13 14:41:58 公開日:2021-04-12
# 情報分散に基づく正規化によるテキスト分類の連続学習

Continual Learning for Text Classification with Information Disentanglement Based Regularization ( http://arxiv.org/abs/2104.05489v1 )

ライセンス: Link先を確認
Yufan Huang, Yanzhe Zhang, Jiaao Chen, Xuezhi Wang and Diyi Yang(参考訳) NLPモデルが絶えず学習し、時間とともに知識を得ることを可能にすることで、継続的な学習がますます重要になっている。 従来の継続学習手法は主に、モデルを新しいタスクに適切に一般化する方法に重点を置くことなく、以前のタスクからの知識を保存するように設計されている。 本研究では,テキスト分類に基づく連続学習のための情報分散に基づく正規化手法を提案する。 提案手法は,まずテキスト隠れ空間を,各タスクに固有のすべてのタスクや表現に共通する表現に分解し,さらにこれらの表現を別々に正規化し,一般化に必要な知識をよりよく制約する。 また,より一般的な表現空間や特定の表現空間を学習するために,次の文予測とタスクid予測という2つの単純な補助タスクも導入する。 大規模ベンチマークで行った実験は,最先端のベースラインに対する様々なシーケンスと長さを持つ連続テキスト分類タスクにおいて,本手法の有効性を示した。 私たちはコードをhttps://github.com/g t-salt/idbr.orgで公開しました。

Continual learning has become increasingly important as it enables NLP models to constantly learn and gain knowledge over time. Previous continual learning methods are mainly designed to preserve knowledge from previous tasks, without much emphasis on how to well generalize models to new tasks. In this work, we propose an information disentanglement based regularization method for continual learning on text classification. Our proposed method first disentangles text hidden spaces into representations that are generic to all tasks and representations specific to each individual task, and further regularizes these representations differently to better constrain the knowledge required to generalize. We also introduce two simple auxiliary tasks: next sentence prediction and task-id prediction, for learning better generic and specific representation spaces. Experiments conducted on large-scale benchmarks demonstrate the effectiveness of our method in continual text classification tasks with various sequences and lengths over state-of-the-art baselines. We have publicly released our code at https://github.com/G T-SALT/IDBR.
翻訳日:2021-04-13 14:40:10 公開日:2021-04-12
# 効果的なコセグメンテーションとデータ拡張による自己監督型マルチビューステレオ

Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation ( http://arxiv.org/abs/2104.05374v1 )

ライセンス: Link先を確認
Hongbin Xu, Zhipeng Zhou, Yu Qiao, Wenxiong Kang, Qiuxia Wu(参考訳) 近年,マルチビューステレオ(mvs)において,視点合成に基づく自己教師あり手法が明らかに進歩している。 しかし、既存の手法は、異なる視点の対応する点が同じ色を共有するという仮定に依存しており、実際にはそうとは限らない。 これは信頼できない自己監視信号につながり、最終的な再構築性能を損なう可能性がある。 この問題に対処するため、セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。 特に,多視点画像から相互意味を抽出し,セマンティック一貫性を導出する。 また,正規サンプルの予測を疑似基底真理として扱い,拡張サンプルの予測を正則化することにより,変換ロバスト性を保証する効果的なデータ提示機構を考案する。 DTUデータセットを用いた実験結果から,提案手法は教師なし手法の最先端性能を実現し,教師なし手法と同等に競合することを示した。 さらに,タンク・テンプルス・データセットに関する広範な実験により,提案手法の有効一般化能力を実証した。

Recent studies have witnessed that self-supervised methods based on view synthesis obtain clear progress on multi-view stereo (MVS). However, existing methods rely on the assumption that the corresponding points among different views share the same color, which may not always be true in practice. This may lead to unreliable self-supervised signal and harm the final reconstruction performance. To address the issue, we propose a framework integrated with more reliable supervision guided by semantic co-segmentation and data-augmentation. Specially, we excavate mutual semantic from multi-view images to guide the semantic consistency. And we devise effective data-augmentation mechanism which ensures the transformation robustness by treating the prediction of regular samples as pseudo ground truth to regularize the prediction of augmented samples. Experimental results on DTU dataset show that our proposed methods achieve the state-of-the-art performance among unsupervised methods, and even compete on par with supervised methods. Furthermore, extensive experiments on Tanks&Temples dataset demonstrate the effective generalization ability of the proposed method.
翻訳日:2021-04-13 14:39:10 公開日:2021-04-12
# FUDGE: これからの差別者によるテキスト生成制御

FUDGE: Controlled Text Generation With Future Discriminators ( http://arxiv.org/abs/2104.05218v1 )

ライセンス: Link先を確認
Kevin Yang and Dan Klein(参考訳) 本稿では,制御されたテキスト生成のためのフレキシブルかつモジュール方式であるFuture Discriminator for Generation (FUDGE)を提案する。 関心の分布からテキストを生成するための既存のモデルGが与えられた場合、FUDGEはGの出力ロジットのみへのアクセスを必要としながら、所望の属性a(例えば形式)を条件付けできる。 FUDGEは部分シーケンスで動作する属性予測器を学習し、この予測器の出力を使用してGの元の確率を調整する。 与えられた属性 a の条件分布のベイズ分解に対応する FUDGE モデルについて述べる。 さらに、FUDGEは複数の望ましい属性の予測子を簡単に作成できる。 我々は,FUDGEを3つのタスク – 詩のカップル補完,言語生成のトピック制御,機械翻訳の形式的変化 – で評価し,三つのタスクの利得を観察する。

We propose Future Discriminators for Generation (FUDGE), a flexible and modular method for controlled text generation. Given a pre-existing model G for generating text from a distribution of interest, FUDGE enables conditioning on a desired attribute a (for example, formality) while requiring access only to G's output logits. FUDGE learns an attribute predictor operating on a partial sequence, and uses this predictor's outputs to adjust G's original probabilities. We show that FUDGE models terms corresponding to a Bayesian decomposition of the conditional distribution of G given attribute a. Moreover, FUDGE can easily compose predictors for multiple desired attributes. We evaluate FUDGE on three tasks -- couplet completion in poetry, topic control in language generation, and formality change in machine translation -- and observe gains in all three tasks.
翻訳日:2021-04-13 14:36:58 公開日:2021-04-12
# HTCInfoMax:情報最大化による階層的テキスト分類のグローバルモデル

HTCInfoMax: A Global Model for Hierarchical Text Classification via Information Maximization ( http://arxiv.org/abs/2104.05220v1 )

ライセンス: Link先を確認
Zhongfen Deng, Hao Peng, Dongxiao He, Jianxin Li, Philip S. Yu(参考訳) 現在の階層的テキスト分類のための最先端モデルHiAGMには2つの制限がある。 まず、関係のない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。 第二に、構造エンコーダが学習したラベル表現に対する統計的制約は考慮していないが、表現学習の制約は以前の研究で有用であることが証明されている。 本稿では,テキストラベル相互情報最大化とラベル先行マッチングという2つのモジュールを含む情報最大化を導入することで,この問題に対処するhtcinfomaxを提案する。 最初のモジュールは、各テキストサンプルとその接地真理ラベル間の相互作用をモデル化し、無関係な情報をフィルタする。 第2の方法は、階層的なテキスト分類におけるラベルの不均衡をよりうまく処理できる、すべてのラベルに対して望ましい特性を持つ表現を学ぶようにストラクチャーエンコーダに促す。 2つのベンチマークデータセットの実験結果から,提案したHTCInfoMaxの有効性が示された。

The current state-of-the-art model HiAGM for hierarchical text classification has two limitations. First, it correlates each text sample with all labels in the dataset which contains irrelevant information. Second, it does not consider any statistical constraint on the label representations learned by the structure encoder, while constraints for representation learning are proved to be helpful in previous work. In this paper, we propose HTCInfoMax to address these issues by introducing information maximization which includes two modules: text-label mutual information maximization and label prior matching. The first module can model the interaction between each text sample and its ground truth labels explicitly which filters out irrelevant information. The second one encourages the structure encoder to learn better representations with desired characteristics for all labels which can better handle label imbalance in hierarchical text classification. Experimental results on two benchmark datasets demonstrate the effectiveness of the proposed HTCInfoMax.
翻訳日:2021-04-13 14:36:44 公開日:2021-04-12
# 名前付きエンティティ認識のための機能統合

Better Feature Integration for Named Entity Recognition ( http://arxiv.org/abs/2104.05316v1 )

ライセンス: Link先を確認
Lu Xu, Zhanming Jie, Wei Lu and Lidong Bing(参考訳) 名前付きエンティティ認識(NER)は、依存性ツリーが取得した長距離構造化情報を活用することで、メリットを享受できることが示されている。 これは、線形シーケンスによってキャプチャされたコンテキスト情報と、依存関係ツリーによってキャプチャされた構造化情報の両方が互いに補完する可能性があるためだと思います。 しかし、既存のアプローチは主に、改良されたNERモデルを構築するためのグラフ畳み込みネットワーク(GCN)のようなLSTMとグラフニューラルネットワークの積み重ねに重点を置いている。 本稿では,2種類の機能をSynergized-LSTM(Syn- LSTM)に組み込む,シンプルで堅牢なソリューションを提案する。 4つの言語にまたがる標準データセットを広範囲に実験した。 その結果,提案手法は従来の手法よりも性能が良く,パラメータは少ないことがわかった。 我々のモデルが強いベースラインと比較して長い依存性をキャプチャできることを示す。

It has been shown that named entity recognition (NER) could benefit from incorporating the long-distance structured information captured by dependency trees. We believe this is because both types of features - the contextual information captured by the linear sequences and the structured information captured by the dependency trees may complement each other. However, existing approaches largely focused on stacking the LSTM and graph neural networks such as graph convolutional networks (GCNs) for building improved NER models, where the exact interaction mechanism between the two types of features is not very clear, and the performance gain does not appear to be significant. In this work, we propose a simple and robust solution to incorporate both types of features with our Synergized-LSTM (Syn-LSTM), which clearly captures how the two types of features interact. We conduct extensive experiments on several standard datasets across four languages. The results demonstrate that the proposed model achieves better performance than previous approaches while requiring fewer parameters. Our further analysis demonstrates that our model can capture longer dependencies compared with strong baselines.
翻訳日:2021-04-13 14:36:30 公開日:2021-04-12
# ビーム探索を超えた機械翻訳復号

Machine Translation Decoding beyond Beam Search ( http://arxiv.org/abs/2104.05336v1 )

ライセンス: Link先を確認
R\'emi Leblond, Jean-Baptiste Alayrac, Laurent Sifre, Miruna Pislar, Jean-Baptiste Lespiau, Ioannis Antonoglou, Karen Simonyan and Oriol Vinyals(参考訳) ビームサーチは自動回帰機械翻訳モデルの復号化手法である。 BLEUの観点で一貫した改善をもたらすが、それは高いモデル確率で出力を見つけることだけに関係しており、したがって、エンドメトリックスやスコアの実践者が関心を持つものとは無関係である。 我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。 この目的のために,ニューラルネットワークによってパラメータ化される値関数に依存するものや,さまざまなメトリクスによる結果報告など,多数の復号アルゴリズムを探索する。 特に,モンテカルロ木探索(MCTS)に基づく手法を導入し,その競争力を示す。 我々は、言語アプリケーションでMCTSを実りよく使う方法の青写真を提供し、将来有望な方向性を開く。 我々は、どのアルゴリズムがゴールメトリックの特徴に最も大きく依存しているかを見いだし、我々の広範な実験と分析がこの分野のさらなる研究に役立つと信じている。

Beam search is the go-to method for decoding auto-regressive machine translation models. While it yields consistent improvements in terms of BLEU, it is only concerned with finding outputs with high model likelihood, and is thus agnostic to whatever end metric or score practitioners care about. Our aim is to establish whether beam search can be replaced by a more powerful metric-driven search technique. To this end, we explore numerous decoding algorithms, including some which rely on a value function parameterised by a neural network, and report results on a variety of metrics. Notably, we introduce a Monte-Carlo Tree Search (MCTS) based method and showcase its competitiveness. We provide a blueprint for how to use MCTS fruitfully in language applications, which opens promising future directions. We find that which algorithm is best heavily depends on the characteristics of the goal metric; we believe that our extensive experiments and analysis will inform further research in this area.
翻訳日:2021-04-13 14:36:11 公開日:2021-04-12
# 各種自動音声認識アーキテクチャにおける合成学習データの有用性の比較

Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures ( http://arxiv.org/abs/2104.05379v1 )

ライセンス: Link先を確認
Nick Rossenbach, Mohammad Zeineldeen, Benedikt Hilmes, Ralf Schl\"uter, Hermann Ney(参考訳) 最近のASR(Automatic-Speech -recognition)の出版物は、大規模なデータセットでうまく機能するが、低リソースシナリオに適用すると過度に適合する傾向にある注意エンコーダ・デコーダ(AED)アーキテクチャに強い焦点をあてている。 この問題を解決する一つの解決策は、追加のテキストが利用可能であれば、訓練されたテキスト音声合成システム(TTS)で合成データを生成することである。 これはAEDシステムを使った多くの出版物で成功した。 本稿では,asrアプリケーションを対象としたコーパス学習におけるロバスト性を高めるttsシステムのデータ前処理における無音補正手法を提案する。 本研究では,AEDシステムへの合成データの適用が成功しただけでなく,高度に最適化された最先端のハイブリッドASRシステムと,コネクショニスト時間分類(CTC)を用いた競合モノフォンベースシステム上で,同じ手法をテストする。 後続のシステムでは、合成データの追加は小さな効果しか与えないが、それでもLibriSpeech-100hの差を大きく上回っている。 最終単語誤り率は3.3%/10.0%で、クリーン/ノイズテストセット上のハイブリッドシステムでは、ラベルなしのオーディオデータを含まない以前の最先端システムを上回る。

Recent publications on automatic-speech-rec ognition (ASR) have a strong focus on attention encoder-decoder (AED) architectures which work well for large datasets, but tend to overfit when applied in low resource scenarios. One solution to tackle this issue is to generate synthetic data with a trained text-to-speech system (TTS) if additional text is available. This was successfully applied in many publications with AED systems. We present a novel approach of silence correction in the data pre-processing for TTS systems which increases the robustness when training on corpora targeted for ASR applications. In this work we do not only show the successful application of synthetic data for AED systems, but also test the same method on a highly optimized state-of-the-art Hybrid ASR system and a competitive monophone based system using connectionist-tempor al-classification (CTC). We show that for the later systems the addition of synthetic data only has a minor effect, but they still outperform the AED systems by a large margin on LibriSpeech-100h. We achieve a final word-error-rate of 3.3%/10.0% with a Hybrid system on the clean/noisy test-sets, surpassing any previous state-of-the-art systems that do not include unlabeled audio data.
翻訳日:2021-04-13 14:35:56 公開日:2021-04-12
# 生成モデルのボルツマンチューニング

Boltzmann Tuning of Generative Models ( http://arxiv.org/abs/2104.05252v1 )

ライセンス: Link先を確認
Victor Berger (TAU), Michele Sebag (TAU)(参考訳) 本稿では,外部微分可能基準の意味での良い例の生成を優先するために,生成モデルの後部チューニングに焦点を当てた。 提案手法はBoltzmann Tuning of Generative Models (BTGM)と呼ばれ、幅広い応用に適用できる。 特定のケースとして条件付き生成モデリングをカバーし、拒絶サンプリングに代わる安価な代替手段を提供する。 その紙の貢献は2倍だ。 まず、目的を定式化し、適切な最適化問題として取り組まれ、同じ目標を表す候補基準の中から選択するための実践的方法論が提案され、調整された生成モデルを効率的に学習するのに適している。 第二に、実世界の応用において、エネルギー政策の堅牢な設計の文脈において、BTGMが検討された基準の極端な領域をサンプリングする能力を示す。

The paper focuses on the a posteriori tuning of a generative model in order to favor the generation of good instances in the sense of some external differentiable criterion. The proposed approach, called Boltzmann Tuning of Generative Models (BTGM), applies to a wide range of applications. It covers conditional generative modelling as a particular case, and offers an affordable alternative to rejection sampling. The contribution of the paper is twofold. Firstly, the objective is formalized and tackled as a well-posed optimization problem; a practical methodology is proposed to choose among the candidate criteria representing the same goal, the one best suited to efficiently learn a tuned generative model. Secondly, the merits of the approach are demonstrated on a real-world application, in the context of robust design for energy policies, showing the ability of BTGM to sample the extreme regions of the considered criteria.
翻訳日:2021-04-13 14:34:59 公開日:2021-04-12
# 外部変数を用いたニューラルベース展開解析:NBEATSxを用いた電力価格予測

Neural basis expansion analysis with exogenous variables: Forecasting electricity prices with NBEATSx ( http://arxiv.org/abs/2104.05522v1 )

ライセンス: Link先を確認
Kin G. Olivares and Cristian Challu and Grzegorz Marcjasz and Rafa{\l} Weron and Artur Dubrawski(参考訳) 我々は、外因性因子を組み込むために、 \emph{neural basis expansion analysis} (NBEATS) を拡張した。 NBEATSxと呼ばれるこの手法は、優れたディープラーニングモデルを改善し、外因性変数を含むことによってその能力を拡張し、有用な情報の複数のソースを統合することができる。 nbeatsxモデルの実用性を示すために,電力価格予測(epf)タスクへの応用について,幅広い年月と市場にわたって包括的な研究を行っている。 従来の NBEATS モデルに比べて予測精度が 20 % 近く向上し,これらのタスクに特化している他の統計的・機械学習手法に比べて最大 5 % 向上した。 さらに、提案したニューラルネットワークは、時系列を構造的に分解し、トレンドと季節成分の相対的な影響を可視化し、モデル化されたプロセスと外因性要因との相互作用を明らかにすることができる解釈可能な構成を持つ。

We extend the \emph{neural basis expansion analysis} (NBEATS) to incorporate exogenous factors. The resulting method, called NBEATSx, improves on a well performing deep learning model, extending its capabilities by including exogenous variables and allowing it to integrate multiple sources of useful information. To showcase the utility of the NBEATSx model, we conduct a comprehensive study of its application to electricity price forecasting (EPF) tasks across a broad range of years and markets. We observe state-of-the-art performance, significantly improving the forecast accuracy by nearly 20\% over the original NBEATS model, and by up to 5\% over other well established statistical and machine learning methods specialized for these tasks. Additionally, the proposed neural network has an interpretable configuration that can structurally decompose time series, visualizing the relative impact of trend and seasonal components and revealing the modeled processes' interactions with exogenous factors.
翻訳日:2021-04-13 14:34:43 公開日:2021-04-12
# シーケンス対応シークエンス・カウンティ・ジェネレーション

Consequence-aware Sequential Counterfactual Generation ( http://arxiv.org/abs/2104.05592v1 )

ライセンス: Link先を確認
Philip Naumann and Eirini Ntoutsi(参考訳) 現在では、ブラックボックス機械学習モデルと対話し、特定のインスタンスを変更してモデルから望ましい結果を得る方法を理解するために、カウンターファクトが一般的なテクニックになっている。 しかし、既存のほとんどのアプローチは、これらの変更の即時実体化を前提としています。 近年、アクションが適用される順序も考慮し、いわゆる逐次反事実生成問題へと繋がる手法が提案されている。 本研究では,逐次的反事実生成のためのモデル非依存手法を提案する。 我々は,タスクを多目的最適化問題として定式化し,その原因となるアクションの最適なシーケンスを見つけるための進化的アプローチを提案する。 私たちのコストモデルは、アクションの直接的な効果だけでなく、その影響も考慮しています。 実験の結果,最先端技術と比較して,提案手法は費用対効果が低く,効率が良く,選択すべき多様なソリューション群をユーザに提供できることがわかった。

Counterfactuals have become a popular technique nowadays for interacting with black-box machine learning models and understanding how to change a particular instance to obtain a desired outcome from the model. However, most existing approaches assume instant materialization of these changes, ignoring that they may require effort and a specific order of application. Recently, methods have been proposed that also consider the order in which actions are applied, leading to the so-called sequential counterfactual generation problem. In this work, we propose a model-agnostic method for sequential counterfactual generation. We formulate the task as a multi-objective optimization problem and present an evolutionary approach to find optimal sequences of actions leading to the counterfactuals. Our cost model considers not only the direct effect of an action, but also its consequences. Experimental results show that compared to state of the art, our approach generates less costly solutions, is more efficient, and provides the user with a diverse set of solutions to choose from.
翻訳日:2021-04-13 14:34:27 公開日:2021-04-12
# 注意型エンコーダ・デコーダASRモデルの言語モデル統合改善手法の検討

Investigating Methods to Improve Language Model Integration for Attention-based Encoder-Decoder ASR Models ( http://arxiv.org/abs/2104.05544v1 )

ライセンス: Link先を確認
Mohammad Zeineldeen, Aleksandr Glushko, Wilfried Michel, Albert Zeyer, Ralf Schl\"uter, Hermann Ney(参考訳) 注意に基づくエンコーダ・デコーダ(AED)モデルは、トレーニングの書き起こしから暗黙的な内部言語モデル(ILM)を学ぶ。 より不自由なテキストでトレーニングされた外部LMとの統合は通常、より良いパフォーマンスをもたらす。 ハイブリット自己回帰変換器(HAT)のようなベイズ的解釈は、ハイブリッド隠れマルコフモデルアプローチと同様に、この暗黙のLMに対応する識別音響モデルの先行による分割を示唆している。 暗黙の lm は一般には効率的に計算できず、それを推定する最善の方法が何であるかは定かではない。 本研究では,文献と異なるアプローチを比較し,ALDモデルから直接ILMを推定する新しい手法を提案する。 提案手法は従来の手法よりも優れている。 また,ALDモデルのキャパシティを低下させ,ラベルコンテキストを制限し,既存のLMとともにAMDモデルをトレーニングすることにより,ILMを抑制する他の手法についても検討する。

Attention-based encoder-decoder (AED) models learn an implicit internal language model (ILM) from the training transcriptions. The integration with an external LM trained on much more unpaired text usually leads to better performance. A Bayesian interpretation as in the hybrid autoregressive transducer (HAT) suggests dividing by the prior of the discriminative acoustic model, which corresponds to this implicit LM, similarly as in the hybrid hidden Markov model approach. The implicit LM cannot be calculated efficiently in general and it is yet unclear what are the best methods to estimate it. In this work, we compare different approaches from the literature and propose several novel methods to estimate the ILM directly from the AED model. Our proposed methods outperform all previous approaches. We also investigate other methods to suppress the ILM mainly by decreasing the capacity of the AED model, limiting the label context, and also by training the AED model together with a pre-existing LM.
翻訳日:2021-04-13 14:34:10 公開日:2021-04-12
# Noether: 物事が変化すれば変わるほど、同じ状態になる

Noether: The More Things Change, the More Stay the Same ( http://arxiv.org/abs/2104.05508v1 )

ライセンス: Link先を確認
Grzegorz G{\l}uch, R\"udiger Urbanke(参考訳) 対称性はニューラルネットワークの分析において重要な要素であることが証明されている。 今のところ、それらの使用はほとんどが暗黙的または一見偶然である。 我々は対称性が果たす役割を体系的に研究する。 特に,対称性が学習アルゴリズムとどのように相互作用するかを明らかにする。 この研究の重要な要素はネーターの有名な定理で、非公式に言えば対称性は保存された量(エネルギーの保存や運動量の保存など)をもたらす。 勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。 例えば、活性化関数の対称性は重み行列の有界性につながり、線形活性化の特定の場合、連続した層の平衡方程式につながり、データの拡張は「運動量」型の制限を持つ勾配経路につながり、時間対称性は神経接核のバージョンに繋がる。 対称性だけは最適化経路を規定しないが、より多くの対称性がモデルに含まれるほど、経路により多くの制限が課される。 対称性もまた過度なパラメトリゼーションを意味するので、これは事実上、この過度なパラメトリゼーションの一部が保存量の存在によって取り消されることを意味する。 したがって、対称性は勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。

Symmetries have proven to be important ingredients in the analysis of neural networks. So far their use has mostly been implicit or seemingly coincidental. We undertake a systematic study of the role that symmetry plays. In particular, we clarify how symmetry interacts with the learning algorithm. The key ingredient in our study is played by Noether's celebrated theorem which, informally speaking, states that symmetry leads to conserved quantities (e.g., conservation of energy or conservation of momentum). In the realm of neural networks under gradient descent, model symmetries imply restrictions on the gradient path. E.g., we show that symmetry of activation functions leads to boundedness of weight matrices, for the specific case of linear activations it leads to balance equations of consecutive layers, data augmentation leads to gradient paths that have "momentum"-type restrictions, and time symmetry leads to a version of the Neural Tangent Kernel. Symmetry alone does not specify the optimization path, but the more symmetries are contained in the model the more restrictions are imposed on the path. Since symmetry also implies over-parametrization , this in effect implies that some part of this over-parametrization is cancelled out by the existence of the conserved quantities. Symmetry can therefore be thought of as one further important tool in understanding the performance of neural networks under gradient descent.
翻訳日:2021-04-13 14:33:28 公開日:2021-04-12
# GPflux: 深いガウスのプロセスのためのライブラリ

GPflux: A Library for Deep Gaussian Processes ( http://arxiv.org/abs/2104.05674v1 )

ライセンス: Link先を確認
Vincent Dutordoir, Hugh Salimbeni, Eric Hambro, John McLeod, Felix Leibfried, Artem Artemev, Mark van der Wilk, James Hensman, Marc P. Deisenroth, ST John(参考訳) 本稿では,深いガウス過程(DGP)を重視したベイズ深層学習のためのPythonライブラリGPfluxを紹介する。 DGPの実装は、多変量ガウス分布とインデックスの複雑な簿記を扱うときに生じる様々な数学的微妙さのために難しい試みである。 現在、この分野の研究活動を支援する、アクティブにメンテナンスされ、オープンソースで拡張可能なライブラリは存在しない。 GPfluxはこのギャップを埋めるために、最先端のDGPアルゴリズムのライブラリを提供し、新しいベイジアンおよびGPベースの階層モデルと推論スキームを実装するためのビルディングブロックを提供することを目指している。 GPfluxはKerasディープラーニングエコシステム上に互換性があり、構築されている。 これにより、実践者は、ディープラーニングコミュニティのツールを活用して、カスタマイズされたベイジアンモデルの構築とトレーニングを行い、ベイジアン層と標準ニューラルネットワーク層で構成される階層モデルを単一のコヒーレントフレームワークで作成することができる。 GPfluxはGPのオブジェクトと操作の大部分をGPflowに依存しているため、リーンコードベースを持ちながら、効率的でモジュール化され拡張可能なライブラリである。

We introduce GPflux, a Python library for Bayesian deep learning with a strong emphasis on deep Gaussian processes (DGPs). Implementing DGPs is a challenging endeavour due to the various mathematical subtleties that arise when dealing with multivariate Gaussian distributions and the complex bookkeeping of indices. To date, there are no actively maintained, open-sourced and extendable libraries available that support research activities in this area. GPflux aims to fill this gap by providing a library with state-of-the-art DGP algorithms, as well as building blocks for implementing novel Bayesian and GP-based hierarchical models and inference schemes. GPflux is compatible with and built on top of the Keras deep learning eco-system. This enables practitioners to leverage tools from the deep learning community for building and training customised Bayesian models, and create hierarchical models that consist of Bayesian and standard neural network layers in a single coherent framework. GPflux relies on GPflow for most of its GP objects and operations, which makes it an efficient, modular and extensible library, while having a lean codebase.
翻訳日:2021-04-13 14:33:08 公開日:2021-04-12
# すべてのラベルは等しく作成されない:ラベルグルーピングとコトレーニングによる半スーパービジョンの拡張

All Labels Are Not Created Equal: Enhancing Semi-supervision via Label Grouping and Co-training ( http://arxiv.org/abs/2104.05248v1 )

ライセンス: Link先を確認
Islam Nassar, Samitha Herath, Ehsan Abbasnejad, Wray Buntine, Gholamreza Haffari(参考訳) Pseudo-labelingは、半教師付き学習(SSL)において重要なコンポーネントである。 反復的にモデルを使用して、ラベルのないデータに対してトレーニングを行うための人工ラベルを生成する。 様々な手法の共通する特性は、クラス間の視覚的類似性についての事前の知識を考慮せずにラベル決定を行うためのモデルの予測にのみ依存していることである。 本稿では,疑似ラベルデータのプール内で視覚的に類似したクラスを表現できないため,擬似ラベルの品質が低下することを示す。 本稿では,ラベルのセマンティクスと協調学習を利用してこの問題に対処するSemCoを提案する。 クラスラベルの2つの異なるビューを持つ2つの分類器をトレーニングする。 1つの分類器はラベルの1つのホットビューを使用し、クラス間の潜在的な類似性を無視する。 次に2つの分類器を共同学習し、その不一致に基づいて学習する。 提案手法は,1000個のラベル付きサンプルを持つミニイメージネットデータセットにおける5.6%の精度向上を含む,様々なsslタスクにおいて最先端の性能を実現する。 また,本手法ではバッチサイズを小さくし,最高のパフォーマンスを達成するためにトレーニングイテレーションを少なくする。 コードはhttps://github.com/i slam-nassar/semcoで利用可能です。

Pseudo-labeling is a key component in semi-supervised learning (SSL). It relies on iteratively using the model to generate artificial labels for the unlabeled data to train against. A common property among its various methods is that they only rely on the model's prediction to make labeling decisions without considering any prior knowledge about the visual similarity among the classes. In this paper, we demonstrate that this degrades the quality of pseudo-labeling as it poorly represents visually similar classes in the pool of pseudo-labeled data. We propose SemCo, a method which leverages label semantics and co-training to address this problem. We train two classifiers with two different views of the class labels: one classifier uses the one-hot view of the labels and disregards any potential similarity among the classes, while the other uses a distributed view of the labels and groups potentially similar classes together. We then co-train the two classifiers to learn based on their disagreements. We show that our method achieves state-of-the-art performance across various SSL tasks including 5.6% accuracy improvement on Mini-ImageNet dataset with 1000 labeled examples. We also show that our method requires smaller batch size and fewer training iterations to reach its best performance. We make our code available at https://github.com/i slam-nassar/semco.
翻訳日:2021-04-13 14:32:06 公開日:2021-04-12
# 長期視覚認識のためのクラスバランス蒸留

Class-Balanced Distillation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2104.05279v1 )

ライセンス: Link先を確認
Ahmet Iscen, Andr\'e Araujo, Boqing Gong, Cordelia Schmid(参考訳) 実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。 ロングテール視覚認識への効果的で単純なアプローチは、特徴表現と分類器をそれぞれインスタンスとクラスバランスサンプリングで個別に学習することである。 本稿では,インスタンスサンプリングで学習した特徴表現が長文設定では最適とはほど遠いという重要な観察を行うことにより,新たな枠組みを提案する。 本研究の主な貢献は,知識蒸留を利用して特徴表現を強化する,CBD(Class-Balanced Distillation)と呼ばれる新しい訓練方法である。 CBDは、第2の訓練段階において特徴表現を進化させ、第1の段階で学んだ教師によって指導される。 第2段階では、低表現のクラスにフォーカスするために、クラスバランスのサンプリングを使用する。 このフレームワークは、自然に複数の教師の利用に対応でき、モデルのアンサンブルから情報を解き放ち、認識能力を高めることができる。 実験の結果,提案手法はImageNet-LT, iNaturalist17, iNaturalist18などの長尾認識ベンチマークにおいて, 常に高い性能を示すことがわかった。 また,本手法は,既存手法と異なり,テールクラスの性能向上のためにヘッドクラスの精度を犠牲にしないことを示した。

Real-world imagery is often characterized by a significant imbalance of the number of images per class, leading to long-tailed distributions. An effective and simple approach to long-tailed visual recognition is to learn feature representations and a classifier separately, with instance and class-balanced sampling, respectively. In this work, we introduce a new framework, by making the key observation that a feature representation learned with instance sampling is far from optimal in a long-tailed setting. Our main contribution is a new training method, referred to as Class-Balanced Distillation (CBD), that leverages knowledge distillation to enhance feature representations. CBD allows the feature representation to evolve in the second training stage, guided by the teacher learned in the first stage. The second stage uses class-balanced sampling, in order to focus on under-represented classes. This framework can naturally accommodate the usage of multiple teachers, unlocking the information from an ensemble of models to enhance recognition capabilities. Our experiments show that the proposed technique consistently outperforms the state of the art on long-tailed recognition benchmarks such as ImageNet-LT, iNaturalist17 and iNaturalist18. The experiments also show that our method does not sacrifice the accuracy of head classes to improve the performance of tail classes, unlike most existing work.
翻訳日:2021-04-13 14:31:45 公開日:2021-04-12
# landmark regularization: ranking guided super-net training in neural architecture search

Landmark Regularization: Ranking Guided Super-Net Training in Neural Architecture Search ( http://arxiv.org/abs/2104.05309v1 )

ライセンス: Link先を確認
Kaicheng Yu, Rene Ranftl, Mathieu Salzmann(参考訳) ウェイトシェアリングは、コモディティハードウェア上での検索を可能にするため、ニューラルネットワーク検索におけるデファクトスタンダードとなっている。 しかし、近年の研究では、スタンドアロンアーキテクチャのパフォーマンスと対応する共有重み付きネットワークのパフォーマンスのランキング障害が実証されている。 これは重量共有NASアルゴリズムの主な仮定に反し、その有効性を制限する。 本稿では,共有重みネットワークのパフォーマンスランキングと,少数のランドマークアーキテクチャを用いたスタンドアロンアーキテクチャとの相関を最大化することを目的とした正規化用語を提案する。 正規化項を3つの異なるNASアルゴリズムに組み込んで、アルゴリズム、検索空間、タスク間のパフォーマンスを一貫して改善することを示す。

Weight sharing has become a de facto standard in neural architecture search because it enables the search to be done on commodity hardware. However, recent works have empirically shown a ranking disorder between the performance of stand-alone architectures and that of the corresponding shared-weight networks. This violates the main assumption of weight-sharing NAS algorithms, thus limiting their effectiveness. We tackle this issue by proposing a regularization term that aims to maximize the correlation between the performance rankings of the shared-weight network and that of the standalone architectures using a small set of landmark architectures. We incorporate our regularization term into three different NAS algorithms and show that it consistently improves performance across algorithms, search-spaces, and tasks.
翻訳日:2021-04-13 14:31:26 公開日:2021-04-12
# Havrda-Charvat Entropy を用いた深層学習による肺内視鏡の分類

Deep learning using Havrda-Charvat entropy for classification of pulmonary endomicroscopy ( http://arxiv.org/abs/2104.05450v1 )

ライセンス: Link先を確認
Thibaud Brochet, Jerome Lapuyade-Lahorgue, Sebastien Bougleux, Mathieu Salaun, Su Ruan(参考訳) 肺の光学的内視鏡(PEE)はリアルタイムのイメージング技術である。 肺胞を顕微鏡的に観察することができる。 臨床環境で取得されたPOE画像シーケンスは、その配列の25%が非形式的フレーム(すなわち、)である。 純粋ノイズと運動人工物) 将来のデータ分析では、これらの非形式的フレームはまずシーケンスから取り除かなければならない。 そこで本研究の目的は,内視鏡画像中の不均一画像の自動検出法を開発することである。 我々は,検出問題を分類問題として捉えることを提案する。 CNN(Convolutional Neural Network)に基づく分類器は,Shannonエントロピーのパラメトリック一般化であるHaverda-Charvatエントロピーに基づく新しい損失関数を用いて設計されている。 我々は、シャノンエントロピーよりも安定なモデルを提供するので、この公式を用いてあらゆる種類のデータをよりよく保持することを提案する。 提案手法は,2947個の異なる画像を含む1つのPOEデータセット上でテストし,シャノンエントロピーを用いた場合よりも優れた結果を示し,オーバーフィッティングの問題に対して良好な振る舞いを示す。 キーワード:Deep Learning, CNN, Shannon entropy, Havrda-Charvat entropy, lung optical endomicroscopy。

Pulmonary optical endomicroscopy (POE) is an imaging technology in real time. It allows to examine pulmonary alveoli at a microscopic level. Acquired in clinical settings, a POE image sequence can have as much as 25% of the sequence being uninformative frames (i.e. pure-noise and motion artefacts). For future data analysis, these uninformative frames must be first removed from the sequence. Therefore, the objective of our work is to develop an automatic detection method of uninformative images in endomicroscopy images. We propose to take the detection problem as a classification one. Considering advantages of deep learning methods, a classifier based on CNN (Convolutional Neural Network) is designed with a new loss function based on Havrda-Charvat entropy which is a parametrical generalization of the Shannon entropy. We propose to use this formula to get a better hold on all sorts of data since it provides a model more stable than the Shannon entropy. Our method is tested on one POE dataset including 2947 distinct images, is showing better results than using Shannon entropy and behaves better with regard to the problem of overfitting. Keywords: Deep Learning, CNN, Shannon entropy, Havrda-Charvat entropy, Pulmonary optical endomicroscopy.
翻訳日:2021-04-13 14:30:44 公開日:2021-04-12
# イメージレベルかオブジェクトレベルか? ロングテール検出のための2つの再サンプリング戦略の物語

Image-Level or Object-Level? A Tale of Two Resampling Strategies for Long-Tailed Detection ( http://arxiv.org/abs/2104.05702v1 )

ライセンス: Link先を確認
Nadine Chang, Zhiding Yu, Yu-Xiong Wang, Anima Anandkumar, Sanja Fidler, Jose M. Alvarez(参考訳) 長い尾の分布を持つデータセットのトレーニングは、分類や検出といった主要な認識タスクでは困難である。 この課題に対処するため、イメージリサンプリングは通常、単純だが効果的なアプローチとして導入される。 しかし、1つの画像に複数のクラスが存在する可能性があるため、長い尾検出は分類と異なる。 その結果、画像再サンプリングだけでは、オブジェクトレベルで十分なバランスの取れた分布が得られるには不十分である。 我々は,動的エピソディックメモリバンクに基づくオブジェクト中心メモリリプレイ戦略を導入することで,オブジェクトレベルのリサンプリングに対処する。 提案手法には、2つの利点がある: 1) 重要な余分な計算を伴わない便利なオブジェクトレベルの再サンプリング、2) モデル更新による暗黙的な機能レベルの拡張。 画像レベルのリサンプリングとオブジェクトレベルのリサンプリングはどちらも重要であり,共同リサンプリング戦略(RIO)と統合可能であることを示す。 提案手法は,LVIS v0.5の様々なバックボーンにおける最先端のロングテール検出法とセグメンテーション法より優れている。

Training on datasets with long-tailed distributions has been challenging for major recognition tasks such as classification and detection. To deal with this challenge, image resampling is typically introduced as a simple but effective approach. However, we observe that long-tailed detection differs from classification since multiple classes may be present in one image. As a result, image resampling alone is not enough to yield a sufficiently balanced distribution at the object level. We address object-level resampling by introducing an object-centric memory replay strategy based on dynamic, episodic memory banks. Our proposed strategy has two benefits: 1) convenient object-level resampling without significant extra computation, and 2) implicit feature-level augmentation from model updates. We show that image-level and object-level resamplings are both important, and thus unify them with a joint resampling strategy (RIO). Our method outperforms state-of-the-art long-tailed detection and segmentation methods on LVIS v0.5 across various backbones.
翻訳日:2021-04-13 14:30:26 公開日:2021-04-12
# コンパクトトランスフォーマーによるビッグデータパラダイムの脱却

Escaping the Big Data Paradigm with Compact Transformers ( http://arxiv.org/abs/2104.05704v1 )

ライセンス: Link先を確認
Ali Hassani, Steven Walton, Nikhil Shah, Abulikemu Abuduweili, Jiachen Li, Humphrey Shi(参考訳) トランスフォーマーが言語処理の標準として台頭し、コンピュータビジョンの進歩とともに、前例のない大きさと大量のトレーニングデータとともに、小さなデータ集合には適さないと信じている人も多い。 この傾向は、特定の科学領域におけるデータの可用性の制限と、この分野の研究から限られたリソースを持つ人々の排除を含む、大きな関心事に繋がる。 本稿では,トランスフォーマーが「データ空腹」であるとする神話を排除し,大規模なデータに対してのみ適用可能であることを示す。 適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。 提案モデルは,新しいシーケンスプーリング戦略と畳み込みの利用を通じて,クラストークンと位置埋め込みの必要性を解消する。 CNNと比較して、我々のコンパクトトランスフォーマーはパラメータやMACが少なく、類似の精度が得られる。 本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。 最新のcnnベースのアプローチに匹敵するcifar-10のスクラッチからトレーニングすると、94.72%の精度に達し、以前のトランスフォーマーベースのモデルよりも大幅に改善されている。 私たちのシンプルでコンパクトな設計はトランスフォーマーを、基本的な計算リソースを備えたものや重要な小さなデータセットを扱うものへのアクセスによって民主化する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/S HI-Labs/Compact-Tran sformers.comで公開されます。

With the rise of Transformers as the standard for language processing, and their advancements in computer vision, along with their unprecedented size and amounts of training data, many have come to believe that they are not suitable for small sets of data. This trend leads to great concerns, including but not limited to: limited availability of data in certain scientific domains and the exclusion of those with limited resource from research in the field. In this paper, we dispel the myth that transformers are "data hungry" and therefore can only be applied to large sets of data. We show for the first time that with the right size and tokenization, transformers can perform head-to-head with state-of-the-art CNNs on small datasets. Our model eliminates the requirement for class token and positional embeddings through a novel sequence pooling strategy and the use of convolutions. We show that compared to CNNs, our compact transformers have fewer parameters and MACs, while obtaining similar accuracies. Our method is flexible in terms of model size, and can have as little as 0.28M parameters and achieve reasonable results. It can reach an accuracy of 94.72% when training from scratch on CIFAR-10, which is comparable with modern CNN based approaches, and a significant improvement over previous Transformer based models. Our simple and compact design democratizes transformers by making them accessible to those equipped with basic computing resources and/or dealing with important small datasets. Our code and pre-trained models will be made publicly available at https://github.com/S HI-Labs/Compact-Tran sformers.
翻訳日:2021-04-13 14:30:09 公開日:2021-04-12
# 二重摂動:ロバストネスのロバスト性と対実バイアス評価について

Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation ( http://arxiv.org/abs/2104.05232v1 )

ライセンス: Link先を確認
Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang, Cho-Jui Hsieh(参考訳) ロバストさと反事実バイアスは通常、テストデータセットで評価される。 しかし、これらの評価は堅牢か? テストデータセットがわずかに乱れた場合、評価結果は同じになるのでしょうか? 本稿では,テストデータセット以外のモデルの弱点を明らかにするための「二重摂動」フレームワークを提案する。 フレームワークはまず、テストデータセットを摂動させ、テストデータに似た豊富な自然文を構築し、その後、単一単語置換に関する予測変化を診断する。 この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。 1)ロバスト性については,同義語置換に着目し,予測の変更が可能な脆弱な例を特定する。 提案手法は,オリジナルおよびロバストに訓練されたcnnとトランスフォーマーの両方において,高い成功率(96.0%-99.8%)を達成した。 2)反事実バイアスについては,人口統計学的トークン(性別,人種など)の置換に着目し,構築文間の予測のシフトを測定する。 本手法は,テストデータセットで直接表示されない隠れたモデルバイアスを明らかにすることができる。 私たちのコードはhttps://github.com/c hong-z/nlp-second-or der-attackで利用可能です。

Robustness and counterfactual bias are usually evaluated on a test dataset. However, are these evaluations robust? If the test dataset is perturbed slightly, will the evaluation results keep the same? In this paper, we propose a "double perturbation" framework to uncover model weaknesses beyond the test dataset. The framework first perturbs the test dataset to construct abundant natural sentences similar to the test data, and then diagnoses the prediction change regarding a single-word substitution. We apply this framework to study two perturbation-based approaches that are used to analyze models' robustness and counterfactual bias in English. (1) For robustness, we focus on synonym substitutions and identify vulnerable examples where prediction can be altered. Our proposed attack attains high success rates (96.0%-99.8%) in finding vulnerable examples on both original and robustly trained CNNs and Transformers. (2) For counterfactual bias, we focus on substituting demographic tokens (e.g., gender, race) and measure the shift of the expected prediction among constructed sentences. Our method is able to reveal the hidden model biases not directly shown in the test dataset. Our code is available at https://github.com/c hong-z/nlp-second-or der-attack.
翻訳日:2021-04-13 14:28:43 公開日:2021-04-12
# 社会経済・スマートメータデータを用いた住宅エネルギー消費パターンの解明

Uncover Residential Energy Consumption Patterns Using Socioeconomic and Smart Meter Data ( http://arxiv.org/abs/2104.05154v1 )

ライセンス: Link先を確認
Wenjun Tang, Hao Wang, Xian-Long Lee, Hong-Tzer Yang(参考訳) 本稿では,負荷パターンと分布による住宅利用者のエネルギー消費挙動をモデル化し,機械学習による消費者の負荷パターンと社会経済的特徴との関係を明らかにする。 本研究では,実世界のスマートメータデータを分析し,k-medoidsクラスタリングを用いて負荷パターンを抽出する。 負荷パターンと社会経済的特徴の関係を推定するために,特徴選択と深層学習モデルを用いた分析フレームワークを開発した。 具体的には,エントロピーに基づく特徴選択法を用いて,負荷パターンに影響を及ぼす社会経済的特徴を同定し,その解釈可能性に寄与する。 さらに,消費者の負荷パターンと選択した社会経済的特徴の関係を特徴付けるために,カスタマイズしたディープニューラルネットワークモデルを開発した。 Pecan Streetスマートメーターデータとサーベイを用いて,提案手法の検証を行った。 我々は,負荷パターンと社会経済情報との関係を把握し,回帰モデルや単一DNNモデルなど,優れたベンチマークを実現できることを示した。

This paper models residential consumers' energy-consumption behavior by load patterns and distributions and reveals the relationship between consumers' load patterns and socioeconomic features by machine learning. We analyze the real-world smart meter data and extract load patterns using K-Medoids clustering, which is robust to outliers. We develop an analytical framework with feature selection and deep learning models to estimate the relationship between load patterns and socioeconomic features. Specifically, we use an entropy-based feature selection method to identify the critical socioeconomic characteristics that affect load patterns and benefit our method's interpretability. We further develop a customized deep neural network model to characterize the relationship between consumers' load patterns and selected socioeconomic features. Numerical studies validate our proposed framework using Pecan Street smart meter data and survey. We demonstrate that our framework can capture the relationship between load patterns and socioeconomic information and outperform benchmarks such as regression and single DNN models.
翻訳日:2021-04-13 14:27:22 公開日:2021-04-12
# 大規模深層学習推薦モデルの高性能分散学習

High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models ( http://arxiv.org/abs/2104.05158v1 )

ライセンス: Link先を確認
Dheevatsa Mudigere, Yuchen Hao, Jianyu Huang, Andrew Tulloch, Srinivas Sridharan, Xing Liu, Mustafa Ozdal, Jade Nie, Jongsoo Park, Liang Luo, Jie (Amy) Yang, Leon Gao, Dmytro Ivchenko, Aarti Basant, Yuxi Hu, Jiyan Yang, Ehsan K. Ardestani, Xiaodong Wang, Rakesh Komuravelli, Ching-Hsiang Chu, Serhat Yilmaz, Huayu Li, Jiyuan Qian, Zhuobo Feng, Yinbin Ma, Junjie Yang, Ellie Wen, Hong Li, Lin Yang, Chonglin Sun, Whitney Zhao, Krishna Dhulipala, KR Kishore, Tyler Graf, Assaf Eisenman, Kiran Kumar Matam, Adi Gangidi, Pallab Bhattacharya, Guoqiang Jerry Chen, Manoj Krishnan, Krishnakumar Nair, Petr Lapukhov, Maxim Naumov, Lin Qiao, Mikhail Smelyanskiy, Bill Jia, Vijay Rao(参考訳) ディープラーニングリコメンデーションモデル(dlrms)は、facebookの多くのビジネスクリティカルなサービスで使用されており、データセンターにおけるインフラストラクチャの需要という点で、最大のaiアプリケーションである。 本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて述べる。 PyTorchをベースとした高性能なスケーラブルソフトウェアスタックを導入し,それを新たな進化である \zionex プラットフォームと組み合わせる。 我々は,超大型DLRMを最大1emph{12 Trillionパラメータで訓練できることを実証し,従来のシステム上での解法に要する時間として40\times$ Speedupに達することを示す。 We achieve this by (i) designing the \zionex platform with dedicated scale-out network, provisioned with high bandwidth, optimal topology and efficient transport (ii) implementing an optimized PyTorch-based training stack supporting both model and data parallelism (iii) developing sharding algorithms capable of hierarchical partitioning of the embedding tables along row, column dimensions and load balancing them across multiple workers; (iv) adding high-performance core operators while retaining flexibility to support optimizers with fully deterministic updates (v) leveraging reduced precision communications, multi-level memory hierarchy (HBM+DDR+SSD) and pipelining. さらに,本番環境における堅牢かつ効率的なエンドツーエンドトレーニングに必要な分散データ取り込みおよびその他のサポートサービスについて,簡単に解説する。

Deep learning recommendation models (DLRMs) are used across many business-critical services at Facebook and are the single largest AI application in terms of infrastructure demand in its data-centers. In this paper we discuss the SW/HW co-designed solution for high-performance distributed training of large-scale DLRMs. We introduce a high-performance scalable software stack based on PyTorch and pair it with the new evolution of \zion platform, namely \zionex. We demonstrate the capability to train very large DLRMs with up to \emph{12 Trillion parameters} and show that we can attain $40\times$ speedup in terms of time to solution over previous systems. We achieve this by (i) designing the \zionex platform with dedicated scale-out network, provisioned with high bandwidth, optimal topology and efficient transport (ii) implementing an optimized PyTorch-based training stack supporting both model and data parallelism (iii) developing sharding algorithms capable of hierarchical partitioning of the embedding tables along row, column dimensions and load balancing them across multiple workers; (iv) adding high-performance core operators while retaining flexibility to support optimizers with fully deterministic updates (v) leveraging reduced precision communications, multi-level memory hierarchy (HBM+DDR+SSD) and pipelining. Furthermore, we develop and briefly comment on distributed data ingestion and other supporting services that are required for the robust and efficient end-to-end training in production environments.
翻訳日:2021-04-13 14:27:06 公開日:2021-04-12
# GarmentNets:Caegory- Level Pose Estimation for Garments via Canonical Space Shape Completion

GarmentNets: Category-Level Pose Estimation for Garments via Canonical Space Shape Completion ( http://arxiv.org/abs/2104.05177v1 )

ライセンス: Link先を確認
Cheng Chi and Shuran Song(参考訳) 本稿では,衣服のカテゴリーレベルのポーズ推定の課題に取り組む。 ほぼ無限の自由度で、衣服の完全な構成(ポーズ)は、しばしばその3次元表面全体の頂点あたりの3D位置によって記述される。 しかし、衣服は、特に折りたたみや折りたたみの際には、極端に排他的であり、完全な3D表面を知覚することは困難である。 そこで本研究では,変形可能な物体ポーズ推定問題を正準空間における形状完了タスクとして定式化することを目的とする。 この正準空間は、カテゴリ内の衣服のインスタンス間で定義されるので、共有されたカテゴリレベルのポーズを規定する。 観察された部分表面を標準空間にマッピングし、この空間で完了させることで、出力表現は、頂点ごとの標準座標ラベルを持つ完全な3Dメッシュを使用して、衣服の完全な構成を記述する。 衣服の薄い3d構造を適切に扱うために,一般化された巻数場を用いた新しい3d形状表現を提案した。 実験によると、GarmentNetsは、目に見えない服のインスタンスに一般化でき、代替のアプローチに比べて大幅にパフォーマンスが向上している。

This paper tackles the task of category-level pose estimation for garments. With a near infinite degree of freedom, a garment's full configuration (i.e., poses) is often described by the per-vertex 3D locations of its entire 3D surface. However, garments are also commonly subject to extreme cases of self-occlusion, especially when folded or crumpled, making it challenging to perceive their full 3D surface. To address these challenges, we propose GarmentNets, where the key idea is to formulate the deformable object pose estimation problem as a shape completion task in the canonical space. This canonical space is defined across garments instances within a category, therefore, specifies the shared category-level pose. By mapping the observed partial surface to the canonical space and completing it in this space, the output representation describes the garment's full configuration using a complete 3D mesh with the per-vertex canonical coordinate label. To properly handle the thin 3D structure presented on garments, we proposed a novel 3D shape representation using the generalized winding number field. Experiments demonstrate that GarmentNets is able to generalize to unseen garment instances and achieve significantly better performance compared to alternative approaches.
翻訳日:2021-04-13 14:25:12 公開日:2021-04-12
# UNIT-DDPM:拡散確率モデルによる非ペア画像変換

UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2104.05358v1 )

ライセンス: Link先を確認
Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon(参考訳) 本稿では,非対向学習を必要とせず,拡散確率モデルをデノナイズした画像対イメージ変換手法を提案する。 本手法は,Unpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM) を用いて生成モデルを訓練し,両領域間の画像の連成分布をマルコフ連鎖として推定する。 特に、両方のドメイン翻訳モデルを同時に更新し、ランジュバンダイナミクスに基づいて、入力元ドメインイメージに基づいて条件づけされた、デノイジンマルコフ連鎖モンテカルロアプローチによってターゲットドメイン画像を生成する。 提案手法は,画像間翻訳のための安定モデルトレーニングを提供し,高品質な画像出力を生成する。 これにより、色とマルチスペクトル画像を含むいくつかの公開データセット上でのFr\'echet Inception Distance(FID)のパフォーマンスが、現代の対向画像から画像への変換方法よりも大幅に向上する。

We propose a novel unpaired image-to-image translation method that uses denoising diffusion probabilistic models without requiring adversarial training. Our method, UNpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM), trains a generative model to infer the joint distribution of images over both domains as a Markov chain by minimising a denoising score matching objective conditioned on the other domain. In particular, we update both domain translation models simultaneously, and we generate target domain images by a denoising Markov Chain Monte Carlo approach that is conditioned on the input source domain images, based on Langevin dynamics. Our approach provides stable model training for image-to-image translation and generates high-quality image outputs. This enables state-of-the-art Fr\'echet Inception Distance (FID) performance on several public datasets, including both colour and multispectral imagery, significantly outperforming the contemporary adversarial image-to-image translation methods.
翻訳日:2021-04-13 14:24:49 公開日:2021-04-12
# 条件付きGANデータ拡張による果実品質と欠陥画像分類

Fruit Quality and Defect Image Classification with Conditional GAN Data Augmentation ( http://arxiv.org/abs/2104.05647v1 )

ライセンス: Link先を確認
Jordan J. Bird, Chloe M. Barnes, Luis J. Manso, Anik\'o Ek\'art, Diego R. Faria(参考訳) 現代の人工知能技術は、コンピュータビジョンの雇用によって良い作物と悪い作物を区別することを可能にし、不好ましくない果物から健康な果物を選ぶパイプラインのステップを提供する。 現場における最新研究は、実世界の利用に関する人口の代表的ではない小さなデータセット(<1000画像)の精度の高い結果を報告している。 本研究の目的は,データ拡張による一般化の向上と,モデルプルーニングによるオーバーフィッティングとエネルギー使用量の削減により,現実世界の活用をさらに促進することである。 本研究では,果実品質の画像分類の改善に向けて,微調整,転写学習,生成モデルに基づくトレーニングデータ拡張のアイデアを組み合わせた機械学習パイプラインを提案する。 2690画像の公開データセットを用いてvgg16レモン品質分類モデルを調整するために線形ネットワークトポロジ探索を行う。 4096ニューロンの完全な結合層を畳み込み層に付加すると、画像の分類精度は83.77%になる。 そして,2000エポックの訓練データに基づいて条件付き生成型adversarial networkを訓練し,比較的現実的な画像を生成することを学ぶ。 実際の写真で訓練されたモデルのグラッド-CAM分析は、合成画像が形状、モールド、グルーレンなどの分類可能な特徴を示すことを示した。 88.75%の高い画像分類精度は、合成画像によるトレーニングを増強することで達成され、条件付き生成逆数ネットワークは、データ不足の問題を緩和する新しいデータを生成することができる、と論じられる。 最後に, モデルプルーニングは多項式崩壊によって行われ, 条件付きGAN拡張分類ネットワークは, 原サイズの50%まで圧縮した場合, 81.16%の分類精度を維持できることがわかった。

Contemporary Artificial Intelligence technologies allow for the employment of Computer Vision to discern good crops from bad, providing a step in the pipeline of selecting healthy fruit from undesirable fruit, such as those which are mouldy or gangrenous. State-of-the-art works in the field report high accuracy results on small datasets (<1000 images), which are not representative of the population regarding real-world usage. The goals of this study are to further enable real-world usage by improving generalisation with data augmentation as well as to reduce overfitting and energy usage through model pruning. In this work, we suggest a machine learning pipeline that combines the ideas of fine-tuning, transfer learning, and generative model-based training data augmentation towards improving fruit quality image classification. A linear network topology search is performed to tune a VGG16 lemon quality classification model using a publicly-available dataset of 2690 images. We find that appending a 4096 neuron fully connected layer to the convolutional layers leads to an image classification accuracy of 83.77%. We then train a Conditional Generative Adversarial Network on the training data for 2000 epochs, and it learns to generate relatively realistic images. Grad-CAM analysis of the model trained on real photographs shows that the synthetic images can exhibit classifiable characteristics such as shape, mould, and gangrene. A higher image classification accuracy of 88.75% is then attained by augmenting the training with synthetic images, arguing that Conditional Generative Adversarial Networks have the ability to produce new data to alleviate issues of data scarcity. Finally, model pruning is performed via polynomial decay, where we find that the Conditional GAN-augmented classification network can retain 81.16% classification accuracy when compressed to 50% of its original size.
翻訳日:2021-04-13 14:24:29 公開日:2021-04-12
# CAPRI-Net: アダプティブプリミティブアセンブリによるCAD形状の学習

CAPRI-Net: Learning Compact CAD Shapes with Adaptive Primitive Assembly ( http://arxiv.org/abs/2104.05652v1 )

ライセンス: Link先を確認
Fenggen Yu, Zhiqin Chen, Manyi Li, Aditya Sanghi, Hooman Shayani, Ali Mahdavi-Amiri and Hao Zhang(参考訳) 本稿では,3次元コンピュータ支援設計(CAD)モデルのコンパクトかつ解釈可能な暗黙表現を適応的プリミティブアセンブリの形で学習するニューラルネットワークであるCAPRI-Netを紹介する。 私たちのネットワークは、入力3次元形状を点クラウドまたはボクセルグリッドとして提供し、構成的ソリッドジオメトリ(csg)演算を介して二次曲面プリミティブのコンパクトな集合によって再構成する。 ネットワークは自己監督され、再構築の損失があり、鋭い縁と可算性のあるcsg木で忠実な3d再構築に繋がる。 CADモデルのパラメトリックな性質は、形状レベルではより局所的に予測しやすくするが、多くの構造的・トポロジカルなバリエーションがあり、3次元形状のための最先端のニューラルモデルに重大な一般化可能性をもたらす。 我々のネットワークは、各テスト形状に関する適応的なトレーニングによってこの課題に対処し、モデルコレクションで事前トレーニングされたネットワークを微調整する。 筆者らは,シェープネットとabcの両方の学習フレームワークについて,これまでのcadデータセットの中で最大かつ多様であり,復元品質,形状エッジ,コンパクト性,解釈性の観点から評価した。

We introduce CAPRI-Net, a neural network for learning compact and interpretable implicit representations of 3D computer-aided design (CAD) models, in the form of adaptive primitive assemblies. Our network takes an input 3D shape that can be provided as a point cloud or voxel grids, and reconstructs it by a compact assembly of quadric surface primitives via constructive solid geometry (CSG) operations. The network is self-supervised with a reconstruction loss, leading to faithful 3D reconstructions with sharp edges and plausible CSG trees, without any ground-truth shape assemblies. While the parametric nature of CAD models does make them more predictable locally, at the shape level, there is a great deal of structural and topological variations, which present a significant generalizability challenge to state-of-the-art neural models for 3D shapes. Our network addresses this challenge by adaptive training with respect to each test shape, with which we fine-tune the network that was pre-trained on a model collection. We evaluate our learning framework on both ShapeNet and ABC, the largest and most diverse CAD dataset to date, in terms of reconstruction quality, shape edges, compactness, and interpretability, to demonstrate superiority over current alternatives suitable for neural CAD reconstruction.
翻訳日:2021-04-13 14:24:00 公開日:2021-04-12
# 実世界知能システムにおける信頼の確立のための概念的枠組み

A Conceptual Framework for Establishing Trust in Real World Intelligent Systems ( http://arxiv.org/abs/2104.05432v1 )

ライセンス: Link先を確認
Michael Guckert, Nils Gumpfer, Jennifer Hannig, Till Keller and Neil Urquhart(参考訳) 創発的要素を含むインテリジェントな情報システムは、結果が十分に説明されず、手続き自体が完全に再追跡できないため、しばしば信頼の問題に直面する。 これは、確率要素または入力データの構造と関連性の両方に依存する制御フローによって引き起こされる。 このようなアルゴリズムの信頼性は、ユーザがシステムと対話して結果を探索し、期待されるソリューションと比較できるパターンを見つけることによって確立できる。 アルゴリズム的な結果に対するドメインの人間的理解の特徴やパターンを反映すると、そのようなパターンに対する認識が生まれ、ユーザがソリューションに持つ信頼が高まる可能性がある。 期待が満たされない場合は、ソリューションが期待に合致するかどうか、あるいは期待を超えるかどうかを綿密な検査で判断することができる。 ソリューションを受け入れるか拒否するかによって、ユーザの期待セットが進化し、ユーザのための学習プロセスが確立される。 本稿では,このプロセスを反映し,サポートする概念的枠組みを提案する。 この枠組みは、2つの異なる分野の事例分析と、複雑なタスクのエキスパートを支援する情報システムの分析の結果である。

Intelligent information systems that contain emergent elements often encounter trust problems because results do not get sufficiently explained and the procedure itself can not be fully retraced. This is caused by a control flow depending either on stochastic elements or on the structure and relevance of the input data. Trust in such algorithms can be established by letting users interact with the system so that they can explore results and find patterns that can be compared with their expected solution. Reflecting features and patterns of human understanding of a domain against algorithmic results can create awareness of such patterns and may increase the trust that a user has in the solution. If expectations are not met, close inspection can be used to decide whether a solution conforms to the expectations or whether it goes beyond the expected. By either accepting or rejecting a solution, the user's set of expectations evolves and a learning process for the users is established. In this paper we present a conceptual framework that reflects and supports this process. The framework is the result of an analysis of two exemplary case studies from two different disciplines with information systems that assist experts in their complex tasks.
翻訳日:2021-04-13 14:23:37 公開日:2021-04-12
# Factual Probingは, [MASK]: 学習対リコール学習

Factual Probing Is [MASK]: Learning vs. Learning to Recall ( http://arxiv.org/abs/2104.05240v1 )

ライセンス: Link先を確認
Zexuan Zhong, Dan Friedman, Danqi Chen(参考訳) ペトロニなど。 (2019)は,事前学習した言語モデルから,それらをクローゼスタイルのプロンプトとして表現し,それを符号化した事実情報量に基づく下限として予測精度を解釈することにより,世界事実を検索できることを実証した。 その後の研究は、不連続な事実の集合をトレーニングデータとして使用して、より良いプロンプトを求めることによって見積もりを締め付けようとしている。 本研究では,これらの事実探索手法をよりよく理解するための2つの補完的貢献を行う。 まず,連続的な埋め込み空間を直接最適化する新しい,効率的な手法であるOptiPromptを提案する。 この単純な方法は、lamaベンチマークでさらに6.4%の事実を予測できることがわかった。 第2に、より重要な疑問を提起する: これらの調査結果は、本当に低い境界として解釈できるのか? これらのプロンプト検索手法がトレーニングデータから学ぶことは可能でしょうか? 驚くべきことに、これらの手法が使用するトレーニングデータには、基礎となる事実分布の一定の規則性が含まれており、我々のものを含む既存のプロンプトメソッドは、より優れた事実予測のためにそれらを活用できる。 学習からリコールへの"学習"を分離する一連の制御実験を実施し,事前学習された言語モデルに対して,さまざまなプロンプトがどのようなことを顕在化できるかをより詳細に示す。

Petroni et al. (2019) demonstrated that it is possible to retrieve world facts from a pre-trained language model by expressing them as cloze-style prompts and interpret the model's prediction accuracy as a lower bound on the amount of factual information it encodes. Subsequent work has attempted to tighten the estimate by searching for better prompts, using a disjoint set of facts as training data. In this work, we make two complementary contributions to better understand these factual probing techniques. First, we propose OptiPrompt, a novel and efficient method which directly optimizes in continuous embedding space. We find this simple method is able to predict an additional 6.4% of facts in the LAMA benchmark. Second, we raise a more important question: Can we really interpret these probing results as a lower bound? Is it possible that these prompt-search methods learn from the training data too? We find, somewhat surprisingly, that the training data used by these methods contains certain regularities of the underlying fact distribution, and all the existing prompt methods, including ours, are able to exploit them for better fact prediction. We conduct a set of control experiments to disentangle "learning" from "learning to recall", providing a more detailed picture of what different prompts can reveal about pre-trained language models.
翻訳日:2021-04-13 14:21:30 公開日:2021-04-12
# 除去のための学習:等方性事前学習BERT埋め込みを目指して

Learning to Remove: Towards Isotropic Pre-trained BERT Embedding ( http://arxiv.org/abs/2104.05274v1 )

ライセンス: Link先を確認
Yuxin Liang, Rui Cao, Jie Zheng, Jie Ren, Ling Gao(参考訳) BERTのような事前訓練された言語モデルは、自然言語処理(NLP)タスクのより一般的な選択となっている。 単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。 しかし,事前学習したBERT埋め込みの形状を測定し解析した結果,等方性には程遠いことがわかった。 単語ベクトルは原点を中心とせず、2つのランダムな単語間の平均コサイン類似度は0よりもはるかに高く、単語ベクトルが狭い円錐に分散され、単語埋め込みの表現能力が低下していることを示す。 そこで本研究では,BERT の重みを学習可能な重みで埋め込む方法として,この問題を解決するための単純かつ効果的な方法を提案する。 単語類似度タスクの重み付けをトレーニングし、処理された埋め込みがより等方的であることを示す。 本手法は,単語類似性,単語類似性,意味的テキスト類似性という3つの標準化タスクで評価される。 全てのタスクにおいて、我々の方法で処理された単語埋め込みは、元の埋め込みよりも一貫して優れている(単語類似性の平均13%、意味的テキスト類似性16%)。 また,本手法はハイパーパラメータの変化に対してより堅牢であることが証明された。

Pre-trained language models such as BERT have become a more common choice of natural language processing (NLP) tasks. Research in word representation shows that isotropic embeddings can significantly improve performance on downstream tasks. However, we measure and analyze the geometry of pre-trained BERT embedding and find that it is far from isotropic. We find that the word vectors are not centered around the origin, and the average cosine similarity between two random words is much higher than zero, which indicates that the word vectors are distributed in a narrow cone and deteriorate the representation capacity of word embedding. We propose a simple, and yet effective method to fix this problem: remove several dominant directions of BERT embedding with a set of learnable weights. We train the weights on word similarity tasks and show that processed embedding is more isotropic. Our method is evaluated on three standardized tasks: word similarity, word analogy, and semantic textual similarity. In all tasks, the word embedding processed by our method consistently outperforms the original embedding (with average improvement of 13% on word analogy and 16% on semantic textual similarity) and two baseline methods. Our method is also proven to be more robust to changes of hyperparameter.
翻訳日:2021-04-13 14:21:07 公開日:2021-04-12
# stay together: 単独および分割型アナフォラ分解能のためのシステム

Stay Together: A System for Single and Split-antecedent Anaphora Resolution ( http://arxiv.org/abs/2104.05320v1 )

ライセンス: Link先を確認
Juntao Yu, Nafise Sadat Moosavi, Silviu Paun, Massimo Poesio(参考訳) 基礎的で単発的なアナフォラの最先端は近年大きく改善されている。 そのため、タイム・ウォーナーは、テレコムがショータイム・ネットワークスの半分を購入する計画に対して法的に異議を唱えているため、スプリット・アンテシデント・アナフォラのようなより複雑なアナフォラのケースにより多くの注意を払うようになった。 スプリット・アンセレント・アナフォラはシングル・アンセレント・アナフォラよりは稀で複雑であり、その結果、コア推論をテストするために設計された多くのデータセットでは注釈が付けられておらず、金の言及や金のスプリット・アンセレント・アナフォラを仮定する非現実的な条件下で、このタイプのアナフォラの解決に関する以前の研究が行われた。 これらのシステムは分割型アパルトのみに焦点を当てている。 本研究では,一対一のアナフォを解消し,予測された言及を用いたより現実的な設定で評価するシステムを提案する。 また、標準コア基準評価指標を用いて、単一および分割集約アナプホルをどのように評価するかという問題にも取り組み始めます。

The state-of-the-art on basic, single-antecedent anaphora has greatly improved in recent years. Researchers have therefore started to pay more attention to more complex cases of anaphora such as split-antecedent anaphora, as in Time-Warner is considering a legal challenge to Telecommunications Inc's plan to buy half of Showtime Networks Inc-a move that could lead to all-out war between the two powerful companies. Split-antecedent anaphora is rarer and more complex to resolve than single-antecedent anaphora; as a result, it is not annotated in many datasets designed to test coreference, and previous work on resolving this type of anaphora was carried out in unrealistic conditions that assume gold mentions and/or gold split-antecedent anaphors are available. These systems also focus on split-antecedent anaphors only. In this work, we introduce a system that resolves both single and split-antecedent anaphors, and evaluate it in a more realistic setting that uses predicted mentions. We also start addressing the question of how to evaluate single and split-antecedent anaphors together using standard coreference evaluation metrics.
翻訳日:2021-04-13 14:20:45 公開日:2021-04-12
# NLP手法の人的評価における大きなミスアライメント問題

The Great Misalignment Problem in Human Evaluation of NLP Methods ( http://arxiv.org/abs/2104.05361v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen and Khalid Alnajjar(参考訳) 本稿では,自然言語処理研究における大過ち問題について概説する。これは,問題定義が提案手法と一致せず,人的評価が定義や方法と一致していないことを意味する。 本研究では,ACL 2020で公表された10件の無作為なサンプルを調査し,人体評価の結果を報告する。 その結果,問題定義,方法,評価の面では,1つの論文が完全に一致していることがわかった。 2つの論文だけが、その手法でモデル化されたものと一致した人間の評価を提示した。 これらの結果から, 大不一致問題は大きな問題であり, 評価結果の妥当性と再現性に影響を及ぼすことが示唆された。

We outline the Great Misalignment Problem in natural language processing research, this means simply that the problem definition is not in line with the method proposed and the human evaluation is not in line with the definition nor the method. We study this misalignment problem by surveying 10 randomly sampled papers published in ACL 2020 that report results with human evaluation. Our results show that only one paper was fully in line in terms of problem definition, method and evaluation. Only two papers presented a human evaluation that was in line with what was modeled in the method. These results highlight that the Great Misalignment Problem is a major one and it affects the validity and reproducibility of results obtained by a human evaluation.
翻訳日:2021-04-13 14:20:23 公開日:2021-04-12
# 日付:変圧器の自己スーパービジョンによるテキストの異常検出

DATE: Detecting Anomalies in Text via Self-Supervision of Transformers ( http://arxiv.org/abs/2104.05591v1 )

ライセンス: Link先を確認
Andrei Manolache and Florin Brad and Elena Burceanu(参考訳) 異常検出(AD)のためのディープラーニングモデルの導入は、従来の手法よりも優れた性能のため、近年広く利用されている。 最近の画像における異常の深層化手法は、エンドツーエンドの自己監督設定において、正常性のより良い特徴を学習する。 これらの手法は、モデルに視覚データに適用された異なる変換を識別させ、出力を使用して異常スコアを計算する。 テキスト列に新しい前文タスクを導入することで,このアプローチをテキスト広告に適用する。 我々は、DATEモデルをエンドツーエンドに学習し、2つの独立かつ補完的な自己超越信号、トークンレベルで1つ、シーケンスレベルで1つを強制する。 この新たなタスクの定式化の下で、20NewsgroupsおよびAG Newsデータセット上で、強い量的および質的な結果を示す。 半教師付き環境では、最先端の結果を+13.5%、+6.9%(AUROC)で上回ります。 教師なしの構成では、DATEはトレーニングデータの10%がアウトレーヤで汚染されている場合(他のデータと比較すると0%)、他のすべてのメソッドを上回ります。

Leveraging deep learning models for Anomaly Detection (AD) has seen widespread use in recent years due to superior performances over traditional methods. Recent deep methods for anomalies in images learn better features of normality in an end-to-end self-supervised setting. These methods train a model to discriminate between different transformations applied to visual data and then use the output to compute an anomaly score. We use this approach for AD in text, by introducing a novel pretext task on text sequences. We learn our DATE model end-to-end, enforcing two independent and complementary self-supervision signals, one at the token-level and one at the sequence-level. Under this new task formulation, we show strong quantitative and qualitative results on the 20Newsgroups and AG News datasets. In the semi-supervised setting, we outperform state-of-the-art results by +13.5% and +6.9%, respectively (AUROC). In the unsupervised configuration, DATE surpasses all other methods even when 10% of its training data is contaminated with outliers (compared with 0% for the others).
翻訳日:2021-04-13 14:20:11 公開日:2021-04-12
# samanantar: 11のindic言語で利用可能な最大の並列コーパスコレクション

Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages ( http://arxiv.org/abs/2104.05596v1 )

ライセンス: Link先を確認
Gowtham Ramesh, Sumanth Doddapaneni, Aravinth Bheemaraj, Mayank Jobanputra, Raghavan AK, Ajitesh Sharma, Sujit Sahoo, Harshita Diddee, Mahalakshmi J, Divyanshu Kakwani, Navneet Kumar, Aswin Pradeep, Kumar Deepak, Vivek Raghavan, Anoop Kunchukuttan, Pratyush Kumar, Mitesh Shantadevi Khapra(参考訳) 我々は,indic 言語で利用可能な最大規模の並列コーパスコレクションである samanantar を提案する。 このコレクションには、英語と11のIndic言語(2つの言語族)の合計4690万の文対が含まれている。 特に、既存のパラレルコーパスから1240万の文ペアをコンパイルし、さらにwebから3460万の文ペアを抽出し、公開可能な文ペアの2.8倍の増加を実現しました。 多くのコーパスやツール,メソッドを組み合わせることで,Webから並列文を抽出する。 特に, (a) ウェブクローリングされた単言語コーパス, (b) スキャンされた文書から文を抽出するためのocr, (c) 文を整列するための多言語表現モデル, (d) 大量の文を検索するために, 近距離近傍探索を行う。 新たに採掘したコーパスから採取したサンプルの人間による評価により,11言語対の並列文の品質が検証された。 さらに,ピボット言語として英語を用いて,英語中心の並列コーパスから,55言語対の870万文対を抽出した。 Samanantar上でこれらの言語にまたがる多言語NMTモデルをトレーニングし、他のベースラインと比較した。 我々のモデルはこれらのベンチマークで既存のモデルより優れており、Samanantarの実用性を確立しています。 我々の data\footnote{https://indicnlp.ai4 bharat.org/samananta r} と model\footnote{https://github.com/A I4Bharat/IndicTrans} が公開され、Indic NMT および Indic 言語用多言語 NLP の研究の進展を支援することを期待しています。

We present Samanantar, the largest publicly available parallel corpora collection for Indic languages. The collection contains a total of 46.9 million sentence pairs between English and 11 Indic languages (from two language families). In particular, we compile 12.4 million sentence pairs from existing, publicly-available parallel corpora, and we additionally mine 34.6 million sentence pairs from the web, resulting in a 2.8X increase in publicly available sentence pairs. We mine the parallel sentences from the web by combining many corpora, tools, and methods. In particular, we use (a) web-crawled monolingual corpora, (b) document OCR for extracting sentences from scanned documents (c) multilingual representation models for aligning sentences, and (d) approximate nearest neighbor search for searching in a large collection of sentences. Human evaluation of samples from the newly mined corpora validate the high quality of the parallel sentences across 11 language pairs. Further, we extracted 82.7 million sentence pairs between all 55 Indic language pairs from the English-centric parallel corpus using English as the pivot language. We trained multilingual NMT models spanning all these languages on Samanantar and compared with other baselines and previously reported results on publicly available benchmarks. Our models outperform existing models on these benchmarks, establishing the utility of Samanantar. Our data\footnote{https://indicnlp.ai4 bharat.org/samananta r} and models\footnote{https://github.com/A I4Bharat/IndicTrans} will be available publicly and we hope they will help advance research in Indic NMT and multilingual NLP for Indic languages.
翻訳日:2021-04-13 14:19:55 公開日:2021-04-12
# セマンティックフレーム予測

Semantic Frame Forecast ( http://arxiv.org/abs/2104.05604v1 )

ライセンス: Link先を確認
Chieh-Yang Huang and Ting-Hao 'Kenneth' Huang(参考訳) 本稿では,次の10,100,あるいは1000の文で発生する意味的フレームを予測するタスクである意味的フレーム予測を紹介する。 以前の仕事は、ストーリーの短期的な未来を予測することに集中していた。 しかし、小説家が長い物語を書くとき、数文の文章を生成するだけでは、フォローアップストーリーを開発するためのハイレベルな洞察を得るのに十分ではない。 本稿では,各ブロックが一定数の文(例えば10,100,200)を含む「物語ブロック」の列として長い物語を定式化する。 この定式化により、数文の範囲を超えたフォローアップストーリーアークを予測することができる。 各フレームの逆文書頻度(idf)によって正規化された意味フレームの項周波数(tf)を用いてストーリーブロックを表現する。 本書の4,794冊と,CODA-19の7,962冊の科学論文に,ブロックサイズを5~1000文にまとめたセマンティックフレーム予測実験を行った。 その結果、自動化されたモデルは、ランダム、事前、リプレイのベースラインよりもフォローアップストーリーブロックを予測でき、タスクの実行可能性を示している。 また, ブロックサイズが150以上の場合, フレーム表現を特徴として使用するモデルは, 既存のアプローチよりも優れていた。 また,提案したフレーム表現が,単語雲として可視化された場合,人間にとって分かりやすく,代表的かつ特異であることを示す。 私たちのコードはhttps://github.com/a ppleternity/framefor ecastingで利用可能です。

This paper introduces semantic frame forecast, a task that predicts the semantic frames that will occur in the next 10, 100, or even 1,000 sentences in a running story. Prior work focused on predicting the immediate future of a story, such as one to a few sentences ahead. However, when novelists write long stories, generating a few sentences is not enough to help them gain high-level insight to develop the follow-up story. In this paper, we formulate a long story as a sequence of "story blocks," where each block contains a fixed number of sentences (e.g., 10, 100, or 200). This formulation allows us to predict the follow-up story arc beyond the scope of a few sentences. We represent a story block using the term frequencies (TF) of semantic frames in it, normalized by each frame's inverse document frequency (IDF). We conduct semantic frame forecast experiments on 4,794 books from the Bookcorpus and 7,962 scientific abstracts from CODA-19, with block sizes ranging from 5 to 1,000 sentences. The results show that automated models can forecast the follow-up story blocks better than the random, prior, and replay baselines, indicating the task's feasibility. We also learn that the models using the frame representation as features outperform all the existing approaches when the block size is over 150 sentences. The human evaluation also shows that the proposed frame representation, when visualized as word clouds, is comprehensible, representative, and specific to humans. Our code is available at https://github.com/a ppleternity/FrameFor ecasting.
翻訳日:2021-04-13 14:19:23 公開日:2021-04-12
# Transformerを用いた動的・階層的トラフィック時空間特性の学習

Learning dynamic and hierarchical traffic spatiotemporal features with Transformer ( http://arxiv.org/abs/2104.05163v1 )

ライセンス: Link先を確認
Haoyang Yan, Xiaolei Ma(参考訳) 交通予測はインテリジェントトランスポートシステム(ITS)の必須部分であり、長期にわたるネットワーク全体の正確な交通速度予測は最も困難な課題の1つである。 近年,この領域では深層学習が普及している。 交通データは道路ネットワークと物理的に関連付けられているため、ほとんどのモデルでは時空間グラフモデリング問題として扱い、グラフ畳み込みネットワーク(GCN)ベースの手法を用いる。 これらのGCNベースのモデルは、空間依存を反映する事前定義された固定された隣接行列に依存する。 しかし、事前定義された固定隣接行列は、交通流の実際の依存を反映して制限される。 本稿では,空間-時間グラフモデリングと長期トラヒック予測のための新しいモデルであるトラヒックトランスフォーマを提案する。 Transformerは自然言語処理(NLP)で最も人気のあるフレームワークである。 そして、時空間問題に適応することにより、トラヒックトランスフォーマは、マルチヘッドアテンションとマスキングマルチヘッドアテンション機構によって動的にデータを介して時空間の特徴を階層的に抽出し、これらの特徴をトラフィック予測に融合させる。 さらに、注意重み行列の分析は、道路網の影響力のある部分を見つけ出し、交通ネットワークをよりよく学べるようにします。 筆者らが作成した公開トラフィックネットワークデータセットと実世界のトラフィックネットワークデータセットの実験結果から,提案したモデルが最先端のモデルよりも優れた性能を実現することを示す。

Traffic forecasting is an indispensable part of Intelligent transportation systems (ITS), and long-term network-wide accurate traffic speed forecasting is one of the most challenging tasks. Recently, deep learning methods have become popular in this domain. As traffic data are physically associated with road networks, most proposed models treat it as a spatiotemporal graph modeling problem and use Graph Convolution Network (GCN) based methods. These GCN-based models highly depend on a predefined and fixed adjacent matrix to reflect the spatial dependency. However, the predefined fixed adjacent matrix is limited in reflecting the actual dependence of traffic flow. This paper proposes a novel model, Traffic Transformer, for spatial-temporal graph modeling and long-term traffic forecasting to overcome these limitations. Transformer is the most popular framework in Natural Language Processing (NLP). And by adapting it to the spatiotemporal problem, Traffic Transformer hierarchically extracts spatiotemporal features through data dynamically by multi-head attention and masked multi-head attention mechanism, and fuse these features for traffic forecasting. Furthermore, analyzing the attention weight matrixes can find the influential part of road networks, allowing us to learn the traffic networks better. Experimental results on the public traffic network datasets and real-world traffic network datasets generated by ourselves demonstrate our proposed model achieves better performance than the state-of-the-art ones.
翻訳日:2021-04-13 14:18:51 公開日:2021-04-12
# 属性強化型近傍を用いた深層ネットワーク表現学習

Deep Attributed Network Representation Learning via Attribute Enhanced Neighborhood ( http://arxiv.org/abs/2104.05234v1 )

ライセンス: Link先を確認
Cong Li, Min Shi, Bo Qu, Xiang Li(参考訳) 帰結型ネットワーク表現学習は、ネットワーク構造と属性情報の統合によるノード埋め込みの学習を目標としている。 ノードの1次,2次,2次および高次近接を示す1段階,2段階,多段階の関係を含むミクロ構造と属性意味論を同時に捉えることが課題である。 本稿では,属性強化近傍(DANRL-ANE)モデルを用いたディープ属性ネットワーク表現学習を提案し,ノード表現の堅牢性と有効性を改善する。 DANRL-ANEモデルはオートエンコーダの概念を採用し、デコーダコンポーネントを3つのブランチに拡張し、異なる順序の近接をキャプチャする。 我々は,属性類似度行列と属性類似度行列をモデル入力として線形に結合し,その属性類似度行列を社会的同相性に基づく属性間のコサイン類似度によって計算する。 このようにして、スパースネットワーク上のdanrl-aneモデルのロバスト性を高めるために2次近接を保存し、トポロジカル情報と属性情報を同時に扱う。 さらに、シグモイドクロスエントロピー損失関数を拡張して、近傍のキャラクタを捕捉し、第1次近接をよりよく保存する。 5つの実世界のデータセットと2つのネットワーク分析タスク、すなわちリンク予測とノード分類の最先端モデルと比較した。 DANRL-ANEモデルは、属性情報が十分であれば、スパースネットワークや独立したノードを持つネットワークでも、様々なネットワークでよく機能する。

Attributed network representation learning aims at learning node embeddings by integrating network structure and attribute information. It is a challenge to fully capture the microscopic structure and the attribute semantics simultaneously, where the microscopic structure includes the one-step, two-step and multi-step relations, indicating the first-order, second-order and high-order proximity of nodes, respectively. In this paper, we propose a deep attributed network representation learning via attribute enhanced neighborhood (DANRL-ANE) model to improve the robustness and effectiveness of node representations. The DANRL-ANE model adopts the idea of the autoencoder, and expands the decoder component to three branches to capture different order proximity. We linearly combine the adjacency matrix with the attribute similarity matrix as the input of our model, where the attribute similarity matrix is calculated by the cosine similarity between the attributes based on the social homophily. In this way, we preserve the second-order proximity to enhance the robustness of DANRL-ANE model on sparse networks, and deal with the topological and attribute information simultaneously. Moreover, the sigmoid cross-entropy loss function is extended to capture the neighborhood character, so that the first-order proximity is better preserved. We compare our model with the state-of-the-art models on five real-world datasets and two network analysis tasks, i.e., link prediction and node classification. The DANRL-ANE model performs well on various networks, even on sparse networks or networks with isolated nodes given the attribute information is sufficient.
翻訳日:2021-04-13 14:18:26 公開日:2021-04-12
# マルチモーダルフレームワークを用いたMeTooTweetsの感情分析

MeToo Tweets Sentiment Analysis Using Multi Modal frameworks ( http://arxiv.org/abs/2104.05331v1 )

ライセンス: Link先を確認
Rushil Thareja(参考訳) 本稿では, IEEEBigMM 2020, Grand Challenge (BMGC) へのアプローチとして, MeToo 運動に関連するツイートからセンティメントを同定する手法を提案する。 このモデルは、畳み込みニューラルネットワーク、双方向LSTM、最終分類のためのDNNのアンサンブルに基づいている。 本論文の目的は,モデルと得られた結果を詳細に分析することである。 10チーム中5位にランクインし、スコアは0.51491

In this paper, We present our approach for IEEEBigMM 2020, Grand Challenge (BMGC), Identifying senti-ments from tweets related to the MeToo movement. The modelis based on an ensemble of Convolutional Neural Network,Bidirectiona l LSTM and a DNN for final classification. Thispaper is aimed at providing a detailed analysis of the modeland the results obtained. We have ranked 5th out of 10 teamswith a score of 0.51491
翻訳日:2021-04-13 14:18:02 公開日:2021-04-12
# 効果的な表情認識のための特徴分解と再構成学習

Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition ( http://arxiv.org/abs/2104.05160v1 )

ライセンス: Link先を確認
Delian Ruan and YanYan and Shenqi Lai and Zhenhua Chai and Chunhua Shen and Hanzi Wang(参考訳) 本稿では,表情認識のための特徴分解再構成学習(FDRL)手法を提案する。 表現情報は,各表現に共通する共有情報(表現類似性)と,各表現に特有な情報(表現特有なバリエーション)を組み合わせて表現する。 具体的には、FDRLは主に2つの重要なネットワーク、FDN(Feature Decomposition Network)とFRN(Feature Restruction Network)で構成されている。 特に、fdnはまずバックボーンネットワークから抽出された基本特徴を、顔動作認識潜在特徴の集合に分解し、モデル表現の類似性を示す。 次にfrnは、潜在機能に対する機能内および機能間関係をキャプチャし、表現固有のバリエーションを特徴付け、表現特徴を再構築する。 これにより、frnにおいて、機能内関係モデリングモジュールと機能間関係モデリングモジュールを含む2つのモジュールが開発される。 バンド内データベース (CK+, MMI, Oulu-CASIAを含む) とファイル内データベース (RAF-DB, SFEWを含む) による実験結果から, FDRL法は複数の最先端手法よりも高い認識精度を一貫して達成していることがわかった。 これは、表現の分類における特徴分解と再構成の利点を明確に強調する。

In this paper, we propose a novel Feature Decomposition and Reconstruction Learning (FDRL) method for effective facial expression recognition. We view the expression information as the combination of the shared information (expression similarities) across different expressions and the unique information (expression-specific variations) for each expression. More specifically, FDRL mainly consists of two crucial networks: a Feature Decomposition Network (FDN) and a Feature Reconstruction Network (FRN). In particular, FDN first decomposes the basic features extracted from a backbone network into a set of facial action-aware latent features to model expression similarities. Then, FRN captures the intra-feature and inter-feature relationships for latent features to characterize expression-specific variations, and reconstructs the expression feature. To this end, two modules including an intra-feature relation modeling module and an inter-feature relation modeling module are developed in FRN. Experimental results on both the in-the-lab databases (including CK+, MMI, and Oulu-CASIA) and the in-the-wild databases (including RAF-DB and SFEW) show that the proposed FDRL method consistently achieves higher recognition accuracy than several state-of-the-art methods. This clearly highlights the benefit of feature decomposition and reconstruction for classifying expressions.
翻訳日:2021-04-13 14:10:56 公開日:2021-04-12
# 点雲上の教師なし領域適応のための学習可能な自己教師ありタスク

A Learnable Self-supervised Task for Unsupervised Domain Adaptation on Point Clouds ( http://arxiv.org/abs/2104.05164v1 )

ライセンス: Link先を確認
Xiaoyuan Luo, Shaolei Liu, Kexue Fu, Manning Wang, Zhijian Song(参考訳) 深層ニューラルネットワークは、教師付きポイントクラウドアプリケーションで有望なパフォーマンスを達成したが、手動アノテーションは非常に高価で、教師付き学習スキームでは時間がかかる。 教師なしドメイン適応(UDA)は、ソースドメインでラベル付きデータのみをトレーニングし、ターゲットドメインでモデルを適切に一般化することによってこの問題に対処する。 既存の研究では、ソースデータとターゲットドメインデータの両方を用いた自己教師型学習は、訓練されたモデルの適応性を向上させることができるが、それらはすべて、自己教師型タスクの手作り設計に依存している。 本稿では,学習可能な自己教師型タスクを提案し,それをセルフスーパービジョンベースのポイントクラウド UDA アーキテクチャに統合する。 具体的には、学習可能な非線形変換を提案し、元の意味情報を保持しながら、点雲の一部を多量の複雑な点雲に変換し、変形した点雲から元の点雲を再構築する。 UDAアーキテクチャでは、自己監督タスクのネットワークとポイントクラウド分類またはセグメンテーションのメインタスクとの間にエンコーダを共有し、ソースデータとターゲットドメインデータの両方に適した特徴を抽出するためにエンコーダを訓練することができる。 PointDA-10とPointSegDAデータセットを用いた実験により,提案手法はポイントクラウドUDAの分類とセグメンテーションのタスクにおいて,新たな最先端性能を実現することを示す。 コードは公開される予定だ。

Deep neural networks have achieved promising performance in supervised point cloud applications, but manual annotation is extremely expensive and time-consuming in supervised learning schemes. Unsupervised domain adaptation (UDA) addresses this problem by training a model with only labeled data in the source domain but making the model generalize well in the target domain. Existing studies show that self-supervised learning using both source and target domain data can help improve the adaptability of trained models, but they all rely on hand-crafted designs of the self-supervised tasks. In this paper, we propose a learnable self-supervised task and integrate it into a self-supervision-bas ed point cloud UDA architecture. Specifically, we propose a learnable nonlinear transformation that transforms a part of a point cloud to generate abundant and complicated point clouds while retaining the original semantic information, and the proposed self-supervised task is to reconstruct the original point cloud from the transformed ones. In the UDA architecture, an encoder is shared between the networks for the self-supervised task and the main task of point cloud classification or segmentation, so that the encoder can be trained to extract features suitable for both the source and the target domain data. Experiments on PointDA-10 and PointSegDA datasets show that the proposed method achieves new state-of-the-art performance on both classification and segmentation tasks of point cloud UDA. Code will be made publicly available.
翻訳日:2021-04-13 14:10:33 公開日:2021-04-12
# ビデオ質問応答のためのオブジェクト中心表現学習

Object-Centric Representation Learning for Video Question Answering ( http://arxiv.org/abs/2104.05166v1 )

ライセンス: Link先を確認
Long Hoang Dang, Thao Minh Le, Vuong Le, Truyen Tran(参考訳) ビデオ質問応答(ビデオQA)は、人間のような知的行動のための強力なテストベッドを提供する。 このタスクは、ビデオ処理、言語理解、抽象言語概念を具体的な視覚的アーティファクトに結合すること、時空上の意図的な推論を統合するために、新たな能力を要求する。 ニューラルネットワークは、手作りの機能やルールではなく、例から学ぶことによって、この可能性を達成するための有望なアプローチを提供する。 しかし、ニューラルネットワークは主に機能ベースであり、非構造化ベクトル表現にデータをマッピングするため、シンボルシステムに見られる真の体系的推論ではなく、表面統計を通じてショートカットを悪用する罠に陥る可能性がある。 この問題に取り組むため,我々は映像から時空間構造を構築するための基盤としてオブジェクト中心表現を提唱し,低レベルパターン認識と高レベルシンボリック代数の間の意味的ギャップを橋渡しする。 そこで本研究では,映像を動的かつ条件付きで推論されたオブジェクトのリレーショナルグラフにするための,新たなクエリ誘導表現フレームワークを提案する。 オブジェクトのライフは履歴書にまとめられ、クエリに対する応答を生成する意図的な関係推論のために自然に貸し出される。 このフレームワークは主要なビデオqaデータセットで評価され、ビデオ推論に対するオブジェクト指向アプローチの明確な利点を示しています。

Video question answering (Video QA) presents a powerful testbed for human-like intelligent behaviors. The task demands new capabilities to integrate video processing, language understanding, binding abstract linguistic concepts to concrete visual artifacts, and deliberative reasoning over spacetime. Neural networks offer a promising approach to reach this potential through learning from examples rather than handcrafting features and rules. However, neural networks are predominantly feature-based - they map data to unstructured vectorial representation and thus can fall into the trap of exploiting shortcuts through surface statistics instead of true systematic reasoning seen in symbolic systems. To tackle this issue, we advocate for object-centric representation as a basis for constructing spatio-temporal structures from videos, essentially bridging the semantic gap between low-level pattern recognition and high-level symbolic algebra. To this end, we propose a new query-guided representation framework to turn a video into an evolving relational graph of objects, whose features and interactions are dynamically and conditionally inferred. The object lives are then summarized into resumes, lending naturally for deliberative relational reasoning that produces an answer to the query. The framework is evaluated on major Video QA datasets, demonstrating clear benefits of the object-centric approach to video reasoning.
翻訳日:2021-04-13 14:10:09 公開日:2021-04-12
# Egocentric Pose Estimation from Human Vision Span

Egocentric Pose Estimation from Human Vision Span ( http://arxiv.org/abs/2104.05167v1 )

ライセンス: Link先を確認
Hao Jiang, Vamsi Krishna Ithapu(参考訳) カメラ装着者の身体ポーズを自我中心の視点から推定する(egopose)は、拡張現実および仮想現実において重要な課題である。 既存のアプローチでは、狭い視野の前面カメラが着用者をほとんど捉えていないか、最大視認性のために押出式ヘッドマウントトップダウンカメラを使うかのどちらかだ。 本稿では,より自然な人間の視覚範囲からエゴポスを推定し,周辺視野でカメラ装着者が見えるとともに,装着者が目立たない場合や部分的視野が限られる場合の頭部形状にもとづいて,エゴポス推定に挑戦する。 これは、前面に広角カメラを持つメガネのようなユーザー中心のウェアラブルデバイスにとって現実的な視野である。 この設定には既存のソリューションが適さないため,カメラSLAMの動的特徴と身体形状の画像の両方を活かした新しいディープラーニングシステムを提案する。 3dヘッドポーズ,3dボディポーズ,フィギュア/グラウンド分離を同時に計算し,ポーズ属性間の幾何的一貫性を明示的に強制する。 さらに,本システムは既存のmocapデータでロバストにトレーニングできるので,大規模なデータセットを収集して注釈付けする必要がなくなる。 最後に, 精度を維持しつつ, 実時間および飛行中のegoposeの推定を行った。

Estimating camera wearer's body pose from an egocentric view (egopose) is a vital task in augmented and virtual reality. Existing approaches either use a narrow field of view front facing camera that barely captures the wearer, or an extruded head-mounted top-down camera for maximal wearer visibility. In this paper, we tackle the egopose estimation from a more natural human vision span, where camera wearer can be seen in the peripheral view and depending on the head pose the wearer may become invisible or has a limited partial view. This is a realistic visual field for user-centric wearable devices like glasses which have front facing wide angle cameras. Existing solutions are not appropriate for this setting, and so, we propose a novel deep learning system taking advantage of both the dynamic features from camera SLAM and the body shape imagery. We compute 3D head pose, 3D body pose, the figure/ground separation, all at the same time while explicitly enforcing a certain geometric consistency across pose attributes. We further show that this system can be trained robustly with lots of existing mocap data so we do not have to collect and annotate large new datasets. Lastly, our system estimates egopose in real time and on the fly while maintaining high accuracy.
翻訳日:2021-04-13 14:09:48 公開日:2021-04-12
# 高次元データのための深部再帰埋め込み

Deep Recursive Embedding for High-Dimensional Data ( http://arxiv.org/abs/2104.05171v1 )

ライセンス: Link先を確認
Zixia Zhou, Yuanyuan Wang, Boudewijn P.F. Lelieveldt, Qian Tao(参考訳) t-distributed stochastic neighbor embedded (t-sne) は複雑な高次元データに対するよく確立された可視化手法である。 しかし、元の t-SNE 法は非パラメトリックで確率的であり、しばしば局所的な近傍を強調するため、データのグローバルな構造を十分に保存することができない。 t-sneを基準として,深層ニューラルネットワーク(dnn)を高次元データ埋め込みのための数学的根拠埋め込みルールと組み合わせることを提案する。 まず,高次元空間から低次元埋め込みへのパラメトリックマッピングを学習できる深層埋め込みネットワーク(den)フレームワークについて紹介する。 DENは柔軟なアーキテクチャを持ち、異なる入力データ(ベクトル、画像、テンソル)と損失関数に対応できる。 組込み性能を向上させるために,denで抽出した潜在表現を利用した再帰的学習戦略を提案する。 最後に,2つの一般的な埋め込み手法,すなわち t-SNE と一様多様体近似および投影(UMAP)の利点を組み合わせた2段階の損失関数を提案する。 本稿では,再帰的トレーニング戦略と2段階の損失でDENを最適化するDeep Recursive Embedding (DRE) を提案する。 本実験は,多種多様な公開データベースにまたがる高次元データ埋め込みにおけるDRE手法の優れた性能を実証した。 以上の結果から,提案したDREがグローバルな構造保存の改善につながる可能性が示唆された。

t-distributed stochastic neighbor embedding (t-SNE) is a well-established visualization method for complex high-dimensional data. However, the original t-SNE method is nonparametric, stochastic, and often cannot well prevserve the global structure of data as it emphasizes local neighborhood. With t-SNE as a reference, we propose to combine the deep neural network (DNN) with the mathematical-grounde d embedding rules for high-dimensional data embedding. We first introduce a deep embedding network (DEN) framework, which can learn a parametric mapping from high-dimensional space to low-dimensional embedding. DEN has a flexible architecture that can accommodate different input data (vector, image, or tensor) and loss functions. To improve the embedding performance, a recursive training strategy is proposed to make use of the latent representations extracted by DEN. Finally, we propose a two-stage loss function combining the advantages of two popular embedding methods, namely, t-SNE and uniform manifold approximation and projection (UMAP), for optimal visualization effect. We name the proposed method Deep Recursive Embedding (DRE), which optimizes DEN with a recursive training strategy and two-stage losse. Our experiments demonstrated the excellent performance of the proposed DRE method on high-dimensional data embedding, across a variety of public databases. Remarkably, our comparative results suggested that our proposed DRE could lead to improved global structure preservation.
翻訳日:2021-04-13 14:09:25 公開日:2021-04-12
# SCPM-Net:球表現と中心点マッチングを用いたアンカーフリー3次元肺結節検出ネットワーク

SCPM-Net: An Anchor-free 3D Lung Nodule Detection Network using Sphere Representation and Center Points Matching ( http://arxiv.org/abs/2104.05215v1 )

ライセンス: Link先を確認
Xiangde Luo, Tao Song, Guotai Wang, Jieneng Chen, Yinan Chen, Kang Li, Dimitris N. Metaxas and Shaoting Zhang(参考訳) 3次元CTによる肺結節の自動検出は肺がん検診において重要な役割を担っている。 畳み込みニューラルネットワークを用いた最近のアンカーベース検出器による最先端性能にもかかわらず、アンカーのサイズ、数、アスペクト比などの所定のアンカーパラメータが必要であり、肺結節を多種多様な大きさで扱う場合の堅牢性は限られている。 本研究では,3次元球面表現に基づく中心点マッチング検出ネットワーク(SCPM-Net)を提案する。 scpm-net は球面表現と中心点マッチングという2つの新しい柱からなる。 臨床における結節アノテーションを模倣するために,従来の結節ボックスを新たに提案する結節球に置き換える。 本研究では, 肺結節検出ネットワークを安定かつ効率的に訓練するために, 相反する球面型交叉切断機能を導入し, 予め決定されたアンカーボックスを自然に破棄する正中心点選択マッチング(CPM)プロセスの設計により, ネットワークアンカーフリーを向上する。 オンラインのハードサンプルマイニングと再焦点損失により、CPMプロセスはより堅牢になり、より正確なポイント割り当てとクラス不均衡の緩和をもたらす。 さらに,検出のための空間情報と3Dコンテキストをよりよく把握するために,特徴抽出器と多層空間座標マップを融合し,これらを3D圧縮・励起アテンションモジュールと組み合わせることを提案する。 肺結節検出のための既存のアンカーベースおよびアンカーフリー法と比較して,提案したSCPM-Netフレームワークは優れた性能を示した。

Automatic and accurate lung nodule detection from 3D Computed Tomography scans plays a vital role in efficient lung cancer screening. Despite the state-of-the-art performance obtained by recent anchor-based detectors using Convolutional Neural Networks, they require predetermined anchor parameters such as the size, number, and aspect ratio of anchors, and have limited robustness when dealing with lung nodules with a massive variety of sizes. We propose a 3D sphere representation-based center-points matching detection network (SCPM-Net) that is anchor-free and automatically predicts the position, radius, and offset of nodules without the manual design of nodule/anchor parameters. The SCPM-Net consists of two novel pillars: sphere representation and center points matching. To mimic the nodule annotation in clinical practice, we replace the conventional bounding box with the newly proposed bounding sphere. A compatible sphere-based intersection over-union loss function is introduced to train the lung nodule detection network stably and efficiently.We empower the network anchor-free by designing a positive center-points selection and matching (CPM) process, which naturally discards pre-determined anchor boxes. An online hard example mining and re-focal loss subsequently enable the CPM process more robust, resulting in more accurate point assignment and the mitigation of class imbalance. In addition, to better capture spatial information and 3D context for the detection, we propose to fuse multi-level spatial coordinate maps with the feature extractor and combine them with 3D squeeze-and-excitati on attention modules. Experimental results on the LUNA16 dataset showed that our proposed SCPM-Net framework achieves superior performance compared with existing used anchor-based and anchor-free methods for lung nodule detection.
翻訳日:2021-04-13 14:09:03 公開日:2021-04-12
# セグメンテーションの改善に近づいた - インスタンスセグメンテーションのための境界パッチリファインメント

Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation ( http://arxiv.org/abs/2104.05239v1 )

ライセンス: Link先を確認
Chufeng Tang, Hang Chen, Xiao Li, Jianmin Li, Zhaoxiang Zhang, Xiaolin Hu(参考訳) ケースセグメンテーションに厳しい取り組みがなされているが、マスクの品質はまだ満足できない。 予測されたインスタンスマスクの境界は通常、特徴写像の空間分解能が低いことと、非常に低い境界画素による不均衡の問題のために不正確である。 これらの問題に対処するため,我々はbprと呼ばれる任意のインスタンスセグメンテーションモデルの結果に基づいて境界品質を改善するために,概念的に単純かつ効果的な後処理改善フレームワークを提案する。 セグメント境界をよりよく見るというアイデアに続いて、予測されたインスタンス境界に沿って、一連の小さな境界パッチを抽出し、精査する。 この改良は、より高解像度のバウンダリパッチリファインメントネットワークによって達成される。 提案したBPRフレームワークはCityscapesベンチマークのMask R-CNNベースラインよりも大幅に改善されている。 さらに、PolyTransform + SegFixベースラインにBPRフレームワークを適用することで、Cityscapesのリーダーボードで1位に到達しました。

Tremendous efforts have been made on instance segmentation but the mask quality is still not satisfactory. The boundaries of predicted instance masks are usually imprecise due to the low spatial resolution of feature maps and the imbalance problem caused by the extremely low proportion of boundary pixels. To address these issues, we propose a conceptually simple yet effective post-processing refinement framework to improve the boundary quality based on the results of any instance segmentation model, termed BPR. Following the idea of looking closer to segment boundaries better, we extract and refine a series of small boundary patches along the predicted instance boundaries. The refinement is accomplished by a boundary patch refinement network at higher resolution. The proposed BPR framework yields significant improvements over the Mask R-CNN baseline on Cityscapes benchmark, especially on the boundary-aware metrics. Moreover, by applying the BPR framework to the PolyTransform + SegFix baseline, we reached 1st place on the Cityscapes leaderboard.
翻訳日:2021-04-13 14:08:30 公開日:2021-04-12
# 意味セグメンテーションのためのオンラインパフォーマンス予測の改善

Improving Online Performance Prediction for Semantic Segmentation ( http://arxiv.org/abs/2104.05255v1 )

ライセンス: Link先を確認
Marvin Klingner, Andreas B\"ar, Marcel Mross, Tim Fingscheidt(参考訳) 本稿では,オンライン操作,すなわち,自動運転などの安全クリティカルなアプリケーションにおいて重要となる推論中における,セマンティックセグメンテーション深層ニューラルネットワーク(dnn)の性能を観察するタスクについて述べる。 ここでは、多くのハイレベルな決定は、通常オフラインで評価されるようなDNNに依存しているが、オンライン操作のパフォーマンスは未だに不明である。 そこで本研究では,最近提案されたセマンティックセグメンテーションタスクの性能予測という概念に基づいて,オンラインのパフォーマンス予測手法の改良を提案する。 これは、LiDARセンサによって供給された測定値を用いて単眼深度推定の補助タスクを評価し、その後、セマンティックセグメンテーション性能に回帰することで実現できる。 特に、(i)マルチタスクトレーニングにおける両タスクの逐次訓練方法、(ii)エンコーダとデコーダの一部を両タスクネットワーク間で共有して効率を向上させること、(iii)アルゴリズム遅延の少ないコストで性能予測誤差を著しく低減する時間統計集計法を提案する。 KITTIデータセットの評価では,従来の手法に比べて3つの側面が性能予測を改善している。

In this work we address the task of observing the performance of a semantic segmentation deep neural network (DNN) during online operation, i.e., during inference, which is of high importance in safety-critical applications such as autonomous driving. Here, many high-level decisions rely on such DNNs, which are usually evaluated offline, while their performance in online operation remains unknown. To solve this problem, we propose an improved online performance prediction scheme, building on a recently proposed concept of predicting the primary semantic segmentation task's performance. This can be achieved by evaluating the auxiliary task of monocular depth estimation with a measurement supplied by a LiDAR sensor and a subsequent regression to the semantic segmentation performance. In particular, we propose (i) sequential training methods for both tasks in a multi-task training setup, (ii) to share the encoder as well as parts of the decoder between both task's networks for improved efficiency, and (iii) a temporal statistics aggregation method, which significantly reduces the performance prediction error at the cost of a small algorithmic latency. Evaluation on the KITTI dataset shows that all three aspects improve the performance prediction compared to previous approaches.
翻訳日:2021-04-13 14:08:12 公開日:2021-04-12
# Glance and Gaze: 一段階の人間と物体の相互作用検出のための行動認識点の推測

Glance and Gaze: Inferring Action-aware Points for One-Stage Human-Object Interaction Detection ( http://arxiv.org/abs/2104.05269v1 )

ライセンス: Link先を確認
Xubin Zhong, Xian Qu, Changxing Ding and Dacheng Tao(参考訳) 現代の人-物間相互作用(HOI)検出手法は、一段階法と二段階法に分けられる。 1段階のモデルは単純なアーキテクチャのため効率が良いが、2段階のモデルは精度が優れている。 既存のワンステージモデルは通常、事前に定義された相互作用領域や点を検出して始まり、相互作用予測のためにのみこれらの領域に参画する。 本稿では,視覚と視線のステップによって行動認識点(行動ポイント)の集合を適応的にモデル化する,新しい一段階の手法であるeyes and gaze network(ggnet)を提案する。 視線ステップは、特徴写像の各画素が相互作用点であるか否かを素早く決定する。 視線ステップは、視線ステップによって生成された特徴マップを利用して、各ピクセルの周囲のActPointを段階的に推論する。 ActPointの特徴は相互作用予測のために集約される。 さらに,GGNetの最適化を改善するために,検出された各対と関連する対象対との相互作用を効果的に一致させる行動認識手法を考案した。 上記の操作はすべて、特徴マップの全画素に対して同時に効率的に実行される。 最後に、GGNet は V-COCO と HICODET のベンチマークにおいて、最先端の手法よりもかなり優れている。 GGNetのコードはhttps: //github.com/Sherloc kHolmes221/GGNetで入手できる。

Modern human-object interaction (HOI) detection approaches can be divided into one-stage methods and twostage ones. One-stage models are more efficient due to their straightforward architectures, but the two-stage models are still advantageous in accuracy. Existing one-stage models usually begin by detecting predefined interaction areas or points, and then attend to these areas only for interaction prediction; therefore, they lack reasoning steps that dynamically search for discriminative cues. In this paper, we propose a novel one-stage method, namely Glance and Gaze Network (GGNet), which adaptively models a set of actionaware points (ActPoints) via glance and gaze steps. The glance step quickly determines whether each pixel in the feature maps is an interaction point. The gaze step leverages feature maps produced by the glance step to adaptively infer ActPoints around each pixel in a progressive manner. Features of the refined ActPoints are aggregated for interaction prediction. Moreover, we design an actionaware approach that effectively matches each detected interaction with its associated human-object pair, along with a novel hard negative attentive loss to improve the optimization of GGNet. All the above operations are conducted simultaneously and efficiently for all pixels in the feature maps. Finally, GGNet outperforms state-of-the-art methods by significant margins on both V-COCO and HICODET benchmarks. Code of GGNet is available at https: //github.com/Sherloc kHolmes221/GGNet.
翻訳日:2021-04-13 14:07:51 公開日:2021-04-12
# StereoPIFu:ステレオビジョンによる人間のデジタル化の深度認識

StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision ( http://arxiv.org/abs/2104.05289v1 )

ライセンス: Link先を確認
Yang Hong, Juyong Zhang, Boyi Jiang, Yudong Guo, Ligang Liu and Hujun Bao(参考訳) 本稿では,ステレオビジョンの幾何学的制約とPIFuの暗黙的機能表現を統合したステレオPIFuを提案する。 まず,立体視ネットワークからのボクセル整列機能を導入し,奥行き認識型再構成を実現する。 さらに、予測された高忠実度人間の深度と占有率の推測を関連付けるために、新しい相対zオフセットが使用される。 第2に、ステレオ画像からの幾何学情報を完全に活用するネットワーク構造を設計し、人体復元の質を向上させる。 その結果,StereoPIFuはカメラ空間における人の身体の空間的位置を自然に推測し,身体の異なる部分の正確な相対位置を維持でき,人間のパフォーマンスを捉えることができる。 このステレオピフは, 従来の作品と比較して, 広範囲な実験結果から, 衣服によるヒト再建のロバスト性, 完全性, 正確性が著しく向上した。

In this paper, we propose StereoPIFu, which integrates the geometric constraints of stereo vision with implicit function representation of PIFu, to recover the 3D shape of the clothed human from a pair of low-cost rectified images. First, we introduce the effective voxel-aligned features from a stereo vision-based network to enable depth-aware reconstruction. Moreover, the novel relative z-offset is employed to associate predicted high-fidelity human depth and occupancy inference, which helps restore fine-level surface details. Second, a network structure that fully utilizes the geometry information from the stereo images is designed to improve the human body reconstruction quality. Consequently, our StereoPIFu can naturally infer the human body's spatial location in camera space and maintain the correct relative position of different parts of the human body, which enables our method to capture human performance. Compared with previous works, our StereoPIFu significantly improves the robustness, completeness, and accuracy of the clothed human reconstruction, which is demonstrated by extensive experimental results.
翻訳日:2021-04-13 14:07:28 公開日:2021-04-12
# クラス内不確かさ損失関数による分類

Intra-Class Uncertainty Loss Function for Classification ( http://arxiv.org/abs/2104.05298v1 )

ライセンス: Link先を確認
He Zhu, Shan Yu(参考訳) ほとんどの分類モデルはテンプレートマッチングのプロセスと見なすことができる。 しかしながら、クラス内不確実性/可変性が考慮されない場合、特に不均衡クラスを含むデータセットの場合、これは分類エラーにつながる可能性がある。 この問題に対処するため,ガウス分布に続くクラス内不確実性を有する損失関数を提案する。 特に,各クラスのディープネットワークによって抽出された特徴は,ガウス分布の独立性によって特徴づけられる。 分布のパラメータは、他のネットワークパラメータとともに確率正規化によって学習される。 ガウス平均は、既存の方法における中心アンカーと似た役割を担っており、分散は異なるクラスの不確かさを記述する。 さらに,従来の損失関数のクラス間マージンと同様に,クラス内不確実性にマージンを導入し,各クラスタをよりコンパクトにし,異なるカテゴリ間の特徴分布の不均衡を低減する。 提案手法は,MNIST, CIFAR, ImageNet, Long-tailed CIFAR解析に基づいて,より優れたクラス表現の学習を通じて,分類性能の向上を示す。

Most classification models can be considered as the process of matching templates. However, when intra-class uncertainty/variabil ity is not considered, especially for datasets containing unbalanced classes, this may lead to classification errors. To address this issue, we propose a loss function with intra-class uncertainty following Gaussian distribution. Specifically, in our framework, the features extracted by deep networks of each class are characterized by independent Gaussian distribution. The parameters of distribution are learned with a likelihood regularization along with other network parameters. The means of the Gaussian play a similar role as the center anchor in existing methods, and the variance describes the uncertainty of different classes. In addition, similar to the inter-class margin in traditional loss functions, we introduce a margin to intra-class uncertainty to make each cluster more compact and reduce the imbalance of feature distribution from different categories. Based on MNIST, CIFAR, ImageNet, and Long-tailed CIFAR analyses, the proposed approach shows improved classification performance, through learning a better class representation.
翻訳日:2021-04-13 14:07:10 公開日:2021-04-12
# RPSRNet: Barnes-Hut $2^D$-Tree Representation を用いたエンドツーエンドトレーニング可能な Rigid Point Set 登録ネットワーク

RPSRNet: End-to-End Trainable Rigid Point Set Registration Network using Barnes-Hut $2^D$-Tree Representation ( http://arxiv.org/abs/2104.05328v1 )

ライセンス: Link先を確認
Sk Aziz Ali, Kerem Kahraman, Gerd Reis, Didier Stricker(参考訳) 本稿では、厳格な点集合登録のための新しいエンドツーエンドトレーニング可能なディープニューラルネットワークRPSRNetを提案する。 本研究では,入力点集合に対して新しい2^D$-tree表現を用い,ニューラルネットワークに階層的な深い特徴を埋め込む。 ネットワーク内の反復変換リファインメントモジュールにより,中間段階における特徴マッチング精度が向上する。 1対の入力点雲を250kまで登録するために12~15msの推論速度を達成する。 i) KITTI LiDAR odometry および (ii) ModelNet-40 データセットの広範囲な評価により,本手法は, KITTI データセット, DCP-v2 by1.3 および 1.5 倍, PointNetLK が 1.8 倍,変換精度が 1.9 倍向上した。 ModelNet40の評価によると、RPSRNetは、サンプルが大量のノイズやその他の乱れを含む場合、他のベンチマーク手法よりも堅牢である。 RPSRNetは、例えば、多くの既存のディープラーニングベースの登録方法では処理できないLiDARデータのような、一様でないサンプリング密度の点雲を正確に登録する。

We propose RPSRNet - a novel end-to-end trainable deep neural network for rigid point set registration. For this task, we use a novel $2^D$-tree representation for the input point sets and a hierarchical deep feature embedding in the neural network. An iterative transformation refinement module in our network boosts the feature matching accuracy in the intermediate stages. We achieve an inference speed of 12-15ms to register a pair of input point clouds as large as 250K. Extensive evaluation on (i) KITTI LiDAR odometry and (ii) ModelNet-40 datasets shows that our method outperforms prior state-of-the-art methods - e.g., on the KITTI data set, DCP-v2 by1.3 and 1.5 times, and PointNetLK by 1.8 and 1.9 times better rotational and translational accuracy respectively. Evaluation on ModelNet40 shows that RPSRNet is more robust than other benchmark methods when the samples contain a significant amount of noise and other disturbances. RPSRNet accurately registers point clouds with non-uniform sampling densities, e.g., LiDAR data, which cannot be processed by many existing deep-learning-based registration methods.
翻訳日:2021-04-13 14:06:53 公開日:2021-04-12
# visit the invisible: layer-by-layer completed scene decomposition(英語)

Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition ( http://arxiv.org/abs/2104.05367v1 )

ライセンス: Link先を確認
Chuanxia Zheng, Duy-Son Dao, Guoxian Song, Tat-Jen Cham, Jianfei Cai(参考訳) 既存のシーン理解システムは、実世界の物理的物体の無傷な外観を無視して、シーンの目に見える部分の認識に重点を置いている。 同時に、画像補完は、目に見えない領域に対して可視な外観を作り出すことを目的としているが、入力には手動マスクが必要である。 本研究では,対象物や背景の可視・可視の両方に対処する,より高レベルなシーン理解システムを提案する。 特に,シーンを個々のオブジェクトに分解し,その下位のオクルージョン関係を推測し,そのオブジェクトのどの部分が完了する必要があるかを自動で学習するシステムを構築した。 複雑なシーンにおけるすべてのオブジェクトのオクルードされた関係を解消するために、オクルードされていないフロントオブジェクトの識別、検出、セグメンテーションが容易であるという事実を用いる。 本システムでは,複数反復によるシーン分割とシーン補完の2つのタスクをインターリーブする。 まず、すべての見えない領域に対して、地上構造を持つ新しい現実的なデータセットを用いて、徹底的な実験を行う。 ドメインギャップを実際のイメージに橋渡しするために、トレーニングされた合成モデルから生成された疑似グランドルースを使って、別のモデルをトレーニングします。 我々は、さまざまなデータセットで結果を示し、最先端よりも大幅な改善を示す。

Existing scene understanding systems mainly focus on recognizing the visible parts of a scene, ignoring the intact appearance of physical objects in the real-world. Concurrently, image completion has aimed to create plausible appearance for the invisible regions, but requires a manual mask as input. In this work, we propose a higher-level scene understanding system to tackle both visible and invisible parts of objects and backgrounds in a given scene. Particularly, we built a system to decompose a scene into individual objects, infer their underlying occlusion relationships, and even automatically learn which parts of the objects are occluded that need to be completed. In order to disentangle the occluded relationships of all objects in a complex scene, we use the fact that the front object without being occluded is easy to be identified, detected, and segmented. Our system interleaves the two tasks of instance segmentation and scene completion through multiple iterations, solving for objects layer-by-layer. We first provide a thorough experiment using a new realistically rendered dataset with ground-truths for all invisible regions. To bridge the domain gap to real imagery where ground-truths are unavailable, we then train another model with the pseudo-ground-truths generated from our trained synthesis model. We demonstrate results on a wide variety of datasets and show significant improvement over the state-of-the-art.
翻訳日:2021-04-13 14:06:28 公開日:2021-04-12
# データフリーモデル圧縮のための二重判別器逆蒸留

Dual Discriminator Adversarial Distillation for Data-free Model Compression ( http://arxiv.org/abs/2104.05382v1 )

ライセンス: Link先を確認
Haoran Zhao, Xin Sun, Junyu Dong, Hui Yu and Huiyu Zhou(参考訳) 知識蒸留は、コンピュータビジョンタスクのエッジデバイスによく適用できるポータブルで効率的なニューラルネットワークを作成するために広く使われている。 しかしながら、ほとんどの最高性能の知識蒸留法は、通常大きなサイズを持ち、しばしば利用できない元の訓練データにアクセスする必要がある。 この問題に対処するために,Dual Discriminator Adversarial Distillation (DDAD) と呼ばれる新しいデータフリーアプローチを提案し,トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留する。 具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器逆蒸留を用いてサンプルを作成する。 この生成器は、既存のバッチ正規化層において、事前学習された教師固有の統計値を使用するだけでなく、学生モデルから最大不一致を得る。 そして、生成したサンプルを用いて教師の指導の下、コンパクトな学生ネットワークを訓練する。 提案手法は,教師のネットワークを密に近似した効率的な学生ネットワークを実現する。 CIFAR-10, CIFAR-100およびCaltech101データセットを用いた分類作業における提案手法の有効性を示すため, 大規模な実験を行った。 さらに,camvid や nyuv2 などの公開データセット上の意味セグメンテーションタスクにも拡張した。 すべての実験結果から,本手法はデータフリーな知識蒸留法において,すべての基準線を上回ります。

Knowledge distillation has been widely used to produce portable and efficient neural networks which can be well applied on edge devices for computer vision tasks. However, almost all top-performing knowledge distillation methods need to access the original training data, which usually has a huge size and is often unavailable. To tackle this problem, we propose a novel data-free approach in this paper, named Dual Discriminator Adversarial Distillation (DDAD) to distill a neural network without any training data or meta-data. To be specific, we use a generator to create samples through dual discriminator adversarial distillation, which mimics the original training data. The generator not only uses the pre-trained teacher's intrinsic statistics in existing batch normalization layers but also obtains the maximum discrepancy from the student model. Then the generated samples are used to train the compact student network under the supervision of the teacher. The proposed method obtains an efficient student network which closely approximates its teacher network, despite using no original training data. Extensive experiments are conducted to to demonstrate the effectiveness of the proposed approach on CIFAR-10, CIFAR-100 and Caltech101 datasets for classification tasks. Moreover, we extend our method to semantic segmentation tasks on several public datasets such as CamVid and NYUv2. All experiments show that our method outperforms all baselines for data-free knowledge distillation.
翻訳日:2021-04-13 14:06:06 公開日:2021-04-12
# blazer: 物理的レンダリングを用いたレーザー走査シミュレーション

Blazer: Laser Scanning Simulation using Physically Based Rendering ( http://arxiv.org/abs/2104.05430v1 )

ライセンス: Link先を確認
Sebastian Grans and Lars Tingelstad(参考訳) ラインレーザースキャナー(line laser scanners)は、比較的一般的な工業用3dスキャナのサブタイプで、組み立て、プロセス制御、溶接の文脈で使用される。 広く使われているにもかかわらず、いくつかの材料をスキャンすることは、追加の事前処理なしでは困難または不可能な作業のままである。 例えば、光沢のある、または透明な材料である。 本稿では,仮想ラインレーザスキャナであるBlazerについて述べる。このBlazerは物理ベースレンダリングと組み合わせて,リアルな光-光相互作用を持つ合成データを生成し,現実的な外観を実現する。 これにより、新しいアルゴリズムの開発におけるツールとしての使用、特に機械学習モデルのトレーニングのための合成データのソースとしての使用が可能である。 合成RGB-Dデータ生成には類似したシステムが存在するが、我々の知る限り、これは合成ラインレーザデータに対する最初の公開実装である。 我々はこの実装をオープンソースライセンスでリリースし、ラインレーザースキャナのさらなる研究を支援する。

Line laser scanners are a sub-type of structured light 3D scanners that are relatively common devices to find within the industrial setting, typically in the context of assembly, process control, and welding. Despite its extensive use, scanning of some materials remain a difficult or even impossible task without additional pre-processing. For instance, materials which are shiny, or transparent. In this paper, we present a Blazer, a virtual line laser scanner that, combined with physically based rendering, produces synthetic data with a realistic light-matter interaction, and hence realistic appearance. This makes it eligible for the use as a tool in the development of novel algorithms, and in particular as a source of synthetic data for training of machine learning models. Similar systems exist for synthetic RGB-D data generation, but to our knowledge this the first publicly available implementation for synthetic line laser data. We release this implementation under an open-source license to aid further research on line laser scanners.
翻訳日:2021-04-13 14:05:44 公開日:2021-04-12
# PGNet:ポイントゲザリングネットワークを用いたリアルタイム任意形テキストスポッティング

PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network ( http://arxiv.org/abs/2104.05458v1 )

ライセンス: Link先を確認
Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang, Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi(参考訳) 任意形テキストの読み上げは研究の注目を集めている。 しかし、既存のテキストスポッターは、主に2段階のフレームワークまたは文字ベースのメソッド上に構築されており、非最大抑制(nms)、領域間(roi)操作、文字レベルのアノテーションに苦しむ。 本稿では,この問題を解決するために,任意の形のテキストをリアルタイムに読み取るための完全畳み込み型ポイントゲザリングネットワーク(PGNet)を提案する。 PGNetはシングルショットテキストスポッターであり、文字レベルのアノテーションの使用を避けるために提案されたPG-CTC損失を用いてピクセルレベルの文字分類マップを学習する。 PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を伴わないテキストシンボルに復号し,高い効率性を保証する。 さらに,各文字とその近傍の関係を推論し,粗い認識を最適化し,エンドツーエンドの性能を向上させるため,グラフ精細モジュール(GRM)を提案する。 実験により,提案手法は競争精度が向上し,走行速度が大幅に向上することが示された。 特にTotal-Textでは46.7 FPSで動作し、以前のスポッターよりも大きなマージンを持つ。

The reading of arbitrarily-shaped text has received increasing research attention. However, existing text spotters are mostly built on two-stage frameworks or character-based methods, which suffer from either Non-Maximum Suppression (NMS), Region-of-Interest (RoI) operations, or character-level annotations. In this paper, to address the above problems, we propose a novel fully convolutional Point Gathering Network (PGNet) for reading arbitrarily-shaped text in real-time. The PGNet is a single-shot text spotter, where the pixel-level character classification map is learned with proposed PG-CTC loss avoiding the usage of character-level annotations. With a PG-CTC decoder, we gather high-level character classification vectors from two-dimensional space and decode them into text symbols without NMS and RoI operations involved, which guarantees high efficiency. Additionally, reasoning the relations between each character and its neighbors, a graph refinement module (GRM) is proposed to optimize the coarse recognition and improve the end-to-end performance. Experiments prove that the proposed method achieves competitive accuracy, meanwhile significantly improving the running speed. In particular, in Total-Text, it runs at 46.7 FPS, surpassing the previous spotters with a large margin.
翻訳日:2021-04-13 14:05:28 公開日:2021-04-12
# 骨格に基づく行動認識のためのグラフ畳み込みネットワークにおけるチェビシェフ基底学習

Learning Chebyshev Basis in Graph Convolutional Networks for Skeleton-based Action Recognition ( http://arxiv.org/abs/2104.05482v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) スペクトルグラフ畳み込みネットワーク(GCN)は、ニューラルネットワークを任意の不規則領域に拡張することを目的とした、特に深いモデルである。 これらのネットワークの原理は、ラプラシアンの固有分解を用いてグラフ信号を投影し、入力グラフ領域にフィルタされた信号をバックプロジェクションする前にスペクトル領域でフィルタリングする。 しかし、これらの操作の成功は、主に手作りであり、GCNが明らかに準最適であるLaplacianの関連性に大きく依存している。 本稿では,通常の畳み込みパラメータだけでなく,ラプラシア作用素も学習する新しいスペクトルGCNを提案する。 後者は再帰的なチェビシェフ分解の一部として設計されており、訓練されたGCNを過度にパラメータ化することなく、学習された表現の差分と非差分特性(順序と識別能力の増大)を伝達する。 スケルトンベース行動認識の課題に関する広範な実験により,提案するラプラシアン設計 w.r.t の一般化能力と性能が明らかにされた。 異なるベースライン(手工芸品やその他のラプラシア人の学習に基づく)と関連する作品。

Spectral graph convolutional networks (GCNs) are particular deep models which aim at extending neural networks to arbitrary irregular domains. The principle of these networks consists in projecting graph signals using the eigen-decomposition of their Laplacians, then achieving filtering in the spectral domain prior to back-project the resulting filtered signals onto the input graph domain. However, the success of these operations is highly dependent on the relevance of the used Laplacians which are mostly handcrafted and this makes GCNs clearly sub-optimal. In this paper, we introduce a novel spectral GCN that learns not only the usual convolutional parameters but also the Laplacian operators. The latter are designed "end-to-end" as a part of a recursive Chebyshev decomposition with the particularity of conveying both the differential and the non-differential properties of the learned representations -- with increasing order and discrimination power -- without overparametrizing the trained GCNs. Extensive experiments, conducted on the challenging task of skeleton-based action recognition, show the generalization ability and the outperformance of our proposed Laplacian design w.r.t. different baselines (built upon handcrafted and other learned Laplacians) as well as the related work.
翻訳日:2021-04-13 14:05:06 公開日:2021-04-12
# 機能融合と時空間的注意による歩行者交差注意の予測

Predicting Pedestrian Crossing Intention with Feature Fusion and Spatio-Temporal Attention ( http://arxiv.org/abs/2104.05485v1 )

ライセンス: Link先を確認
Dongfang Yang, Haolin Zhang, Ekim Yurtsever, Keith Redmill, \"Umit \"Ozg\"uner(参考訳) 脆弱な道路利用者の行動を予測することは、ADS(Automated Driving Systems)を現実世界に展開するための必須条件である。 歩行者の横断意図は、特に都市交通においてリアルタイムで認識されるべきである。 最近の研究は、このタスクに視覚ベースのディープニューラルネットワークモデルを使用することの可能性を示している。 しかし、これらのモデルは堅牢ではなく、解決すべき問題がまだある。 第1に、対象歩行者とシーンとの相互作用を考慮したグローバル時空間コンテキストは、適切に活用されていない。 第2に、異なるセンサデータを利用するための最適戦略を徹底的に検討していない。 この研究は、歩行者横断意図予測のために、本質的に異なる時空間的特徴を融合させる新しいニューラルネットワークアーキテクチャを導入することで、上記の制限に対処する。 我々は,RGB画像のシーケンス,セマンティックセグメンテーションマスク,エゴ車速などの異なる現象を,アテンション機構とリカレントニューラルネットワークのスタックを用いて最適な方法で融合する。 最適構造は排他的アブレーションと比較研究により得られた。 JAAD歩行者行動予測ベンチマークにおける大規模比較実験により,提案手法の有効性が実証された。 私たちのコードはオープンソースで公開されています。

Predicting vulnerable road user behavior is an essential prerequisite for deploying Automated Driving Systems (ADS) in the real-world. Pedestrian crossing intention should be recognized in real-time, especially for urban driving. Recent works have shown the potential of using vision-based deep neural network models for this task. However, these models are not robust and certain issues still need to be resolved. First, the global spatio-temproal context that accounts for the interaction between the target pedestrian and the scene has not been properly utilized. Second, the optimum strategy for fusing different sensor data has not been thoroughly investigated. This work addresses the above limitations by introducing a novel neural network architecture to fuse inherently different spatio-temporal features for pedestrian crossing intention prediction. We fuse different phenomena such as sequences of RGB imagery, semantic segmentation masks, and ego-vehicle speed in an optimum way using attention mechanisms and a stack of recurrent neural networks. The optimum architecture was obtained through exhaustive ablation and comparison studies. Extensive comparative experiments on the JAAD pedestrian action prediction benchmark demonstrate the effectiveness of the proposed method, where state-of-the-art performance was achieved. Our code is open-source and publicly available.
翻訳日:2021-04-13 14:04:44 公開日:2021-04-12
# View-Guided Point Cloud Completion

View-Guided Point Cloud Completion ( http://arxiv.org/abs/2104.05666v1 )

ライセンス: Link先を確認
Xuancheng Zhang, Yutong Feng, Siqi Li, Changqing Zou, Hai Wan, Xibin Zhao, Yandong Guo, Yue Gao(参考訳) 本稿では,ポイントクラウド完了作業に対するビュー誘導型ソリューションを提案する。 既存のほとんどの方法と異なり、この課題に対処するためにはViPC(view-guided point cloud completion)を導入し、余分な単一ビューイメージから欠落する重要なグローバル構造情報を抽出する。 そこで本手法は,ビュー誘導点雲完了タスクのために収集した新しい大規模データセットにおいて,従来のソリューションよりもはるかに優れた結果が得られることを示す。

This paper presents a view-guided solution for the task of point cloud completion. Unlike most existing methods directly inferring the missing points using shape priors, we address this task by introducing ViPC (view-guided point cloud completion) that takes the missing crucial global structure information from an extra single-view image. By leveraging a framework that sequentially performs effective cross-modality and cross-level fusions, our method achieves significantly superior results over typical existing solutions on a new large-scale dataset we collect for the view-guided point cloud completion task.
翻訳日:2021-04-13 14:04:25 公開日:2021-04-12
# ゼロショット学習のためのロバストなビジュアルセマンティクスマッピングの学習

Learning Robust Visual-semantic Mapping for Zero-shot Learning ( http://arxiv.org/abs/2104.05668v1 )

ライセンス: Link先を確認
Jingcai Guo(参考訳) ゼロショット学習(ZSL)は、目に見えないクラスの例(画像など)を、目に見えないクラスの知識で認識することを目的としている。 これは典型的には、見知らぬクラス、例えば属性やワードベクトルの両方で共有される意味的特徴空間をブリッジとして利用することによって達成される。 ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。 未知のクラスを推論すると、学習されたマッピング関数が再利用され、セマンティックな関係の中でいくつかのメトリクスのクラスラベルを認識する。 しかし、視覚的特徴空間と意味的特徴空間は一般に独立であり、全く異なる多様体に存在する。 このようなパラダイムの下で、ZSLモデルはマッピング関数の構築と再利用においてドメインシフトの問題に容易に悩まされ、ZSLの主要な課題となる。 本稿では、ドメインシフト問題を緩和し、視覚的特徴空間と意味的特徴空間の間のロバストマッピング関数を学習する効果的な方法を検討する。 ZSLの重要なビルディングブロックの一つであるセマンティックな特徴空間を完全に強化することに注力する。 要約すると、この論文は意味的特徴空間を完全に強化し、ドメインシフト問題を緩和し、ZSLのためのより堅牢なビジュアル・セマンティックマッピング関数を得るために効果的なソリューションを設計することを目的としている。 各種データセットに対する大規模な実験により,提案手法の有効性が示された。

Zero-shot learning (ZSL) aims at recognizing unseen class examples (e.g., images) with knowledge transferred from seen classes. This is typically achieved by exploiting a semantic feature space shared by both seen and unseen classes, e.g., attributes or word vectors, as the bridge. In ZSL, the common practice is to train a mapping function between the visual and semantic feature spaces with labeled seen class examples. When inferring, given unseen class examples, the learned mapping function is reused to them and recognizes the class labels on some metrics among their semantic relations. However, the visual and semantic feature spaces are generally independent and exist in entirely different manifolds. Under such a paradigm, the ZSL models may easily suffer from the domain shift problem when constructing and reusing the mapping function, which becomes the major challenge in ZSL. In this thesis, we explore effective ways to mitigate the domain shift problem and learn a robust mapping function between the visual and semantic feature spaces. We focus on fully empowering the semantic feature space, which is one of the key building blocks of ZSL. In summary, this thesis targets fully empowering the semantic feature space and design effective solutions to mitigate the domain shift problem and hence obtain a more robust visual-semantic mapping function for ZSL. Extensive experiments on various datasets demonstrate the effectiveness of our proposed methods.
翻訳日:2021-04-13 14:04:14 公開日:2021-04-12
# Transformer VAEを用いた3次元動作合成

Action-Conditioned 3D Human Motion Synthesis with Transformer VAE ( http://arxiv.org/abs/2104.05670v1 )

ライセンス: Link先を確認
Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。 動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。 ここでは、生成型変分オートエンコーダ(vae)を訓練することにより、人間の動きに対する行動認識潜在表現を学ぶ。 この潜伏空間からサンプリングし、一連の位置エンコーディングを通して一定期間を問うことにより、カテゴリー的動作で条件付けられた可変長運動列を合成する。 具体的には、行動認識データセットから推定されるパラメトリックSMPL人体モデルのシーケンスを符号化し、復号するためのトランスフォーマーベースのアーキテクチャACTORを設計する。 我々は,NTU RGB+D,HumanAct12,UESTCデータセットに対するアプローチを評価し,技術状況に対する改善点を示す。 さらに,合成データをトレーニングに加えることによる行動認識の改善と,運動認知の2つのユースケースを提案する。 私たちのコードとモデルは利用可能になります。

We tackle the problem of action-conditioned generation of realistic and diverse human motion sequences. In contrast to methods that complete, or extend, motion sequences, this task does not require an initial pose or sequence. Here we learn an action-aware latent representation for human motions by training a generative variational autoencoder (VAE). By sampling from this latent space and querying a certain duration through a series of positional encodings, we synthesize variable-length motion sequences conditioned on a categorical action. Specifically, we design a Transformer-based architecture, ACTOR, for encoding and decoding a sequence of parametric SMPL human body models estimated from action recognition datasets. We evaluate our approach on the NTU RGB+D, HumanAct12 and UESTC datasets and show improvements over the state of the art. Furthermore, we present two use cases: improving action recognition through adding our synthesized data to training, and motion denoising. Our code and models will be made available.
翻訳日:2021-04-13 14:03:50 公開日:2021-04-12
# 画素共起行列を用いた全体像操作検出

Holistic Image Manipulation Detection using Pixel Co-occurrence Matrices ( http://arxiv.org/abs/2104.05693v1 )

ライセンス: Link先を確認
Lakshmanan Nataraj, Michael Goebel, Tajuddin Manhar Mohammed, Shivkumar Chandrasekaran, B. S. Manjunath(参考訳) digital image forensicsは、デジタル操作された画像を検出することを目的としている。 リアル画像の偽造には、スプライシング、再サンプリング、領域除去、スムース化、その他の操作方法の組み合わせが含まれる。 文学におけるほとんどの検出方法は、特定の種類の操作を検出することに焦点を当てているが、多数の操作を含むドクター画像を特定することは困難である。 本稿では,画素共起行列と深層学習を組み合わせることで,改ざん画像を検出する新しい手法を提案する。 画素領域内の3色チャネル上の水平および垂直共起行列を抽出し,deep convolutional neural network(cnn)フレームワークを用いてモデルを訓練する。 本手法は操作のタイプと無関係であり,画像の改ざんやアンスタンプ化に分類する。 86,000以上のイメージのデータセットでモデルをトレーニングし、検証します。 実験の結果,本手法は有望であり,トレーニングおよび検証サブセットの曲線評価基準(AUC)の下で0.99以上の領域を達成できることがわかった。 さらに,メディア・インフォメーション・チャレンジ(mfc)2020で発表された19,740枚以上の画像を含む,未発見のテストデータセット上で約0.81 aucを達成した。 私たちのスコアは、チャレンジ結果の発表時にチャレンジに参加した他のチームの中で最高でした。

Digital image forensics aims to detect images that have been digitally manipulated. Realistic image forgeries involve a combination of splicing, resampling, region removal, smoothing and other manipulation methods. While most detection methods in literature focus on detecting a particular type of manipulation, it is challenging to identify doctored images that involve a host of manipulations. In this paper, we propose a novel approach to holistically detect tampered images using a combination of pixel co-occurrence matrices and deep learning. We extract horizontal and vertical co-occurrence matrices on three color channels in the pixel domain and train a model using a deep convolutional neural network (CNN) framework. Our method is agnostic to the type of manipulation and classifies an image as tampered or untampered. We train and validate our model on a dataset of more than 86,000 images. Experimental results show that our approach is promising and achieves more than 0.99 area under the curve (AUC) evaluation metric on the training and validation subsets. Further, our approach also generalizes well and achieves around 0.81 AUC on an unseen test dataset comprising more than 19,740 images released as part of the Media Forensics Challenge (MFC) 2020. Our score was highest among all other teams that participated in the challenge, at the time of announcement of the challenge results.
翻訳日:2021-04-13 14:03:35 公開日:2021-04-12
# WHOSeの遺産:ユネスコの世界遺産「万能の普遍的価値」とスムースラベルの分類

WHOSe Heritage: Classification of UNESCO World Heritage "Outstanding Universal Value" Documents with Smoothed Labels ( http://arxiv.org/abs/2104.05547v1 )

ライセンス: Link先を確認
Nan Bai, Renqian Luo, Pirouz Nourian, Ana Pereira Roders(参考訳) ユネスコ世界遺産リスト(英語: UNESCO World Heritage List、略称:WHL)は、人類全体にとって非常に貴重な文化的・自然遺産である。 WHLにおける各指名の普遍的価値(OUV)の評価と正当化は、本質的には、登録される財産にとって重要であるが、基準が相互に排他的ではないため、専門家にとっても複雑な課題である。 さらに、現在この分野で主流となっている遺産価値の手動アノテーションは、知識の要求と時間的消費であり、遺産管理に影響を及ぼすような権威文書の体系的な分析を妨げている。 本研究は,最新のnlpモデルを用いて,世界遺産の選定,評価,監視を容易にするための,説明可能でスケーラブルでバイアスの少ない自動化ツールを求めて,公式のuv正当化文を含む新たな実世界のデータセット上で分類器を構築する。 ラベルスムーシングは、従来のクラス間関係知識をラベルに加えることで、マルチクラスとマルチラベルの分類をスムーズに変換し、ほとんどのベースラインの性能を向上させる。 この研究は、BERT と ULMFiT から微調整された最良のモデルが94.3%のトップ3の精度に達することを示しており、遺産の研究や実践にさらなる発展と応用が期待されている。

The UNESCO World Heritage List (WHL) is to identify the exceptionally valuable cultural and natural heritage to be preserved for mankind as a whole. Evaluating and justifying the Outstanding Universal Value (OUV) of each nomination in WHL is essentially important for a property to be inscribed, and yet a complex task even for experts since the criteria are not mutually exclusive. Furthermore, manual annotation of heritage values, which is currently dominant in the field, is knowledge-demanding and time-consuming, impeding systematic analysis of such authoritative documents in terms of their implications on heritage management. This study applies state-of-the-art NLP models to build a classifier on a new real-world dataset containing official OUV justification statements, seeking an explainable, scalable, and less biased automation tool to facilitate the nomination, evaluation, and monitoring processes of World Heritage properties. Label smoothing is innovatively adapted to transform the task smoothly between multi-class and multi-label classification by adding prior inter-class relationship knowledge into the labels, improving the performance of most baselines. The study shows that the best models fine-tuned from BERT and ULMFiT can reach 94.3% top-3 accuracy, which is promising to be further developed and applied in heritage research and practice.
翻訳日:2021-04-13 14:02:56 公開日:2021-04-12
# 構造的選好フィードバックによる純粋探索

Pure Exploration with Structured Preference Feedback ( http://arxiv.org/abs/2104.05294v1 )

ライセンス: Link先を確認
Shubham Gupta, Aadirupa Saha, and Sumeet Katariya(参考訳) 我々は、機能付きN$アームを含むサブセットワイドな選好フィードバックによる純粋探索の問題を考察する。 学習者は、$K$のサブセットをクエリでき、ノイズの多い勝者の形でフィードバックを受け取ることができる。 学習者の目標は、可能な限り少ないクエリを使用して、最適なアームを効率的に識別することである。 この設定は、オンライン小売、ストリーミングサービス、ニュースフィード、オンライン広告などの人間のフィードバックを含む様々なオンライン意思決定シナリオに関係している。 私たちの知る限りでは、これは構造的な設定で部分的な選好フィードバックモデルを検討する最初の仕事であり、潜在的に無限のアームセットを可能にする。 我々は,$\tilde{o} (\frac{d^2}{k \delta^2})$サンプルにおける最良アームの検出を少なくとも$\delta$で保証する2つのアルゴリズムを提案する。 また、インスタンス依存の下位境界である$\Omega(\frac{d}{\Delta^2} \log \frac{1}{\delta})$を導出します。 最後に、我々は理論的な発見を裏付ける広範な実験を行い、適応アルゴリズムが停止し、非適応アルゴリズムよりも最大12倍少ないサンプルを必要とすることを観察した。

We consider the problem of pure exploration with subset-wise preference feedback, which contains $N$ arms with features. The learner is allowed to query subsets of size $K$ and receives feedback in the form of a noisy winner. The goal of the learner is to identify the best arm efficiently using as few queries as possible. This setting is relevant in various online decision-making scenarios involving human feedback such as online retailing, streaming services, news feed, and online advertising; since it is easier and more reliable for people to choose a preferred item from a subset than to assign a likability score to an item in isolation. To the best of our knowledge, this is the first work that considers the subset-wise preference feedback model in a structured setting, which allows for potentially infinite set of arms. We present two algorithms that guarantee the detection of the best-arm in $\tilde{O} (\frac{d^2}{K \Delta^2})$ samples with probability at least $1 - \delta$, where $d$ is the dimension of the arm-features and $\Delta$ is the appropriate notion of utility gap among the arms. We also derive an instance-dependent lower bound of $\Omega(\frac{d}{\Delta^2} \log \frac{1}{\delta})$ which matches our upper bound on a worst-case instance. Finally, we run extensive experiments to corroborate our theoretical findings, and observe that our adaptive algorithm stops and requires up to 12x fewer samples than a non-adaptive algorithm.
翻訳日:2021-04-13 14:01:07 公開日:2021-04-12
# メタレギュライゼーション:勾配降下における学習率の適応的選択へのアプローチ

Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate in Gradient Descent ( http://arxiv.org/abs/2104.05447v1 )

ライセンス: Link先を確認
Guangzeng Xie, Hao Jin, Dachao Lin, Zhihua Zhang(参考訳) 1次勾配降下法における学習率の適応的選択のための新しいアプローチである \textit{meta-regularization} を提案する。 本手法は,学習率に正規化項を加えることで目的関数を修正し,パラメータと学習率の合同更新プロセスを最大化問題に投入する。 正規化項がなければ,本手法は実用的なアルゴリズムの生成を促進する。 textit{Meta-Regularization} が正則化器として $\varphi$-divergence を取ると、結果のアルゴリズムは他の一階勾配に基づくアルゴリズムと同等の理論的収束性能を示す。 さらに,目的関数の強凸条件下での収束性能を向上させることができることを理論的に証明した。 ベンチマーク問題に関する数値実験は、一般的な$\varphi$-divergence から得られるアルゴリズムの有効性とオンライン学習設定を示す。

We propose \textit{Meta-Regularization}, a novel approach for the adaptive choice of the learning rate in first-order gradient descent methods. Our approach modifies the objective function by adding a regularization term on the learning rate, and casts the joint updating process of parameters and learning rates into a maxmin problem. Given any regularization term, our approach facilitates the generation of practical algorithms. When \textit{Meta-Regularization} takes the $\varphi$-divergence as a regularizer, the resulting algorithms exhibit comparable theoretical convergence performance with other first-order gradient-based algorithms. Furthermore, we theoretically prove that some well-designed regularizers can improve the convergence performance under the strong-convexity condition of the objective function. Numerical experiments on benchmark problems demonstrate the effectiveness of algorithms derived from some common $\varphi$-divergence in full batch as well as online learning settings.
翻訳日:2021-04-13 14:00:41 公開日:2021-04-12
# 車車間通信による交通予測

Traffic Forecasting using Vehicle-to-Vehicle Communication ( http://arxiv.org/abs/2104.05528v1 )

ライセンス: Link先を確認
Steven Wong, Lejun Jiang, Robin Walters, Tam\'as G. Moln\'ar, G\'abor Orosz, Rose Yu(参考訳) 車両間通信(V2V)による車載交通予測のリアルタイム化に向けた第一歩を踏み出す。 実世界のV2V通信データを最大限活用するために,第一原理モデルと深層学習を統合する。 具体的には、第1原理モデルによる予測を改善するために、繰り返しニューラルネットワークを訓練する。 提案手法では,各車両の走行速度を1分以内で予測し,第1原理に基づくベースラインよりも精度が向上する。 第一原理モデルと深層学習手法を統合するための様々な方法を評価するための総合的な研究を行う。 私たちのモデルのソースコードはhttps://github.com/r ose-stl-lab/v2v-traf fic-forecastで入手できます。

We take the first step in using vehicle-to-vehicle (V2V) communication to provide real-time on-board traffic predictions. In order to best utilize real-world V2V communication data, we integrate first principle models with deep learning. Specifically, we train recurrent neural networks to improve the predictions given by first principle models. Our approach is able to predict the velocity of individual vehicles up to a minute into the future with improved accuracy over first principle-based baselines. We conduct a comprehensive study to evaluate different methods of integrating first principle models with deep learning techniques. The source code for our models is available at https://github.com/R ose-STL-Lab/V2V-traf fic-forecast .
翻訳日:2021-04-13 14:00:26 公開日:2021-04-12
# モバイルゲームにおけるチャーン予測の分析について

On Analyzing Churn Prediction in Mobile Games ( http://arxiv.org/abs/2104.05554v1 )

ライセンス: Link先を確認
Kihoon Jang, Junwhan Kim, Byunggu Yu(参考訳) サブスクリプションベースのビジネスでは、チャーンレートは、所定の期間内にサブスクリプションを終了する顧客の比率を指す。 特にモバイルゲーム業界では、高い競争力と顧客獲得コストのために、チャーンレートがしばしば発音されるため、チャーンレートを最小化するプロセスが不可欠である。 これは、特定の時間内に混乱するユーザーを予測し、混乱する予測を必要とする。 正確なチャーン予測は、ビジネスがチャーンレートを低く維持するために戦略的修復を考案し、関与することができる。 本稿では,高精度なチャーン予測手法を提案する。 本手法は,各ユーザの個別利用期間を考慮し,チャーン予測を行うように設計した。 論文で示したように、このアプローチは実際のゲームビジネスにおいて96.6%のチャーン予測精度を達成できた。 また,既存のチャーン予測アルゴリズムは,この手法を適用した場合の予測精度が向上することを示す。

In subscription-based businesses, the churn rate refers to the percentage of customers who discontinue their subscriptions within a given time period. Particularly, in the mobile games industry, the churn rate is often pronounced due to the high competition and cost in customer acquisition; therefore, the process of minimizing the churn rate is crucial. This needs churn prediction, predicting users who will be churning within a given time period. Accurate churn prediction can enable the businesses to devise and engage strategic remediations to maintain a low churn rate. The paper presents our highly accurate churn prediction method. We designed this method to take into account each individual user's distinct usage period in churn prediction. As presented in the paper, this approach was able to achieve 96.6% churn prediction accuracy on a real game business. In addition, the paper shows that other existing churn prediction algorithms are improved in prediction accuracy when this method is applied.
翻訳日:2021-04-13 14:00:16 公開日:2021-04-12
# 蒸留による一般化境界

Generalization bounds via distillation ( http://arxiv.org/abs/2104.05641v1 )

ライセンス: Link先を確認
Daniel Hsu and Ziwei Ji and Matus Telgarsky and Lan Wang(参考訳) 本稿では, 一般化境界が貧弱な高複雑ネットワークを仮定して, ほぼ同一の予測値を持つネットワークに蒸留することができるが, 複雑性は低く, 一般化境界がはるかに小さい。 主な貢献は、元のネットワークがこの良好な一般化を蒸留から継承することを示す分析であり、十分に定義されたデータ拡張の使用を想定している。 この境界は抽象的にも具体的な形でも示され、後者は畳み込み層、完全に接続された層、接続をスキップする接続を含む現代的な計算グラフを扱う減算手法によって補完される。 物語をまとめるために、圧縮の古典的一様収束解析(英語版)や、オリジナルのネットワークと蒸留の間の同様の一般化性能を示すシファーとmnistに関する様々な実験も紹介されている。

This paper theoretically investigates the following empirical phenomenon: given a high-complexity network with poor generalization bounds, one can distill it into a network with nearly identical predictions but low complexity and vastly smaller generalization bounds. The main contribution is an analysis showing that the original network inherits this good generalization bound from its distillation, assuming the use of well-behaved data augmentation. This bound is presented both in an abstract and in a concrete form, the latter complemented by a reduction technique to handle modern computation graphs featuring convolutional layers, fully-connected layers, and skip connections, to name a few. To round out the story, a (looser) classical uniform convergence analysis of compression is also presented, as well as a variety of experiments on cifar and mnist demonstrating similar generalization performance between the original network and its distillation.
翻訳日:2021-04-13 14:00:01 公開日:2021-04-12
# QZN:量子Z数

QZNs: Quantum Z-numbers ( http://arxiv.org/abs/2104.05190v1 )

ライセンス: Link先を確認
Jixiang Deng, Yong Deng(参考訳) ファジィとあいまいさをモデル化する効率性から、Z数は現実の実践において重要な役割を果たす。 しかし、実数体で定義されるZ数には量子環境における量子情報を処理する能力がない。 z数を量子数に一般化するのは合理的である。 本稿では、Z数値の量子一般化である量子Z数値(QZN)を提案する。 さらに、qznとそれに対応する量子回路の7つの基本的な量子ファジィ演算を数値例で示し、示す。 さらに、QZNに基づいて、新しい量子多属性決定法(MADM)アルゴリズムを提案し、医療診断に適用した。 その結果、量子計算の助けを借りて、提案アルゴリズムは正しく効率的に診断できることがわかった。

Because of the efficiency of modeling fuzziness and vagueness, Z-number plays an important role in real practice. However, Z-numbers, defined in the real number field, lack the ability to process the quantum information in quantum environment. It is reasonable to generalize Z-number into its quantum counterpart. In this paper, we propose quantum Z-numbers (QZNs), which are the quantum generalization of Z-numbers. In addition, seven basic quantum fuzzy operations of QZNs and their corresponding quantum circuits are presented and illustrated by numerical examples. Moreover, based on QZNs, a novel quantum multi-attributes decision making (MADM) algorithm is proposed and applied in medical diagnosis. The results show that, with the help of quantum computation, the proposed algorithm can make diagnoses correctly and efficiently.
翻訳日:2021-04-13 13:59:35 公開日:2021-04-12
# coqのためのオンライン機械学習技術:比較

Online Machine Learning Techniques for Coq: A Comparison ( http://arxiv.org/abs/2104.05207v1 )

ライセンス: Link先を確認
Liao Zhang, Lasse Blaauwbroek, Bartosz Piotrowski, Prokop \v{C}ern\'y, Cezary Kaliszyk, and Josef Urban(参考訳) 我々は,Coq証明アシスタントにおける戦術学習と証明のためのオンライン機械学習技術の比較を行った。 この作業は、ユーザが書いた証明から学び、新しい証明を合成する、Coq用のプラグインであるTacticianの上に構築されている。 つまり、Tacticianの機械学習モデルは、ユーザが対話的な証明でステップを実行するたびに即座に更新される。 これは、より研究されたオフライン学習システムと比較すると重要な利点がある: (1) ストラテジアンによるシームレスでインタラクティブな体験を提供し、(2) 証明の類似性の局所性を利用する。 局所性に敏感な湿原林と無作為な決定林に基づく,およそ$k$-nearest近くの2つのオンライン手法を実装した。 さらに,xgboost を用いたオフライン環境で勾配ブースト木を用いた実験を行った。 coqの標準ライブラリ上で,これら3つの学習手法を用いて,戦術の相対的性能を比較する。

We present a comparison of several online machine learning techniques for tactical learning and proving in the Coq proof assistant. This work builds on top of Tactician, a plugin for Coq that learns from proofs written by the user to synthesize new proofs. This learning happens in an online manner -- meaning that Tactician's machine learning model is updated immediately every time the user performs a step in an interactive proof. This has important advantages compared to the more studied offline learning systems: (1) it provides the user with a seamless, interactive experience with Tactician and, (2) it takes advantage of locality of proof similarity, which means that proofs similar to the current proof are likely to be found close by. We implement two online methods, namely approximate $k$-nearest neighbors based on locality sensitive hashing forests and random decision forests. Additionally, we conduct experiments with gradient boosted trees in an offline setting using XGBoost. We compare the relative performance of Tactician using these three learning methods on Coq's standard library.
翻訳日:2021-04-13 13:59:24 公開日:2021-04-12
# LearningCity: スマートシティのための知識生成

LearningCity: Knowledge Generation for Smart Cities ( http://arxiv.org/abs/2104.05286v1 )

ライセンス: Link先を確認
Dimitrios Amaxilatis, Georgios Mylonas, Evangelos Theodoridis, Luis Diez, Katerina Deligiannidou(参考訳) スマートシティのインスタレーションやシステムでは新たなレベルに達していますが、これまでの取り組みでは、スマートシティサービス利用者にさまざまなデータソースを提供することに重点を置いています。 この状況において、スマートシティに付加価値をもたらす最初のステップは、自動化とクラウドソースの両方でサポートされている異常検出とデータアノテーションを通じて、スマートシティにおける知識創造である。 このソリューションは、サンタンデールの既存のスマートシティ展開とOrganiCityの実験・アズ・ア・サービスエコシステムに対して検証されたものです。 特徴的ユースケースとともに重要な課題について議論し、大規模スマートシティデータセットと機械学習を組み合わせた予備的な結果とともに、設計と実装について報告する。

Although we have reached new levels in smart city installations and systems, efforts so far have focused on providing diverse sources of data to smart city services consumers while neglecting to provide ways to simplify making good use of them. In this context, one first step that will bring added value to smart cities is knowledge creation in smart cities through anomaly detection and data annotation, supported in both an automated and a crowdsourced manner. We present here LearningCity, our solution that has been validated over an existing smart city deployment in Santander, and the OrganiCity experimentation-as-a -service ecosystem. We discuss key challenges along with characteristic use cases, and report on our design and implementation, together with some preliminary results derived from combining large smart city datasets with machine learning.
翻訳日:2021-04-13 13:59:09 公開日:2021-04-12
# アルゴリズムの透明性に向けて:多様性の展望

Towards Algorithmic Transparency: A Diversity Perspective ( http://arxiv.org/abs/2104.05658v1 )

ライセンス: Link先を確認
Fausto Giunchiglia, Jahna Otterbacher, Styliani Kleanthous, Khuyagbaatar Batsuren, Veronika Bogin, Tsvi Kuflik, Avital Shulner Tal(参考訳) 社会におけるアルゴリズムシステムとプロセスの役割が増加するにつれて、バイアスのリスクも増大し、個人や社会集団に対する差別につながる可能性がある。 アルゴリズムバイアスの研究は近年爆発的であり、アルゴリズム透明性(AT)の観点からバイアスの問題と潜在的な解決策の両方を強調している。 透明性は、公平性管理とアルゴリズムの説明可能性を促進する上で重要であるが、多様性の概念とバイアスと透明性との関係は、議論から大きく外れている。 我々は多様性とバイアスの関係を反映し、多様性が透明性の必要性を促進すると主張している。 多様性を前提としたパースペクティブ・テイク・レンズを用いて,アルゴリズムシステムにおけるその応用を支援するために,atの問題と解空間を特徴付ける概念的枠組みを提案する。 3つの研究領域の事例をフレームワークを用いて記述する。

As the role of algorithmic systems and processes increases in society, so does the risk of bias, which can result in discrimination against individuals and social groups. Research on algorithmic bias has exploded in recent years, highlighting both the problems of bias, and the potential solutions, in terms of algorithmic transparency (AT). Transparency is important for facilitating fairness management as well as explainability in algorithms; however, the concept of diversity, and its relationship to bias and transparency, has been largely left out of the discussion. We reflect on the relationship between diversity and bias, arguing that diversity drives the need for transparency. Using a perspective-taking lens, which takes diversity as a given, we propose a conceptual framework to characterize the problem and solution spaces of AT, to aid its application in algorithmic systems. Example cases from three research domains are described using our framework.
翻訳日:2021-04-13 13:58:55 公開日:2021-04-12
# 小隊マヌーブル記述のための階層型状態機械ベースフレームワーク

A Hierarchical State-Machine-Based Framework for Platoon Manoeuvre Descriptions ( http://arxiv.org/abs/2104.05305v1 )

ライセンス: Link先を確認
Corvin Deboeser, Jordan Ivanchev, Thomas Braud, Alois Knoll, David Eckhoff, Alberto Sangiovanni-Vincente lli(参考訳) 本稿では,自動小隊操作の設計と記述を簡略化するSEADフレームワークを提案する。 多数の研究が小隊形を定式化しているが、それらを設計し、記述し、読み、理解することは依然として困難である。 この困難は形式化の欠如から生じる。 このギャップを埋めるために,既存の操作方法を分析し,難易度の原因を導出し,操作設計プロセスを単純化するフレームワークを設計した。 また、機械可読形式のマヌーヴルを構造的に記述するためにマヌーヴル設計言語が開発された。 あらゆる参加車両に1つの状態マシンを必要とする最先端の操作記述とは異なり、SEADフレームワークは小隊リーダーの単一視点からあらゆる操作を記述することができる。 %) として, 高速道路における混在交通シミュレーション環境であるBEHAVEにおいて, 提案手法を実装した。 この枠組みを用いて,文献に記述されたいくつかの操作を実装した。 フレームワークの適用性を実証するため、Join-Middle操作の複数の代替品の実行時間性能を評価する実験を行った。 この概念実証実験により, 種々のステップを並列化することにより, 操作時間を28 %削減できることがわかった。 我々はSEADフレームワークが、新しい操作設計と最適化の領域におけるさらなる研究の道を開くことを願っている。

This paper introduces the SEAD framework that simplifies the process of designing and describing autonomous vehicle platooning manoeuvres. Although a large body of research has been formulating platooning manoeuvres, it is still challenging to design, describe, read, and understand them. This difficulty largely arises from missing formalisation. To fill this gap, we analysed existing ways of describing manoeuvres, derived the causes of difficulty, and designed a framework that simplifies the manoeuvre design process. Alongside, a Manoeuvre Design Language was developed to structurally describe manoeuvres in a machine-readable format. Unlike state-of-the-art manoeuvre descriptions that require one state machine for every participating vehicle, the SEAD framework allows describing any manoeuvre from the single perspective of the platoon leader. %As a proof of concept, the proposed framework was implemented in the mixed traffic simulation environment BEHAVE for an autonomous highway scenario. Using this framework, we implemented several manoeuvres as they were described in literature. To demonstrate the applicability of the framework, an experiment was performed to evaluate the execution time performance of multiple alternatives of the Join-Middle manoeuvre. This proof-of-concept experiment revealed that the manoeuvre execution time can be reduced by 28 \% through parallelising various steps without considerable secondary effects. We hope that the SEAD framework will pave the way for further research in the area of new manoeuvre design and optimisation by largely simplifying and unifying platooning manoeuvre representation.
翻訳日:2021-04-13 13:57:35 公開日:2021-04-12
# 株価予測のための高速なエビデンシャルアプローチ

A Fast Evidential Approach for Stock Forecasting ( http://arxiv.org/abs/2104.05204v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Fuyuan Xiao(参考訳) エビデンス理論の枠組みでは、データ融合は複数の異なる情報ソースの信頼度関数を結合して複合信頼度関数を得る。 株価予測は経済学の焦点である。 株価予測は参照データを提供することができる。 デンプスターの組み合わせルールは、異なる情報を融合する古典的な方法である。 各時点と将来の時点で融合した時系列全体と、その時間関係によって得られた予備予測値に基づいて、デンプスター結合則と信頼度関数を用いて、正確な予測値を復元することができる。 本稿では,エビデンス理論の予測手法を紹介する。 本手法は、動作性能が良好で、大量の株価データに対して迅速な応答が可能であり、また、広範囲にわたる重要性を有する。

In the framework of evidence theory, data fusion combines the confidence functions of multiple different information sources to obtain a combined confidence function. Stock price prediction is the focus of economics. Stock price forecasts can provide reference data. The Dempster combination rule is a classic method of fusing different information. By using the Dempster combination rule and confidence function based on the entire time series fused at each time point and future time points, and the preliminary forecast value obtained through the time relationship, the accurate forecast value can be restored. This article will introduce the prediction method of evidence theory. This method has good running performance, can make a rapid response on a large amount of stock price data, and has far-reaching significance.
翻訳日:2021-04-13 13:56:24 公開日:2021-04-12
# ニューラルカメラシミュレータ

Neural Camera Simulators ( http://arxiv.org/abs/2104.05237v1 )

ライセンス: Link先を確認
Hao Ouyang, Zifan Shi, Chenyang Lei, Ka Lung Law and Qifeng Chen(参考訳) 本稿では,ディープニューラルネットワークに基づく制御可能なカメラシミュレータを用いて,露光時間,iso,アパーチャなどの異なるカメラ設定下での生画像データを合成する。 提案するシミュレータは、現代のレンズ設計の原理を利用して輝度レベルを補正する露光モジュールを含む。 また、ノイズレベル関数を用いたノイズモジュールと、ノイズとデフォーカスのぼかしに対する副作用をシミュレートする適応的な注意を持つ開口モジュールを含む。 シミュレータモデルの学習を容易にするため,450シーンの1万枚の原画像のデータセットを異なる露出設定で収集する。 定量的実験と質的比較により,複数のカメラを用いた生データ合成において,本手法が関連するベースラインよりも優れていることが示された。 さらに、カメラシミュレータは、ローカル特徴検出をトレーニングするための大容量拡張、hdr、自動露光、データ拡張など、様々なアプリケーションを可能にする。 我々の研究は、従来の生のセンサー機能とデータ駆動型ディープラーニングのパワーの両方を活用することで、カメラセンサーの振る舞いをシミュレートする最初の試みである。

We present a controllable camera simulator based on deep neural networks to synthesize raw image data under different camera settings, including exposure time, ISO, and aperture. The proposed simulator includes an exposure module that utilizes the principle of modern lens designs for correcting the luminance level. It also contains a noise module using the noise level function and an aperture module with adaptive attention to simulate the side effects on noise and defocus blur. To facilitate the learning of a simulator model, we collect a dataset of the 10,000 raw images of 450 scenes with different exposure settings. Quantitative experiments and qualitative comparisons show that our approach outperforms relevant baselines in raw data synthesize on multiple cameras. Furthermore, the camera simulator enables various applications, including large-aperture enhancement, HDR, auto exposure, and data augmentation for training local feature detectors. Our work represents the first attempt to simulate a camera sensor's behavior leveraging both the advantage of traditional raw sensor features and the power of data-driven deep learning.
翻訳日:2021-04-13 13:55:10 公開日:2021-04-12
# 食品産業における二重エネルギー吸収測定に基づく非監督的異物検出

Unsupervised foreign object detection based on dual-energy absorptiometry in the food industry ( http://arxiv.org/abs/2104.05326v1 )

ライセンス: Link先を確認
Vladyslav Andriiashen, Robert van Liere, Tristan van Leeuwen, Kees Joost Batenburg(参考訳) X線イメージングは農業用食品の非破壊検査に広く用いられている技術である。 X線イメージングの応用の1つは、食品サンプル中の外部物体の自律的インライン検出である。 肉製品の骨片、魚のプラスチックや金属の破片、果物の寄生虫などがその例である。 本稿では,dual-energy x-ray absorptiometry (dexa) に基づく教師なし異物検出のための処理手法を提案する。 異物は、食品に含まれるものとは異なるX線減衰特性を持つ材料の断片として定義される。 DEXAデータの前処理技術として,新しい厚さ補正モデルを導入する。 このモデルの目的は、食品に含まれる画像内の領域を均質化し、異物が存在するコントラストを強化することである。 このようにして、外部オブジェクトのセグメンテーションは、ノイズやコントラストの欠如に対してより堅牢である。 提案手法は, 肉製品の488サンプルのデータセットに適用した。 サンプルは食品加工工場のコンベアベルトから採取された。 サンプルの約60%は異なる種類や大きさの異物を含むが、残りのサンプルは異物は含まない。 その結果, 異物のない試料は97%の症例で正しく同定され, 全体の検出精度は95%に達した。

X-ray imaging is a widely used technique for non-destructive inspection of agricultural food products. One application of X-ray imaging is the autonomous, in-line detection of foreign objects in food samples. Examples of such inclusions are bone fragments in meat products, plastic and metal debris in fish, fruit infestations. This article presents a processing methodology for unsupervised foreign object detection based on dual-energy X-ray absorptiometry (DEXA). A foreign object is defined as a fragment of material with different X-ray attenuation properties than those belonging to the food product. A novel thickness correction model is introduced as a pre-processing technique for DEXA data. The aim of the model is to homogenize regions in the image that belong to the food product and enhance contrast where the foreign object is present. In this way, the segmentation of the foreign object is more robust to noise and lack of contrast. The proposed methodology was applied to a dataset of 488 samples of meat products. The samples were acquired from a conveyor belt in a food processing factory. Approximately 60\% of the samples contain foreign objects of different types and sizes, while the rest of the samples are void of foreign objects. The results show that samples without foreign objects are correctly identified in 97% of cases, the overall accuracy of foreign object detection reaches 95%.
翻訳日:2021-04-13 13:54:52 公開日:2021-04-12
# ドラフトとリビジョン:ラプラシアンピラミッドネットワークによる高速芸術的スタイル移行

Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer ( http://arxiv.org/abs/2104.05376v1 )

ライセンス: Link先を確認
Tianwei Lin, Zhuoqi Ma, Fu Li, Dongliang He, Xin Li, Errui Ding, Nannan Wang, Jie Li, Xinbo Gao(参考訳) アートスタイルの転送は、サンプルイメージからコンテンツイメージへのスタイルの移行を目的としている。 現在、最適化に基づく手法は、優れたスタイリング品質を達成しているが、高価な時間コストは実用的応用を制限する。 一方、フィードフォワード法は、特に全体的グローバルパターンと局所パターンが存在する場合、複雑なスタイルを合成できない。 草案を描き、細部を改訂する一般的な絵画のプロセスに触発され、ラプラシアピラミッドネットワーク(lapstyle)と呼ばれる新しいフィードフォワード方式を導入する。 LapStyleは、ドラフトネットワークを介して、まずグローバルスタイルのパターンを低解像度で転送する。 次に,ラプラシアンフィルタリングにより抽出された画像テクスチャと草案に従って残像を幻示するリビジョンネットワークを介して,局所的な詳細を高解像度で修正する。 より高解像度な詳細は、複数のラプラシアピラミッドレベルでRevision Networksを積み重ねることで容易に生成できる。 最終スタイリング画像は、すべてのピラミッドレベルの出力を集約することで得られる。 % ローカルパターンを逆向きに学習するパッチ判別器も導入しました。 実験により,完全スタイルパターンを適切に転送した高品質なスタイライゼーション画像をリアルタイムに合成できることが実証された。

Artistic style transfer aims at migrating the style from an example image to a content image. Currently, optimization-based methods have achieved great stylization quality, but expensive time cost restricts their practical applications. Meanwhile, feed-forward methods still fail to synthesize complex style, especially when holistic global and local patterns exist. Inspired by the common painting process of drawing a draft and revising the details, we introduce a novel feed-forward method named Laplacian Pyramid Network (LapStyle). LapStyle first transfers global style patterns in low-resolution via a Drafting Network. It then revises the local details in high-resolution via a Revision Network, which hallucinates a residual image according to the draft and the image textures extracted by Laplacian filtering. Higher resolution details can be easily generated by stacking Revision Networks with multiple Laplacian pyramid levels. The final stylized image is obtained by aggregating outputs of all pyramid levels. %We also introduce a patch discriminator to better learn local patterns adversarially. Experiments demonstrate that our method can synthesize high quality stylized images in real time, where holistic style patterns are properly transferred.
翻訳日:2021-04-13 13:54:35 公開日:2021-04-12
# 心臓画像分割における品質制御のための効率的なモデルモニタリング

Efficient Model Monitoring for Quality Control in Cardiac Image Segmentation ( http://arxiv.org/abs/2104.05533v1 )

ライセンス: Link先を確認
Francesco Galati and Maria A. Zuluaga(参考訳) 深層学習法は、心臓画像分割における最先端のパフォーマンスに到達した。 現在、診療所への効果的な翻訳の主なボトルネックは、継続的なハイモデルパフォーマンスとセグメンテーション結果の確保である。 そこで本研究では,基礎的真理を欠いた心臓セグメンテーションモデルの性能をモニタリングする新しい学習フレームワークを提案する。 異常検出問題として定式化され、監視フレームワークはセグメント化のための代理品質測定を導出し、疑わしい結果にフラグを付けることができる。 本稿では,グローバルスコアと画素ワイズマップという2種類の品質指標を提案する。 基礎的真理の欠如により, 心的分節課題の最終順位を再現することで, それらの使用を実証する。 その結果,我々のフレームワークは正確,高速,スケーラブルであり,臨床と大規模集団研究における品質管理モニタリングに有効な選択肢であることを確認した。

Deep learning methods have reached state-of-the-art performance in cardiac image segmentation. Currently, the main bottleneck towards their effective translation into clinics requires assuring continuous high model performance and segmentation results. In this work, we present a novel learning framework to monitor the performance of heart segmentation models in the absence of ground truth. Formulated as an anomaly detection problem, the monitoring framework allows deriving surrogate quality measures for a segmentation and allows flagging suspicious results. We propose two different types of quality measures, a global score and a pixel-wise map. We demonstrate their use by reproducing the final rankings of a cardiac segmentation challenge in the absence of ground truth. Results show that our framework is accurate, fast, and scalable, confirming it is a viable option for quality control monitoring in clinical practice and large population studies.
翻訳日:2021-04-13 13:54:16 公開日:2021-04-12
# gattanet:畳み込みニューラルネットワークのためのグローバル注意合意

GAttANet: Global attention agreement for convolutional neural networks ( http://arxiv.org/abs/2104.05575v1 )

ライセンス: Link先を確認
Rufin VanRullen and Andrea Alamia(参考訳) 自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、近年、畳み込み層と組み合わせて、あるいは畳み込み層の代替として、視覚においても効率的であることが証明された。 通常、視覚的な注意は(一連の)feedforward self-attention module(s)としてネットワークアーキテクチャに挿入される。 しかしながら、この戦略は、注意選択領域の分離された統一されたネットワークとして、視覚領域の階層全体に対する入力を受け取り、変調的影響を行使する、生物学的脳に注意を向ける方法とあいまいに両立するだけである。 本稿では,標準畳み込みネットワークの性能を比較的少ないパラメータで向上させる単純な注意システムを用いた実験について報告する。 ネットワークの各レイヤ内の各空間位置はキー-クエリベクトルペアを生成し、すべてのクエリはグローバルアテンションクエリにプールされる。 次のイテレーションでは、各キーとグローバルアテンションクエリのマッチングがネットワークのアクティベーションを変調します。 この脳にインスパイアされたグローバルアテンションアグリーメントネットワーク(GAttANet)は,単純な5層トイモデルから標準ResNet50アーキテクチャまで)やデータセット(CIFAR10, CIFAR100, Imagenet-1k)に対して有用であることを示す。 グローバルアテンションシステムは毎回,対応するベースラインの精度を向上させる。

Transformer attention architectures, similar to those developed for natural language processing, have recently proved efficient also in vision, either in conjunction with or as a replacement for convolutional layers. Typically, visual attention is inserted in the network architecture as a (series of) feedforward self-attention module(s), with mutual key-query agreement as the main selection and routing operation. However efficient, this strategy is only vaguely compatible with the way that attention is implemented in biological brains: as a separate and unified network of attentional selection regions, receiving inputs from and exerting modulatory influence on the entire hierarchy of visual regions. Here, we report experiments with a simple such attention system that can improve the performance of standard convolutional networks, with relatively few additional parameters. Each spatial position in each layer of the network produces a key-query vector pair; all queries are then pooled into a global attention query. On the next iteration, the match between each key and the global attention query modulates the network's activations -- emphasizing or silencing the locations that agree or disagree (respectively) with the global attention system. We demonstrate the usefulness of this brain-inspired Global Attention Agreement network (GAttANet) for various convolutional backbones (from a simple 5-layer toy model to a standard ResNet50 architecture) and datasets (CIFAR10, CIFAR100, Imagenet-1k). Each time, our global attention system improves accuracy over the corresponding baseline.
翻訳日:2021-04-13 13:54:02 公開日:2021-04-12
# 画像処理メトリクスの一般的な制限:ピクチャーストーリー

Common Limitations of Image Processing Metrics: A Picture Story ( http://arxiv.org/abs/2104.05642v1 )

ライセンス: Link先を確認
Annika Reinke, Matthias Eisenmann, Minu D. Tizabi, Carole H. Sudre, Tim R\"adsch, Michela Antonelli, Tal Arbel, Spyridon Bakas, M. Jorge Cardoso, Veronika Cheplygina, Keyvan Farahani, Ben Glocker, Doreen Heckmann-N\"otzel, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Jens Kleesiek, Tahsin Kurc, Michal Kozubek, Bennett A. Landman, Geert Litjens, Klaus Maier-Hein, Bjoern Menze, Henning M\"uller, Jens Petersen, Mauricio Reyes, Nicola Rieke, Bram Stieltjes, Ronald M. Summers, Sotirios A. Tsaftaris, Bram van Ginneken, Annette Kopp-Schneider, Paul J\"ager, Lena Maier-Hein(参考訳) 自動画像解析の重要性は急速に高まっているが、最近のメタリサーチャーにより、アルゴリズム検証に関する大きな欠陥が明らかになった。 特に、パフォーマンスメトリクスは客観的、透過的、比較パフォーマンス評価の鍵であるが、特定の画像分析タスクに特定のメトリクスを使用する場合、実用的落とし穴には比較的注意が払われていない。 したがって、いくつかの国際的なイニシアチブの共通のミッションは、研究者に問題意識でパフォーマンス指標を選択するためのガイドラインとツールを提供することである。 この動的に更新された文書は、画像分析の分野で一般的に適用されるパフォーマンスメトリクスの重要な制限を説明する目的を持っている。 現在のバージョンは、画像分析の専門家からなる国際コンソーシアムが実施するメトリクスに関するDelphiプロセスに基づいている。

While the importance of automatic image analysis is increasing at an enormous pace, recent meta-research revealed major flaws with respect to algorithm validation. Specifically, performance metrics are key for objective, transparent and comparative performance assessment, but relatively little attention has been given to the practical pitfalls when using specific metrics for a given image analysis task. A common mission of several international initiatives is therefore to provide researchers with guidelines and tools to choose the performance metrics in a problem-aware manner. This dynamically updated document has the purpose to illustrate important limitations of performance metrics commonly applied in the field of image analysis. The current version is based on a Delphi process on metrics conducted by an international consortium of image analysis experts.
翻訳日:2021-04-13 13:53:12 公開日:2021-04-12
# 運転者の注意に関する行動研究と実践モデル

Behavioral Research and Practical Models of Drivers' Attention ( http://arxiv.org/abs/2104.05677v1 )

ライセンス: Link先を確認
Iuliia Kotseruba and John K. Tsotsos(参考訳) 運転は多くの人にとって日常的な活動だが、単純ではない。 ドライバーは車線に車両を配置したり、他の道路利用者の行動を観察したり予測したり、危険に反応したり、車内外の邪魔をしたりといった複数の同時作業に対処する。 周囲の物体や事象に気付いて対応できないと、事故が発生することがある。 道路インフラの継続的な改良と車両の機械設計により、運転は全体的に安全になった。 それにもかかわらず、ドライバーの不注意の問題は事故の主な原因の1つのままである。 したがって、ドライバーがどこに見え、なぜそうするかを理解することは、邪魔の原因を排除し、安全でない注意パターンを特定するのに役立ちます。 ドライバーの注意調査は、政策立案、ドライバー教育の改善、道路インフラと車載インフォテインメントシステムの改善、ドライバーの監視、運転支援、自動運転のためのシステムの設計など、多くの実用的な応用に影響を与えている。 本報告では,ドライバの視覚注意分布の変化に関する文献について報告する。 運転中の注意の側面は、心理学、人的要因、人間とコンピュータの相互作用、インテリジェントな輸送、コンピュータビジョンなど、様々な分野にまたがっており、それぞれ異なる視点、目標、観察された現象の説明を提供している。 ドライバーの注意と実践的解決策に関する学際的理論と行動研究をリンクする。 さらに,今後の研究の限界と方向性についても論じる。 このレポートは、2010年以来の175以上の行動調査、100近い実践論文、20のデータセット、70以上の調査に基づいている。 このレポートで使用されるドキュメントのキュレーションリストはhttps://github.com/y kotseruba/attention_ and_driving.comで公開されている。

Driving is a routine activity for many, but it is far from simple. Drivers deal with multiple concurrent tasks, such as keeping the vehicle in the lane, observing and anticipating the actions of other road users, reacting to hazards, and dealing with distractions inside and outside the vehicle. Failure to notice and respond to the surrounding objects and events can cause accidents. The ongoing improvements of the road infrastructure and vehicle mechanical design have made driving safer overall. Nevertheless, the problem of driver inattention has remained one of the primary causes of accidents. Therefore, understanding where the drivers look and why they do so can help eliminate sources of distractions and identify unsafe attention patterns. Research on driver attention has implications for many practical applications such as policy-making, improving driver education, enhancing road infrastructure and in-vehicle infotainment systems, as well as designing systems for driver monitoring, driver assistance, and automated driving. This report covers the literature on changes in drivers' visual attention distribution due to factors, internal and external to the driver. Aspects of attention during driving have been explored across multiple disciplines, including psychology, human factors, human-computer interaction, intelligent transportation, and computer vision, each offering different perspectives, goals, and explanations for the observed phenomena. We link cross-disciplinary theoretical and behavioral research on driver's attention to practical solutions. Furthermore, limitations and directions for future research are discussed. This report is based on over 175 behavioral studies, nearly 100 practical papers, 20 datasets, and over 70 surveys published since 2010. A curated list of papers used for this report is available at https://github.com/y kotseruba/attention_ and_driving.
翻訳日:2021-04-13 13:53:00 公開日:2021-04-12
# オンラインゲームにおける個人化バンドル勧告

Personalized Bundle Recommendation in Online Games ( http://arxiv.org/abs/2104.05307v1 )

ライセンス: Link先を確認
Qilin Deng, Kai Wang, Minghao Zhao, Zhene Zou, Runze Wu, Jianrong Tao, Changjie Fan, Liang Chen(参考訳) ビジネスドメインにおいて、textit{bundling} は、オンライン電子商取引やオフライン小売業者で一般的に使用される製品プロモーションを行うための最も重要なマーケティング戦略の1つである。 既存のレコメンダシステムは、ユーザーが興味を持つかもしれない個々のアイテムを推薦することに集中している。 本稿では,バンドルレコメンデーション(bundle recommendation)という,実用的かつあまり検討されていないレコメンデーション問題を対象とする。 オンラインゲームにおける \emph{virtual mall} の文脈で、この特定の推奨問題に取り組むために、歴史的相互作用から構築されたユーザ・アイテム・バンドル三部グラフ上のリンク予測問題として定式化し、グラフ構造データから直接学習可能なニューラルネットワークモデルを用いて解く。 3つの公開データセットと1つの産業ゲームデータセットに関する大規模な実験により,提案手法の有効性が示された。 さらに,Netease Gamesが開発した人気オンラインゲームにおいて,バンドルレコメンデーションモデルが1年以上生産され,バンドルの変換率が60%以上向上し,総商品量(GMV)が15%以上向上した。

In business domains, \textit{bundling} is one of the most important marketing strategies to conduct product promotions, which is commonly used in online e-commerce and offline retailers. Existing recommender systems mostly focus on recommending individual items that users may be interested in. In this paper, we target at a practical but less explored recommendation problem named bundle recommendation, which aims to offer a combination of items to users. To tackle this specific recommendation problem in the context of the \emph{virtual mall} in online games, we formalize it as a link prediction problem on a user-item-bundle tripartite graph constructed from the historical interactions, and solve it with a neural network model that can learn directly on the graph-structure data. Extensive experiments on three public datasets and one industrial game dataset demonstrate the effectiveness of the proposed method. Further, the bundle recommendation model has been deployed in production for more than one year in a popular online game developed by Netease Games, and the launch of the model yields more than 60\% improvement on conversion rate of bundles, and a relative improvement of more than 15\% on gross merchandise volume (GMV).
翻訳日:2021-04-13 13:50:10 公開日:2021-04-12
# 超大深層学習モデルの効率的な2次元学習法

An Efficient 2D Method for Training Super-Large Deep Learning Models ( http://arxiv.org/abs/2104.05343v1 )

ライセンス: Link先を確認
Qifan Xu and Shenggui Li and Chaoyu Gong and Yang You(参考訳) 巨大なニューラルネットワークモデルは、現実世界のアプリケーションで前例のないパフォーマンスを示している。 しかし、メモリ制約のため、モデル並列性は単一のデバイスのメモリに収まらない大規模なモデルをホストするために利用する必要がある。 以前の方法であるmegatronはモデル全体のパラメータを複数のデバイスに分割するが、各デバイスは前方および後方パスでの冗長なアクティベーションに対応する必要がある。 本研究では,無限大言語モデルの学習を容易にするモデル並列処理の高効率かつスケーラブルな2次元並列化パラダイムであるoptimusを提案する。 Optimusでは、アクティベーションは分割され、デバイス間で分散される。 等効率の点で、オプティマスはメガトロンを著しく上回っている。 TACC Fronteraの64GPUでは、Optimusはトレーニング用の1.48倍のスピードアップ、推論用の1.78倍のスピードアップ、Megatronよりも最大バッチサイズが8倍に向上している。 OptimusはMegatronのスケーリング効率を大きく上回っている。 コードはhttps://github.com/x uqifan897/optimusで入手できる。

Huge neural network models have shown unprecedented performance in real-world applications. However, due to memory constraints, model parallelism must be utilized to host large models that would otherwise not fit into the memory of a single device. Previous methods like Megatron partition the parameters of the entire model among multiple devices, while each device has to accommodate the redundant activations in forward and backward pass. In this work, we propose Optimus, a highly efficient and scalable 2D-partition paradigm of model parallelism that would facilitate the training of infinitely large language models. In Optimus, activations are partitioned and distributed among devices, further reducing redundancy. In terms of isoefficiency, Optimus significantly outperforms Megatron. On 64 GPUs of TACC Frontera, Optimus achieves 1.48X speedup for training, 1.78X speedup for inference, and 8X increase in maximum batch size over Megatron. Optimus surpasses Megatron in scaling efficiency by a great margin. The code is available at https://github.com/x uqifan897/Optimus.
翻訳日:2021-04-13 13:49:35 公開日:2021-04-12
# グラフニューラルネットワークを用いた異種無線ネットワークにおけるスケーラブル電力制御/ビームフォーミング

Scalable Power Control/Beamforming in Heterogeneous Wireless Networks with Graph Neural Networks ( http://arxiv.org/abs/2104.05463v1 )

ライセンス: Link先を確認
Xiaochen Zhang, Haitao Zhao, Jun Xiong, Li Zhou, Jibo Wei(参考訳) 機械学習(ml)は無線ネットワークにおける効率的なリソース割り当て(ra)に広く使われている。 しかし、既存のMLベースのアプローチのほとんどは、異種性が発生し、ネットワークサイズが大きくなると困難に直面している。 本稿では,ヘテロジニアス・デバイス間(d2d)ネットワークにおける電力制御/ビーム形成(pc/bf)に着目し,これらの課題に対処するために,教師なし学習ベースのフレームワークであるヘテロジニアス干渉グラフニューラルネットワーク(hignn)を提案する。 まず,多様化したリンク特徴と異種グラフとの干渉関係を特徴付ける。 次に、隣接リンクとの限られた情報交換の後、各リンクに個々の送信方式を付与するhignnを提案する。 注目に値するのは、HIGNNは、小型ネットワークで訓練した後、堅牢な性能で成長する無線ネットワークに対してスケーラブルであることだ。 HIGNNは、最先端のベンチマークと比較すると、高い性能を提供しながら、より高い実行効率を実現する。

Machine learning (ML) has been widely used for efficient resource allocation (RA) in wireless networks. Although superb performance is achieved on small and simple networks, most existing ML-based approaches are confronted with difficulties when heterogeneity occurs and network size expands. In this paper, specifically focusing on power control/beamforming (PC/BF) in heterogeneous device-to-device (D2D) networks, we propose a novel unsupervised learning-based framework named heterogeneous interference graph neural network (HIGNN) to handle these challenges. First, we characterize diversified link features and interference relations with heterogeneous graphs. Then, HIGNN is proposed to empower each link to obtain its individual transmission scheme after limited information exchange with neighboring links. It is noteworthy that HIGNN is scalable to wireless networks of growing sizes with robust performance after trained on small-sized networks. Numerical results show that compared with state-of-the-art benchmarks, HIGNN achieves much higher execution efficiency while providing strong performance.
翻訳日:2021-04-13 13:48:19 公開日:2021-04-12
# N-gramプロファイルを用いたニューラルネットワークによる異常検出

Using a Neural Network to Detect Anomalies given an N-gram Profile ( http://arxiv.org/abs/2104.05571v1 )

ライセンス: Link先を確認
Byunggu Yu, Junwhan Kim(参考訳) コンピュータプログラムの未知の侵入や実行エラーを検出するため、サイバーセキュリティコミュニティは様々な検出技術を開発した。 異常検出(英: Anomaly detection)とは、コンピュータプログラムの通常の実行動作をプロファイリングして、観察された正常値から異常なずれとして侵入やエラーを検出する手法である。 しかし、正常だが観察されていない行動は偽陽性を引き起こすことがある。 この制限は異常検出技術の実用性を大幅に低下させた。 この制限に対する報告されたアプローチは、制限された観測に基づいてすべての正常な振る舞いを近似するための分布モデルに対する単純な警告しきい値定義にまたがる。 しかし、それぞれの仮定や近似は、さらに大きな偽陽性率の可能性がある。 本稿では,実際のデータ分布によらず,ニューラルネットワーク,特に長期記憶を用いた異常の存在を説明する方法について述べる。 我々は3つの異常検出モデルを提示し比較し、Apache Hypertext Transfer Protocolサーバ上で異なるタイプの攻撃を実行した経験について報告する。 本研究は, 異常な正常行動による偽陽性を回避しつつ, 各モデルが攻撃開始を検出する能力に着目し, 比較研究を行った。 最良性能モデルでは,攻撃の真発生を偽陽性ゼロで検出した。

In order to detect unknown intrusions and runtime errors of computer programs, the cyber-security community has developed various detection techniques. Anomaly detection is an approach that is designed to profile the normal runtime behavior of computer programs in order to detect intrusions and errors as anomalous deviations from the observed normal. However, normal but unobserved behavior can trigger false positives. This limitation has significantly decreased the practical viability of anomaly detection techniques. Reported approaches to this limitation span a simple alert threshold definition to distribution models for approximating all normal behavior based on the limited observation. However, each assumption or approximation poses the potential for even greater false positive rates. This paper presents our study on how to explain the presence of anomalies using a neural network, particularly Long Short-Term Memory, independent of actual data distributions. We present and compare three anomaly detection models, and report on our experience running different types of attacks on an Apache Hypertext Transfer Protocol server. We performed a comparative study, focusing on each model's ability to detect the onset of each attack while avoiding false positives resulting from unknown normal behavior. Our best-performing model detected the true onset of every attack with zero false positives.
翻訳日:2021-04-13 13:47:58 公開日:2021-04-12
# 深い確率的文脈帯域の効率的なアルゴリズム

An Efficient Algorithm for Deep Stochastic Contextual Bandits ( http://arxiv.org/abs/2104.05613v1 )

ライセンス: Link先を確認
Tan Zhu, Guannan Liang, Chunjiang Zhu, Haining Li, Jinbo Bi(参考訳) 確率的文脈バンドイット(SCB)問題では、エージェントは、ある観測されたコンテキストに基づいてアクションを選択し、反復よりも累積的な報酬を最大化する。 近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われており、DNNは確率勾配に基づく方法で訓練されている。 しかし、収束解析はこれらの手法が収束するかどうかを調べるために無視されている。 本研究では,dnn 報酬関数を非凸確率最適化問題として用いる scb を定式化し,ステージワイズ確率勾配降下アルゴリズムを設計,問題を最適化し,行動方針を決定する。 高い確率で、このアルゴリズムによって選択されたアクションシーケンスは、局所最適報酬関数に関する欲求行動ポリシーに収束することを示す。 複数の実世界のデータセット上で提案アルゴリズムの有効性と有効性を示すため,大規模な実験が実施されている。

In stochastic contextual bandit (SCB) problems, an agent selects an action based on certain observed context to maximize the cumulative reward over iterations. Recently there have been a few studies using a deep neural network (DNN) to predict the expected reward for an action, and the DNN is trained by a stochastic gradient based method. However, convergence analysis has been greatly ignored to examine whether and where these methods converge. In this work, we formulate the SCB that uses a DNN reward function as a non-convex stochastic optimization problem, and design a stage-wise stochastic gradient descent algorithm to optimize the problem and determine the action policy. We prove that with high probability, the action sequence chosen by this algorithm converges to a greedy action policy respecting a local optimal reward function. Extensive experiments have been performed to demonstrate the effectiveness and efficiency of the proposed algorithm on multiple real-world datasets.
翻訳日:2021-04-13 13:47:38 公開日:2021-04-12
# 1次手法による分散学習システム

Distributed Learning Systems with First-order Methods ( http://arxiv.org/abs/2104.05245v1 )

ライセンス: Link先を確認
Ji Liu, Ce Zhang(参考訳) スケーラブルで効率的な分散学習は、最近の機械学習と人工知能の急速な進歩の背後にある大きな原動力の1つだ。 このトピックの顕著な特徴の1つは、(1)データベース、データ管理、分散システムのようなシステムコミュニティ、(2)機械学習と数学の最適化コミュニティという2つのコミュニティの研究者によって最近の進歩がなされていることである。 これら2つのコミュニティ間の相互作用と知識共有は、新しい分散学習システムと理論の急速な発展につながった。 本稿では,最近開発された分散学習技術,すなわち分散通信圧縮(量子化とスパーシフィケーション),非同期通信,分散通信の簡単な紹介を期待する。 システム側では、システムスピードアップの背後にある直感では不要な多くのシステム詳細を隠蔽する、単純化されたシステムモデルに依存しています。

Scalable and efficient distributed learning is one of the main driving forces behind the recent rapid advancement of machine learning and artificial intelligence. One prominent feature of this topic is that recent progresses have been made by researchers in two communities: (1) the system community such as database, data management, and distributed systems, and (2) the machine learning and mathematical optimization community. The interaction and knowledge sharing between these two communities has led to the rapid development of new distributed learning systems and theory. In this work, we hope to provide a brief introduction of some distributed learning techniques that have recently been developed, namely lossy communication compression (e.g., quantization and sparsification), asynchronous communication, and decentralized communication. One special focus in this work is on making sure that it can be easily understood by researchers in both communities -- On the system side, we rely on a simplified system model hiding many system details that are not necessary for the intuition behind the system speedups; while, on the theory side, we rely on minimal assumptions and significantly simplify the proof of some recent work to achieve comparable results.
翻訳日:2021-04-13 13:44:35 公開日:2021-04-12
# 深層マルチエージェント強化学習への共進化的アプローチ

A coevolutionairy approach to deep multi-agent reinforcement learning ( http://arxiv.org/abs/2104.05610v1 )

ライセンス: Link先を確認
Daan Klijn, A.E. Eiben(参考訳) 伝統的に、ディープニューラルネットワーク(DNN)は勾配降下によって訓練される。 近年の研究では、DNE(Deep Neuroevolution)は、強化学習(Reinforcement Learning, RL)の分野で特に有用であることが示されている。 これは主に、従来のmdpベースのrlメソッドに比べてスケーラビリティとシンプルさが優れているためである。 これまでのところ、DNEは複雑な単一エージェント問題にのみ適用されている。 進化的手法はマルチエージェント問題にとって自然な選択であるので、DNEが複雑なマルチエージェント設定にも適用できるかどうかが問題となる。 本稿では、Coevolutionに基づく新しいアプローチを記述し、検証する。 提案手法を検証するため,複数エージェントのAtariゲーム上で2つのDeep Coevolutionary Algorithmをベンチマークし,Ape-X DQNの結果と比較した。 以上の結果から,これらの深層共進化アルゴリズム(1)は様々なゲームをうまく練習でき,(2)一部のゲームではap-x dqnよりも優れており,(3)複雑なマルチエージェント意思決定問題に対して共進化は有効なアプローチであることが示された。

Traditionally, Deep Artificial Neural Networks (DNN's) are trained through gradient descent. Recent research shows that Deep Neuroevolution (DNE) is also capable of evolving multi-million-parame ter DNN's, which proved to be particularly useful in the field of Reinforcement Learning (RL). This is mainly due to its excellent scalability and simplicity compared to the traditional MDP-based RL methods. So far, DNE has only been applied to complex single-agent problems. As evolutionary methods are a natural choice for multi-agent problems, the question arises whether DNE can also be applied in a complex multi-agent setting. In this paper, we describe and validate a new approach based on Coevolution. To validate our approach, we benchmark two Deep Coevolutionary Algorithms on a range of multi-agent Atari games and compare our results against the results of Ape-X DQN. Our results show that these Deep Coevolutionary algorithms (1) can be successfully trained to play various games, (2) outperform Ape-X DQN in some of them, and therefore (3) show that Coevolution can be a viable approach to solving complex multi-agent decision-making problems.
翻訳日:2021-04-13 13:44:20 公開日:2021-04-12
# 短期情報を用いたエンド・ツー・エンドマンダリン音分類

End-to-End Mandarin Tone Classification with Short Term Context Information ( http://arxiv.org/abs/2104.05657v1 )

ライセンス: Link先を確認
Jiyang Tang, Ming Li(参考訳) 本稿では,スペクトル情報と短期文脈情報の両方を入力として,連続音声発話から端から端までマンダリン音の分類法を提案する。 Mel-spectrogramsとコンテキストセグメント機能の両方を使用して、トーン分類器を訓練する。 まず,asrモデルによる力アライメント結果を用いて,スペクトルフレームを音節に分割した。 そして、複数の音節にまたがる文脈情報を取り込むために、短期のセグメント特徴を抽出する。 Mel-spectrogramと短期的なコンテキストセグメントの機能をエンドツーエンドモデルにフィードすることで、パフォーマンスを大幅に向上させることができる。 提案手法を評価するために,大規模オープンソースmandarin音声データセットを用いて実験を行った。 その結果、この手法は、aishell3データベース上で79.5\%$から85.7\%$に分類精度が向上した。

In this paper, we propose an end-to-end Mandarin tone classification method from continuous speech utterances utilizing both the spectrogram and the short term context information as the inputs. Both Mel-spectrograms and context segment features are used to train the tone classifier. We first divide the spectrogram frames into syllable segments using force alignment results produced by an ASR model. Then we extract the short term segment features to capture the context information across multiple syllables. Feeding both the Mel-spectrogram and the short term context segment features into an end-to-end model could significantly improve the performance. Experiments are performed on a large scale open source Mandarin speech dataset to evaluate the proposed method. Results show that the this method improves the classification accuracy from $79.5\%$ to $88.7\%$ on the AISHELL3 database.
翻訳日:2021-04-13 13:43:59 公開日:2021-04-12
# (参考訳) 機械学習モデルにおける個別説明:実践者に対する調査 [全文訳有]

Individual Explanations in Machine Learning Models: A Survey for Practitioners ( http://arxiv.org/abs/2104.04144v2 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u and Alejandro Noriega(参考訳) 近年、社会的関連性の高い領域における決定に影響を与える洗練された統計モデルの利用が増えている。 これらのモデルはしばしば組織の正確性と効率を大幅に改善するが、多くの政府、機関、企業は、その成果を人間の解釈可能な方法で説明することが難しいため、採用に消極的である。 したがって、これらのモデルは、内部メカニズムが人間の監査に不透明であるという意味で、しばしばブラックボックスと見なされる。 実世界のアプリケーションでは、特に、刑事司法、信用スコアの推定、保険リスク、健康リスクなど、決定に敏感な影響がある領域において、モデル解釈が望まれる。 近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。 この調査は、機械学習における個々のインスタンスを説明する特定の問題に対処するための最先端技術を形成する最も重要で斬新な手法についてレビューする。 データサイエンスと機械学習の実践者が、問題領域に適切な方法を探すためのガイドとなる簡潔なレビューを提供することを目指している。

In recent years, the use of sophisticated statistical models that influence decisions in domains of high societal relevance is on the rise. Although these models can often bring substantial improvements in the accuracy and efficiency of organizations, many governments, institutions, and companies are reluctant to their adoption as their output is often difficult to explain in human-interpretable ways. Hence, these models are often regarded as black-boxes, in the sense that their internal mechanisms can be opaque to human audit. In real-world applications, particularly in domains where decisions can have a sensitive impact--e.g., criminal justice, estimating credit scores, insurance risk, health risks, etc.--model interpretability is desired. Recently, the academic literature has proposed a substantial amount of methods for providing interpretable explanations to machine learning models. This survey reviews the most relevant and novel methods that form the state-of-the-art for addressing the particular problem of explaining individual instances in machine learning. It seeks to provide a succinct review that can guide data science and machine learning practitioners in the search for appropriate methods to their problem domain.
翻訳日:2021-04-13 11:48:47 公開日:2021-04-12
# (参考訳) 機械学習モデルにおける個人説明:貧困推定を事例として [全文訳有]

Individual Explanations in Machine Learning Models: A Case Study on Poverty Estimation ( http://arxiv.org/abs/2104.04148v2 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u, Luis Tejerina and Alejandro Noriega(参考訳) 機械学習の手法は、決定が人間の生活に影響を与える繊細な社会状況にますます適用されている。 したがって、モデルの予測を簡単に解釈可能な説明を提供する能力を構築する必要がある。 近年の学術文献では、多くの説明方法が提案されている。 残念ながら、私たちの知る限りでは、機械学習の実践者が現実のシナリオに適用する際に直面する課題についてはほとんど文書化されていません。 例えば、機能工学のような典型的な手順は、いくつかの方法論をもはや適用できなくなる。 本研究の主な目的は2つある。 まず、これらの課題とそれらが関連する新しい説明方法の使用に与える影響を明らかにする。 第二に、関連するアプリケーションドメインで説明手法を実装する際に直面するような課題を緩和する一連の戦略を示す。

Machine learning methods are being increasingly applied in sensitive societal contexts, where decisions impact human lives. Hence it has become necessary to build capabilities for providing easily-interpretable explanations of models' predictions. Recently in academic literature, a vast number of explanations methods have been proposed. Unfortunately, to our knowledge, little has been documented about the challenges machine learning practitioners most often face when applying them in real-world scenarios. For example, a typical procedure such as feature engineering can make some methodologies no longer applicable. The present case study has two main objectives. First, to expose these challenges and how they affect the use of relevant and novel explanations methods. And second, to present a set of strategies that mitigate such challenges, as faced when implementing explanation methods in a relevant application domain -- poverty estimation and its use for prioritizing access to social policies.
翻訳日:2021-04-13 11:35:57 公開日:2021-04-12
# (参考訳) 信頼度推定を用いた雑音ラベルNER [全文訳有]

Noisy-Labeled NER with Confidence Estimation ( http://arxiv.org/abs/2104.04318v2 )

ライセンス: CC BY 4.0
Kun Liu, Yao Fu, Chuanqi Tan, Mosha Chen, Ningyu Zhang, Songfang Huang, Sheng Gao(参考訳) 深層学習における最近の研究は、名前付き実体認識(NER)において大きな進歩を示している。 既存の作品の多くはクリーンなデータアノテーションを前提としているが、現実世界のシナリオにおける基本的な課題は、様々なソース(例えば、疑似、弱、遠方のアノテーション)からの大量のノイズである。 本研究は,信頼度を校正したノイズラベル設定下でnerを学習する。 ノイズラベルとクリーンラベルの異なるトレーニングダイナミクスに関する経験的観察に基づいて,局所的およびグローバル的独立性仮定に基づく信頼度スコアの推定手法を提案する。 信頼性の低いラベルをCRFモデルで部分的にマージする。 さらに,エンティティラベルの構造に基づく信頼度スコアの校正手法を提案する。 当社のアプローチを,パフォーマンス向上のための自己学習フレームワークに統合しています。 4言語と遠隔ラベル付き設定を用いた一般雑音環境実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/l iukun95/Noisy-NER-Co nfidence-Estimationにある。

Recent studies in deep learning have shown significant progress in named entity recognition (NER). Most existing works assume clean data annotation, yet a fundamental challenge in real-world scenarios is the large amount of noise from a variety of sources (e.g., pseudo, weak, or distant annotations). This work studies NER under a noisy labeled setting with calibrated confidence estimation. Based on empirical observations of different training dynamics of noisy and clean labels, we propose strategies for estimating confidence scores based on local and global independence assumptions. We partially marginalize out labels of low confidence with a CRF model. We further propose a calibration method for confidence scores based on the structure of entity labels. We integrate our approach into a self-training framework for boosting performance. Experiments in general noisy settings with four languages and distantly labeled settings demonstrate the effectiveness of our method. Our code can be found at https://github.com/l iukun95/Noisy-NER-Co nfidence-Estimation
翻訳日:2021-04-13 11:20:29 公開日:2021-04-12
# (参考訳) 地域コントラストを用いたブートストラップセマンティックセマンティックセグメンテーション [全文訳有]

Bootstrapping Semantic Segmentation with Regional Contrast ( http://arxiv.org/abs/2104.04465v2 )

ライセンス: CC BY 4.0
Shikun Liu, Shuaifeng Zhi, Edward Johns, Andrew J. Davison(参考訳) 本稿では,セマンティックセグメンテーションの学習を支援するため,地域レベルで設計されたコントラスト学習フレームワークrecoを提案する。 ReCoは、半教師付きまたは教師付きピクセルレベルのコントラスト学習を、最小限のメモリフットプリントで、ハードネガティブピクセルのスパースセットで実行する。 ReCoは実装が容易で、既製のセグメンテーションネットワーク上に構築されており、半教師付きセグメンテーションと教師付きセグメンテーションの両方のパフォーマンスを一貫して改善し、スムーズなセグメンテーション境界とより高速な収束を実現している。 最も強い効果は、ほとんどラベルのない半教師付き学習である。 ReCoでは、CityScapesデータセットで50% mIoUを達成していますが、ラベル付きイメージは20しか必要ありません。 コードはhttps://github.com/l orenmt/recoで入手できる。

We present ReCo, a contrastive learning framework designed at a regional level to assist learning in semantic segmentation. ReCo performs semi-supervised or supervised pixel-level contrastive learning on a sparse set of hard negative pixels, with minimal additional memory footprint. ReCo is easy to implement, being built on top of off-the-shelf segmentation networks, and consistently improves performance in both semi-supervised and supervised semantic segmentation methods, achieving smoother segmentation boundaries and faster convergence. The strongest effect is in semi-supervised learning with very few labels. With ReCo, we achieve 50% mIoU in the CityScapes dataset, whilst requiring only 20 labelled images, improving by 10% relative to the previous state-of-the-art. Code is available at https://github.com/l orenmt/reco.
翻訳日:2021-04-13 11:09:13 公開日:2021-04-12