このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) D2S:クエリベースのテキスト要約による文書からスライド生成 [全文訳有]

D2S: Document-to-Slide Generation Via Query-Based Text Summarization ( http://arxiv.org/abs/2105.03664v1 )

ライセンス: CC BY 4.0
Edward Sun, Yufang Hou, Dakuo Wang, Yunfeng Zhang, Nancy X.R. Wang(参考訳) プレゼンテーションは、私たちの生活のあらゆる領域におけるコミュニケーションに不可欠ですが、スライドデッキの作成は、しばしば退屈で時間がかかります。 document-to-slides生成プロセスの自動化を目的とした限定的な研究が行われており、いずれも重大な課題に直面している。 本研究では,近年のNLPおよびMLカンファレンス(ACLなど)の論文とそれに対応するスライドデッキからなるデータセットSciDuetを,まず最初にコントリビュートする。 次に2段階のアプローチで文書からスライドへのタスクに取り組む新しいシステムであるd2sを提案する。1) スライドタイトルを使用して、関連するテキスト、図形、テーブルを検索する。2) 検索されたコンテキストを長い質問応答で弾丸ポイントにまとめる。 評価の結果,長期QAは自動ROUGE測定値と定性評価値の両方に基づいて,最先端の要約基準よりも優れていた。

Presentations are critical for communication in all areas of our lives, yet the creation of slide decks is often tedious and time-consuming. There has been limited research aiming to automate the document-to-slides generation process and all face a critical challenge: no publicly available dataset for training and benchmarking. In this work, we first contribute a new dataset, SciDuet, consisting of pairs of papers and their corresponding slides decks from recent years' NLP and ML conferences (e.g., ACL). Secondly, we present D2S, a novel system that tackles the document-to-slides task with a two-step approach: 1) Use slide titles to retrieve relevant and engaging text, figures, and tables; 2) Summarize the retrieved context into bullet points with long-form question answering. Our evaluation suggests that long-form QA outperforms state-of-the-art summarization baselines on both automated ROUGE metrics and qualitative human evaluation.
公開日:2021-05-08
翻訳日:2021-05-12 13:35:22
# (参考訳) タグは正しい:フェデレーションデータ強化ラジオフィンガープリントによる大規模RFIDクローン検出 [全文訳有]

The Tags Are Alright: Robust Large-Scale RFID Clone Detection Through Federated Data-Augmented Radio Fingerprinting ( http://arxiv.org/abs/2105.03671v1 )

ライセンス: CC BY 4.0
Mauro Piva, Gaia Maselli, Francesco Restuccia(参考訳) 何百万ものRFIDタグが世界中で広く使われ、さまざまな日常用途のオブジェクトを安価に識別する。 RFIDの重要な問題の1つは、タグがエネルギー不足の暗号を使えないことである。 このような理由から、RFIDクローン検出を実現するために、タグの無線回路に固有の不完全性を利用する、ラジオフィンガープリント(RFP)は魅力的なアプローチである。 しかし,近年の研究により,RFPプロセスの精度が著しく低下することが明らかとなった。 本研究では,動的チャネル条件を持つRFIDタグのRFPに関する大規模研究を提案する。 具体的には,200個の市販RFIDタグとソフトウェア定義無線(SDR)タグリーダによって構成されたテストベッド上で,大規模なデータ収集キャンペーンを行う。 タグリーダ距離の異なるデータを,オーバーザエア構成で収集する。 移植したRFIDタグをエミュレートするために,タグと読者の間に挿入された2種類の豚肉のデータも収集した。 我々は、この豊富なデータセットを使用して、様々なチャネル条件で複数の畳み込みニューラルネットワーク(cnn)ベースの分類器を訓練し、テストする。 本研究は,異なるチャネル条件におけるトレーニングとテストが,分類器の精度を著しく低下させることを明らかにした。 そこで本稿では,FML(Federated Machine Learning)とDAG(Data Augmentation)に基づく新たなトレーニングフレームワークを提案する。 広範な実験結果から, (i) fmlアプローチは精度を最大48%向上させ, (ii) daアプローチはfml性能を最大31%向上させた。 我々の知る限り、大規模なデバイス群に対するFMLとDAの有効性を実験的に実証した最初の論文である。 私たちは研究コミュニティと200gbのrfid波形データセット、コード全体、トレーニングされたモデルを共有しています。

Millions of RFID tags are pervasively used all around the globe to inexpensively identify a wide variety of everyday-use objects. One of the key issues of RFID is that tags cannot use energy-hungry cryptography. For this reason, radio fingerprinting (RFP) is a compelling approach that leverages the unique imperfections in the tag's wireless circuitry to achieve large-scale RFID clone detection. Recent work, however, has unveiled that time-varying channel conditions can significantly decrease the accuracy of the RFP process. We propose the first large-scale investigation into RFP of RFID tags with dynamic channel conditions. Specifically, we perform a massive data collection campaign on a testbed composed by 200 off-the-shelf identical RFID tags and a software-defined radio (SDR) tag reader. We collect data with different tag-reader distances in an over-the-air configuration. To emulate implanted RFID tags, we also collect data with two different kinds of porcine meat inserted between the tag and the reader. We use this rich dataset to train and test several convolutional neural network (CNN)--based classifiers in a variety of channel conditions. Our investigation reveals that training and testing on different channel conditions drastically degrades the classifier's accuracy. For this reason, we propose a novel training framework based on federated machine learning (FML) and data augmentation (DAG) to boost the accuracy. Extensive experimental results indicate that (i) our FML approach improves accuracy by up to 48%; (ii) our DA approach improves the FML performance by up to 31%. To the best of our knowledge, this is the first paper experimentally demonstrating the efficacy of FML and DA on a large device population. We are sharing with the research community our fully-labeled 200-GB RFID waveform dataset, the entirety of our code and trained models.
公開日:2021-05-08
翻訳日:2021-05-12 13:17:12
# (参考訳) 古典データのための量子機械学習

Quantum Machine Learning For Classical Data ( http://arxiv.org/abs/2105.03684v1 )

ライセンス: CC BY-SA 4.0
Leonard Wossnig(参考訳) この論文では、量子コンピューティングと教師あり機械学習アルゴリズムの交点について研究し、古典的データを扱う教師あり機械学習のための量子アルゴリズムについて検討する。 この研究領域は、最近広く注目を集めているコンピュータ科学の研究領域である量子機械学習の傘下にある。 特に,教師付き機械学習アルゴリズムの高速化に量子コンピュータがどの程度使えるかを検討する。 この目的は、教師付き機械学習のための量子アルゴリズム技術の現状の約束と限界を明確に理解することだけでなく、このエキサイティングな分野における将来の研究の方向性を定義することである。 まず、統計学習理論のレンズを通して、教師付き量子機械学習(QML)アルゴリズムを考察する。 このフレームワークでは、最適学習率の要求の下で、教師付きQMLアルゴリズムの大規模集合の計算複雑性に基づいた新しい境界を導出する。 次に、最もよく知られた教師付きQMLアルゴリズムの主要なサブルーチンである高密度ハミルトニアンのハミルトンシミュレーションに新しい境界を与え、それからほぼ同じ複雑さを持つ古典的アルゴリズムを導出する。 次に,最近の量子インスパイアされた結果と並列性を示し,これらの結果が量子機械学習アプリケーションに与える影響を説明する。 QMLアルゴリズムの利点が大きい分野を探すため、量子ボルツマンマシンのための新しいアルゴリズムを提案し、量子データのための量子アルゴリズムは古典的アプローチよりも指数関数的な優位性を持つQMLの最も有望な応用の1つであると論じる。

In this dissertation, we study the intersection of quantum computing and supervised machine learning algorithms, which means that we investigate quantum algorithms for supervised machine learning that operate on classical data. This area of research falls under the umbrella of quantum machine learning, a research area of computer science which has recently received wide attention. In particular, we investigate to what extent quantum computers can be used to accelerate supervised machine learning algorithms. The aim of this is to develop a clear understanding of the promises and limitations of the current state of the art of quantum algorithms for supervised machine learning, but also to define directions for future research in this exciting field. We start by looking at supervised quantum machine learning (QML) algorithms through the lens of statistical learning theory. In this framework, we derive novel bounds on the computational complexities of a large set of supervised QML algorithms under the requirement of optimal learning rates. Next, we give a new bound for Hamiltonian simulation of dense Hamiltonians, a major subroutine of most known supervised QML algorithms, and then derive a classical algorithm with nearly the same complexity. We then draw the parallels to recent "quantum-inspired&quo t; results, and will explain the implications of these results for quantum machine learning applications. Looking for areas which might bear larger advantages for QML algorithms, we finally propose a novel algorithm for Quantum Boltzmann machines, and argue that quantum algorithms for quantum data are one of the most promising applications for QML with potentially exponential advantage over classical approaches.
公開日:2021-05-08
翻訳日:2021-05-12 12:52:45
# (参考訳) HamNet: ハミルトンニューラルネットワークを用いた変換誘導分子表現 [全文訳有]

HamNet: Conformation-Guided Molecular Representation with Hamiltonian Neural Networks ( http://arxiv.org/abs/2105.03688v1 )

ライセンス: CC BY 4.0
Ziyao Li, Shuwen Yang, Guojie Song and Lingsheng Cai(参考訳) 良く設計された分子表現(フィンガープリント)は、医学化学と深層学習を組み合わせるために不可欠である。 一方、分子の3次元幾何学(すなわち)を取り入れている。 コンフォメーション)の表現は有益で、現在の3Dアルゴリズムはまだ初期段階です。 本稿では,分子の3次元配座を分子ハミルトニアンネットワーク(HamNet)で保持する新しい分子表現アルゴリズムを提案する。 ハムネットでは、分子中の原子の位置と運動量がハミルトン方程式に従ってハミルトニアンエンジンで相互作用する。 これらの暗黙的なコーディネーションは、翻訳および回転不変損失と実際のコンフォメーションで監督され、さらにメッセージパッシングニューラルネットワークである指紋生成器への入力として使用される。 実験により、ハミルトニアンエンジンは分子構造を十分に保存でき、HamNetが生成した指紋は標準的な分子機械学習ベンチマークであるMoleculeNetの最先端のパフォーマンスを達成することが示された。

Well-designed molecular representations (fingerprints) are vital to combine medical chemistry and deep learning. Whereas incorporating 3D geometry of molecules (i.e. conformations) in their representations seems beneficial, current 3D algorithms are still in infancy. In this paper, we propose a novel molecular representation algorithm which preserves 3D conformations of molecules with a Molecular Hamiltonian Network (HamNet). In HamNet, implicit positions and momentums of atoms in a molecule interact in the Hamiltonian Engine following the discretized Hamiltonian equations. These implicit coordinations are supervised with real conformations with translation- & rotation-invariant losses, and further used as inputs to the Fingerprint Generator, a message-passing neural network. Experiments show that the Hamiltonian Engine can well preserve molecular conformations, and that the fingerprints generated by HamNet achieve state-of-the-art performances on MoleculeNet, a standard molecular machine learning benchmark.
公開日:2021-05-08
翻訳日:2021-05-12 12:51:24
# (参考訳) logarithm determinant entropy estimatorを用いたニューラルネットワークの理解 [全文訳有]

Understanding Neural Networks with Logarithm Determinant Entropy Estimator ( http://arxiv.org/abs/2105.03705v1 )

ライセンス: CC BY 4.0
Zhanghao Zhouyin, Ding Liu(参考訳) ディープニューラルネットワークの有益な振る舞いを理解することは、誤用された推定値とネットワーク構造の複雑さによって、一貫性のない観察と多様な解釈につながる。 ここでは,シャノン微分エントロピーを近似する信頼性の高い行列系エントロピー推定器logdet estimatorを提案する。 我々は,logdet estimatorに基づく有意な測定値を構築し,それと同等の実験を行い,ニューラルネットワークの動作解析に利用する。 その結果,logdet推定器は,高度に多様な分布から生じる欠点を克服し,ニューラルネットワークのエントロピーを推定できることがわかった。 ネットワーク解析の結果,ニューラルネットワークの情報ボトルネック理論における圧縮現象を理解するのに役立つ浅層層と深層層の機能的区別も見いだされた。

Understanding the informative behaviour of deep neural networks is challenged by misused estimators and the complexity of network structure, which leads to inconsistent observations and diversified interpretation. Here we propose the LogDet estimator -- a reliable matrix-based entropy estimator that approximates Shannon differential entropy. We construct informative measurements based on LogDet estimator, verify our method with comparable experiments and utilize it to analyse neural network behaviour. Our results demonstrate the LogDet estimator overcomes the drawbacks that emerge from highly diverse and degenerated distribution thus is reliable to estimate entropy in neural networks. The Network analysis results also find a functional distinction between shallow and deeper layers, which can help understand the compression phenomenon in the Information bottleneck theory of neural networks.
公開日:2021-05-08
翻訳日:2021-05-12 12:38:21
# (参考訳) ギャップを抜ける: 形態的ルール学習のモデルとしてのニューラルアーキテクチャ [全文訳有]

Falling Through the Gaps: Neural Architectures as Models of Morphological Rule Learning ( http://arxiv.org/abs/2105.03710v1 )

ライセンス: CC BY 4.0
Deniz Beser(参考訳) ニューラル・アーキテクチャの最近の進歩は、形態的規則学習の問題を復活させた。 形態素規則学習のモデルとしてTransformerを評価し,英語,ドイツ語,ロシア語のRecurrent Neural Networks(RNN)と比較した。 我々は,単語の語句の変形が期待できないような形態的ギャップという,見過ごされがちな問題に直面する。 例えば、63のロシア語の動詞は、"*o\v{s}\v{c}u\v{s}\v{c}u" ("i feel") と快適に言えないような一対一の現在形を欠いている。 英語にも「ストライド」の過去分詞のようなギャップがあり、形態的インフレクションの関数は部分的である。 両方のニューラルアーキテクチャは、欠落すべき反射を生み出す。 解析により、Transformerはトレーニングデータ中の反射の統計的分布を再カプセル化することが明らかになった。 英語とドイツ語におけるモデルの成功は、これらの言語の規則が大多数の形式と同一視できるという事実によって引き起こされる。

Recent advances in neural architectures have revived the problem of morphological rule learning. We evaluate the Transformer as a model of morphological rule learning and compare it with Recurrent Neural Networks (RNN) on English, German, and Russian. We bring to the fore a hitherto overlooked problem, the morphological gaps, where the expected inflection of a word is missing. For example, 63 Russian verbs lack a first-person-singula r present form such that one cannot comfortably say "*o\v{s}\v{c}u\v{s}\v{c}u" ("I feel"). Even English has gaps, such as the past participle of "stride": the function of morphological inflection can be partial. Both neural architectures produce inflections that ought to be missing. Analyses reveal that Transformers recapitulate the statistical distribution of inflections in the training data, similar to RNNs. Models' success on English and German is driven by the fact that rules in these languages can be identified with the majority forms, which is not universal.
公開日:2021-05-08
翻訳日:2021-05-12 12:18:54
# (参考訳) PIM-DRAM:DRAM技術に基づくメモリ処理による機械学習ワークロードの高速化 [全文訳有]

PIM-DRAM:Acceleratin g Machine Learning Workloads using Processing in Memory based on DRAM Technology ( http://arxiv.org/abs/2105.03736v1 )

ライセンス: CC BY 4.0
Sourjya Roy, Mustafa Ali and Anand Raghunathan(参考訳) ディープニューラルネットワーク(DNN)は、画像やビデオ分析、言語翻訳、医療診断など、多くの応用において、近年大きな関心を集めている。 大部分のデータがメインメモリに格納されているため、von-Neumannハードウェアアーキテクチャ上で実装される場合、データ集約型DNNアプリケーションのニーズに沿うために、高いメモリ帯域幅が要求される。 したがって、メモリ内の処理は、MLワークロードのメモリ壁ボトルネックに対する有望な解決策を提供することができる。 本研究では,DRAMベースの処理インメモリ(PIM)乗算プリミティブをバンク内蓄積と組み合わせて,MLワークロードにおける行列ベクトル演算を高速化する手法を提案する。 さらに,提案するプリミティブに基づくメモリ内DRAMバンクアーキテクチャ,データマッピング,データフローを提案する。 AlexNet、VGG16、ResNet18などのネットワーク上で実施されたシステム評価では、提案されたアーキテクチャ、マッピング、データフローは、GPUよりも最大で23倍、データフローは6.5倍の利点が得られる。

Deep Neural Networks (DNNs) have gained significant interest in the recent past for plethora of applications such as image and video analytics, language translation, and medical diagnosis. High memory bandwidth is required to keep up with the needs of data-intensive DNN applications when implemented on a von-Neumann hardware architecture as majority of the data resides in the main memory. Therefore, processing in memory can provide a promising solution for the memory wall bottleneck for ML workloads. In this work, we propose a DRAM-based processing-in-memory (PIM) multiplication primitive coupled with intra-bank accumulation to accelerate matrix vector operations in ML workloads. Moreover, we propose a processing-in-memory DRAM bank architecture, data mapping and dataflow based on the proposed primitive. System evaluations performed on networks like AlexNet, VGG16 and ResNet18 show that the proposed architecture, mapping, and data flow can provide up to 23x and 6.5x benefits over a GPU and an ideal conventional (non-PIM) baseline architecture with infinite compute bandwidth, respectively.
公開日:2021-05-08
翻訳日:2021-05-12 12:07:08
# (参考訳) RAIL:Reinforcement-l earning-based Adversarial Imitation Learningのためのモジュラーフレームワーク [全文訳有]

RAIL: A modular framework for Reinforcement-learni ng-based Adversarial Imitation Learning ( http://arxiv.org/abs/2105.03756v1 )

ライセンス: CC BY 4.0
Eddy Hudson and Garrett Warnell and Peter Stone(参考訳) Adversarial Imitation Learning (AIL)アルゴリズムは、最近、様々な模倣学習ベンチマークで最先端の結果をもたらしたが、様々な設計決定がパフォーマンスに与える影響は明らかではない。 そこで本稿では,既存のailアプローチの一般的なサブクラスを包含し,一般化する,強化学習に基づく相反的模倣学習(rail)と呼ばれるモジュール型フレームワークを提案する。 RAILが提案するビューを用いて,SAIfO(SAC-based Adversarial Imitation from Observation)とSILEM(Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch)という2つの新しいifO(Imitation from Observation)アルゴリズムを作成する。 私たちはSILEMについて、別の技術レポートでより深く掘り下げています。 本稿では,SAIfOに着目し,OpenAI Gymのロコモーションタスクのスイートで評価し,FifOを実行する並列RAILアルゴリズムよりも優れていることを示す。

While Adversarial Imitation Learning (AIL) algorithms have recently led to state-of-the-art results on various imitation learning benchmarks, it is unclear as to what impact various design decisions have on performance. To this end, we present here an organizing, modular framework called Reinforcement-learni ng-based Adversarial Imitation Learning (RAIL) that encompasses and generalizes a popular subclass of existing AIL approaches. Using the view espoused by RAIL, we create two new IfO (Imitation from Observation) algorithms, which we term SAIfO: SAC-based Adversarial Imitation from Observation and SILEM (Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch). We go into greater depth about SILEM in a separate technical report. In this paper, we focus on SAIfO, evaluating it on a suite of locomotion tasks from OpenAI Gym, and showing that it outperforms contemporaneous RAIL algorithms that perform IfO.
公開日:2021-05-08
翻訳日:2021-05-12 11:50:54
# (参考訳) DocSCAN:隣人からの学習による教師なしテキスト分類 [全文訳有]

DocSCAN: Unsupervised Text Classification via Learning from Neighbors ( http://arxiv.org/abs/2105.04024v2 )

ライセンス: CC BY 4.0
Dominik Stammbach, Elliott Ash(参考訳) 本稿では, 近近隣者(SCAN)によるセマンティッククラスタリングを用いた, 完全に教師なしのテキスト分類手法であるDocSCANを紹介する。 各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。 類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。 学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。 提案手法では,基底構造ラベルを付与することなく,クラスをデータセット全体に割り当てることを学ぶ。 5つのトピック分類ベンチマークにおいて、教師なしベースラインを大きなマージンで改善する。 比較的少数でバランスの取れた結果クラスを持つデータセットでは、DocSCANは教師付き分類のパフォーマンスにアプローチする。 この方法は、感情分析のような他のタイプの分類では失敗し、画像とテキストを分類する重要な概念的および実践的な違いを示している。

We introduce DocSCAN, a completely unsupervised text classification approach using Semantic Clustering by Adopting Nearest-Neighbors (SCAN). For each document, we obtain semantically informative vectors from a large pre-trained language model. Similar documents have proximate vectors, so neighbors in the representation space tend to share topic labels. Our learnable clustering approach uses pairs of neighboring datapoints as a weak learning signal. The proposed approach learns to assign classes to the whole dataset without provided ground-truth labels. On five topic classification benchmarks, we improve on various unsupervised baselines by a large margin. In datasets with relatively few and balanced outcome classes, DocSCAN approaches the performance of supervised classification. The method fails for other types of classification, such as sentiment analysis, pointing to important conceptual and practical differences between classifying images and texts.
公開日:2021-05-11
翻訳日:2021-05-12 11:40:56
# (参考訳) カーネルを用いた近位因果学習:2段階推定とモーメント制限

Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment Restriction ( http://arxiv.org/abs/2105.04544v2 )

ライセンス: CC BY 4.0
Afsaneh Mastouri, Yuchen Zhu, Limor Gultchin, Anna Korba, Ricardo Silva, Matt J. Kusner, Arthur Gretton, Krikamol Muandet(参考訳) 本研究では, 未観測の共起の存在下での因果効果推定の問題に対処するが, 潜伏した共同設立者(s)のプロキシが観察される。 本稿では,2段階回帰法と最大モーメント制限法という2つのカーネルに基づく非線形因果効果推定手法を提案する。 我々は近位因果学習の設定に焦点をあてるが、本手法はフレドホルム積分方程式によって特徴づけられるより広い逆問題のクラスを解くのに使うことができる。 特に,この問題を非線形な設定で解くために,二段階およびモーメント制限アプローチの統一的視点を提供する。 我々は,各アルゴリズムに一貫性の保証を提供し,これらの手法が合成データと実世界のタスクをシミュレートしたデータにおいて競争的な結果をもたらすことを示す。 特に,提案手法は,プロキシ変数の活用に適さない従来の手法よりも優れている。

We address the problem of causal effect estimation in the presence of unobserved confounding, but where proxies for the latent confounder(s) are observed. We propose two kernel-based methods for nonlinear causal effect estimation in this setting: (a) a two-stage regression approach, and (b) a maximum moment restriction approach. We focus on the proximal causal learning setting, but our methods can be used to solve a wider class of inverse problems characterised by a Fredholm integral equation. In particular, we provide a unifying view of two-stage and moment restriction approaches for solving this problem in a nonlinear setting. We provide consistency guarantees for each algorithm, and we demonstrate these approaches achieve competitive results on synthetic data and data simulating a real-world task. In particular, our approach outperforms earlier methods that are not suited to leveraging proxy variables.
公開日:2021-05-11
翻訳日:2021-05-12 11:29:35
# (参考訳) スイニングトランスを用いた自己指導型学習 [全文訳有]

Self-Supervised Learning with Swin Transformers ( http://arxiv.org/abs/2105.04553v2 )

ライセンス: CC BY 4.0
Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu(参考訳) 我々はコンピュータビジョンにおけるCNNからトランスフォーマーへのモデリングシフトを目撃している。 本研究では,ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己教師型学習手法を提案する。 このアプローチには基本的に新しい発明がなく、これはMoCo v2とBYOLを組み合わせたもので、ImageNet-1Kの線形評価において、DeiT-SとSwin-Tを用いてそれぞれ72.8%と75.0%という高い精度を達成するために調整された。 このパフォーマンスは、最近のMoCo v3やDINOのバックボーンとしてDeiTを採用したものよりも若干優れていますが、もっと軽いトリックがあります。 さらに、汎用Swin Transformerのバックボーンにより、オブジェクト検出やセマンティックセグメンテーションといった下流タスクの学習表現を評価できるが、ViT/DeiTでは、これらの密接な予測タスクに慣れていないために、ImageNet-1K上で線形評価結果しか報告しない、ViT/DeiT上に構築された最近のアプローチとは対照的である。 我々は,トランスフォーマーアーキテクチャ用に設計された自己教師あり学習手法をより包括的に評価できることを願っている。 私たちのコードとモデルはhttps://github.com/S winTransformer/Trans former-SSLで利用可能です。

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this work, we present a self-supervised learning approach called MoBY, with Vision Transformers as its backbone architecture. The approach basically has no new inventions, which is combined from MoCo v2 and BYOL and tuned to achieve reasonably high accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the backbone, but with much lighter tricks. More importantly, the general-purpose Swin Transformer backbone enables us to also evaluate the learnt representations on downstream tasks such as object detection and semantic segmentation, in contrast to a few recent approaches built on ViT/DeiT which only report linear evaluation results on ImageNet-1K due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results can facilitate more comprehensive evaluation of self-supervised learning methods designed for Transformer architectures. Our code and models are available at https://github.com/S winTransformer/Trans former-SSL, which will be continually enriched.
公開日:2021-05-11
翻訳日:2021-05-12 11:28:26
# AWCD: Wasserstein曲率による効率的なポイントクラウド処理アプローチ

AWCD: An Efficient Point Cloud Processing Approach via Wasserstein Curvature ( http://arxiv.org/abs/2105.04402v1 )

ライセンス: Link先を確認
Yihao Luo and Ailing Yang and Fupeng Sun and Huafei Sun(参考訳) 本稿では,アダプティブ・ワッサーシュタイン曲率分解法(AWCD)を提案する。 ワッサーシュタイン距離から曲率情報を収集することにより、AWCDはデータのより正確な構造を考慮し、高密度のノイズを持つデータに対しても安定性と有効性を維持する。 本稿では,wasserstein 曲率と awcd の完全アルゴリズムに関する理論的解析について述べる。 さらに,AWCDのデノイング効果を示すために,デジタル実験を設計する。 比較結果から,従来のアルゴリズムに対するAWCDの利点を示す。

In this paper, we introduce the adaptive Wasserstein curvature denoising (AWCD), an original processing approach for point cloud data. By collecting curvatures information from Wasserstein distance, AWCD consider more precise structures of data and preserves stability and effectiveness even for data with noise in high density. This paper contains some theoretical analysis about the Wasserstein curvature and the complete algorithm of AWCD. In addition, we design digital experiments to show the denoising effect of AWCD. According to comparison results, we present the advantages of AWCD against traditional algorithms.
公開日:2021-05-11
翻訳日:2021-05-12 11:19:03
# 雑音ラベル学習のための一般化jensen-shannon divergence loss

Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels ( http://arxiv.org/abs/2105.04522v2 )

ライセンス: Link先を確認
Erik Englesson, Hossein Azizpour(参考訳) ラベル雑音下での学習のためのjensen-shannon divergenceに基づく2つの新しい損失関数を提案する。 Ghoshらの業績に倣った。 (2017) 理論的ロバスト性について議論する。 さらに, クロスエントロピー, 平均絶対誤差, 一般化クロスエントロピー, 対称クロスエントロピー, ラベルの平滑化, および最も重要な整合正則化など, 様々な損失関数に対する情報的接続を描くことで, その他の望ましい性質を明らかにする。 合成(CIFAR)と実(WebVision)の両方のノイズを用いて広範かつ系統的な実験を行い、他の損失関数よりも顕著で一貫した改善を示す。 また, 異なる理論特性を強調する有益な側面実験を複数実施した。

We propose two novel loss functions based on Jensen-Shannon divergence for learning under label noise. Following the work of Ghosh et al. (2017), we argue about their theoretical robustness. Furthermore, we reveal several other desirable properties by drawing informative connections to various loss functions, e.g., cross entropy, mean absolute error, generalized cross entropy, symmetric cross entropy, label smoothing, and most importantly consistency regularization. We conduct extensive and systematic experiments using both synthetic (CIFAR) and real (WebVision) noise and demonstrate significant and consistent improvements over other loss functions. Also, we conduct several informative side experiments that highlight the different theoretical properties.
公開日:2021-05-11
翻訳日:2021-05-12 11:18:54
# グラフニューラルネットワークのためのグラフエントロピー誘導ノード埋め込み次元選択

Graph Entropy Guided Node Embedding Dimension Selection for Graph Neural Networks ( http://arxiv.org/abs/2105.03178v2 )

ライセンス: Link先を確認
Gongxu Luo, Jianxin Li, Hao Peng, Carl Yang, Lichao Sun, Philip S. Yu, Lifang He(参考訳) グラフ表現学習は、電子商取引、化学、生物学など、多くの分野で大きな成功を収めています。 しかし、与えられたグラフに対するノード埋め込みの適切な次元を選択するという根本的な問題は未解決のままである。 グリッド探索や経験的知識に基づくノード埋め込み次元選択(NEDS)の一般的な戦略は、重い計算と粗悪なモデル性能に悩まされている。 本稿では,最小エントロピー原理の観点からnedsを再検討する。 次に,グラフデータを用いたNEDSのための最小グラフエントロピー(MinGE)アルゴリズムを提案する。 具体的には、mingeはグラフ上の特徴エントロピーと構造エントロピーの両方を考えており、それらはそれらのリッチな情報の特徴に従って慎重に設計されている。 隣接するノードの埋め込みがより似ていると仮定した機能エントロピーは、ノードの特徴とグラフ上のリンクトポロジーを接続する。 構造エントロピーは正規化度を基本単位とし、グラフの高次構造をさらに測定する。 これらに基づいてMinGEを設計し,任意のグラフに対して理想的なノード埋め込み次元を直接計算する。 最後に、ベンチマークデータセット上で人気のあるグラフニューラルネットワーク(GNN)を用いた総合実験により、提案したMinGEの有効性と一般化性を示す。

Graph representation learning has achieved great success in many areas, including e-commerce, chemistry, biology, etc. However, the fundamental problem of choosing the appropriate dimension of node embedding for a given graph still remains unsolved. The commonly used strategies for Node Embedding Dimension Selection (NEDS) based on grid search or empirical knowledge suffer from heavy computation and poor model performance. In this paper, we revisit NEDS from the perspective of minimum entropy principle. Subsequently, we propose a novel Minimum Graph Entropy (MinGE) algorithm for NEDS with graph data. To be specific, MinGE considers both feature entropy and structure entropy on graphs, which are carefully designed according to the characteristics of the rich information in them. The feature entropy, which assumes the embeddings of adjacent nodes to be more similar, connects node features and link topology on graphs. The structure entropy takes the normalized degree as basic unit to further measure the higher-order structure of graphs. Based on them, we design MinGE to directly calculate the ideal node embedding dimension for any graph. Finally, comprehensive experiments with popular Graph Neural Networks (GNNs) on benchmark datasets demonstrate the effectiveness and generalizability of our proposed MinGE.
公開日:2021-05-11
翻訳日:2021-05-12 11:18:41
# DocOIE: OpenIE用のドキュメントレベルのコンテキスト認識データセット

DocOIE: A Document-level Context-Aware Dataset for OpenIE ( http://arxiv.org/abs/2105.04271v2 )

ライセンス: Link先を確認
Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li(参考訳) Open Information extract (OpenIE) は、文から構造化されたリレーショナルタプル(オブジェクト、リレーショナル、オブジェクト)を抽出し、多くの下流NLPアプリケーションにおいて重要な役割を果たすことを目的としている。 既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。 しかし、実際には、文はスタンドアローンではなく文書の一部として存在し、それを正確に解釈する前に、文の周りの関連する文脈情報にアクセスする必要があることが多い。 文書レベルのコンテキスト対応のOpenIEデータセットが存在しないため、2つのドメイン(ヘルスケアと交通)の80のドキュメントから800の文を手動で注釈付けして、評価のためのDocOIEデータセットを作成します。 さらに,新しい文書レベルの文脈対応OpenIEモデルであるDocIEを提案する。 ドキュメントレベルのコンテキストの導入がopenieのパフォーマンス向上に有効であることを示す。 DocOIEデータセットとDocIEモデルの両方が一般公開されている。

Open Information Extraction (OpenIE) aims to extract structured relational tuples (subject, relation, object) from sentences and plays critical roles for many downstream NLP applications. Existing solutions perform extraction at sentence level, without referring to any additional contextual information. In reality, however, a sentence typically exists as part of a document rather than standalone; we often need to access relevant contextual information around the sentence before we can accurately interpret it. As there is no document-level context-aware OpenIE dataset available, we manually annotate 800 sentences from 80 documents in two domains (Healthcare and Transportation) to form a DocOIE dataset for evaluation. In addition, we propose DocIE, a novel document-level context-aware OpenIE model. Our experimental results based on DocIE demonstrate that incorporating document-level context is helpful in improving OpenIE performance. Both DocOIE dataset and DocIE model are released for public.
公開日:2021-05-11
翻訳日:2021-05-12 11:18:23
# DefSent: 定義文を用いた文埋め込み

DefSent: Sentence Embeddings using Definition Sentences ( http://arxiv.org/abs/2105.04339v2 )

ライセンス: Link先を確認
Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) 自然言語推論(NLI)データセットを用いた文埋め込み手法は,様々なタスクにうまく適用されている。 しかし、これらの手法は大きなNLIデータセットに大きく依存するため、限られた言語でしか利用できない。 本稿では,単語辞書の定義文を用いた文埋め込み法であるdefsentを提案する。 多くの言語で辞書が利用できるため、DefSentは追加のデータセットを構築することなくNLIデータセットを使用するメソッドよりも広く適用できる。 我々は、DefSentが教師なしセマンティクスのテキスト類似性(STS)タスクで比較可能であり、大きなNLIデータセットを用いたメソッドよりもSentEvalタスクの方が若干優れていることを示した。

Sentence embedding methods using natural language inference (NLI) datasets have been successfully applied to various tasks. However, these methods are only available for limited languages due to relying heavily on the large NLI datasets. In this paper, we propose DefSent, a sentence embedding method that uses definition sentences from a word dictionary. Since dictionaries are available for many languages, DefSent is more broadly applicable than methods using NLI datasets without constructing additional datasets. We demonstrate that DefSent performs comparably on unsupervised semantics textual similarity (STS) tasks and slightly better on SentEval tasks to the methods using large NLI datasets.
公開日:2021-05-11
翻訳日:2021-05-12 11:18:07
# 一般化可能な人物再同定のための適応的ドメイン特化正規化

Adaptive Domain-Specific Normalization for Generalizable Person Re-Identification ( http://arxiv.org/abs/2105.03042v2 )

ライセンス: Link先を確認
Jiawei Liu, Zhipeng Huang, Kecheng Zheng, Dong Liu, Xiaoyan Sun, Zheng-Jun Zha(参考訳) 既存の人物再同定法 (re-id) は印象的な精度を示したが, ほとんどは対象領域の認識が不十分な場合が多い。 このように、一般化可能なRe-IDは、最近注目を集めており、モデル更新なしで、見えないターゲットドメインによく一般化するソースドメインのモデルを訓練している。 本研究では,一般化可能なRe-IDのための適応型ドメイン固有正規化手法(AdsNorm)を提案する。 未知のターゲットドメインを既知のソースドメインの組み合わせとして記述し、メタ学習パイプラインによるモデルの一般化を改善するために、ターゲットディストリビューションとドメイン固有の表現を明示的に学習する。 具体的には、adsnormはバッチ正規化層を使用して個々のソースドメインの特性を収集し、これらの特徴を用いてソースドメインを共有潜在空間にマップする。 テスト段階では、adsnormは対象領域の未認識画像を同じ潜在空間に投影し、対象領域のより一般化された集約表現を学ぶために、ドメインの関連性によってソース分布を運ぶドメイン固有の機能を適応的に統合する。 学習中に対象ドメインが利用できないことを考慮し,効率的なアンサンブルモデルの最適化を目的としたメタ学習アルゴリズムを提案する。 大規模な実験により、AdsNormは最先端の手法よりも優れていることが示された。 コードは、https://github.com/h zphzp/AdsNorm.comで入手できる。

Although existing person re-identification (Re-ID) methods have shown impressive accuracy, most of them usually suffer from poor generalization on unseen target domain. Thus, generalizable person Re-ID has recently drawn increasing attention, which trains a model on source domains that generalizes well on unseen target domain without model updating. In this work, we propose a novel adaptive domain-specific normalization approach (AdsNorm) for generalizable person Re-ID. It describes unseen target domain as a combination of the known source ones, and explicitly learns domain-specific representation with target distribution to improve the model's generalization by a meta-learning pipeline. Specifically, AdsNorm utilizes batch normalization layers to collect individual source domains' characteristics, and maps source domains into a shared latent space by using these characteristics, where the domain relevance is measured by a distance function of different domain-specific normalization statistics and features. At the testing stage, AdsNorm projects images from unseen target domain into the same latent space, and adaptively integrates the domain-specific features carrying the source distributions by domain relevance for learning more generalizable aggregated representation on unseen target domain. Considering that target domain is unavailable during training, a meta-learning algorithm combined with a customized relation loss is proposed to optimize an effective and efficient ensemble model. Extensive experiments demonstrate that AdsNorm outperforms the state-of-the-art methods. The code is available at: https://github.com/h zphzp/AdsNorm.
公開日:2021-05-11
翻訳日:2021-05-12 11:17:58
# 自動運転のためのコントラスト学習によるビデオクラス非依存セグメンテーション

Video Class Agnostic Segmentation with Contrastive Learning for Autonomous Driving ( http://arxiv.org/abs/2105.03533v2 )

ライセンス: Link先を確認
Mennatullah Siam, Alex Kendall, Martin Jagersand(参考訳) 自律運転におけるセマンティックセグメンテーションは主に、未知のオブジェクトを考慮せずに、既知のクラスを閉じた大規模データから学ぶことに焦点を当てている。 安全上の理由から、トレーニングデータ内の既知のクラスを閉じた集合の外で未知のオブジェクトを考察するビデオクラス非依存セグメンテーションタスクに対処する。 既知のクラスと未知のオブジェクトのセグメンテーションを学ぶために,新しい補助的なコントラスト損失を提案する。 画像レベルでアンカー,ポジティブ,負の例をサンプリングするコントラスト学習の以前の研究とは異なり,コントラスト学習法はピクセル単位の意味的および時間的指導を活用している。 本研究では,Cityscapes-VPS実験において,4つのクラスを訓練から引き離し,補助的なコントラスト損失を伴う未知のオブジェクトセグメンテーションの改善効果を示す。 私たちはさらに、異なる未知のオブジェクトを含む異なる自動運転シナリオのための大規模な合成データセットをリリースします。 完全合成データセットと縮小された小型バージョンで実験を行い、小規模データセットにおいてコントラスト学習がいかに効果的かを示した。 提案するモデル、データセット、コードはhttps://github.com/m siam/video_class_agn ostic_segmentationでリリースされる。

Semantic segmentation in autonomous driving predominantly focuses on learning from large-scale data with a closed set of known classes without considering unknown objects. Motivated by safety reasons, we address the video class agnostic segmentation task, which considers unknown objects outside the closed set of known classes in our training data. We propose a novel auxiliary contrastive loss to learn the segmentation of known classes and unknown objects. Unlike previous work in contrastive learning that samples the anchor, positive and negative examples on an image level, our contrastive learning method leverages pixel-wise semantic and temporal guidance. We conduct experiments on Cityscapes-VPS by withholding four classes from training and show an improvement gain for both known and unknown objects segmentation with the auxiliary contrastive loss. We further release a large-scale synthetic dataset for different autonomous driving scenarios that includes distinct and rare unknown objects. We conduct experiments on the full synthetic dataset and a reduced small-scale version, and show how contrastive learning is more effective in small scale datasets. Our proposed models, dataset, and code will be released at https://github.com/M Siam/video_class_agn ostic_segmentation.
公開日:2021-05-11
翻訳日:2021-05-12 11:17:35
# CASIA-Face-Africa: 大規模アフリカの顔画像データベース

CASIA-Face-Africa: A Large-scale African Face Image Database ( http://arxiv.org/abs/2105.03632v2 )

ライセンス: Link先を確認
Jawad Muhammad, Yunlong Wang, Caiyong Wang, Kunbo Zhang, and Zhenan Sun(参考訳) 顔認識は、私たちの社会に広く応用され、よく研究されている分野です。 しかし、人種的偏見は、ほとんどの最先端美術(SOTA)顔認識システムに固有のものであることが証明された。 顔認識アルゴリズムに関する多くの調査研究は、他のコホートよりもアフリカの被験者の偽陽性率が高いことを報告している。 パブリックドメインにおける大規模アフリカの顔画像データベースの欠如は、顔認識の人種バイアス問題の研究における主要な制限の1つである。 そこで我々は,アフリカ人1,183人の38,546枚の画像を含む顔画像データベース,CASIA-Face-Africaを収集した。 マルチスペクトルカメラを用いて様々な照明条件下での顔画像のキャプチャを行う。 被験者の年齢属性や表情も慎重に記録されている。 ランドマーク検出には、データベースの各顔画像に68のキーポイントを手動でラベル付けする。 評価プロトコルのグループは、異なるアプリケーション、タスク、パーティション、シナリオに従って構築されます。 再学習のないSOTA顔認識アルゴリズムの性能をベースラインとして報告する。 提案するデータベースは, 顔のランドマークアノテーション, 評価プロトコル, 予備結果とともに, 特に顔画像前処理, 顔の特徴分析とマッチング, 表情認識, 性別・年齢推定, 民族分類, 顔画像生成など, アフリカの被験者の顔バイオメトリックスの本質的な側面を研究するための優れたベンチマークを形成する。 データベースはhttp://www.cripacsir .cn/dataset/からダウンロードできる。

Face recognition is a popular and well-studied area with wide applications in our society. However, racial bias had been proven to be inherent in most State Of The Art (SOTA) face recognition systems. Many investigative studies on face recognition algorithms have reported higher false positive rates of African subjects cohorts than the other cohorts. Lack of large-scale African face image databases in public domain is one of the main restrictions in studying the racial bias problem of face recognition. To this end, we collect a face image database namely CASIA-Face-Africa which contains 38,546 images of 1,183 African subjects. Multi-spectral cameras are utilized to capture the face images under various illumination settings. Demographic attributes and facial expressions of the subjects are also carefully recorded. For landmark detection, each face image in the database is manually labeled with 68 facial keypoints. A group of evaluation protocols are constructed according to different applications, tasks, partitions and scenarios. The performances of SOTA face recognition algorithms without re-training are reported as baselines. The proposed database along with its face landmark annotations, evaluation protocols and preliminary results form a good benchmark to study the essential aspects of face biometrics for African subjects, especially face image preprocessing, face feature analysis and matching, facial expression recognition, sex/age estimation, ethnic classification, face image generation, etc. The database can be downloaded from our http://www.cripacsir .cn/dataset/
公開日:2021-05-11
翻訳日:2021-05-12 11:17:14
# ランベック前群は序列のフロベニウスクモである

Lambek pregroups are Frobenius spiders in preorders ( http://arxiv.org/abs/2105.03038v2 )

ライセンス: Link先を確認
Dusko Pavlovic(参考訳) スパイダー(Spider)は、数学、物理学、計算機科学の基本構造である*特殊フロベニウス代数*のあだ名である。 ※前群*は言語学の基本構造である。 プリグループとスパイダーは自然言語処理で一緒に使われてきた:一つは構文、もう一つは意味論である。 先行群自体が、文法から自然に生じる事前順序付き関係の圏における尖ったクモとして特徴づけられることが判明した。 一般の順序付きクモ環の周りの別の方法は、前群の和として特徴づけることができる。 これは関係的なスパイダー代数を群の不連結和として特徴づける。 その結果から,機械学習とデータ解析の基盤構造を理解し,適用するための新たな手法が示唆された。

"Spider" is a nickname of *special Frobenius algebras*, a fundamental structure from mathematics, physics, and computer science. *Pregroups* are a fundamental structure from linguistics. Pregroups and spiders have been used together in natural language processing: one for syntax, the other for semantics. It turns out that pregroups themselves can be characterized as pointed spiders in the category of preordered relations, where they naturally arise from grammars. The other way around preordered spider algebras in general can be characterized as unions of pregroups. This extends the characterization of relational spider algebras as disjoint unions of groups. The compositional framework that emerged with the results suggests new ways to understand and apply the basis structures in machine learning and data analysis.
公開日:2021-05-10
翻訳日:2021-05-12 11:16:52
# ezcrop:ロバストな出力プルーニングのためのエネルギゾンドチャネル

EZCrop: Energy-Zoned Channels for Robust Output Pruning ( http://arxiv.org/abs/2105.03679v2 )

ライセンス: Link先を確認
Rui Lin, Jie Ran, Dongpeng Wang, King Hung Chiu and Ngai Wong(参考訳) 近年の研究では、訓練された畳み込みニューラルネットワーク(cnn)において、入力画像にもかかわらず特徴マップチャネル行列のランクが驚くほど一定であり続けるという興味深い観察がなされている。 これにより、効果的なランクベースのチャネルプルーニングアルゴリズムが実現したが、定位現象は謎と説明がつかないままである。 この研究は、周波数領域の観点からそのようなランクの振る舞いを減弱し、解釈することを目的としており、これは、そのランクを明示的に計算することなくチャネルの重要度を測定するための極端に効率的なFFT(Fast Fourier Transform)ベースの計量を示唆している。 本研究では, この解析的かつ計算効率の高い指標に基づいて, 卓越したcnnチャネルの刈り取りを実現し, 反復的刈り取り法に適用し, ロバスト出力プルーニングのためのエネルギゾンドチャネル (ezcrop) という方式によるロバストネスを実証した。

Recent results have revealed an interesting observation in a trained convolutional neural network (CNN), namely, the rank of a feature map channel matrix remains surprisingly constant despite the input images. This has led to an effective rank-based channel pruning algorithm, yet the constant rank phenomenon remains mysterious and unexplained. This work aims at demystifying and interpreting such rank behavior from a frequency-domain perspective, which as a bonus suggests an extremely efficient Fast Fourier Transform (FFT)-based metric for measuring channel importance without explicitly computing its rank. We achieve remarkable CNN channel pruning based on this analytically sound and computationally efficient metric and adopt it for repetitive pruning to demonstrate robustness via our scheme named Energy-Zoned Channels for Robust Output Pruning (EZCrop), which shows consistently better results than other state-of-the-art channel pruning methods.
公開日:2021-05-11
翻訳日:2021-05-12 11:16:40
# RBNN:モノのインターネットのためのIP保護を備えたメモリ効率の良い再構成可能なディープバイナリニューラルネットワーク

RBNN: Memory-Efficient Reconfigurable Deep Binary Neural Network with IP Protection for Internet of Things ( http://arxiv.org/abs/2105.03822v2 )

ライセンス: Link先を確認
Huming Qiu, Hua Ma, Zhi Zhang, Yifeng Zheng, Anmin Fu, Pan Zhou, Yansong Gao, Derek Abbott, Said F. Al-Sarawi(参考訳) ディープニューラルネットワークモデルは、さまざまなアプリケーションに優れたパフォーマンスを示すが、その大きなモデルサイズと広範な浮動小数点演算により、モバイルコンピューティングプラットフォームへのデプロイメントは大きな課題であり、特にIoTデバイス上では特にそうだ。 魅力的なソリューションの1つはモデル量子化であり、モデルサイズを小さくし、マイクロコントローラで一般的にサポートされている整数演算を使用する。 この目的のために、1ビット量子化DNNモデルまたはディープバイナリニューラルネットワークは、BNNモデルの各パラメータが1ビットしか持たないメモリ効率を最大化する。 本稿では,資源制約型IoTデバイスのメモリ効率をさらに向上するために,再構成可能なBNN(RBNN)を提案する。 一般に、RBNNは要求に応じて再構成され、同じパラメータセットを持つM(M>1)の異なるタスクのいずれかを達成することができるため、単一のタスクのみがメモリ要求を決定する。 われわれの広範な実験では、7つの一般的なタスクが共存できることが一致している(mの値はより大きい可能性がある)。 クラス数が異なるこれらのタスクは、VGG、ResNet、ReActNetを含む3つのバイナライズされたDNNアーキテクチャにおいて、まったくあるいは無視できる精度の低下がない。 タスクは、コンピュータビジョンやオーディオドメインなどの様々な領域にまたがっており、モデルアーキテクチャがこれらのクロスドメインタスクに役立てることができるという前提条件がある。 RBNNモデルの知的特性を保護するため、固有のハードウェア指紋によって生成されるユーザキーとデバイス固有のルートキーの両方で再構成を制御することができる。 これにより、RBNNモデルは認証されたデバイス当たりの有償ユーザに対してのみ使用できるため、ユーザとモデルプロバイダの両方にとってメリットがある。

Though deep neural network models exhibit outstanding performance for various applications, their large model size and extensive floating-point operations render deployment on mobile computing platforms a major challenge, and, in particular, on Internet of Things devices. One appealing solution is model quantization that reduces the model size and uses integer operations commonly supported by microcontrollers . To this end, a 1-bit quantized DNN model or deep binary neural network maximizes the memory efficiency, where each parameter in a BNN model has only 1-bit. In this paper, we propose a reconfigurable BNN (RBNN) to further amplify the memory efficiency for resource-constrained IoT devices. Generally, the RBNN can be reconfigured on demand to achieve any one of M (M>1) distinct tasks with the same parameter set, thus only a single task determines the memory requirements. In other words, the memory utilization is improved by times M. Our extensive experiments corroborate that up to seven commonly used tasks can co-exist (the value of M can be larger). These tasks with a varying number of classes have no or negligible accuracy drop-off on three binarized popular DNN architectures including VGG, ResNet, and ReActNet. The tasks span across different domains, e.g., computer vision and audio domains validated herein, with the prerequisite that the model architecture can serve those cross-domain tasks. To protect the intellectual property of an RBNN model, the reconfiguration can be controlled by both a user key and a device-unique root key generated by the intrinsic hardware fingerprint. By doing so, an RBNN model can only be used per paid user per authorized device, thus benefiting both the user and the model provider.
公開日:2021-05-11
翻訳日:2021-05-12 11:16:16
# ソーシャルメディアに基づくファッショントレンド予測のための複数関係の活用

Leveraging Multiple Relations for Fashion Trend Forecasting Based on Social Media ( http://arxiv.org/abs/2105.03299v2 )

ライセンス: Link先を確認
Yujuan Ding, Yunshan Ma, Lizi Liao, Wai Keung Wong, Tat-Seng Chua(参考訳) ファッショントレンド予測は、ファッション企業とファッション愛好者の両方に有用な提案を提供する上で、非常に重要な研究である。 この困難な課題に取り組むために様々な研究がなされてきたが、彼らは非常に季節的あるいは単純なパターンの限られたファッション要素しか研究しておらず、実際の複雑なファッショントレンドは明らかではない。 さらに、このタスクのメインストリームソリューションは依然として統計ベースであり、予測精度を制限する時系列データモデリングのみに焦点を当てている。 洞察に富んだファッショントレンド予測に向けて、以前の研究 [1] は、ファッショントレンドを情報的に示すことのできる、よりきめ細かいファッション要素を分析することを提案した。 具体的には、ソーシャルメディアデータに基づく特定のユーザーグループに対する、ファッション要素の詳細なトレンド予測に焦点を当てた。 さらに,ファッショントレンドモデリングと予測の問題に対処するために,ニューラルネットワークに基づく手法であるkernを提案した。 本研究では,先行研究を拡張すべく,Relation Enhanced Attention Recurrent(REAR)ネットワークという改良モデルを提案する。 KERNと比較して、REARモデルはファッション要素間の関係だけでなく、ユーザグループ間の関係も活用し、様々なファッショントレンド間の相関関係をより多く捉える。 長距離トレンド予測の性能をさらに向上するため,REAR法では,将来の地平線における時間的パターンをよりよく捉えることができるすべり時間的注意機構を考案した。 FITおよびGeoStyleデータセットを用いて、REARの性能を評価するための大規模な実験およびさらなる分析を行った。 KERNと比較してREARの改善を示すファッショントレンド予測におけるREARモデルの有効性を実験的および解析的に実証した。

Fashion trend forecasting is of great research significance in providing useful suggestions for both fashion companies and fashion lovers. Although various studies have been devoted to tackling this challenging task, they only studied limited fashion elements with highly seasonal or simple patterns, which could hardly reveal the real complex fashion trends. Moreover, the mainstream solutions for this task are still statistical-based and solely focus on time-series data modeling, which limit the forecast accuracy. Towards insightful fashion trend forecasting, previous work [1] proposed to analyze more fine-grained fashion elements which can informatively reveal fashion trends. Specifically, it focused on detailed fashion element trend forecasting for specific user groups based on social media data. In addition, it proposed a neural network-based method, namely KERN, to address the problem of fashion trend modeling and forecasting. In this work, to extend the previous work, we propose an improved model named Relation Enhanced Attention Recurrent (REAR) network. Compared to KERN, the REAR model leverages not only the relations among fashion elements but also those among user groups, thus capturing more types of correlations among various fashion trends. To further improve the performance of long-range trend forecasting, the REAR method devises a sliding temporal attention mechanism, which is able to capture temporal patterns on future horizons better. Extensive experiments and more analysis have been conducted on the FIT and GeoStyle datasets to evaluate the performance of REAR. Experimental and analytical results demonstrate the effectiveness of the proposed REAR model in fashion trend forecasting, which also show the improvement of REAR compared to the KERN.
公開日:2021-05-11
翻訳日:2021-05-12 11:15:48
# 暗黙的フィードバックを用いた連帯協調フィルタリングにおけるプライバシーの強化

Stronger Privacy for Federated Collaborative Filtering with Implicit Feedback ( http://arxiv.org/abs/2105.03941v2 )

ライセンス: Link先を確認
Lorenzo Minto, Moritz Haller, Hamed Haddadi, Benjamin Livshits(参考訳) レコメンダシステムは一般的に、ビューやクリックなどの集中的に収集されたユーザーインタラクションデータに基づいてトレーニングされる。 しかしこのプラクティスは、レコメンダの収集と潜在的に機密性の高いデータの処理に関して、重大なプライバシー上の懸念を引き起こす。 近年の文献では,プライバシを意識したレコメンダシステムがいくつか提案されているが,暗黙的なフィードバックとプライバシの交点では,比較的注目されていない。 この欠点に対処するために,ユーザレベルのローカルディファレンシャルプライバシー(ldp)下での暗黙のデータに対して,実用的なフェデレーションレコメンダシステムを提案する。 プライバシとユーティリティのトレードオフはパラメータ$\epsilon$と$k$で制御され、更新されたプライバシ予算と各ユーザが送信する$\epsilon$-LDPグラデーションの更新数を規制する。 ユーザのプライバシーをさらに保護するために,レコメンダに転送する前にレポートを匿名化・シャッフルすることで指紋認証面を低減するプロキシネットワークを導入する。 5k項目の50kユーザに対して,K=10(HR@10)0.68でHit Ratioを達成し,MovieLensデータセット上でフレームワークの有効性を実証的に実証した。 完全なデータセットであっても、ユーザのプライバシを損なうことなく、HR@10>0.5で妥当なユーティリティを実現できることを示す。

Recommender systems are commonly trained on centrally collected user interaction data like views or clicks. This practice however raises serious privacy concerns regarding the recommender's collection and handling of potentially sensitive data. Several privacy-aware recommender systems have been proposed in recent literature, but comparatively little attention has been given to systems at the intersection of implicit feedback and privacy. To address this shortcoming, we propose a practical federated recommender system for implicit data under user-level local differential privacy (LDP). The privacy-utility trade-off is controlled by parameters $\epsilon$ and $k$, regulating the per-update privacy budget and the number of $\epsilon$-LDP gradient updates sent by each user respectively. To further protect the user's privacy, we introduce a proxy network to reduce the fingerprinting surface by anonymizing and shuffling the reports before forwarding them to the recommender. We empirically demonstrate the effectiveness of our framework on the MovieLens dataset, achieving up to Hit Ratio with K=10 (HR@10) 0.68 on 50k users with 5k items. Even on the full dataset, we show that it is possible to achieve reasonable utility with HR@10>0.5 without compromising user privacy.
公開日:2021-05-11
翻訳日:2021-05-12 11:15:22
# (参考訳) 患者バイタルサインを用いた集中治療単位長と死亡率の予測--機械学習モデルの開発と検証

Predicting Intensive Care Unit Length of Stay and Mortality Using Patient Vital Signs: Machine Learning Model Development and Validation ( http://arxiv.org/abs/2105.04414v1 )

ライセンス: CC BY 4.0
Khalid Alghatani, Nariman Ammar, Abdelmounaam Rezgui, Arash Shaban-Nejad(参考訳) 患者のモニタリングはあらゆるケアにおいて不可欠です。 本稿では、滞在時間と死亡率予測モデルの開発と検証について報告する。 モデルは、Intelligent Remote patient Monitoring (IRPM)フレームワークのインテリジェントICU患者監視モジュールで使用され、患者の健康状態を監視し、悪質な医療状況が予測されたときにタイムリーなアラート、操作ガイダンス、レポートを生成する。 集中治療(mimic)データベースのための公開医療情報マートを用いて,成人患者に対するicu滞在データ抽出を行い,死亡予測モデルとicu滞在時間予測モデルの2つの予測モデルを構築した。 死亡率モデルでは,6つの機械学習(ML)バイナリ分類アルゴリズムを適用し,退院状況(生存の有無)を予測した。 滞在時間モデルでは,平均2.64日間のicu滞在率を用いて,同じ6mlアルゴリズムをバイナリ分類に適用した。 回帰に基づく分類では,2つのMLアルゴリズムを用いて日数を予測する。 1つはベースライン人口統計学的特徴とバイタルサイン特徴を用いており、もう1つは提案した量子的アプローチに基づいており、そこではベースラインのバイタルサイン特徴から構築された21の付加的特徴(修正手段、標準偏差、量子的パーセンテージ)を用いている。 quantilesアプローチを使って、合理的なパフォーマンスを維持しながら、最小限の機能で予測モデリングを実行できる。 死亡率モデルで得られた最高精度はランダムフォレストアルゴリズムを用いて約89%であった。 人口中央値のICU滞在(2.64日)に基づいて、滞在モデルで達成された最高精度は、ランダム森林アルゴリズムを用いて、およそ65%であった。

Patient monitoring is vital in all stages of care. We here report the development and validation of ICU length of stay and mortality prediction models. The models will be used in an intelligent ICU patient monitoring module of an Intelligent Remote Patient Monitoring (IRPM) framework that monitors the health status of patients, and generates timely alerts, maneuver guidance, or reports when adverse medical conditions are predicted. We utilized the publicly available Medical Information Mart for Intensive Care (MIMIC) database to extract ICU stay data for adult patients to build two prediction models: one for mortality prediction and another for ICU length of stay. For the mortality model, we applied six commonly used machine learning (ML) binary classification algorithms for predicting the discharge status (survived or not). For the length of stay model, we applied the same six ML algorithms for binary classification using the median patient population ICU stay of 2.64 days. For the regression-based classification, we used two ML algorithms for predicting the number of days. We built two variations of each prediction model: one using 12 baseline demographic and vital sign features, and the other based on our proposed quantiles approach, in which we use 21 extra features engineered from the baseline vital sign features, including their modified means, standard deviations, and quantile percentages. We could perform predictive modeling with minimal features while maintaining reasonable performance using the quantiles approach. The best accuracy achieved in the mortality model was approximately 89% using the random forest algorithm. The highest accuracy achieved in the length of stay model, based on the population median ICU stay (2.64 days), was approximately 65% using the random forest algorithm.
公開日:2021-05-05
翻訳日:2021-05-12 11:14:57
# (参考訳) Approximate Message Passingに関する統一チュートリアル

A unifying tutorial on Approximate Message Passing ( http://arxiv.org/abs/2105.02180v1 )

ライセンス: CC BY 4.0
Oliver Y. Feng, Ramji Venkataramanan, Cynthia Rush and Richard J. Samworth(参考訳) 過去10年ほどにわたり、近似メッセージパッシング(amp)アルゴリズムは様々な構造化高次元統計問題で非常に人気を集めている。 これらの技術の起源は、統計物理学の文献における信念の伝播の概念に遡ることができるという事実は多くの統計学者にとってこの領域にある種の神秘を与える。 この研究の目標は、AMPフレームワークのパワーと柔軟性を説明するために、統計的な観点からAMPの主なアイデアを示すことです。 その過程で, 既存の文献における結果の多くを強化し, 統一する。

Over the last decade or so, Approximate Message Passing (AMP) algorithms have become extremely popular in various structured high-dimensional statistical problems. The fact that the origins of these techniques can be traced back to notions of belief propagation in the statistical physics literature lends a certain mystique to the area for many statisticians. Our goal in this work is to present the main ideas of AMP from a statistical perspective, to illustrate the power and flexibility of the AMP framework. Along the way, we strengthen and unify many of the results in the existing literature.
公開日:2021-05-05
翻訳日:2021-05-12 11:14:29
# (参考訳) データマイニングと機械学習を用いた大規模メモリ障害予測

Large-scale memory failure prediction using mcelog-based Data Mining and Machine Learning ( http://arxiv.org/abs/2105.04547v1 )

ライセンス: CC BY-SA 4.0
Chengdong Yao(参考訳) データセンタでは、メモリ障害による予期せぬダウンタイムは、サーバの安定性と、ビジネスに害を与える情報技術基盤全体の低下につながる可能性がある。 したがって、メモリ障害を事前に正確に予測できるかどうかが、データセンターで研究すべき最も重要な課題の1つとなっている。 しかし、生産システムにおけるメモリ障害予測には、巨大なデータノイズや正と負のサンプル間の極端な不均衡といった技術的問題を解く必要があり、同時にアルゴリズムの長期的な安定性を確保する必要がある。 本稿では、一般的に使用されるスキルとそれらがもたらす改善を比較要約する。 私たちが提案した1つのモデルは、第25回太平洋アジア知識発見およびデータマイニング会議に属する第2回Alibaba Cloud AIOpsコンペティションでトップ15を獲得した。

In the data center, unexpected downtime caused by memory failures can lead to a decline in the stability of the server and even the entire information technology infrastructure, which harms the business. Therefore, whether the memory failure can be accurately predicted in advance has become one of the most important issues to be studied in the data center. However, for the memory failure prediction in the production system, it is necessary to solve technical problems such as huge data noise and extreme imbalance between positive and negative samples, and at the same time ensure the long-term stability of the algorithm. This paper compares and summarizes some commonly used skills and the improvement they can bring. The single model we proposed won the top 15th in the 2nd Alibaba Cloud AIOps Competition belonging to the 25th Pacific-Asia Conference on Knowledge Discovery and Data Mining.
公開日:2021-04-24
翻訳日:2021-05-12 11:14:22
# (参考訳) PyPlutchik:感情関連コーパスの可視化と比較

PyPlutchik: visualising and comparing emotion-annotated corpora ( http://arxiv.org/abs/2105.04295v1 )

ライセンス: CC BY 4.0
Alfonso Semeraro, Salvatore Vilella and Giancarlo Ruffo(参考訳) ソーシャルネットワークから抽出されたテキストコーパスとデータは、心理学者のロバート・プルチク(robert plutchik)が提唱した「plutchik wheel」と呼ばれるモデルに基づいて、膨大な量の著作物を生み出している。 関連する研究は、アノテーションタスクの記述から感情検出ツールまで幅広い。 このような感情の可視化は、伝統的にバープロットやテーブルなど、最も一般的なレイアウトを使用して行われる。 このモデルにおける空間的近接は意味的近接であり、隣接する感情が一緒に引き起こされたときに複雑な感情(一次ダイナド)を誘発するのと同様に、空間的対立は意味的反対であり、ポジティブな感情は否定的な感情とは反対である。 最も一般的なレイアウトは両方の機能を保存できず、視覚的に異なるコーパス間の比較を目線で許可する必要性は言うまでもなく、基本的な設計ソリューションでは難しい。 PyPlutchikはPlutchikの感情をテキストやコーパスで可視化するように設計されたPythonライブラリである。 ピプルツチクは、コーパスでどれだけの感情が検出または注釈付けされたかの後に、それぞれの感情の花弁でプルツチクの花を描き、それぞれに3度の強さを表す。 特にPyPlutchikでは、ユーザーはコンパクトで直感的に、プライマリ、セカンダリ、セカンダリ、第三、反対のダイアドを表示できる。 我々は、PyPlutchikがPlutchikの感情を表示するときに、他の古典的な視覚よりも優れているという主張を裏付ける。

The increasing availability of textual corpora and data fetched from social networks is fuelling a huge production of works based on the model proposed by psychologist Robert Plutchik, often referred simply as the ``Plutchik Wheel''. Related researches range from annotation tasks description to emotions detection tools. Visualisation of such emotions is traditionally carried out using the most popular layouts, as bar plots or tables, which are however sub-optimal. The classic representation of the Plutchik's wheel follows the principles of proximity and opposition between pairs of emotions: spatial proximity in this model is also a semantic proximity, as adjacent emotions elicit a complex emotion (a primary dyad) when triggered together; spatial opposition is a semantic opposition as well, as positive emotions are opposite to negative emotions. The most common layouts fail to preserve both features, not to mention the need of visually allowing comparisons between different corpora in a blink of an eye, that is hard with basic design solutions. We introduce PyPlutchik, a Python library specifically designed for the visualisation of Plutchik's emotions in texts or in corpora. PyPlutchik draws the Plutchik's flower with each emotion petal sized after how much that emotion is detected or annotated in the corpus, also representing three degrees of intensity for each of them. Notably, PyPlutchik allows users to display also primary, secondary, tertiary and opposite dyads in a compact, intuitive way. We substantiate our claim that PyPlutchik outperforms other classic visualisations when displaying Plutchik emotions and we showcase a few examples that display our library's most compelling features.
公開日:2021-04-19
翻訳日:2021-05-12 11:14:10
# (参考訳) サッカーのパフォーマンススコアを検索・比較するためのインタラクティブダッシュボード

An interactive dashboard for searching and comparing soccer performance scores ( http://arxiv.org/abs/2105.04293v1 )

ライセンス: CC BY 4.0
Paolo Cintia, Giovanni Mauro, Luca Pappalardo, Paolo Ferragina(参考訳) サッカー選手のパフォーマンスは、サッカー業界における多くの俳優によって最も議論された側面の1つであり、サポーターからジャーナリスト、コーチからタレントスカウトまでである。 残念ながら、オンラインで利用可能なダッシュボードは、プレイヤーのパフォーマンスの進化を比較したり、フィールドで同じように振る舞うプレイヤーを見つける効果的な方法を提供していません。 本稿では,apiを介してパフォーマンス評価アルゴリズムと対話するwebダッシュボードの設計について述べるとともに,プレイヤーの年齢,役割,成長傾向によるプレイヤーの探索や比較,投球行動に基づく類似のプレイヤーの探索,アルゴリズムのパラメータの変更によるパフォーマンススコアのカスタマイズなど,多くのタスクをユーザに提供するグラフィカルツールを提供する。 また、タレントスカウトがダッシュボードと対話して、若く有望なタレントを見つける方法の例についても説明する。

The performance of soccer players is one of most discussed aspects by many actors in the soccer industry: from supporters to journalists, from coaches to talent scouts. Unfortunately, the dashboards available online provide no effective way to compare the evolution of the performance of players or to find players behaving similarly on the field. This paper describes the design of a web dashboard that interacts via APIs with a performance evaluation algorithm and provides graphical tools that allow the user to perform many tasks, such as to search or compare players by age, role or trend of growth in their performance, find similar players based on their pitching behavior, change the algorithm's parameters to obtain customized performance scores. We also describe an example of how a talent scout can interact with the dashboard to find young, promising talents.
公開日:2021-05-11
翻訳日:2021-05-12 11:13:38
# (参考訳) 情報ボトルネック理論の批判的考察とその深層学習への応用

A Critical Review of Information Bottleneck Theory and its Applications to Deep Learning ( http://arxiv.org/abs/2105.04405v2 )

ライセンス: CC BY 4.0
Mohammad Ali Alomrani(参考訳) 過去10年間で、ディープニューラルネットワークは、今日の社会のあらゆる側面に影響を与え続ける、例外なく改善されている。 高性能GPUの開発と大量のデータの提供により、MLシステムの学習能力は飛躍的に向上し、画像中の桁の分類から、超人的なパフォーマンスを持つゲームの世界チャンピオンを圧倒した。 しかし、MLモデルは新たなフロンティアを達成し続けているが、その実践的な成功は、内部の動作に関する深い理論的理解の欠如によって妨げられている。 幸いなことに、情報ボトルネック理論と呼ばれる既知の情報理論的手法が、ニューラルネットワークの学習ダイナミクスをよりよく理解するための有望なアプローチとして登場した。 原則として、IB理論はデータの圧縮と情報の保持の間のトレードオフとして学習をモデル化する。 本研究の目的は、情報理論のルーツと最近提案された深層学習モデル理解への応用をカバーするib理論の包括的レビューを提供することである。

In the past decade, deep neural networks have seen unparalleled improvements that continue to impact every aspect of today's society. With the development of high performance GPUs and the availability of vast amounts of data, learning capabilities of ML systems have skyrocketed, going from classifying digits in a picture to beating world-champions in games with super-human performance. However, even as ML models continue to achieve new frontiers, their practical success has been hindered by the lack of a deep theoretical understanding of their inner workings. Fortunately, a known information-theoreti c method called the information bottleneck theory has emerged as a promising approach to better understand the learning dynamics of neural networks. In principle, IB theory models learning as a trade-off between the compression of the data and the retainment of information. The goal of this survey is to provide a comprehensive review of IB theory covering it's information theoretic roots and the recently proposed applications to understand deep learning models.
公開日:2021-05-11
翻訳日:2021-05-12 11:13:24
# (参考訳) Dynamic-OFA:不均一な組み込みプラットフォーム上でのパフォーマンススケーリングのための実行時DNNアーキテクチャスイッチ

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03596v2 )

ライセンス: CC BY 4.0
Wei Lou, Lei Xun, Amin Sabet, Jia Bi, Jonathon Hare, Geoff V. Merrett(参考訳) モバイルおよび組み込みプラットフォームは、不均一な処理要素をまたいだ計算要求のDNNを効率的に実行するためにますます必要となる。 実行時に、DNNに利用可能なハードウェアリソースは、他の並列実行アプリケーションによって大きく異なる可能性がある。 アプリケーションのパフォーマンス要件は、異なるシナリオの下でも変更できる。 所望の性能を達成するために,様々な資源制約の下で異なる要求を満たすために,チャネル/レイヤの数をリアルタイムでスケールできる動的dnnが提案されている。 しかし、このような動的DNNのトレーニングプロセスは、異なるデプロイメントシナリオのプラットフォーム対応モデルを再トレーニングする必要があるため、コストがかかる可能性がある。 本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。 全ネットワーク(OFA)。 dynamic-ofaは静的ofaバックボーンモデルからサブネットワークのファミリーをプリサンプリングし、異なるランタイム環境下で異なるサブネットワークを選択するランタイムマネージャを含む。 そのため、Dynamic-OFAは従来の動的DNNトレーニングパイプラインを必要としない。 最新技術と比較すると、Jetson Xavier NX上でのImageNetを用いた実験結果は、アプローチが類似のImageNet Top-1精度で3.5x(CPU)、2.4x(GPU)、または3.8%(CPU)、同様のレイテンシで5.1%(GPU)の精度であることを示している。

Mobile and embedded platforms are increasingly required to efficiently execute computationally demanding DNNs across heterogeneous processing elements. At runtime, the available hardware resources to DNNs can vary considerably due to other concurrently running applications. The performance requirements of the applications could also change under different scenarios. To achieve the desired performance, dynamic DNNs have been proposed in which the number of channels/layers can be scaled in real time to meet different requirements under varying resource constraints. However, the training process of such dynamic DNNs can be costly, since platform-aware models of different deployment scenarios must be retrained to become dynamic. This paper proposes Dynamic-OFA, a novel dynamic DNN approach for state-of-the-art platform-aware NAS models (i.e. Once-for-all network (OFA)). Dynamic-OFA pre-samples a family of sub-networks from a static OFA backbone model, and contains a runtime manager to choose different sub-networks under different runtime environments. As such, Dynamic-OFA does not need the traditional dynamic DNN training pipeline. Compared to the state-of-the-art, our experimental results using ImageNet on a Jetson Xavier NX show that the approach is up to 3.5x (CPU), 2.4x (GPU) faster for similar ImageNet Top-1 accuracy, or 3.8% (CPU), 5.1% (GPU) higher accuracy at similar latency.
公開日:2021-05-11
翻訳日:2021-05-12 11:12:55
# (参考訳) 視覚オドメトリーのためのpcaイベントに基づくオティカルフロー [全文訳有]

PCA Event-Based Otical Flow for Visual Odometry ( http://arxiv.org/abs/2105.03760v1 )

ライセンス: CC BY 4.0
Mahmoud Z. Khairallah, Fabien Bonardi, David Roussel and Samia Bouchafa(参考訳) イベントベースカメラのようなニューロモルフィック視覚センサの出現により、ほとんどのコンピュータビジョンアルゴリズムにはパラダイムシフトが必要とされる。 これらのアルゴリズムのうち、オプティカルフロー推定はこの過程の第一候補であり、神経形態的視覚アプローチに関連付けられている。 光流の利用は、その豊かさと正確さのため、ロボット工学の応用で広く使われている。 イベントベース光フロー推定問題に対する主成分分析(PCA)手法を提案する。 そこで本研究では,光学的流れの推定を効果的に向上する様々な正則化手法について検討する。 提案手法の最適変種は,視力計測のリアルタイムな文脈に特化しており,最新の実装に比べて約2倍高速であり,光学的フロー精度は著しく向上している。

With the advent of neuromorphic vision sensors such as event-based cameras, a paradigm shift is required for most computer vision algorithms. Among these algorithms, optical flow estimation is a prime candidate for this process considering that it is linked to a neuromorphic vision approach. Usage of optical flow is widespread in robotics applications due to its richness and accuracy. We present a Principal Component Analysis (PCA) approach to the problem of event-based optical flow estimation. In this approach, we examine different regularization methods which efficiently enhance the estimation of the optical flow. We show that the best variant of our proposed method, dedicated to the real-time context of visual odometry, is about two times faster compared to state-of-the-art implementations while significantly improves optical flow accuracy.
公開日:2021-05-08
翻訳日:2021-05-12 11:11:18
# (参考訳) MetaKernel: 限定ラベルによる変分ランダムな特徴の学習 [全文訳有]

MetaKernel: Learning Variational Random Features with Limited Labels ( http://arxiv.org/abs/2105.03781v1 )

ライセンス: CC BY 4.0
Yingjun Du, Haoliang Sun, Xiantong Zhen, Jun Xu, Yilong Yin, Ling Shao, Cees G. M. Snoek(参考訳) 少数のショット学習は、いくつかの注釈付きサンプルから学習する基礎的かつ困難な問題に対処すると同時に、新しいタスクをうまく一般化することができる。 少数ショット学習の要点は、関連するタスクから事前の知識を抽出し、限られたデータ量で新しいタスクに素早く適応できるようにすることである。 本稿では,メタカーネル(MetaKernel)と呼ぶ,ランダムなフーリエ機能を備えたメタ学習カーネルを提案する。 具体的には,メタラーニング環境において,関連するタスクによって提供される共有知識を活用し,タスク固有のカーネルを得るために,データ駆動方式で変分的ランダム特徴の学習を提案する。 確率的特徴基底を潜在変数として扱い, 変分推論によって推定する。 関連するタスクからの共有知識は、長期記憶モジュールを通じて達成される後部のコンテキスト推論に組み込まれている。 より表現力のあるカーネルを確立するために,結合層に基づく条件付き正規化フローをデプロイし,ランダムなフーリエベース上でよりリッチな後部分布を実現する。 結果として得られるカーネルは、より有益で差別的であり、わずかな学習をさらに改善する。 提案手法を評価するために,少数ショット画像分類と回帰処理の両方について広範な実験を行った。 徹底的なアブレーション研究により,本手法における各成分の有効性が示された。 14のデータセットのベンチマーク結果は、MetaKernelが、最先端の代替よりも、少なくとも同等で、しばしば優れたパフォーマンスを一貫して提供することを示す。

Few-shot learning deals with the fundamental and challenging problem of learning from a few annotated samples, while being able to generalize well on new tasks. The crux of few-shot learning is to extract prior knowledge from related tasks to enable fast adaptation to a new task with a limited amount of data. In this paper, we propose meta-learning kernels with random Fourier features for few-shot learning, we call MetaKernel. Specifically, we propose learning variational random features in a data-driven manner to obtain task-specific kernels by leveraging the shared knowledge provided by related tasks in a meta-learning setting. We treat the random feature basis as the latent variable, which is estimated by variational inference. The shared knowledge from related tasks is incorporated into a context inference of the posterior, which we achieve via a long-short term memory module. To establish more expressive kernels, we deploy conditional normalizing flows based on coupling layers to achieve a richer posterior distribution over random Fourier bases. The resultant kernels are more informative and discriminative, which further improves the few-shot learning. To evaluate our method, we conduct extensive experiments on both few-shot image classification and regression tasks. A thorough ablation study demonstrates that the effectiveness of each introduced component in our method. The benchmark results on fourteen datasets demonstrate MetaKernel consistently delivers at least comparable and often better performance than state-of-the-art alternatives.
公開日:2021-05-08
翻訳日:2021-05-12 11:01:06
# (参考訳) 傾斜ブースト決定木を用いたnli微調整用変圧器 [全文訳有]

Enhancing Transformers with Gradient Boosted Decision Trees for NLI Fine-Tuning ( http://arxiv.org/abs/2105.03791v1 )

ライセンス: CC BY 4.0
Benjamin Minixhofer, Milan Gritta, Ignacio Iacobacci(参考訳) トランスファー学習は多くの自然言語処理タスクにおいて主要なパラダイムとなっている。 大規模なデータセットで事前トレーニングされたモデルに加えて、ターゲットタスクに類似した中間(教師あり)タスクでさらにトレーニングすることができる。 小さな自然言語推論(NLI)データセットの場合、言語モデリングは通常、それぞれのNLIサブタスクで微調整する前に、大きな(ラベル付き)NLIデータセットで事前トレーニングが行われる。 本研究では,多層パーセプトロン(MLP)分類ヘッドの代替として,GBDT(Gradient Boosted Decision Trees)を探索する。 GBDTは、密度の高い数値的特徴に対する優れた性能などの望ましい特性を有し、試料数w.r.tの比率が低い場合に有効である。 次に、微細チューニング中に計算した機能にGBDTヘッドを取り付け、ニューラルネットワークによる計算を必要とせずに性能を向上させるFreeGBDTを紹介する。 強ベースラインモデル (RoBERTa-large with MNLI pretraining) を用いて, 提案手法の有効性を示す。 FreeGBDTは、MPP分類ヘッドよりも一貫した改善を示している。

Transfer learning has become the dominant paradigm for many natural language processing tasks. In addition to models being pretrained on large datasets, they can be further trained on intermediate (supervised) tasks that are similar to the target task. For small Natural Language Inference (NLI) datasets, language modelling is typically followed by pretraining on a large (labelled) NLI dataset before fine-tuning with each NLI subtask. In this work, we explore Gradient Boosted Decision Trees (GBDTs) as an alternative to the commonly used Multi-Layer Perceptron (MLP) classification head. GBDTs have desirable properties such as good performance on dense, numerical features and are effective where the ratio of the number of samples w.r.t the number of features is low. We then introduce FreeGBDT, a method of fitting a GBDT head on the features computed during fine-tuning to increase performance without additional computation by the neural network. We demonstrate the effectiveness of our method on several NLI datasets using a strong baseline model (RoBERTa-large with MNLI pretraining). The FreeGBDT shows a consistent improvement over the MLP classification head.
公開日:2021-05-08
翻訳日:2021-05-12 10:27:33
# (参考訳) minimax問題に対する確率勾配法の安定性と一般化

Stability and Generalization of Stochastic Gradient Methods for Minimax Problems ( http://arxiv.org/abs/2105.03793v1 )

ライセンス: CC BY 4.0
Yunwen Lei, Zhenhuan Yang, Tianbao Yang, Yiming Ying(参考訳) 多くの機械学習問題は、GAN(Generative Adversarial Networks)やAUCの最大化、ロバストな推定といったミニマックス問題として定式化することができる。 多くの研究が確率勾配型アルゴリズムの収束挙動の研究に費やされている。 対照的に、一般化に関する作業は、トレーニング例から構築された学習モデルがテスト例でどのように振る舞うかというように、比較的少ない。 本稿では, アルゴリズム安定性のレンズを用いて, 凸凹および非凸非凸ケースにおけるミニマックス問題に対する確率的勾配法の包括的一般化解析を行う。 安定性といくつかの一般化尺度の間の定量的な関係を期待と高い確率で確立する。 凸凹集合の場合, 確率的勾配降下上昇が滑らかかつ非滑らかなミニマックス問題に対して最適一般化境界に達することを示す。 また,弱凸ウェクリ凸問題と勾配支配問題の両方に対する一般化境界を定式化する。

Many machine learning problems can be formulated as minimax problems such as Generative Adversarial Networks (GANs), AUC maximization and robust estimation, to mention but a few. A substantial amount of studies are devoted to studying the convergence behavior of their stochastic gradient-type algorithms. In contrast, there is relatively little work on their generalization, i.e., how the learning models built from training examples would behave on test examples. In this paper, we provide a comprehensive generalization analysis of stochastic gradient methods for minimax problems under both convex-concave and nonconvex-nonconcave cases through the lens of algorithmic stability. We establish a quantitative connection between stability and several generalization measures both in expectation and with high probability. For the convex-concave setting, our stability analysis shows that stochastic gradient descent ascent attains optimal generalization bounds for both smooth and nonsmooth minimax problems. We also establish generalization bounds for both weakly-convex-weakly -concave and gradient-dominated problems.
公開日:2021-05-08
翻訳日:2021-05-12 10:14:19
# (参考訳) スラッシュまたはバーン:森林火災防止のための電力線および植生分類 [全文訳有]

Slash or burn: Power line and vegetation classification for wildfire prevention ( http://arxiv.org/abs/2105.03804v1 )

ライセンス: CC BY 4.0
Austin Park, Farzaneh Rajabi, Ross Weber(参考訳) 電力事業者は、暑く乾燥した気候で山火事のリスクを増大させるのに苦労している。 送電線や配電線は、周囲の植生と接触する際に定期的に破壊的な火災を発生させる。 有用資産からの分離を維持するために植生を刈り取ることは、安全性にとって困難であると同時に重要である。 それぞれのユーティリティには数万マイルの線形走行距離があり、それらの資産の所在に関する知識が乏しく、トリミングを優先する方法がない。 特徴強化畳み込みニューラルネットワーク(cnns)はこの問題空間において有効であることが証明されている。 配向勾配(HOG)とハフ変換のヒストグラムは、電力線や極のような線形構造のサリエンスを高めるために用いられる。 データは頻繁にドローンや衛星映像から撮影されるが、Googleストリートビューはよりスケーラブルで低コストなソリューションを提供する。 本論文は,1,320ドルの画像をストリートビューから抽出し,人気のあるCNN上での移動学習と特徴工学を用いて,(1)ユーティリティシステムなし,(2)過剰植生のないユーティリティシステム,(3)過剰植生を有するユーティリティシステムのうちの1つにイメージを配置する。 したがって、cnn出力は優先順位付けされた植生管理システムを生成し、副産物としてユーティリティ資産のジオタグマップを作成する。 トレーニングされた第1層と分類器を備えたvgg11を使用して、テストセットの精度を80.15\%$に設定し、リスクの高い植生の過剰な画像の8.88\%を正しく分類した。

Electric utilities are struggling to manage increasing wildfire risk in a hotter and drier climate. Utility transmission and distribution lines regularly ignite destructive fires when they make contact with surrounding vegetation. Trimming vegetation to maintain the separation from utility assets is as critical to safety as it is difficult. Each utility has tens of thousands of linear miles to manage, poor knowledge of where those assets are located, and no way to prioritize trimming. Feature-enhanced convolutional neural networks (CNNs) have proven effective in this problem space. Histograms of oriented gradients (HOG) and Hough transforms are used to increase the salience of the linear structures like power lines and poles. Data is frequently taken from drone or satellite footage, but Google Street View offers an even more scalable and lower cost solution. This paper uses $1,320$ images scraped from Street View, transfer learning on popular CNNs, and feature engineering to place images in one of three classes: (1) no utility systems, (2) utility systems with no overgrown vegetation, or (3) utility systems with overgrown vegetation. The CNN output thus yields a prioritized vegetation management system and creates a geotagged map of utility assets as a byproduct. Test set accuracy with reached $80.15\%$ using VGG11 with a trained first layer and classifier, and a model ensemble correctly classified $88.88\%$ of images with risky vegetation overgrowth.
公開日:2021-05-09
翻訳日:2021-05-12 10:13:09
# (参考訳) 事前知識を用いた3次元ポーズ推定 [全文訳有]

Estimation of 3D Human Pose Using Prior Knowledge ( http://arxiv.org/abs/2105.03807v1 )

ライセンス: CC BY 4.0
Shu Chen, Lei Zhang and Beiji Zou(参考訳) Estimating three-dimensional human poses from the positions of two-dimensional joints has shown promising results.However, using two-dimensional joint coordinates as input loses more information than image-based approaches and results in ambiguity.In order to overcome this problem, we combine bone length and camera parameters with two-dimensional joint coordinates for input.This combination is more discriminative than the two-dimensional joint coordinates in that it can improve the accuracy of the model's prediction depth and alleviate the ambiguity that comes from projecting three-dimensional coordinates into two-dimensional space. さらに,本論文では,基礎的真理と提案モデルの出力との差をよりよく測定できる方向制約を導入する。 h36m実験の結果, 従来の3次元姿勢推定法よりも良好な結果が得られた。

Estimating three-dimensional human poses from the positions of two-dimensional joints has shown promising results.However, using two-dimensional joint coordinates as input loses more information than image-based approaches and results in ambiguity.In order to overcome this problem, we combine bone length and camera parameters with two-dimensional joint coordinates for input.This combination is more discriminative than the two-dimensional joint coordinates in that it can improve the accuracy of the model's prediction depth and alleviate the ambiguity that comes from projecting three-dimensional coordinates into two-dimensional space. Furthermore, we introduce direction constraints which can better measure the difference between the ground truth and the output of the proposed model. The experimental results on the H36M show that the method performed better than other state-of-the-art three-dimensional human pose estimation approaches.
公開日:2021-05-09
翻訳日:2021-05-12 10:02:32
# (参考訳) ネットワーク干渉による因果推論の局所的アプローチ

The Local Approach to Causal Inference under Network Interference ( http://arxiv.org/abs/2105.03810v1 )

ライセンス: CC BY 4.0
Eric Auerbach and Max Tabord-Meehan(参考訳) 因果推論のための新しい統一フレームワークを提案する。結果がエージェントが社会や経済ネットワークでどのようにリンクされているかに依存する場合である。 このようなネットワーク干渉は、治療の流出、社会的相互作用、社会学習、情報拡散、社会資本形成などに関する多くの文献を記述している。 提案手法では, エージェントがネットワーク内でどのようにリンクされているかを, 経路距離で測定した他のエージェントと近傍の接続の設定を用いて特徴付ける。 ポリシーや治療課題の影響は、同様に構成されたエージェント間で結果データをプールすることで学習される。 本稿では,新しい非パラメトリックモデリング手法を提案し,因果推論の2つの応用について検討する。 最初のアプリケーションは、治療効果の無関係/無影響のポリシーをテストすることである。 第2のアプリケーションは、政策効果/処理応答の推定である。 シミュレーションによる推定と推論手順の有限サンプル特性の評価により結論づける。

We propose a new unified framework for causal inference when outcomes depend on how agents are linked in a social or economic network. Such network interference describes a large literature on treatment spillovers, social interactions, social learning, information diffusion, social capital formation, and more. Our approach works by first characterizing how an agent is linked in the network using the configuration of other agents and connections nearby as measured by path distance. The impact of a policy or treatment assignment is then learned by pooling outcome data across similarly configured agents. In the paper, we propose a new nonparametric modeling approach and consider two applications to causal inference. The first application is to testing policy irrelevance/no treatment effects. The second application is to estimating policy effects/treatment response. We conclude by evaluating the finite-sample properties of our estimation and inference procedures via simulation.
公開日:2021-05-09
翻訳日:2021-05-12 09:57:05
# (参考訳) グラフニューラルネットワークとオンライン学習によるクリックスルー率予測 [全文訳有]

Click-Through Rate Prediction Using Graph Neural Networks and Online Learning ( http://arxiv.org/abs/2105.03811v1 )

ライセンス: CC BY 4.0
Farzaneh Rajabi, Jack Siyuan He(参考訳) レコメンデーションシステムは過去に多くの文献で広く研究され、オンライン広告、ショッピング業界/eコマース、検索エンジンでのクエリ提案、ソーシャルネットワークでのフレンドレコメンデーションなどに広く使われている。 さらに、レストラン/音楽/製品/ムージー/アプリレコメンデーションは、レコメンデーションシステムの応用のごく一部にすぎない。 CTR予測精度の小さな改善は、広告業界に何百万ドルもの収益をもたらすと言及されている。 CTR(Click-Through-Ra te)予測(Click-Through-Rate) は、ユーザーが推奨アイテムをクリックするかどうかを予測するレコメンデーションシステムの特別なバージョンである。 コンテンツベースのレコメンデーションアプローチは、ユーザの行動の過去の履歴、すなわちその動作を考慮に入れる。 推奨製品とユーザに反応する。 したがって、適切なアイテムを適切なタイミングで適切なユーザに推奨するパーソナライズされたモデルが、そのようなモデルを構築するための鍵となります。 一方、コラボレーティブフィルタリング手法は、特定のユーザと非常によく似たユーザのクリック履歴を取り入れており、ユーザのネットワークで自分の好みを共有するユーザのより広い知識を活用することで、推奨者が特定のユーザに対してより自信を持って予測するのに役立つ。 本稿では,このような動的相互作用をモデル化するオンライン学習アルゴリズムを補完するグラフニューラルネットワークを用いたCTR予測器の構築に関心がある。 この問題をバイナリ分類タスクとして評価することにより,テストAUCが0.7417のオフラインモデル(GNN,Deep Factorization Machines)と,テストAUCが0.7585のオンライン学習モデルの両方で,10,000のデータポイントからなるCriteo公開データセットのサブサンプルバージョンを用いて評価を行った。

Recommendation systems have been extensively studied by many literature in the past and are ubiquitous in online advertisement, shopping industry/e-commerce, query suggestions in search engines, and friend recommendation in social networks. Moreover, restaurant/music/pro duct/movie/news/app recommendations are only a few of the applications of a recommender system. A small percent improvement on the CTR prediction accuracy has been mentioned to add millions of dollars of revenue to the advertisement industry. Click-Through-Rate (CTR) prediction is a special version of recommender system in which the goal is predicting whether or not a user is going to click on a recommended item. A content-based recommendation approach takes into account the past history of the user's behavior, i.e. the recommended products and the users reaction to them. So, a personalized model that recommends the right item to the right user at the right time is the key to building such a model. On the other hand, the so-called collaborative filtering approach incorporates the click history of the users who are very similar to a particular user, thereby helping the recommender to come up with a more confident prediction for that particular user by leveraging the wider knowledge of users who share their taste in a connected network of users. In this project, we are interested in building a CTR predictor using Graph Neural Networks complemented by an online learning algorithm that models such dynamic interactions. By framing the problem as a binary classification task, we have evaluated this system both on the offline models (GNN, Deep Factorization Machines) with test-AUC of 0.7417 and on the online learning model with test-AUC of 0.7585 using a sub-sampled version of Criteo public dataset consisting of 10,000 data points.
公開日:2021-05-09
翻訳日:2021-05-12 09:56:10
# (参考訳) 交通異常検出のためのグッドプラクティスと強力なベースライン [全文訳有]

Good Practices and A Strong Baseline for Traffic Anomaly Detection ( http://arxiv.org/abs/2105.03827v1 )

ライセンス: CC BY 4.0
Yuxiang Zhao, Wenhao Wu, Yue He, Yingying Li, Xiao Tan, Shifeng Chen(参考訳) 交通異常の検出は、インテリジェントシティ交通管理システムの重要な構成要素である。 従来,様々な重要な知見が提案されてきたが,複雑な交通環境への対処は依然として課題である。 さらに、高品質なデータの欠如と交通シーンの複雑さは、この問題を手作りの観点から研究する動機となっている。 本稿では,前処理,動的トラックモジュール,後処理を含む,単純で効率的なフレームワークを提案する。 ビデオの安定化、背景モデリング、車両検出により、プロプロセスフェーズは候補異常の生成を目指している。 動的トラッキングモジュールは、車両の動作パターンと時空間状態を利用して異常の開始時刻を求め、特定する。 最後に、後処理を用いて異常の時間境界を微調整する。 予想されていたフレームワークは、nvidia ai city 2021 leaderboard for traffic anomaly detectionで1,^{st}$でランク付けされました。 https://github.com/e ndeavour10020/aicity 2021-anomaly-detecti on。

The detection of traffic anomalies is a critical component of the intelligent city transportation management system. Previous works have proposed a variety of notable insights and taken a step forward in this field, however, dealing with the complex traffic environment remains a challenge. Moreover, the lack of high-quality data and the complexity of the traffic scene, motivate us to study this problem from a hand-crafted perspective. In this paper, we propose a straightforward and efficient framework that includes pre-processing, a dynamic track module, and post-processing. With video stabilization, background modeling, and vehicle detection, the pro-processing phase aims to generate candidate anomalies. The dynamic tracking module seeks and locates the start time of anomalies by utilizing vehicle motion patterns and spatiotemporal status. Finally, we use post-processing to fine-tune the temporal boundary of anomalies. Not surprisingly, our proposed framework was ranked $1^{st}$ in the NVIDIA AI CITY 2021 leaderboard for traffic anomaly detection. The code is available at: https://github.com/E ndeavour10020/AICity 2021-Anomaly-Detecti on .
公開日:2021-05-09
翻訳日:2021-05-12 09:45:02
# (参考訳) モデルRBの超解法 [全文訳有]

Super Solutions of the Model RB ( http://arxiv.org/abs/2105.03831v1 )

ライセンス: CC BY 4.0
Guangyan Zhou, Wei Xu(参考訳) 超解の概念は、ある種の強靭性と安定性を持つ特殊タイプの一般化解である。 本稿では,モデル rb の $(1,1)$-super 解を考える。 第1モーメント法を用いて、制約密度がこの値を超えたとき、期待される$(1,1)$-super 解の数が 0$ から infinity になるような「threshold 」を確立した。

The concept of super solution is a special type of generalized solutions with certain degree of robustness and stability. In this paper we consider the $(1,1)$-super solutions of the model RB. Using the first moment method, we establish a "threshold" such that as the constraint density crosses this value, the expected number of $(1,1)$-super solutions goes from $0$ to infinity.
公開日:2021-05-09
翻訳日:2021-05-12 09:34:53
# (参考訳) プラム検出とロボット収穫のためのディープラーニングアーキテクチャのデータセットと性能比較 [全文訳有]

Dataset and Performance Comparison of Deep Learning Architectures for Plum Detection and Robotic Harvesting ( http://arxiv.org/abs/2105.03832v1 )

ライセンス: CC BY 4.0
Jasper Brown, Salah Sukkarieh(参考訳) 雑草や植物計数などの農業における多くの自動化された操作は、堅牢で正確な物体検出器を必要とする。 ロボットによる果樹収穫は、その1つであり、樹木栽培者による労働不足と不確実性に対処するための重要な技術である。 アイ・イン・ハンド・センシング・セットアップは、収穫システムで一般的に使われ、精度と柔軟性を感知する利点を提供する。 しかし、手とカメラがトレリス全体を見ることから特定の果実を摘むことに移行すると、照明、色、ぼけ、露出が大きく変化する。 収穫に使用されるオブジェクト検出アルゴリズムはこれらの課題に対して堅牢であるべきですが、現在それを評価するデータセットはほとんどありません。 本研究では,実際のロボット梅収穫システムの昼夜動作中に2つの新しいデータセットを収集する。 これらに対して、現在の世代のディープラーニングオブジェクト検出器をベンチマークする。 さらに,検出性能に影響を及ぼすため,深度と画像情報を融合する2つの方法が試験された。 異なる検出器の昼夜の精度に重要な違いが見出され、転送学習はすべてのケースにおいて必須であり、深度情報融合はわずかに有効であると評価される。 データセットとベンチマークモデルはオンラインで利用可能である。

Many automated operations in agriculture, such as weeding and plant counting, require robust and accurate object detectors. Robotic fruit harvesting is one of these, and is an important technology to address the increasing labour shortages and uncertainty suffered by tree crop growers. An eye-in-hand sensing setup is commonly used in harvesting systems and provides benefits to sensing accuracy and flexibility. However, as the hand and camera move from viewing the entire trellis to picking a specific fruit, large changes in lighting, colour, obscuration and exposure occur. Object detection algorithms used in harvesting should be robust to these challenges, but few datasets for assessing this currently exist. In this work, two new datasets are gathered during day and night operation of an actual robotic plum harvesting system. A range of current generation deep learning object detectors are benchmarked against these. Additionally, two methods for fusing depth and image information are tested for their impact on detector performance. Significant differences between day and night accuracy of different detectors is found, transfer learning is identified as essential in all cases, and depth information fusion is assessed as only marginally effective. The dataset and benchmark models are made available online.
公開日:2021-05-09
翻訳日:2021-05-12 09:25:48
# (参考訳) マルチグリッド型ニューラルネットワークアーキテクチャによる流体力学の代理モデリング [全文訳有]

Surrogate Modeling of Fluid Dynamics with a Multigrid Inspired Neural Network Architecture ( http://arxiv.org/abs/2105.03854v1 )

ライセンス: CC BY-SA 4.0
Quang Tuyen Le, Chin Chun Ooi(参考訳) 代数的あるいは幾何学的マルチグリッド法は、複数のスケールで問題を扱うことができるマルチレゾリューション法であるため、数値解法で一般的に用いられる。 本稿では、U-Net-MGと呼ばれるマルチグリッド手法の原理に着想を得た、一般的なU-Netニューラルネットワークアーキテクチャの修正を提案する。この提案されたU-Net-MGアーキテクチャは、流体力学問題の集合をモデル化する際に、従来のU-Netアーキテクチャと比較してテスト予測誤差をうまく低減できることを示す。 以上より, 定常シリンダを過ぎる流れ, 相外運動で2シリンダを過ぎる流れ, 推進モードとエネルギー収穫モードの両方で振動翼を通過する流れの, 標準流体力学の速度と圧力場の推定精度が向上することを示す。 一般に、U-NetモデルとU-Net-MGモデルの両方が、テストRMSEを1%未満でうまくモデル化できるが、U-Net-MGアーキテクチャを使うことで、RMSEをさらに20%から70%削減することができる。

Algebraic or geometric multigrid methods are commonly used in numerical solvers as they are a multi-resolution method able to handle problems with multiple scales. In this work, we propose a modification to the commonly-used U-Net neural network architecture that is inspired by the principles of multigrid methods, referred to here as U-Net-MG. We then demonstrate that this proposed U-Net-MG architecture can successfully reduce the test prediction errors relative to the conventional U-Net architecture when modeling a set of fluid dynamic problems. In total, we demonstrate an improvement in the prediction of velocity and pressure fields for the canonical fluid dynamics cases of flow past a stationary cylinder, flow past 2 cylinders in out-of-phase motion, and flow past an oscillating airfoil in both the propulsion and energy harvesting modes. In general, while both the U-Net and U-Net-MG models can model the systems well with test RMSEs of less than 1%, the use of the U-Net-MG architecture can further reduce RMSEs by between 20% and 70%.
公開日:2021-05-09
翻訳日:2021-05-12 09:15:45
# (参考訳) gmote:gaussian based minor oversampling technique for unbalanced classification adapting tail probability of outliers [全文訳有]

GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers ( http://arxiv.org/abs/2105.03855v1 )

ライセンス: CC BY 4.0
Seung Jee Yang, Kyung Joon Cha(参考訳) 不均衡データの分類は、最近のデータマイニングにおける一般的な問題の1つである。 不均衡データは標準分類モデルの性能に大きく影響する。 データレベルのアプローチは、主に、合成的マイノリティオーバーサンプリング技術(smote:synthetic minor oversampling technique)など、問題を解決するためにオーバーサンプリング手法を使用する。 しかし、SMOTEのような手法は線形補間によってインスタンスを生成するため、合成データ空間は多角形に見える。 また、オーバーサンプリング手法はマイノリティクラスの外れ値を生成する。 本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。 線形補間を回避し,外れ値を考えるため,提案手法はガウス混合モデルを用いてインスタンスを生成する。 クラスタリングに基づく多変量gaussian outlier score (cmgos) に動機づけられ,マハラノビス距離を通じてインスタンスのテール確率を適応させ,局所アウトリアーを考える。 実験は、ベンチマークデータセットの代表セットで実施された。 GMOTEの性能はSMOTEなどの他の手法と比較される。 GMOTEを分類回帰木(CART)やサポートベクトルマシン(SVM)と組み合わせると、精度とF1スコアが向上する。 実験結果はロバストな性能を示す。

Classification of imbalanced data is one of the common problems in the recent field of data mining. Imbalanced data substantially affects the performance of standard classification models. Data-level approaches mainly use the oversampling methods to solve the problem, such as synthetic minority oversampling Technique (SMOTE). However, since the methods such as SMOTE generate instances by linear interpolation, synthetic data space may look like a polygonal. Also, the oversampling methods generate outliers of the minority class. In this paper, we proposed Gaussian based minority oversampling technique (GMOTE) with a statistical perspective for imbalanced datasets. To avoid linear interpolation and to consider outliers, this proposed method generates instances by the Gaussian Mixture Model. Motivated by clustering-based multivariate Gaussian outlier score (CMGOS), we propose to adapt tail probability of instances through the Mahalanobis distance to consider local outliers. The experiment was carried out on a representative set of benchmark datasets. The performance of the GMOTE is compared with other methods such as SMOTE. When the GMOTE is combined with classification and regression tree (CART) or support vector machine (SVM), it shows better accuracy and F1-Score. Experimental results demonstrate the robust performance.
公開日:2021-05-09
翻訳日:2021-05-12 08:59:21
# (参考訳) JPEGドメイン知識の爆発によるJPEGステレオグラフィのコスト学習の改善 [全文訳有]

Improving Cost Learning for JPEG Steganography by Exploiting JPEG Domain Knowledge ( http://arxiv.org/abs/2105.03867v1 )

ライセンス: CC BY 4.0
Weixuan Tang, Bin Li, Mauro Barni, Jin Li, Jiwu Huang(参考訳) 近年、ステガノグラフィーコストの自動学習の著しい進歩が達成されているが、空間画像のための既存の手法は、日常生活でより一般的なメディアであるjpeg画像にはあまり適用できない。 マイグレーションの難しさは、主に8x8 DCTモード構造によって引き起こされる、ユニークで複雑なJPEG特性にある。 そこで本稿では,既存のJPEGの自動コスト学習方式を拡張し,JEC-RL(JPEG Embedding Cost with Reinforcement Learning)と呼ばれる提案手法をJPEG DCT構造を最適化するために明示的に設計する。 環境ネットワークが提供する報酬を最大化することにより、ポリシーネットワークが最適な埋め込みポリシーを学習する強化学習下での埋め込み動作サンプリング機構で動作する。 ポリシネットワークは,ピクセルレベルのテクスチャの複雑性評価,DCT特徴抽出,モードワイド再構成を含む3つのモジュールが提案されるドメイン遷移設計パラダイムに従って構築される。 これらのモジュールはシリアルで動作し、圧縮されたJPEG画像から有用な特徴を徐々に抽出し、ブロック間およびブロック内相関を含むJPEG特性を同時に考慮しながら、DCT要素の埋め込みポリシーに変換する。 環境ネットワークは、8x8 dct基底フィルタを備えた固定前処理層を備えた広いアーキテクチャを用いて、安定した報奨値を提供するために設計されている。 提案手法は,高度な特徴ベースと最新のCNNベースのステガナライザーの両方に対して,JPEG画像に対する優れたセキュリティ性能を実現することができることを示す。

Although significant progress in automatic learning of steganographic cost has been achieved recently, existing methods designed for spatial images are not well applicable to JPEG images which are more common media in daily life. The difficulties of migration mostly lie in the unique and complicated JPEG characteristics caused by 8x8 DCT mode structure. To address the issue, in this paper we extend an existing automatic cost learning scheme to JPEG, where the proposed scheme called JEC-RL (JPEG Embedding Cost with Reinforcement Learning) is explicitly designed to tailor the JPEG DCT structure. It works with the embedding action sampling mechanism under reinforcement learning, where a policy network learns the optimal embedding policies via maximizing the rewards provided by an environment network. The policy network is constructed following a domain-transition design paradigm, where three modules including pixel-level texture complexity evaluation, DCT feature extraction, and mode-wise rearrangement, are proposed. These modules operate in serial, gradually extracting useful features from a decompressed JPEG image and converting them into embedding policies for DCT elements, while considering JPEG characteristics including inter-block and intra-block correlations simultaneously. The environment network is designed in a gradient-oriented way to provide stable reward values by using a wide architecture equipped with a fixed preprocessing layer with 8x8 DCT basis filters. Extensive experiments and ablation studies demonstrate that the proposed method can achieve good security performance for JPEG images against both advanced feature based and modern CNN based steganalyzers.
公開日:2021-05-09
翻訳日:2021-05-12 08:46:20
# (参考訳) 仮説検定に基づく選択的確率的分類器 [全文訳有]

Selective Probabilistic Classifier Based on Hypothesis Testing ( http://arxiv.org/abs/2105.03876v1 )

ライセンス: CC BY 4.0
Saeed Bakhshi Germi and Esa Rahtu and Heikki Huttunen(参考訳) 本稿では,分類器に対するクローズドワールド仮定の違反に対処するための,単純かつ効果的な手法を提案する。 先行研究は、仮定に違反した入力を拒絶する分類スコアまたは損失関数にしきい値を適用する傾向がある。 しかし、これらの手法は安全適用に必要な低偽陽性率(fpr)を達成できない。 提案手法は確率的ネットワークを用いた仮説テストに基づく拒絶オプションである。 確率的ネットワークでは、単一の出力ではなく結果の分布を推定することができる。 各クラスの平均偏差と標準偏差にZ-testを適用することにより,ネットワークの確実性の統計的意義を推定し,不確実な出力を補正することができる。 提案手法はCOCOデータセットとCIFARデータセットの異なる構成で実験した。 提案手法の性能は,既知のトップパフォーマンス法であるsoftmax応答と比較した。 その結果,提案手法はより広い範囲の操作が可能であり,FPRの低減が可能であることがわかった。

In this paper, we propose a simple yet effective method to deal with the violation of the Closed-World Assumption for a classifier. Previous works tend to apply a threshold either on the classification scores or the loss function to reject the inputs that violate the assumption. However, these methods cannot achieve the low False Positive Ratio (FPR) required in safety applications. The proposed method is a rejection option based on hypothesis testing with probabilistic networks. With probabilistic networks, it is possible to estimate the distribution of outcomes instead of a single output. By utilizing Z-test over the mean and standard deviation for each class, the proposed method can estimate the statistical significance of the network certainty and reject uncertain outputs. The proposed method was experimented on with different configurations of the COCO and CIFAR datasets. The performance of the proposed method is compared with the Softmax Response, which is a known top-performing method. It is shown that the proposed method can achieve a broader range of operation and cover a lower FPR than the alternative.
公開日:2021-05-09
翻訳日:2021-05-12 08:16:19
# (参考訳) Conformer: 視覚認識のためのグローバル表現を結合するローカル機能 [全文訳有]

Conformer: Local Features Coupling Global Representations for Visual Recognition ( http://arxiv.org/abs/2105.03889v1 )

ライセンス: CC BY 4.0
Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, Jianbin Jiao, Qixiang Ye(参考訳) 畳み込みニューラルネットワーク(CNN)では、畳み込み操作は局所的な特徴の抽出に適しているが、グローバルな表現を捉えるのが困難である。 視覚変換器内では、カスケードされた自己アテンションモジュールは長距離機能依存をキャプチャできるが、残念ながらローカル機能の詳細を劣化させる。 本稿では,畳み込み操作と自己アテンション機構を活用し,拡張表現学習のためのハイブリッドネットワーク構造であるconformerを提案する。 コンフォーマーはFCU(Feature Coupling Unit)のルーツであり、インタラクティブな方法で異なる解像度で局所的な特徴とグローバルな表現を融合させる。 Conformerは、ローカル特徴とグローバル表現が最大限に維持されるように、並列構造を採用する。 実験によると、Conformerはパラメータの複雑さに比較して、ImageNetで視覚変換器(DeiT-B)を2.3%上回っている。 MSCOCOでは、ResNet-101を3.7%、オブジェクト検出とインスタンスセグメンテーションの3.6%で上回り、一般的なバックボーンネットワークになる可能性を示している。 コードはhttps://github.com/p engzhiliang/conforme rで入手できる。

Within Convolutional Neural Network (CNN), the convolution operations are good at extracting local features but experience difficulty to capture global representations. Within visual transformer, the cascaded self-attention modules can capture long-distance feature dependencies but unfortunately deteriorate local feature details. In this paper, we propose a hybrid network structure, termed Conformer, to take advantage of convolutional operations and self-attention mechanisms for enhanced representation learning. Conformer roots in the Feature Coupling Unit (FCU), which fuses local features and global representations under different resolutions in an interactive fashion. Conformer adopts a concurrent structure so that local features and global representations are retained to the maximum extent. Experiments show that Conformer, under the comparable parameter complexity, outperforms the visual transformer (DeiT-B) by 2.3% on ImageNet. On MSCOCO, it outperforms ResNet-101 by 3.7% and 3.6% mAPs for object detection and instance segmentation, respectively, demonstrating the great potential to be a general backbone network. Code is available at https://github.com/p engzhiliang/Conforme r.
公開日:2021-05-09
翻訳日:2021-05-12 08:08:28
# (参考訳) 車両と危険道路利用者のインタラクション検出:注意を伴う深部生成的アプローチ [全文訳有]

Interaction Detection Between Vehicles and Vulnerable Road Users: A Deep Generative Approach with Attention ( http://arxiv.org/abs/2105.03891v1 )

ライセンス: CC BY 4.0
Hao Cheng, Li Feng, Hailong Liu, Takatsugu Hirayama, Hiroshi Murase and Monika Sester(参考訳) 歩行者やサイクリストのような脆弱な道路利用者(vrus)との交差点は、道路利用者の行動を自動的に正確に認識するために最も難しい場所の1つだ。 本稿では,そのような場所でのインタラクション検出のための条件付き生成モデルを提案する。 道路利用者の行動の連続性に関する膨大なビデオデータを自動的に分析することを目的としている。 このタスクは、道路利用者の移動の理解に依存する交通安全制御や自動運転車など、多くのインテリジェント交通システムにとって不可欠である。 ガウス型潜伏変数を用いた条件変分自動エンコーダモデルを用いて,道路利用者の挙動を符号化し,対話の確率的・多様な予測を行う。 このモデルは、深層学習オブジェクト検出器によって自動的に抽出された道路利用者のタイプ、位置、動きの情報とビデオからの光学的流れを入力とし、回転車と関連するVRU間の相互作用のダイナミクスを表すフレームワイズ確率を生成する。 このモデルの有効性は、2つの異なる交差点から取得した実世界のデータセットをテストすることによって検証された。 ドイツでは右旋回交差点で0.96点、日本では左旋回交差点で0.89点のF1スコアを達成した。

Intersections where vehicles are permitted to turn and interact with vulnerable road users (VRUs) like pedestrians and cyclists are among some of the most challenging locations for automated and accurate recognition of road users' behavior. In this paper, we propose a deep conditional generative model for interaction detection at such locations. It aims to automatically analyze massive video data about the continuity of road users' behavior. This task is essential for many intelligent transportation systems such as traffic safety control and self-driving cars that depend on the understanding of road users' locomotion. A Conditional Variational Auto-Encoder based model with Gaussian latent variables is trained to encode road users' behavior and perform probabilistic and diverse predictions of interactions. The model takes as input the information of road users' type, position and motion automatically extracted by a deep learning object detector and optical flow from videos, and generates frame-wise probabilities that represent the dynamics of interactions between a turning vehicle and any VRUs involved. The model's efficacy was validated by testing on real--world datasets acquired from two different intersections. It achieved an F1-score above 0.96 at a right--turn intersection in Germany and 0.89 at a left--turn intersection in Japan, both with very busy traffic flows.
公開日:2021-05-09
翻訳日:2021-05-12 07:48:44
# (参考訳) 遷移正規化項を持つ二元化重みネットワーク [全文訳有]

Binarized Weight Error Networks With a Transition Regularization Term ( http://arxiv.org/abs/2105.03897v1 )

ライセンス: CC BY 4.0
Savas Ozkan, Gozde Bozdagi Akar(参考訳) 本稿では,資源効率の高いニューラルネットワークのための新しい二項化重みネットワーク(BT)を提案する。 提案モデルでは, 近似誤差を考慮した重みの2値表現を, 追加項で推定する。 このモデルは、特に浅層ネットワークにおける表現能力と安定性を高め、計算負荷は理論的に減少する。 さらに、しきい値に基づく二項精度ネットワークに適合する新しい正規化項が導入された。 この用語は、二項遷移が起こるしきい値から遠く離れた訓練可能なパラメータを罰する。 このステップは、列車時のバイナリ精度応答の迅速な修正を促進する。 視覚的分類と視覚的逆問題という2つの課題に対して実験を行った。 cifar10、svhn、 fashion、imagenet2012、set5、set14、urban、bsd100のデータセットのベンチマークは、この手法がバイナリ精度で全てのデータセットを上回ることを示している。

This paper proposes a novel binarized weight network (BT) for a resource-efficient neural structure. The proposed model estimates a binary representation of weights by taking into account the approximation error with an additional term. This model increases representation capacity and stability, particularly for shallow networks, while the computation load is theoretically reduced. In addition, a novel regularization term is introduced that is suitable for all threshold-based binary precision networks. This term penalizes the trainable parameters that are far from the thresholds at which binary transitions occur. This step promotes a swift modification for binary-precision responses at train time. The experimental results are carried out for two sets of tasks: visual classification and visual inverse problems. Benchmarks for Cifar10, SVHN, Fashion, ImageNet2012, Set5, Set14, Urban and BSD100 datasets show that our method outperforms all counterparts with binary precision.
公開日:2021-05-09
翻訳日:2021-05-12 07:20:45
# (参考訳) TextAdaIN:ロバストテキスト認識のためのファイングラインドAdaIN [全文訳有]

TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition ( http://arxiv.org/abs/2105.03906v1 )

ライセンス: CC BY 4.0
Oren Nuriel, Sharon Fogel, Ron Litman(参考訳) 畳み込み層の特性を利用すると、画像分類器は非常に効果的である。 しかし,近年の研究では,画像のセマンティクスを保ちながら操作が容易なグローバルな画像統計に頼っているケースが多い。 テキスト認識では,ネットワークが過度に依存する局所的な画像統計量であることが明らかとなった。 そこで本研究では,テキスト認識性能を向上させる局所統計への依存度を規制する手法を提案する。 提案手法はTextAdaINと呼ばれ,特徴マップに局所歪みを生成し,ネットワークが局所統計に過度に適合しないようにする。 これは、ミニバッチ内のサンプル間で詳細な特徴統計を意図的にミスマッチすることで実現している。 TextAdaINの単純さにもかかわらず、他のより複雑な方法と比較して、広範な実験が効果を示している。 TextAdaINは、標準的な手書きテキスト認識ベンチマークで最先端の結果を達成する。 さらに、複数のアーキテクチャやシーンテキスト認識の領域に一般化する。 さらに,TextAdaINの統合により画像の破損に対する堅牢性が向上することを示す。

Leveraging the characteristics of convolutional layers, image classifiers are extremely effective. However, recent works have exposed that in many cases they immoderately rely on global image statistics that are easy to manipulate while preserving image semantics. In text recognition, we reveal that it is rather the local image statistics which the networks overly depend on. Motivated by this, we suggest an approach to regulate the reliance on local statistics that improves overall text recognition performance. Our method, termed TextAdaIN, creates local distortions in the feature map which prevent the network from overfitting to the local statistics. It does so by deliberately mismatching fine-grained feature statistics between samples in a mini-batch. Despite TextAdaIN's simplicity, extensive experiments show its effectiveness compared to other, more complicated methods. TextAdaIN achieves state-of-the-art results on standard handwritten text recognition benchmarks. Additionally, it generalizes to multiple architectures and to the domain of scene text recognition. Furthermore, we demonstrate that integrating TextAdaIN improves robustness towards image corruptions.
公開日:2021-05-09
翻訳日:2021-05-12 07:11:55
# (参考訳) どのトランスフォーマーアーキテクチャが私のデータに合うのか? 自己注意における語彙ボトルネック [全文訳有]

Which transformer architecture fits my data? A vocabulary bottleneck in self-attention ( http://arxiv.org/abs/2105.03928v1 )

ライセンス: CC BY 4.0
Noam Wies, Yoav Levine, Daniel Jannai, Amnon Shashua(参考訳) 自然言語処理で成功を収めた後、Transformerアーキテクチャは今や多くのドメインでデファクトスタンダードになりつつある。 最適な深さと幅の比率は、データタイプによって劇的に異なる(例えば、言語よりも画像の方が10$x大きい)ことが示されている。 理論上,自己付着幅の寄与を制限する埋め込みランクボトルネックの存在をトランスフォーマクション表現率に理論的に予測する。 したがって,小語彙サイズやランクが幅に対して深さの利点を与えるため,入力語彙サイズとランクを最適な深さ対幅比に直接結びつける。 我々は、このボトルネックの存在とトランスフォーマーアーキテクチャの深さから幅への相互作用との関係を実証的に示し、ドメイン間のアーキテクチャの変動性と、異なる語彙サイズや異なるドメインへの埋め込みランクのしばしば光沢のある利用を結びつける。 さらなるメリットとして、ALBERTやT5といった主要なNLPモデルにおいて、ランクボトルネックフレームワークにより、サイズ冗長度が25\%-50\%$の識別が可能になる。

After their successful debut in natural language processing, Transformer architectures are now becoming the de-facto standard in many domains. An obstacle for their deployment over new modalities is the architectural configuration: the optimal depth-to-width ratio has been shown to dramatically vary across data types (e.g., $10$x larger over images than over language). We theoretically predict the existence of an embedding rank bottleneck that limits the contribution of self-attention width to the Transformer expressivity. We thus directly tie the input vocabulary size and rank to the optimal depth-to-width ratio, since a small vocabulary size or rank dictates an added advantage of depth over width. We empirically demonstrate the existence of this bottleneck and its implications on the depth-to-width interplay of Transformer architectures, linking the architecture variability across domains to the often glossed-over usage of different vocabulary sizes or embedding ranks in different domains. As an additional benefit, our rank bottlenecking framework allows us to identify size redundancies of $25\%-50\%$ in leading NLP models such as ALBERT and T5.
公開日:2021-05-09
翻訳日:2021-05-12 06:53:01
# (参考訳) 階層的・微分可能なニューラルアーキテクチャ探索による軽量画像超解法 [全文訳有]

Lightweight Image Super-Resolution with Hierarchical and Differentiable Neural Architecture Search ( http://arxiv.org/abs/2105.03939v1 )

ライセンス: CC BY 4.0
Han Huang, Li Shen, Chaoyang He, Weisheng Dong, Haozhi Huang, Guangming Shi(参考訳) SISR(Single Image Super-Resolution)タスクは、ディープニューラルネットワークで大きなパフォーマンスを実現している。 しかしながら、cnnベースのsisrタスクの多くのパラメーターは重い計算を必要とする。 近年、いくつかの効率的なSISRモデルが提案されているが、そのほとんどは手作りであり、柔軟性に欠ける。 本稿では,セルレベルとネットワークレベルの両方において,軽量なsisrモデルを探すための新しい微分可能なニューラルネットワーク探索(nas)手法を提案する。 具体的には、セルレベルの探索空間は情報蒸留機構に基づいて設計されており、軽量操作の組み合わせに焦点を当て、より軽量で正確なsr構造の構築を目指している。 ネットワークレベルの検索空間は、セル間の機能接続を考慮し、パフォーマンス向上に最も役立つ情報フローを見つけることを目的としている。 SISRタスクのための既存のReinforcement Learning (RL) や Evolutionary Algorithm (EA) ベースのNASメソッドとは異なり、我々の探索パイプラインは完全に微分可能であり、軽量なSISRモデルは単一のGPU上でセルレベルとネットワークレベルの両方で効率的に探索することができる。 実験の結果,PSNR, SSIM, モデル複雑性の観点から,PSNR, SSIM, 68G Multi-Adds for $\times 2$および18G Multi-Adds for $\times 4$ SRタスクで, ベンチマークデータセットの最先端性能を達成できることが確認された。 コードは \url{https://github.com/D awnHH/DLSR-PyTorch} で入手できる。

Single Image Super-Resolution (SISR) tasks have achieved significant performance with deep neural networks. However, the large number of parameters in CNN-based methods for SISR tasks require heavy computations. Although several efficient SISR models have been recently proposed, most are handcrafted and thus lack flexibility. In this work, we propose a novel differentiable Neural Architecture Search (NAS) approach on both the cell-level and network-level to search for lightweight SISR models. Specifically, the cell-level search space is designed based on an information distillation mechanism, focusing on the combinations of lightweight operations and aiming to build a more lightweight and accurate SR structure. The network-level search space is designed to consider the feature connections among the cells and aims to find which information flow benefits the cell most to boost the performance. Unlike the existing Reinforcement Learning (RL) or Evolutionary Algorithm (EA) based NAS methods for SISR tasks, our search pipeline is fully differentiable, and the lightweight SISR models can be efficiently searched on both the cell-level and network-level jointly on a single GPU. Experiments show that our methods can achieve state-of-the-art performance on the benchmark datasets in terms of PSNR, SSIM, and model complexity with merely 68G Multi-Adds for $\times 2$ and 18G Multi-Adds for $\times 4$ SR tasks. Code will be available at \url{https://github.com/D awnHH/DLSR-PyTorch}.
公開日:2021-05-09
翻訳日:2021-05-12 06:05:07
# (参考訳) gComm: 接地言語習得における一般化調査環境 [全文訳有]

gComm: An environment for investigating generalization in Grounded Language Acquisition ( http://arxiv.org/abs/2105.03943v1 )

ライセンス: CC BY-SA 4.0
Rishi Hazra and Sonu Dixit(参考訳) gCommは、より困難で現実的な環境で、基礎言語獲得の研究を促進する堅牢なプラットフォームを開発するためのステップである。 エージェントのセット(静止スピーカーと通信チャネルを介して接続される移動リスナ)を部分的に観察可能な設定で連続したタスクの配列に露呈する2次元グリッド環境を含む。 これらの課題を解決する鍵は、言語能力を開発し、それらを効率的に環境を探索するために利用するエージェントにある。 スピーカ及びリスナーは、異なるモードで提供される情報、すなわち、アクセスすることができる。 話者の入力は、ターゲットとタスク仕様を含む自然言語命令であり、リスナーの入力はそのグリッドビューである。 それぞれが割り当てられたタスクを完了するために互いに頼らなければならないが、同じことができる唯一の方法は、何らかの通信形態を開発し使用することである。 gCommは様々な形態のコミュニケーションを研究し、それらの一般化を評価するためのツールを提供している。

gComm is a step towards developing a robust platform to foster research in grounded language acquisition in a more challenging and realistic setting. It comprises a 2-d grid environment with a set of agents (a stationary speaker and a mobile listener connected via a communication channel) exposed to a continuous array of tasks in a partially observable setting. The key to solving these tasks lies in agents developing linguistic abilities and utilizing them for efficiently exploring the environment. The speaker and listener have access to information provided in different modalities, i.e. the speaker's input is a natural language instruction that contains the target and task specifications and the listener's input is its grid-view. Each must rely on the other to complete the assigned task, however, the only way they can achieve the same, is to develop and use some form of communication. gComm provides several tools for studying different forms of communication and assessing their generalization.
公開日:2021-05-09
翻訳日:2021-05-12 05:50:24
# (参考訳) ヒューマンモーション感情認識におけるプライバシ保護 [全文訳有]

Preserving Privacy in Human-Motion Affect Recognition ( http://arxiv.org/abs/2105.03958v1 )

ライセンス: CC BY 4.0
Matthew Malek-Podjaski, Fani Deligianni(参考訳) ヒトの運動は、神経疾患や気分障害の進行を監視するために臨床分析で広く使用されるバイオマーカーである。 感情の知覚は身体の姿勢や運動と連動するので、人間の歩行からの感情認識は、しばしば神経疾患と関連する気分変化を定量的に監視するために用いられる。 既存のソリューションの多くは、生の位置データの浅い機械学習モデルや手動で抽出した特徴を使ってこれを実現する。 しかし、歩留まりは、人間の対象を特定するのに使える多くの非常に表現力のある特徴で構成されており、ほとんどのソリューションは、被験者のプライバシーを無視して、この問題に対処することができない。 本研究は,3次元の時間的関節信号と手動抽出特徴を用いた感情認識における既存手法の有効性を評価する。 また,このデータは,被検者の身元を露呈するために容易に活用できることを示す。 そこで本研究では,マルチエンコーダ・オートエンコーダ・ディープニューラルネットワークを訓練し,人間の動作特徴の非絡み合った潜在表現を学習するためのクロスオブジェクトトランスファー学習手法を提案する。 歩行データから対象バイオメトリックスを分離することで,対象のプライバシが保持され,影響認識性能が従来の手法を上回っていることを示す。

Human motion is a biomarker used extensively in clinical analysis to monitor the progression of neurological diseases and mood disorders. Since perceptions of emotions are also interleaved with body posture and movements, emotion recognition from human gait can be used to quantitatively monitor mood changes that are often related to neurological disorders. Many existing solutions often use shallow machine learning models with raw positional data or manually extracted features to achieve this. However, gait is composed of many highly expressive characteristics that can be used to identify human subjects, and most solutions fail to address this, disregarding the subject's privacy. This work evaluates the effectiveness of existing methods at recognising emotions using both 3D temporal joint signals and manually extracted features. We also show that this data can easily be exploited to expose a subject's identity. Therefore to this end, we propose a cross-subject transfer learning technique for training a multi-encoder autoencoder deep neural network to learn disentangled latent representations of human motion features. By disentangling subject biometrics from the gait data, we show that the subjects privacy is preserved while the affect recognition performance outperforms traditional methods.
公開日:2021-05-09
翻訳日:2021-05-12 05:41:26
# (参考訳) 制御変数を持つ確率的多関節帯域 [全文訳有]

Stochastic Multi-Armed Bandits with Control Variates ( http://arxiv.org/abs/2105.03962v1 )

ライセンス: CC BY 4.0
Arun Verma, Manjesh K. Hanawal(参考訳) 本稿では,学習者が腕に関する補助情報にアクセスできる確率的多腕バンディット問題の新しい変種について検討する。 補助情報は、制御変数として扱う腕の報酬と相関する。 多くの応用において、アーム報酬はいくつかの外因性値の関数であり、平均値は過去のデータから先行して知られ、従って制御変数として使うことができる。 制御変数を用いて、より小さな分散とより厳密な信頼境界を持つ平均推定値を得る。 次に,推定精度を向上させるアルゴリズムucb-cvを開発した。 我々は,報奨と制御変数の相関の観点から,後悔の限界を特徴付ける。 合成データに関する実験は,提案アルゴリズムの性能保証を検証する。

This paper studies a new variant of the stochastic multi-armed bandits problem, where the learner has access to auxiliary information about the arms. The auxiliary information is correlated with the arm rewards, which we treat as control variates. In many applications, the arm rewards are a function of some exogenous values, whose mean value is known a priori from historical data and hence can be used as control variates. We use the control variates to obtain mean estimates with smaller variance and tighter confidence bounds. We then develop an algorithm named UCB-CV that uses improved estimates. We characterize the regret bounds in terms of the correlation between the rewards and control variates. The experiments on synthetic data validate the performance guarantees of our proposed algorithm.
公開日:2021-05-09
翻訳日:2021-05-12 05:33:22
# (参考訳) 複素双曲空間における階層埋め込みの単位球モデル [全文訳有]

Unit Ball Model for Hierarchical Embeddings in Complex Hyperbolic Space ( http://arxiv.org/abs/2105.03966v1 )

ライセンス: CC BY 4.0
Huiru Xiao, Caigao Jiang, Yangqiu Song, James Zhang, Junwu Xiong(参考訳) 双曲空間における階層構造を持つデータの表現を学ぶことは近年注目を集めている。 定数負の曲率のため、双曲空間は木メトリックスに似ており、階層グラフの木のような特性を自然に捉えるので、双曲埋め込みは従来のユークリッドモデルよりも改善することができる。 しかし、ほとんどのグラフデータ、階層構造を持つデータでさえ木ではなく、通常、双曲空間の定数曲率特性とユビキタスに一致しない。 このような双曲埋め込みの制限に対処するため、表現学習のための可変負曲率を持つ複素双曲空間を探索する。 具体的には,複素双曲空間の単位球モデルにおけるグラフ埋め込みを学習することを提案する。 単位球モデルに基づく埋め込みは、様々な階層グラフ構造をキャプチャするより強力な表現能力を持つ。 合成データおよび実世界データを用いた実験により, 双曲的埋め込みモデルに対して, 提案手法が大幅に改善することを示す。

Learning the representation of data with hierarchical structures in the hyperbolic space attracts increasing attention in recent years. Due to the constant negative curvature, the hyperbolic space resembles tree metrics and captures the tree-like properties of hierarchical graphs naturally, which enables the hyperbolic embeddings to improve over traditional Euclidean models. However, most graph data, even the data with hierarchical structures are not trees and they usually do not ubiquitously match the constant curvature property of the hyperbolic space. To address this limitation of hyperbolic embeddings, we explore the complex hyperbolic space, which has the variable negative curvature, for representation learning. Specifically, we propose to learn the graph embeddings in the unit ball model of the complex hyperbolic space. The unit ball model based embeddings have a more powerful representation capacity to capture a variety of hierarchical graph structures. Through experiments on synthetic and real-world data, we show that our approach improves over the hyperbolic embedding models significantly.
公開日:2021-05-09
翻訳日:2021-05-12 04:59:25
# (参考訳) トランスを用いた特許マイニングと関連分類の改善 [全文訳有]

Improving Patent Mining and Relevance Classification using Transformers ( http://arxiv.org/abs/2105.03979v1 )

ライセンス: CC BY 4.0
Th\'eo Ding and Walter Vermeiren and Sylvie Ranwez and Binbin Xu(参考訳) 特許分析とマイニングは、企業にとって時間とコストのかかるプロセスであるが、競争力を維持するためには必要不可欠である。 多くの特許によって引き起こされる過負荷に対処するため、このアイデアは自動的にフィルタし、専門家が読むものはほとんどない。 本稿では,事前訓練した深層自然言語処理モデルにおける微調整と再訓練の成果を特許分類に適用する。 私たちが提案するソリューションは、リコールと正確なメトリクスを保ちながら、ワークロードを削減するという、最先端の処理を組み合わせることで目標を達成します。

Patent analysis and mining are time-consuming and costly processes for companies, but nevertheless essential if they are willing to remain competitive. To face the overload induced by numerous patents, the idea is to automatically filter them, bringing only few to read to experts. This paper reports a successful application of fine-tuning and retraining on pre-trained deep Natural Language Processing models on patent classification. The solution that we propose combines several state-of-the-art treatments to achieve our goal - decrease the workload while preserving recall and precision metrics.
公開日:2021-05-09
翻訳日:2021-05-12 04:45:46
# (参考訳) つぶやきからの感情検出における影響次元の役割を理解する:マルチタスクアプローチ [全文訳有]

Understanding the Role of Affect Dimensions in Detecting Emotions from Tweets: A Multi-task Approach ( http://arxiv.org/abs/2105.03983v1 )

ライセンス: CC BY 4.0
Rajdeep Mukherjee, Atharva Naik, Sriyash Poddar, Soham Dasgupta, Niloy Ganguly(参考訳) 本研究では,感情表現のカテゴリーモデルと次元モデルの相関を利用して主観分析を行うマルチタスクフレームワークvadecを提案する。 つぶやきから感情を効果的に検出することに着目し,マルチラベル感情分類と多次元感情回帰を共同で学習し,タスク間の相互関連性を活用する。 aitデータセット上では,jaccard精度,マクロf1,マイクロf1スコアがそれぞれ3.4%,11%,3.9%と,最強のベースラインを上回っているため,コトレーニングは特に分類タスクのパフォーマンス向上に寄与する。 また、センウェーブデータセット上の6つの異なるメトリクスに対して平均11.3%の利益が得られた。 回帰タスクでは、VADECがSenWaveでトレーニングすると、ピアソン相関スコアの7.6%と16.5%が、EMOBANKデータセットにおけるValence(V)とDominance(D)のそれぞれに影響を及ぼす。 われわれは、インド人が投稿した新型コロナウイルス(covid-19)のツイートに関するケーススタディで締めくくった。

We propose VADEC, a multi-task framework that exploits the correlation between the categorical and dimensional models of emotion representation for better subjectivity analysis. Focusing primarily on the effective detection of emotions from tweets, we jointly train multi-label emotion classification and multi-dimensional emotion regression, thereby utilizing the inter-relatedness between the tasks. Co-training especially helps in improving the performance of the classification task as we outperform the strongest baselines with 3.4%, 11%, and 3.9% gains in Jaccard Accuracy, Macro-F1, and Micro-F1 scores respectively on the AIT dataset. We also achieve state-of-the-art results with 11.3% gains averaged over six different metrics on the SenWave dataset. For the regression task, VADEC, when trained with SenWave, achieves 7.6% and 16.5% gains in Pearson Correlation scores over the current state-of-the-art on the EMOBANK dataset for the Valence (V) and Dominance (D) affect dimensions respectively. We conclude our work with a case study on COVID-19 tweets posted by Indians that further helps in establishing the efficacy of our proposed solution.
公開日:2021-05-09
翻訳日:2021-05-12 04:17:51
# (参考訳) サービス提供ライブチャットオペレータのアドバイザリングエージェント [全文訳有]

Advising Agent for Service-Providing Live-Chat Operators ( http://arxiv.org/abs/2105.03986v1 )

ライセンス: CC BY 4.0
Aviram Aviv, Yaniv Oshrat, Samuel A. Assefa, Tobi Mustapha, Daniel Borrajo, Manuela Veloso, Sarit Kraus(参考訳) ヒューマンオペレーターがテキストチャットを使ってクライアントに出席するコールセンターは、現代のeコマースで非常に一般的である。 優れたサービスを提供することができる十分な熟練したオペレータのトレーニングは難しい。 クライアントに出席中にオペレーターにオンラインアドバイスを提供する補助エージェントを訓練し実装するためのアルゴリズムと手法を提案する。 エージェントはドメインに依存しず、専門分野の構造的知識を設計、訓練、組織化することなしに新しいドメインに導入することができる。 本研究では,特定のドメイン上での全ライフサイクルを実現し,その機能を分析する実験において,システムの適用性を示す。

Call centers, in which human operators attend clients using textual chat, are very common in modern e-commerce. Training enough skilled operators who are able to provide good service is a challenge. We suggest an algorithm and a method to train and implement an assisting agent that provides on-line advice to operators while they attend clients. The agent is domain-independent and can be introduced to new domains without major efforts in design, training and organizing structured knowledge of the professional discipline. We demonstrate the applicability of the system in an experiment that realizes its full life-cycle on a specific domain and analyze its capabilities.
公開日:2021-05-09
翻訳日:2021-05-12 04:07:30
# (参考訳) Dispatcher: 言語モデリングに対するメッセージパッシングアプローチ [全文訳有]

Dispatcher: A Message-Passing Approach To Language Modelling ( http://arxiv.org/abs/2105.03994v1 )

ライセンス: CC BY 4.0
Alberto Cetoli(参考訳) 本稿では,言語モデリングのためのメッセージパッシング機構を提案する。 自己注意の代替を目的とした新しいレイヤタイプが導入されている。 nトークンが与えられたとき、計算の複雑さはo(n log n)であり、メモリの複雑さは合理的な仮定の下でo(n)である。 最終的に、Dispatcher層は、より効率的でありながら、以前の結果と同等のパープレキシティを実現することができる。

This paper proposes a message-passing mechanism to address language modelling. A new layer type is introduced that aims to substitute self-attention. The system is shown to be competitive with existing methods: Given N tokens, the computational complexity is O(N log N) and the memory complexity is O(N) under reasonable assumptions. In the end, the Dispatcher layer is seen to achieve comparable perplexity to prior results while being more efficient
公開日:2021-05-09
翻訳日:2021-05-12 03:56:17
# (参考訳) 畳み込みニューラルネットワークを用いた顕微鏡画像からの急性リンパ性白血病の検出

Acute Lymphoblastic Leukemia Detection from Microscopic Images Using Weighted Ensemble of Convolutional Neural Networks ( http://arxiv.org/abs/2105.03995v1 )

ライセンス: CC BY 4.0
Chayan Mondal, Md. Kamrul Hasan, Md. Tasnim Jawad, Aishwariya Dutta, Md.Rabiul Islam, Md. Abdul Awal, Mohiuddin Ahmad(参考訳) 急性リンパ芽球性白血病(ALL)は、多くの未熟なリンパ球を特徴とする細胞癌である。 all prognosisの自動化は癌診断の重要な側面であるが,悪性細胞と正常細胞の形態的相関が原因で困難である。 従来の全ての分類戦略では、経験豊富な病理学者が細胞像を注意深く読み取る必要がある。 本稿では、深層畳み込みニューラルネットワーク(CNN)を用いて、顕微鏡セル画像からのall検出タスクを自動化した。 異なる深層CNNの重み付けアンサンブルを探索し、より優れたall細胞分類器を推奨する。 アンサンブル候補モデルの重みは、精度、f1-score、auc、kappa値といった対応する指標から推定される。 ネットワークのより優れた一般化を達成するために、様々なデータ拡張と前処理が組み込まれている。 利用可能なC-NMC-2019 ALLデータセットを用いて、包括的な実験を行う。 提案する重み付きアンサンブルモデルでは, アンサンブル候補のカッパ値を重みとして, 重み付きF1スコア88.6 %, バランス付き精度86.2 %, 予備試験セットのAUC0.941を出力した。 グラデーションクラスアクティベーションマップを表示する質的結果から,導入されたモデルが集中学習領域を持つことが確認された。 対照的に、Xception、VGG-16、DenseNet-121、MobileNet、InceptionResNet-V2といったアンサンブル候補モデルは、ほとんどの例で粗い領域と散在した領域を別々に生成する。 提案するkappa値に基づく重み付きアンサンブルは,本論文の課題に対してよりよい結果をもたらすため,他の医療診断分野においても実験が可能である。

Acute Lymphoblastic Leukemia (ALL) is a blood cell cancer characterized by numerous immature lymphocytes. Even though automation in ALL prognosis is an essential aspect of cancer diagnosis, it is challenging due to the morphological correlation between malignant and normal cells. The traditional ALL classification strategy demands experienced pathologists to carefully read the cell images, which is arduous, time-consuming, and often suffers inter-observer variations. This article has automated the ALL detection task from microscopic cell images, employing deep Convolutional Neural Networks (CNNs). We explore the weighted ensemble of different deep CNNs to recommend a better ALL cell classifier. The weights for the ensemble candidate models are estimated from their corresponding metrics, such as accuracy, F1-score, AUC, and kappa values. Various data augmentations and pre-processing are incorporated for achieving a better generalization of the network. We utilize the publicly available C-NMC-2019 ALL dataset to conduct all the comprehensive experiments. Our proposed weighted ensemble model, using the kappa values of the ensemble candidates as their weights, has outputted a weighted F1-score of 88.6 %, a balanced accuracy of 86.2 %, and an AUC of 0.941 in the preliminary test set. The qualitative results displaying the gradient class activation maps confirm that the introduced model has a concentrated learned region. In contrast, the ensemble candidate models, such as Xception, VGG-16, DenseNet-121, MobileNet, and InceptionResNet-V2, separately produce coarse and scatter learned areas for most example cases. Since the proposed kappa value-based weighted ensemble yields a better result for the aimed task in this article, it can experiment in other domains of medical diagnostic applications.
公開日:2021-05-09
翻訳日:2021-05-12 03:45:38
# (参考訳) DocSCAN:隣人からの学習による教師なしテキスト分類 [全文訳有]

DocSCAN: Unsupervised Text Classification via Learning from Neighbors ( http://arxiv.org/abs/2105.04024v1 )

ライセンス: CC BY 4.0
Dominik Stammbach, Elliott Ash(参考訳) 本稿では, 近近隣者(SCAN)によるセマンティッククラスタリングを用いた, 完全に教師なしのテキスト分類手法であるDocSCANを紹介する。 各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。 類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。 学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。 提案手法では,基底構造ラベルを付与することなく,クラスをデータセット全体に割り当てることを学ぶ。 5つのトピック分類ベンチマークにおいて、教師なしベースラインを大きなマージンで改善する。 比較的少数でバランスの取れた結果クラスを持つデータセットでは、DocSCANは教師付き分類のパフォーマンスにアプローチする。 この方法は、感情分析のような他のタイプの分類では失敗し、画像とテキストを分類する重要な概念的および実践的な違いを示している。

We introduce DocSCAN, a completely unsupervised text classification approach using Semantic Clustering by Adopting Nearest-Neighbors (SCAN). For each document, we obtain semantically informative vectors from a large pre-trained language model. Similar documents have proximate vectors, so neighbors in the representation space tend to share topic labels. Our learnable clustering approach uses pairs of neighboring datapoints as a weak learning signal. The proposed approach learns to assign classes to the whole dataset without provided ground-truth labels. On five topic classification benchmarks, we improve on various unsupervised baselines by a large margin. In datasets with relatively few and balanced outcome classes, DocSCAN approaches the performance of supervised classification. The method fails for other types of classification, such as sentiment analysis, pointing to important conceptual and practical differences between classifying images and texts.
公開日:2021-05-09
翻訳日:2021-05-12 03:44:21
# (参考訳) もう少しベイズ的:不確実性を伴うドメイン不変学習 [全文訳有]

A Bit More Bayesian: Domain-Invariant Learning with Uncertainty ( http://arxiv.org/abs/2105.04030v1 )

ライセンス: CC BY 4.0
Zehao Xiao, Jiayi Shen, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) ドメインの一般化は、ドメインシフトと、ターゲットのドメインデータのアクセス不能に起因する不確実性のために困難である。 本稿では,ニューラルネットワークの重み付けに不確かさを組み込むことにより,変分ベイズ推定に基づく確率的枠組みによる両課題に対処する。 我々は、変分ベイズ推論を伴う確率式で領域不変性を結合する。 これにより、原則的にドメイン不変学習を探求することができる。 具体的にはドメイン不変表現と分類器を導出し、2層ベイズニューラルネットワークで共同で構築する。 広範に使用されている4つのドメイン間視覚認識ベンチマークにおいて,提案手法の有効性を実証的に実証した。 アブレーション研究は、ドメイン一般化のためのドメイン不変表現と分類器を共同学習する場合、ベイズ処理の相乗効果を検証する。 さらに,本手法はすべてのベンチマークに対して常に最先端の平均精度を提供する。

Domain generalization is challenging due to the domain shift and the uncertainty caused by the inaccessibility of target domain data. In this paper, we address both challenges with a probabilistic framework based on variational Bayesian inference, by incorporating uncertainty into neural network weights. We couple domain invariance in a probabilistic formula with the variational Bayesian inference. This enables us to explore domain-invariant learning in a principled way. Specifically, we derive domain-invariant representations and classifiers, which are jointly established in a two-layer Bayesian neural network. We empirically demonstrate the effectiveness of our proposal on four widely used cross-domain visual recognition benchmarks. Ablation studies validate the synergistic benefits of our Bayesian treatment when jointly learning domain-invariant representations and classifiers for domain generalization. Further, our method consistently delivers state-of-the-art mean accuracy on all benchmarks.
公開日:2021-05-09
翻訳日:2021-05-12 03:32:57
# (参考訳) Swarm Differential Privacy for Purpose Driven Data-Information-Kno wledge-Wisdom Architecture [全文訳有]

Swarm Differential Privacy for Purpose Driven Data-Information-Kno wledge-Wisdom Architecture ( http://arxiv.org/abs/2105.04045v1 )

ライセンス: CC BY 4.0
Yingbo Li, Yucong Duan, Zakaria Maama, Haoyang Che, Anamaria-Beatrice Spulber, Stelios Fuentes(参考訳) プライバシー保護は最近、学術と産業の両方の注目を集めている。 社会は複雑な法的枠組みを通じて個々のデータのプライバシーを保護する。 これは、ユビキタスなデータ応用への高い需要を生み出したデータサイエンスと人工知能の応用が増加していることへの関心の的になっている。 次世代情報組織であるDIKW(Data-Informatio nKnowledge-Wisdom)ランドスケープのプライバシー保護は、あまり注目されていない。 次に、人気のあるswarmインテリジェンスとディファレンシャルプライバシのアプリケーションを通じてdikwアーキテクチャを探求する。 差分プライバシーは効果的なデータプライバシーアプローチであると証明されたので、DIKWドメインの観点から見ていく。 Swarm Intelligenceは、差分プライバシーに使用されるDIKWの項目数を効果的に最適化し、削減することができる。 提案手法は、オープンサースIRISデータセットに基づくパーソナライズされたデータの適用によって証明される。 この実験は、計算の複雑さを減らすためのスワーミングインテリジェンスの効率を示す。

Privacy protection has recently attracted the attention of both academics and industries. Society protects individual data privacy through complex legal frameworks. This has become a topic of interest with the increasing applications of data science and artificial intelligence that have created a higher demand to the ubiquitous application of the data. The privacy protection of the broad Data-InformationKnow ledge-Wisdom (DIKW) landscape, the next generation of information organization, has not been in the limelight. Next, we will explore DIKW architecture through the applications of popular swarm intelligence and differential privacy. As differential privacy proved to be an effective data privacy approach, we will look at it from a DIKW domain perspective. Swarm Intelligence could effectively optimize and reduce the number of items in DIKW used in differential privacy, this way accelerating both the effectiveness and the efficiency of differential privacy for crossing multiple modals of conceptual DIKW. The proposed approach is proved through the application of personalized data that is based on the open-sourse IRIS dataset. This experiment demonstrates the efficiency of Swarm Intelligence in reducing computing complexity.
公開日:2021-05-09
翻訳日:2021-05-12 03:14:31
# (参考訳) オンライン政治広告の分析 [全文訳有]

Analyzing Online Political Advertisements ( http://arxiv.org/abs/2105.04047v1 )

ライセンス: CC BY 4.0
Danae S\'anchez Villegas, Saeid Mokaram, Nikolaos Aletras(参考訳) オンライン政治広告は、世論に影響を及ぼす近代選挙運動の中心的側面である。 政治広告の計算分析は、デジタルキャンペーンの特徴を理解するために政治科学において最も重要である。 計算言語学においても、政治的談話やコミュニケーションの特徴を大規模に研究することが重要である。 本研究では,(1)広告スポンサーの政治的イデオロギーを推測し,(2)スポンサーが公式な政党か第三者組織かを特定することを目的とした,オンライン政治広告に関する最初の計算的研究を提案する。 米国からの広告からなる2つのタスクのための2つの新しい大規模データセットを開発する。 評価の結果,事前学習したニューラルモデルからのテキスト情報と視覚情報を組み合わせる手法は,一般商用広告分類の最先端手法よりも優れていることがわかった。 最後に, ベストパフォーマンスモデルの限界を深く分析し, 言語学的分析を行い, 政治広告の談話の特徴について考察した。

Online political advertising is a central aspect of modern election campaigning for influencing public opinion. Computational analysis of political ads is of utmost importance in political science to understand characteristics of digital campaigning. It is also important in computational linguistics to study features of political discourse and communication on a large scale. In this work, we present the first computational study on online political ads with the aim to (1) infer the political ideology of an ad sponsor; and (2) identify whether the sponsor is an official political party or a third-party organization. We develop two new large datasets for the two tasks consisting of ads from the U.S.. Evaluation results show that our approach that combines textual and visual information from pre-trained neural models outperforms a state-of-the-art method for generic commercial ad classification. Finally, we provide an in-depth analysis of the limitations of our best performing models and a linguistic analysis to study the characteristics of political ads discourse.
公開日:2021-05-09
翻訳日:2021-05-12 02:59:32
# (参考訳) 複数のターゲットシフトソースからの集約 [全文訳有]

Aggregating From Multiple Target-Shifted Sources ( http://arxiv.org/abs/2105.04051v1 )

ライセンス: CC BY 4.0
Changjian Shui, Zijian Li, Jiaqi Li, Christian Gagn\'e, Charles Ling, Boyu Wang(参考訳) マルチソースドメイン適応は、複数のタスクからの知識を活用して関連するターゲットドメインを予測することを目的としている。 したがって、重要な側面は、それらの関係に基づいて異なるソースを適切に組み合わせることである。 本稿では,近年のソース選択アプローチが失敗している異なるラベル分布のソースドメインを集約する問題を分析した。 提案手法は従来の手法と大きく異なる: モデルは主に境界分布ではなく, 意味条件分布の類似性を通じて複数のソースを集約する; モデルでは, 3つの一般的なシナリオ,すなわち, 対象領域に限定ラベルを持つドメイン適応, 教師なしドメイン適応, ラベル付き部分教師なしドメイン適応を選択するための, \emph{unified} フレームワークを提案する。 提案手法を広範囲な実験により評価する。 実験結果がベースラインを大きく上回った。

Multi-source domain adaptation aims at leveraging the knowledge from multiple tasks for predicting a related target domain. Hence, a crucial aspect is to properly combine different sources based on their relations. In this paper, we analyzed the problem for aggregating source domains with different label distributions, where most recent source selection approaches fail. Our proposed algorithm differs from previous approaches in two key ways: the model aggregates multiple sources mainly through the similarity of semantic conditional distribution rather than marginal distribution; the model proposes a \emph{unified} framework to select relevant sources for three popular scenarios, i.e., domain adaptation with limited label on target domain, unsupervised domain adaptation and label partial unsupervised domain adaption. We evaluate the proposed method through extensive experiments. The empirical results significantly outperform the baselines.
公開日:2021-05-09
翻訳日:2021-05-12 02:43:36
# (参考訳) スパースグラフのデータセットに対する近似fr\'echet平均 [全文訳有]

Approximate Fr\'echet Mean for Data Sets of Sparse Graphs ( http://arxiv.org/abs/2105.04062v1 )

ライセンス: CC BY 4.0
Daniel Ferguson and Fran\c{c}ois G. Meyer(参考訳) グラフの集合の位置(平均、中央値)を特徴づけるためには、グラフ集合はユークリッド空間ではないので、計量空間に適合する中心性の概念が必要である。 標準的なアプローチはfr\'echet平均を考えることである。 本研究では、各隣接行列の固有値の間に、$\ell_2$ norm で定義される擬メトリックとグラフの集合を同値化する。 編集距離とは異なり、この擬メトリックは複数のスケールでの構造変化を示し、グラフの集合上の様々な統計問題の研究によく適合している。 一定の大きさの非有向非重み付きグラフの集合のfr\'echet平均の近似を計算するアルゴリズムについて述べる。

To characterize the location (mean, median) of a set of graphs, one needs a notion of centrality that is adapted to metric spaces, since graph sets are not Euclidean spaces. A standard approach is to consider the Fr\'echet mean. In this work, we equip a set of graph with the pseudometric defined by the $\ell_2$ norm between the eigenvalues of their respective adjacency matrix . Unlike the edit distance, this pseudometric reveals structural changes at multiple scales, and is well adapted to studying various statistical problems on sets of graphs. We describe an algorithm to compute an approximation to the Fr\'echet mean of a set of undirected unweighted graphs with a fixed size.
公開日:2021-05-10
翻訳日:2021-05-12 02:24:55
# (参考訳) 自然変換を用いたロバストトレーニング [全文訳有]

Robust Training Using Natural Transformation ( http://arxiv.org/abs/2105.04070v1 )

ライセンス: CC BY 4.0
Shuo Wang, Lingjuan Lyu, Surya Nepal, Carsten Rudolph, Marthie Grobler, Kristen Moore(参考訳) データ変換や逆行訓練によるデータ拡張技術などのディープラーニングモデルの従来の堅牢性アプローチでは、照明条件の変化など、入力の意味を保った実世界の変動を捉えることはできない。 このギャップを埋めるために,画像分類アルゴリズムのロバスト性向上を目的とした対角的トレーニングスキームであるNaTraを提案する。 クラス識別に依存しない入力画像の属性をターゲットとし、それらの属性を操作して入力の現実世界の自然な変換(NaTra)を模倣し、画像分類器のトレーニングデータセットを増強する。 具体的には、与えられた画像のバッチを、よく訓練された生成モデルの対応する非絡み合った潜在コードにマッピングするために、textit{Batch Inverse Encoding and Shifting} を適用する。 \textit{latent codes expansion} は拡張特徴マップの導入を通じて画像再構成の品質を高めるために使用される。 \textit{Unsupervised Attribute Directing and Manipulation} は特定の属性変化に対応する遅延方向を識別し、それらの属性の解釈可能な操作を生成し、入力データに自然な変換を生成する。 本手法は,実世界の自然変化(照明条件や髪型など)に類似した画像の変換を模倣し,これらの自然変換に不変なモデルを構築するために,訓練されたganから導出される不連続な潜在表現を用いて,その効果を実証する。 広範な実験により,本手法は分類モデルの一般化を改善し,実世界の歪みに対して頑健性を高めることを示した。

Previous robustness approaches for deep learning models such as data augmentation techniques via data transformation or adversarial training cannot capture real-world variations that preserve the semantics of the input, such as a change in lighting conditions. To bridge this gap, we present NaTra, an adversarial training scheme that is designed to improve the robustness of image classification algorithms. We target attributes of the input images that are independent of the class identification, and manipulate those attributes to mimic real-world natural transformations (NaTra) of the inputs, which are then used to augment the training dataset of the image classifier. Specifically, we apply \textit{Batch Inverse Encoding and Shifting} to map a batch of given images to corresponding disentangled latent codes of well-trained generative models. \textit{Latent Codes Expansion} is used to boost image reconstruction quality through the incorporation of extended feature maps. \textit{Unsupervised Attribute Directing and Manipulation} enables identification of the latent directions that correspond to specific attribute changes, and then produce interpretable manipulations of those attributes, thereby generating natural transformations to the input data. We demonstrate the efficacy of our scheme by utilizing the disentangled latent representations derived from well-trained GANs to mimic transformations of an image that are similar to real-world natural variations (such as lighting conditions or hairstyle), and train models to be invariant to these natural transformations. Extensive experiments show that our method improves generalization of classification models and increases its robustness to various real-world distortions
公開日:2021-05-10
翻訳日:2021-05-12 01:59:28
# (参考訳) インパルス不変法に基づく畳み込み層を用いたサンプリング周波数非依存音源分離 [全文訳有]

Sampling-Frequency-I ndependent Audio Source Separation Using Convolution Layer Based on Impulse Invariant Method ( http://arxiv.org/abs/2105.04079v1 )

ライセンス: CC BY-SA 4.0
Koichi Saito, Tomohiko Nakamura, Kohei Yatabe, Yuma Koizumi, Hiroshi Saruwatari(参考訳) 音源分離は様々なアプリケーションの前処理としてよく用いられ、その最終的な目的の1つは、様々なオーディオ信号を扱うことのできる単一の汎用モデルを構築することである。 音声信号の種類の一つであるサンプリング周波数は通常アプリケーション固有であるため、先行するオーディオソース分離モデルは、ターゲットアプリケーションで指定された全てのサンプリング周波数の音声信号を処理可能であるべきである。 しかし、ディープニューラルネットワーク(DNN)に基づく従来のモデルは、トレーニングデータによって指定されたサンプリング周波数でのみ訓練されており、未知のサンプリング周波数で動作する保証はない。 本稿では,任意のサンプリング周波数を単一のdnnで処理可能な畳み込み層を提案する。 音源分離実験により,提案層の導入により,従来の音源分離モデルではサンプリング周波数が不明瞭である場合も一貫して動作可能であることを示す。

Audio source separation is often used as preprocessing of various applications, and one of its ultimate goals is to construct a single versatile model capable of dealing with the varieties of audio signals. Since sampling frequency, one of the audio signal varieties, is usually application specific, the preceding audio source separation model should be able to deal with audio signals of all sampling frequencies specified in the target applications. However, conventional models based on deep neural networks (DNNs) are trained only at the sampling frequency specified by the training data, and there are no guarantees that they work with unseen sampling frequencies. In this paper, we propose a convolution layer capable of handling arbitrary sampling frequencies by a single DNN. Through music source separation experiments, we show that the introduction of the proposed layer enables a conventional audio source separation model to consistently work with even unseen sampling frequencies.
公開日:2021-05-10
翻訳日:2021-05-12 01:43:32
# (参考訳) 大規模正準多進分解に対する結合ランダム射影法 [全文訳有]

A Coupled Random Projection Approach to Large-Scale Canonical Polyadic Decomposition ( http://arxiv.org/abs/2105.04084v1 )

ライセンス: CC BY 4.0
Lu-Ming Wang, Ya-Nan Wang, Xiao-Feng Gong, Qiu-Hua Lin, Fei Xiang(参考訳) 大規模テンソルの正準多進分解(CPD)計算のための新しいアルゴリズムを提案する。 提案アルゴリズムは、1つの単射から複数の結合したランダム射影(CoRAP)までの大規模な分解を計算するためにしばしば使用されるランダム射影(RAP)手法を一般化する。 提案したCoRAP法は、結合CPD(C-CPD)とC-CPDアルゴリズムを併用してこれらのテンソルを共同分解するテンソルの集合を生成する。 C-CPDの結果は最終的に融合され、元の大規模データテンソルの係数行列が得られる。 C-CPDを介してより多くのデータサンプルを併用するので、提案したCoRAPベースのPDはRAPベースのPDよりも正確である。 提案手法の性能を示す実験が提供されている。

We propose a novel algorithm for the computation of canonical polyadic decomposition (CPD) of large-scale tensors. The proposed algorithm generalizes the random projection (RAP) technique, which is often used to compute large-scale decompositions, from one single projection to multiple but coupled random projections (CoRAP). The proposed CoRAP technique yields a set of tensors that together admits a coupled CPD (C-CPD) and a C-CPD algorithm is then used to jointly decompose these tensors. The results of C-CPD are finally fused to obtain factor matrices of the original large-scale data tensor. As more data samples are jointly exploited via C-CPD, the proposed CoRAP based CPD is more accurate than RAP based CPD. Experiments are provided to illustrate the performance of the proposed approach.
公開日:2021-05-10
翻訳日:2021-05-12 01:33:12
# (参考訳) コンソーシアムブロックチェーン連合学習のレイテンシ解析 [全文訳有]

Latency Analysis of Consortium Blockchained Federated Learning ( http://arxiv.org/abs/2105.04087v1 )

ライセンス: CC BY 4.0
Pengcheng Ren and Tongjiang Yan(参考訳) 本稿では,このコンソーシアムブロックチェーンを導入して,ビジネスとビジネスのシナリオに適用するための分散型フェデレーション学習アーキテクチャを提案する。 参加者が訓練したローカルモデルの品質を保証するためのモデル検証機構を提案する。 システムのレイテンシを分析するために,アーキテクチャの作業フローを考慮した遅延モデルを構築した。 最後に、実験結果から、遅延モデルは実際の遅延の定量化に有効であることが示された。

A decentralized federated learning architecture is proposed to apply to the Businesses-to-Busine sses scenarios by introducing the consortium blockchain in this paper. We introduce a model verification mechanism to ensure the quality of local models trained by participators. To analyze the latency of the system, a latency model is constructed by considering the work flow of the architecture. Finally the experiment results show that our latency model does well in quantifying the actual delays.
公開日:2021-05-10
翻訳日:2021-05-12 01:20:11
# (参考訳) MuseMorphose: 1つのトランスフォーマーVAEでフルソングとファイングラインド音楽スタイルのトランスファー [全文訳有]

MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just One Transformer VAE ( http://arxiv.org/abs/2105.04090v1 )

ライセンス: CC BY 4.0
Shih-Lun Wu, Yi-Hsuan Yang(参考訳) トランスフォーマーと変分オートエンコーダ(VAE)は、シンボリックな(例えばMIDI)ドメイン音楽生成に広く使われている。 前者は長いシーケンスのモデリングにおいて印象的な能力を持っているが、後者はユーザーが自由に音楽の異なる部分(例えばバー)を制御できるようにする。 本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。 タスクは2つのステップに分割される。 まず,トランスフォーマーデコーダをシーケンス生成中にセグメントレベル,時間変化条件を受信する機能を備える。 その後、開発したインタテンション・デコーダとトランスフォーマエンコーダを組み合わせることで、得られたミューズモルフォースモデルとvaeの目的を訓練し、長い楽曲のスタイル転送を実現し、ユーザが望むリズミカル強度やポリフォニー(ハーモニック・フルネス)などの音楽属性をバーレベルまで指定できるようにする。 実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。

Transformers and variational autoencoders (VAE) have been extensively employed for symbolic (e.g., MIDI) domain music generation. While the former boast an impressive capability in modeling long sequences, the latter allow users to willingly exert control over different parts (e.g., bars) of the music to be generated. In this paper, we are interested in bringing the two together to construct a single model that exhibits both strengths. The task is split into two steps. First, we equip Transformer decoders with the ability to accept segment-level, time-varying conditions during sequence generation. Subsequently, we combine the developed and tested in-attention decoder with a Transformer encoder, and train the resulting MuseMorphose model with the VAE objective to achieve style transfer of long musical pieces, in which users can specify musical attributes including rhythmic intensity and polyphony (i.e., harmonic fullness) they desire, down to the bar level. Experiments show that MuseMorphose outperforms recurrent neural network (RNN) based prior art on numerous widely-used metrics for style transfer tasks.
公開日:2021-05-10
翻訳日:2021-05-12 01:12:28
# (参考訳) EWC(Elastic Weight Consolidation) : ナットとボルト [全文訳有]

Elastic Weight Consolidation (EWC): Nuts and Bolts ( http://arxiv.org/abs/2105.04093v1 )

ライセンス: CC BY 4.0
Abhishek Aich(参考訳) 本稿では,「ニューラルネットワークにおける破滅的忘れ」という題名の論文で紹介された連続学習手法「textbf{Elastic Weight Consolidation」の理論的支援について述べる。 連続学習における正規化手法における最も引用された論文の1つとして,提案する目的関数の基本的な概念を整理する。 読者は継続学習の基本的な用語を認識していると仮定する。

In this report, we present a theoretical support of the continual learning method \textbf{Elastic Weight Consolidation}, introduced in paper titled `Overcoming catastrophic forgetting in neural networks'. Being one of the most cited paper in regularized methods for continual learning, this report disentangles the underlying concept of the proposed objective function. We assume that the reader is aware of the basic terminologies of continual learning.
公開日:2021-05-10
翻訳日:2021-05-12 00:38:16
# (参考訳) SRLF:ソーシャルメディア上でのコンテンツに基づく騒音検出のためのスタンス対応強化学習フレームワーク [全文訳有]

SRLF: A Stance-aware Reinforcement Learning Framework for Content-based Rumor Detection on Social Media ( http://arxiv.org/abs/2105.04098v1 )

ライセンス: CC BY 4.0
Chunyuan Yuan, Wanhui Qian, Qianwen Ma, Wei Zhou, Songlin Hu(参考訳) ソーシャルメディアの急速な発展は人々の生活様式を変え、同時に、社会パニックを悪化させ、社会的信頼の危機を引き起こす噂を公表し広めるための理想的な場所を提供する。 初期のコンテンツベースの手法は、噂検出のためのテキストとユーザプロファイルからヒントを見つけることに焦点を当てていた。 近年の研究では、ユーザのコメントとニュースコンテンツを組み合わせて、真実と偽の噂の違いを捉えている。 ユーザのスタンスはうわさ検出に有効であるが,手動ラベリングプロセスは時間と労力がかかるため,うわさ検出に利用することの制限がある。 本稿では,まず,学習済みBERTモデルを小さなラベル付きデータセット上に微調整し,このモデルを利用してユーザのコメントデータに対する弱いスタンスラベルを注釈付けして,上記の問題を克服する。 そこで本研究では,モデルトレーニングと噂検出のための高品質なラベル付きスタンスデータを選択するための,SRLF(Stance-Aware Reinforcement Learning Framework)を提案する。 姿勢選択と噂検出タスクを同時に最適化し、双方のタスクを相互に促進する。 我々は2つのよく使われる実世界のデータセットで実験を行う。 実験の結果,本フレームワークは最先端モデルよりも優れた性能を示し,提案フレームワークの有効性を確認した。

The rapid development of social media changes the lifestyle of people and simultaneously provides an ideal place for publishing and disseminating rumors, which severely exacerbates social panic and triggers a crisis of social trust. Early content-based methods focused on finding clues from the text and user profiles for rumor detection. Recent studies combine the stances of users' comments with news content to capture the difference between true and false rumors. Although the user's stance is effective for rumor detection, the manual labeling process is time-consuming and labor-intensive, which limits the application of utilizing it to facilitate rumor detection. In this paper, we first finetune a pre-trained BERT model on a small labeled dataset and leverage this model to annotate weak stance labels for users' comment data to overcome the problem mentioned above. Then, we propose a novel Stance-aware Reinforcement Learning Framework (SRLF) to select high-quality labeled stance data for model training and rumor detection. Both the stance selection and rumor detection tasks are optimized simultaneously to promote both tasks mutually. We conduct experiments on two commonly used real-world datasets. The experimental results demonstrate that our framework outperforms the state-of-the-art models significantly, which confirms the effectiveness of the proposed framework.
公開日:2021-05-10
翻訳日:2021-05-12 00:32:55
# (参考訳) Z-GCNETs: 時系列予測のためのグラフ畳み込みネットワークにおける時間ジグザグ [全文訳有]

Z-GCNETs: Time Zigzags at Graph Convolutional Networks for Time Series Forecasting ( http://arxiv.org/abs/2105.04100v1 )

ライセンス: CC BY 4.0
Yuzhou Chen, Ignacio Segovia-Dominguez, Yulia R. Gel(参考訳) 近年,学習機構と表現機構の基本的な構成要素として明示的な時間次元を統合する,新しいタイプのディープラーニング(DL)アーキテクチャの開発への関心が高まっている。 その結果, 観測データのトポロジ的記述は, データの持続的ホモロジーである異なるスケールの空間におけるデータセットの形状の情報を符号化することで, DLの性能と堅牢性を向上し, 重要な相補的情報を含む可能性が示唆された。 本稿では,この2つのアイデアの収束として,データの時間条件の優れたトポロジ情報を用いたDLアーキテクチャの強化と,時間対応グラフ畳み込みネットワーク(GCN)へのジグザグ永続性の概念の導入を提案する。 zigzag persistenceは、観察されたデータの最も重要な位相的特徴を追跡するための体系的かつ数学的に厳密なフレームワークを提供する。 抽出した時間条件トポロジカル記述子をDLに統合するために,新しいトポロジカル要約,ジグザグの持続画像を開発し,その理論的安定性を保証する。 トラフィック予測やEthereumブロックチェーンの価格予測への応用として,時間対応のZigzagトポロジ層(Z-GCNET)で新しいGCNを検証する。 以上の結果から,Z-GCNETは4つの時系列データセット上で13の最先端手法より優れていた。

There recently has been a surge of interest in developing a new class of deep learning (DL) architectures that integrate an explicit time dimension as a fundamental building block of learning and representation mechanisms. In turn, many recent results show that topological descriptors of the observed data, encoding information on the shape of the dataset in a topological space at different scales, that is, persistent homology of the data, may contain important complementary information, improving both performance and robustness of DL. As convergence of these two emerging ideas, we propose to enhance DL architectures with the most salient time-conditioned topological information of the data and introduce the concept of zigzag persistence into time-aware graph convolutional networks (GCNs). Zigzag persistence provides a systematic and mathematically rigorous framework to track the most important topological features of the observed data that tend to manifest themselves over time. To integrate the extracted time-conditioned topological descriptors into DL, we develop a new topological summary, zigzag persistence image, and derive its theoretical stability guarantees. We validate the new GCNs with a time-aware zigzag topological layer (Z-GCNETs), in application to traffic forecasting and Ethereum blockchain price prediction. Our results indicate that Z-GCNET outperforms 13 state-of-the-art methods on 4 time series datasets.
公開日:2021-05-10
翻訳日:2021-05-12 00:18:37
# (参考訳) appealNet: DNN推論のための効率的かつ高精度なエッジ/クラウドコラボレーションアーキテクチャ [全文訳有]

AppealNet: An Efficient and Highly-Accurate Edge/Cloud Collaborative Architecture for DNN Inference ( http://arxiv.org/abs/2105.04104v1 )

ライセンス: CC BY 4.0
Min Li, Yu Li, Ye Tian, Li Jiang and Qiang Xu(参考訳) 本稿では,最先端ソリューションよりもディープラーニング(dl)タスクを効率的に実行する新しいエッジ/クラウド協調アーキテクチャである appealnet を提案する。 与えられた入力に対して、 appealnetは、リソース制約のあるエッジデバイスにデプロイされたdlモデルによってうまく処理できるかどうかを正確に予測し、そうでなければ、クラウドにデプロイされるより強力なdlモデルにアピールする。 これは、エッジ/クラウド協調アーキテクチャの精度と計算/通信コストのトレードオフを最適化し、推論の難しさを明示的に考慮した、双方向のニューラルネットワークアーキテクチャを採用することで実現される。 いくつかの画像分類データセットの実験結果は、既存の手法と比較して40%以上の省エネ効果が得られた。

This paper presents AppealNet, a novel edge/cloud collaborative architecture that runs deep learning (DL) tasks more efficiently than state-of-the-art solutions. For a given input, AppealNet accurately predicts on-the-fly whether it can be successfully processed by the DL model deployed on the resource-constrained edge device, and if not, appeals to the more powerful DL model deployed at the cloud. This is achieved by employing a two-head neural network architecture that explicitly takes inference difficulty into consideration and optimizes the tradeoff between accuracy and computation/communic ation cost of the edge/cloud collaborative architecture. Experimental results on several image classification datasets show up to more than 40% energy savings compared to existing techniques without sacrificing accuracy.
公開日:2021-05-10
翻訳日:2021-05-11 23:58:01
# (参考訳) wiki-reliability: wikipediaにおけるコンテンツ信頼性のための大規模データセット [全文訳有]

Wiki-Reliability: A Large Scale Dataset for Content Reliability on Wikipedia ( http://arxiv.org/abs/2105.04117v1 )

ライセンス: CC BY-SA 4.0
KayYen Wong, Miriam Redi, Diego Saez-Trumper(参考訳) Wikipediaは最大のオンライン百科事典であり、アルゴリズムやウェブユーザーがウェブ上の信頼できる情報のハブとして使っている。 Wikipediaコンテンツの品質と信頼性はボランティア編集者のコミュニティによって維持されている。 機械学習と情報検索アルゴリズムは、wikipediaコンテンツの信頼性に関する編集者の手作業のスケールアップに役立つ。 しかし、そのような研究の発展を支援する大規模なデータが不足している。 このギャップを埋めるために,本論文では,ウィキ・信頼性(Wiki-Reliability)について述べる。 このデータセットを構築するには、Wikipediaの"テンプレート"に頼っています。 テンプレートは、ウィキペディアの編集者が「中立的でない視点」や「矛盾する記事」といったコンテンツ問題を示すために使うタグであり、リビジョンにおける信頼性の問題を検出する強力なシグナルとして機能する。 ウィキペディア上で最も人気のある信頼性関連テンプレートを10種類選び、ウィキペディア記事リビジョンのほぼ100万のサンプルを各テンプレートに対して肯定的あるいは否定的にラベル付けする効果的な方法を提案する。 データセット内の各ポジティブ/ネガティブな例には、全記事テキストとリビジョンのメタデータから20の機能が含まれている。 本稿では,このようなデータによって可能となるダウンストリームタスクの概要と,コンテンツ信頼性予測のための大規模モデルのトレーニングにWiki-Reliabilityを使用できることを示す。 すべてのデータとコードを公開しています。

Wikipedia is the largest online encyclopedia, used by algorithms and web users as a central hub of reliable information on the web. The quality and reliability of Wikipedia content is maintained by a community of volunteer editors. Machine learning and information retrieval algorithms could help scale up editors' manual efforts around Wikipedia content reliability. However, there is a lack of large-scale data to support the development of such research. To fill this gap, in this paper, we propose Wiki-Reliability, the first dataset of English Wikipedia articles annotated with a wide set of content reliability issues. To build this dataset, we rely on Wikipedia "templates". Templates are tags used by expert Wikipedia editors to indicate content issues, such as the presence of "non-neutral point of view" or "contradictory articles", and serve as a strong signal for detecting reliability issues in a revision. We select the 10 most popular reliability-related templates on Wikipedia, and propose an effective method to label almost 1M samples of Wikipedia article revisions as positive or negative with respect to each template. Each positive/negative example in the dataset comes with the full article text and 20 features from the revision's metadata. We provide an overview of the possible downstream tasks enabled by such data, and show that Wiki-Reliability can be used to train large-scale models for content reliability prediction. We release all data and code for public use.
公開日:2021-05-10
翻訳日:2021-05-11 23:44:29
# (参考訳) ニューラルネットワークによるFAIDの多様性 [全文訳有]

FAID Diversity via Neural Networks ( http://arxiv.org/abs/2105.04118v1 )

ライセンス: CC BY 4.0
Xin Xiao, Nithin Raveendran, Bane Vasic, Shu Lin, and Ravi Tandon(参考訳) デコーダの多様性は、デコーダのコレクションが協調してエラーパターンのセットを補正する強力なエラー修正フレームワークである。 本稿では,二元対称チャネル(bsc)上の低密度パリティチェック(ldpc)符号のための有限アルファベット反復デコーダ(faids)のデコーダ多様性を設計するための新しい手法を提案する。 提案するデコーダの多様性は、繰り返し量子化ニューラルネットワーク(RQNN)をトレーニングしてFAIDを学習・設計することで達成される。 我々は,機械駆動のデコーダが,同じ複雑性を持つ人工デコーダの性能を上回ることができることを初めて実証した。 RQNNは幅広い種類のFAIDをモデル化できるため、任意のFAIDを学習することができる。 エラーフロアの十分な知識をRQNNに提供するため、トレーニングセットは最も問題の多いエラーパターンのセットであるトラップセットからサンプリングすることで構築される。 損失関数としてクロスエントロピー関数を用いる既存の手法とは対照的に,ビット誤り率(BER)を下げるのではなく,特定のエラーパターンを補正する目的で,フレームエラーレート(FER)に基づく損失関数を導入している。 実例とシミュレーションの結果,rqnn支援デコーダの多様性はldpc符号の誤り訂正能力を高め,エラーフロアを低下させることがわかった。

Decoder diversity is a powerful error correction framework in which a collection of decoders collaboratively correct a set of error patterns otherwise uncorrectable by any individual decoder. In this paper, we propose a new approach to design the decoder diversity of finite alphabet iterative decoders (FAIDs) for Low-Density Parity Check (LDPC) codes over the binary symmetric channel (BSC), for the purpose of lowering the error floor while guaranteeing the waterfall performance. The proposed decoder diversity is achieved by training a recurrent quantized neural network (RQNN) to learn/design FAIDs. We demonstrated for the first time that a machine-learned decoder can surpass in performance a man-made decoder of the same complexity. As RQNNs can model a broad class of FAIDs, they are capable of learning an arbitrary FAID. To provide sufficient knowledge of the error floor to the RQNN, the training sets are constructed by sampling from the set of most problematic error patterns - trapping sets. In contrast to the existing methods that use the cross-entropy function as the loss function, we introduce a frame-error-rate (FER) based loss function to train the RQNN with the objective of correcting specific error patterns rather than reducing the bit error rate (BER). The examples and simulation results show that the RQNN-aided decoder diversity increases the error correction capability of LDPC codes and lowers the error floor.
公開日:2021-05-10
翻訳日:2021-05-11 23:34:21
# (参考訳) expmrc: 機械読解における説明可能性評価 [全文訳有]

ExpMRC: Explainability Evaluation for Machine Reading Comprehension ( http://arxiv.org/abs/2105.04126v1 )

ライセンス: CC BY-SA 4.0
Yiming Cui, Ting Liu, Wanxiang Che, Zhigang Chen, Shijin Wang(参考訳) Machine Reading Comprehension(MRC)データセットの一部で人間レベルのパフォーマンスを達成することは、強力な事前学習言語モデル(PLM)の助けを借りて、もはや困難ではない。 しかし,特に実生活におけるmrcシステムの信頼性をさらに向上させるためには,回答予測と説明の両方を提供することが必要である。 本稿では,MRCシステムの説明可能性を評価するためのExpMRCと呼ばれる新しいベンチマークを提案する。 ExpMRC には SQuAD, CMRC 2018, RACE$^+$, C$^3$ の4つのサブセットが含まれている。 MRCシステムは正しい答えだけでなく、その説明を与える必要がある。 我々は、最先端の事前訓練言語モデルを用いてベースラインシステムを構築し、人間の注釈のないトレーニングセットなしで証拠を抽出するための様々な教師なしアプローチを採用する。 実験の結果、これらのモデルはまだヒトの性能に遠く及ばず、expmrcは困難であることが示唆された。 リソースはhttps://github.com/y mcui/expmrcから入手できる。

Achieving human-level performance on some of Machine Reading Comprehension (MRC) datasets is no longer challenging with the help of powerful Pre-trained Language Models (PLMs). However, it is necessary to provide both answer prediction and its explanation to further improve the MRC system's reliability, especially for real-life applications. In this paper, we propose a new benchmark called ExpMRC for evaluating the explainability of the MRC systems. ExpMRC contains four subsets, including SQuAD, CMRC 2018, RACE$^+$, and C$^3$ with additional annotations of the answer's evidence. The MRC systems are required to give not only the correct answer but also its explanation. We use state-of-the-art pre-trained language models to build baseline systems and adopt various unsupervised approaches to extract evidence without a human-annotated training set. The experimental results show that these models are still far from human performance, suggesting that the ExpMRC is challenging. Resources will be available through https://github.com/y mcui/expmrc
公開日:2021-05-10
翻訳日:2021-05-11 23:18:13
# (参考訳) CREPO: クレーダルネットワークアルゴリズムのベンチマークのためのオープンリポジトリ [全文訳有]

CREPO: An Open Repository to Benchmark Credal Network Algorithms ( http://arxiv.org/abs/2105.04158v1 )

ライセンス: CC BY 4.0
Rafael Caba\~nas and Alessandro Antonucci(参考訳) クレダルネットワークは、確率質量関数の集合であるクレダルに基づくベイズネットワークの一般化として得られる不正確な確率的グラフィカルモデルの一般的なクラスである。 CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。 NP-hardness of the (exact) task にもかかわらず、多くのアルゴリズムがクレダルネットワークの推測を近似することができる。 本稿では,合成クレダルネットワークのオープンリポジトリである crepo と,これらのモデルに対する推論タスクの正確な結果について述べる。 これらのデータをロードしてcromaとやり取りするpythonツールも提供されており、既存の推論アルゴリズムや新しい推論アルゴリズムを非常に簡単に評価し比較することができる。 このようなベンチマークスキームを実証するために,変数除去スキームの内部で使用する近似ヒューリスティックを提案する。 CRMAにおける線形化と正確な手法に基づく近似手順に対するCREPOに基づく検証について論じる。

Credal networks are a popular class of imprecise probabilistic graphical models obtained as a Bayesian network generalization based on, so-called credal, sets of probability mass functions. A Java library called CREMA has been recently released to model, process and query credal networks. Despite the NP-hardness of the (exact) task, a number of algorithms is available to approximate credal network inferences. In this paper we present CREPO, an open repository of synthetic credal networks, provided together with the exact results of inference tasks on these models. A Python tool is also delivered to load these data and interact with CREMA, thus making extremely easy to evaluate and compare existing and novel inference algorithms. To demonstrate such benchmarking scheme, we propose an approximate heuristic to be used inside variable elimination schemes to keep a bound on the maximum number of vertices generated during the combination step. A CREPO-based validation against approximate procedures based on linearization and exact techniques performed in CREMA is finally discussed.
公開日:2021-05-10
翻訳日:2021-05-11 23:01:21
# (参考訳) イントラGPS:形式言語とシンボリック推論を用いた解釈幾何学問題の解法 [全文訳有]

Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning ( http://arxiv.org/abs/2105.04165v1 )

ライセンス: CC BY 4.0
Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, Song-Chun Zhu(参考訳) 幾何学的問題解決は近年,NLPコミュニティで注目されている。 この課題は、抽象的な問題理解と公理的知識によるシンボリック推論を必要とするため、難しい。 しかし、現在のデータセットは規模が小さいか、あるいは公開されていない。 そこで我々は,3,002の幾何問題と,形式言語における濃密なアノテーションからなる大規模ベンチマークGeometry3Kを構築した。 さらに,形式言語と記号推論を用いた新しい幾何学的解法,Interpretable Geometry Problem Solver (Inter-GPS)を提案する。 インターgpsはまず問題テキストとダイアグラムをルールベースのテキスト解析とニューラルオブジェクト検出によって自動的に形式言語に解析する。 既存の手法の暗黙的な学習とは異なり、Inter-GPSは定理知識を条件付き規則として取り入れ、段階的に記号的推論を行う。 定理予測器は、より効率的で合理的な探索経路のためにシンボリックソルバに供給された定理の適用シーケンスを推測するように設計されている。 Geometry3KとGEOSデータセットの大規模な実験は、Inter-GPSが既存の方法よりも大幅に改善されていることを示している。

Geometry problem solving has attracted much attention in the NLP community recently. The task is challenging as it requires abstract problem understanding and symbolic reasoning with axiomatic knowledge. However, current datasets are either small in scale or not publicly available. Thus, we construct a new large-scale benchmark, Geometry3K, consisting of 3,002 geometry problems with dense annotation in formal language. We further propose a novel geometry solving approach with formal language and symbolic reasoning, called Interpretable Geometry Problem Solver (Inter-GPS). Inter-GPS first parses the problem text and diagram into formal language automatically via rule-based text parsing and neural object detecting, respectively. Unlike implicit learning in existing methods, Inter-GPS incorporates theorem knowledge as conditional rules and performs symbolic reasoning step by step. A theorem predictor is also designed to infer the theorem application sequence fed to the symbolic solver for the more efficient and reasonable searching path. Extensive experiments on the Geometry3K and GEOS datasets demonstrate Inter-GPS achieves significant improvements over existing methods.
公開日:2021-05-10
翻訳日:2021-05-11 22:53:19
# (参考訳) マルチエージェントマルチタスク強化学習による小隊型c-v2xネットワークのaoi-awareリソース割り当て [全文訳有]

AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via Multi-Agent Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2105.04196v1 )

ライセンス: CC BY 4.0
Mohammad Parvini, Mohammad Reza Javan, Nader Mokari, Bijan Abbasi, and Eduard A. Jorswieck(参考訳) 本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。 複数の自律型プラトンは、携帯電話無線通信技術(C-V2X)を利用して、協力的認識メッセージ(CAM)をフォロワーに広め、道路側ユニット(RSU)に安全クリティカルメッセージをタイムリーに届ける。 動的チャネル条件の課題のため、グローバル情報を必要とする集中型リソース管理スキームは効率が悪く、大きなシグナルのオーバーヘッドにつながる。 そこで我々は,多エージェント強化学習(MARL)に基づく分散資源配分フレームワークを活用し,各小隊指導者(PL)がエージェントとして行動し,環境と対話して最適な政策を学ぶ。 既存のMARLアルゴリズムは、グループ全体の成功に対する総体的な報酬関数を考慮し、しばしば不満足な結果となり、各エージェントに対して最適なポリシーを保証できない。 その結果,RL の既存文献をモチベーションとした新たな MARL フレームワークを提案する。グローバルな批評家はグローバルな期待する報酬を推定し,エージェントを協調行動に動機付け,ローカルな報酬を推定する各エージェントに対して排他的ローカルな批評家はローカルな報酬を推定する。 さらに、各エージェントが行うべきタスクに基づいて、各エージェントの個々の報酬を複数のサブリワード関数に分解し、タスクワイドバリュー関数を個別に学習する。 この領域で適用された従来のRL法と比較して,提案アルゴリズムの有効性が示唆された。

This paper investigates the problem of age of information (AoI) aware radio resource management for a platooning system. Multiple autonomous platoons exploit the cellular wireless vehicle-to-everythin g (C-V2X) communication technology to disseminate the cooperative awareness messages (CAMs) to their followers while ensuring timely delivery of safety-critical messages to the Road-Side Unit (RSU). Due to the challenges of dynamic channel conditions, centralized resource management schemes that require global information are inefficient and lead to large signaling overheads. Hence, we exploit a distributed resource allocation framework based on multi-agent reinforcement learning (MARL), where each platoon leader (PL) acts as an agent and interacts with the environment to learn its optimal policy. Existing MARL algorithms consider a holistic reward function for the group's collective success, which often ends up with unsatisfactory results and cannot guarantee an optimal policy for each agent. Consequently, motivated by the existing literature in RL, we propose a novel MARL framework that trains two critics with the following goals: A global critic which estimates the global expected reward and motivates the agents toward a cooperating behavior and an exclusive local critic for each agent that estimates the local individual reward. Furthermore, based on the tasks each agent has to accomplish, the individual reward of each agent is decomposed into multiple sub-reward functions where task-wise value functions are learned separately. Numerical results indicate our proposed algorithm's effectiveness compared with the conventional RL methods applied in this area.
公開日:2021-05-10
翻訳日:2021-05-11 22:33:46
# (参考訳) 深層強化学習を用いた産業用IoTにおけるVNFスケジューリング [全文訳有]

Age of Information Aware VNF Scheduling in Industrial IoT Using Deep Reinforcement Learning ( http://arxiv.org/abs/2105.04207v1 )

ライセンス: CC BY 4.0
Mohammad Akbari, Mohammad Reza Abedi, Roghayeh Joda, Mohsen Pourghasemian, Nader Mokari, and Melike Erol-Kantarci(参考訳) 遅延に敏感な産業用モノのインターネット(IIoT)アプリケーションでは、情報の鮮度を特徴付けるために情報時代(AoI)が使用される。 一方、新たなネットワーク機能仮想化は、サービスプロバイダが仮想ネットワーク機能(vnfs)のシーケンスを使用して、所定のネットワークサービスを配信する柔軟性と俊敏性を提供します。 しかしながら、これらのスキームにおける適切なvnf配置とスケジューリングはnpハードであり、伝統的なアプローチによるグローバル最適解を見つけることは複雑である。 近年, 深層強化学習 (DRL) が課題解決の有効な方法として現れている。 本稿では、まず、単一エージェントの低コンプレックスなアクションアクタークリティカルRLを用いて、離散的かつ連続的なアクションの両方をカバーし、サービス品質制約下でのネットワークリソースの観点からVNFコストとAoIを両立させる。 学習のための単一エージェント容量制限を克服するため、エージェントが互いに協調するマルチエージェントDRLスキームにソリューションを拡張します。 シミュレーションの結果、シングルエージェント方式は平均ネットワークコストとAoIでグリーディアルゴリズムを著しく上回ることがわかった。 さらに, エージェント間のタスク分割により, マルチエージェントソリューションの平均コストを低減させる。 しかし、エージェントのコラボレーションの必要性から学ぶには、より多くのイテレーションが必要です。

In delay-sensitive industrial internet of things (IIoT) applications, the age of information (AoI) is employed to characterize the freshness of information. Meanwhile, the emerging network function virtualization provides flexibility and agility for service providers to deliver a given network service using a sequence of virtual network functions (VNFs). However, suitable VNF placement and scheduling in these schemes is NP-hard and finding a globally optimal solution by traditional approaches is complex. Recently, deep reinforcement learning (DRL) has appeared as a viable way to solve such problems. In this paper, we first utilize single agent low-complex compound action actor-critic RL to cover both discrete and continuous actions and jointly minimize VNF cost and AoI in terms of network resources under end-to end Quality of Service constraints. To surmount the single-agent capacity limitation for learning, we then extend our solution to a multi-agent DRL scheme in which agents collaborate with each other. Simulation results demonstrate that single-agent schemes significantly outperform the greedy algorithm in terms of average network cost and AoI. Moreover, multi-agent solution decreases the average cost by dividing the tasks between the agents. However, it needs more iterations to be learned due to the requirement on the agents collaboration.
公開日:2021-05-10
翻訳日:2021-05-11 22:07:33
# (参考訳) 線形モデルに対する厳密な導入

A rigorous introduction for linear models ( http://arxiv.org/abs/2105.04240v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) このノートは線形モデルとその背後にある理論について紹介することを目的としている。 私たちのゴールは、通常の最小二乗に先立って読者に厳格な紹介を行うことです。 機械学習では、出力は通常、入力の非線形関数である。 ディープラーニングは、大量の計算を必要とする多数の層を持つ非線形依存を見つけることでさえも目指している。 しかし、これらのアルゴリズムのほとんどは単純な線形モデルに基づいている。 次に、異なる視点から線形モデルを記述し、モデルの背後にある特性と理論を見つける。 線形モデルは回帰問題の主要な手法であり、その主なツールは最小二乗近似であり、二乗誤差の総和を最小化する。 これは、対応する2乗誤差を最小限に抑える回帰関数を見つけることに関心がある場合、自然な選択です。 まず、ランダムノイズとガウス雑音でモデルを乱す3つの異なる視点から、通常の最小二乗を記述する。 ガウス雑音により、モデルが最大確率推定子を導入するように確率を与える。 また、このガウスの混乱を通じて、いくつかの分布理論を発展させている。 最小二乗の分布理論は、様々な質問に答え、関連する応用を導入するのに役立つ。 次に、最小二乗法が平均二乗誤差の意味で最良の偏りのない線形モデルであることを証明し、最も重要なことは、実際に理論上の極限に近づくことである。 ベイズ的アプローチとそれ以上の線形モデルに終止符を打つ。

This note is meant to provide an introduction to linear models and the theories behind them. Our goal is to give a rigorous introduction to the readers with prior exposure to ordinary least squares. In machine learning, the output is usually a nonlinear function of the input. Deep learning even aims to find a nonlinear dependence with many layers which require a large amount of computation. However, most of these algorithms build upon simple linear models. We then describe linear models from different views and find the properties and theories behind the models. The linear model is the main technique in regression problems and the primary tool for it is the least squares approximation which minimizes a sum of squared errors. This is a natural choice when we're interested in finding the regression function which minimizes the corresponding expected squared error. We first describe ordinary least squares from three different points of view upon which we disturb the model with random noise and Gaussian noise. By Gaussian noise, the model gives rise to the likelihood so that we introduce a maximum likelihood estimator. It also develops some distribution theories for it via this Gaussian disturbance. The distribution theory of least squares will help us answer various questions and introduce related applications. We then prove least squares is the best unbiased linear model in the sense of mean squared error and most importantly, it actually approaches the theoretical limit. We end up with linear models with the Bayesian approach and beyond.
公開日:2021-05-10
翻訳日:2021-05-11 21:36:21
# (参考訳) ReadTwice: 非常に大きなドキュメントを思い出で読む [全文訳有]

ReadTwice: Reading Very Large Documents with Memories ( http://arxiv.org/abs/2105.04241v1 )

ライセンス: CC BY 4.0
Yury Zemlyanskiy, Joshua Ainslie, Michiel de Jong, Philip Pham, Ilya Eckstein, Fei Sha(参考訳) 質問応答のような知識集約的なタスクは、書籍や記事コレクションのような大きな入力の異なるセクションからの情報を同化する必要があることが多い。 トランスフォーマーと長距離依存性をモデル化するために,事前アプローチのいくつかの長所を組み合わせる,シンプルで効果的な手法であるreadtwuceを提案する。 主なアイデアは、テキストを小さなセグメントで並列に読み、各セグメントを1つのメモリテーブルに要約して、テキストの2番目の読み出しに使用することである。 本手法は,いくつかの質問応答(QA)データセットにおいて,同等の大きさのモデルよりも優れており,課題であるナラティブQAタスク上で,本全体に関する質問に対して,新たな技術状況を設定する。 ReadTwiceのソースコードと事前トレーニングされたチェックポイントはhttps://goo.gle/rese arch-readtwice.comで見ることができる。

Knowledge-intensive tasks such as question answering often require assimilating information from different sections of large inputs such as books or article collections. We propose ReadTwuce, a simple and effective technique that combines several strengths of prior approaches to model long-range dependencies with Transformers. The main idea is to read text in small segments, in parallel, summarizing each segment into a memory table to be used in a second read of the text. We show that the method outperforms models of comparable size on several question answering (QA) datasets and sets a new state of the art on the challenging NarrativeQA task, with questions about entire books. Source code and pre-trained checkpoints for ReadTwice can be found at https://goo.gle/rese arch-readtwice.
公開日:2021-05-10
翻訳日:2021-05-11 21:35:20
# (参考訳) 量子化トレーニングのための後方量子化範囲推定 [全文訳有]

In-Hindsight Quantization Range Estimation for Quantized Training ( http://arxiv.org/abs/2105.04246v1 )

ライセンス: CC BY 4.0
Marios Fournarakis, Markus Nagel(参考訳) ディープニューラルネットワークの推論に適用される量子化技術により、リソース制約デバイス上での高速かつ効率的な実行が可能になった。 推論における量子化の成功は、完全に量子化されたトレーニング、すなわち、学術コミュニティを動機付けている。 バックプロパゲーションの定量化。 しかし、効果的な勾配量子化は依然として未解決の問題である。 勾配は非有界であり、トレーニング中に分布が大きく変化するため、動的量子化の必要性が生じる。 示すように、動的量子化はメモリオーバーヘッドを大幅に増加させ、トレーニングを遅くするデータトラフィックを増やします。 本稿では,前回の反復で推定された量子化範囲を用いて現在を量子化する,動的量子化の簡易な代替案を提案する。 今回のアプローチでは,勾配とアクティベーションの高速静的量子化を可能にしつつ,オンライン形式で出力統計を追跡するためにニューラルネットワークアクセラレータによる最小限のハードウェアサポートしか必要としない。 量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。 画像分類ベンチマーク (tiny imagenet & imagenet) において,本手法を数値化学習文献から推定する既存の手法と比較し,mobilenetv2を含む各種アーキテクチャの有効性を示す。

Quantization techniques applied to the inference of deep neural networks have enabled fast and efficient execution on resource-constraint devices. The success of quantization during inference has motivated the academic community to explore fully quantized training, i.e. quantizing back-propagation as well. However, effective gradient quantization is still an open problem. Gradients are unbounded and their distribution changes significantly during training, which leads to the need for dynamic quantization. As we show, dynamic quantization can lead to significant memory overhead and additional data traffic slowing down training. We propose a simple alternative to dynamic quantization, in-hindsight range estimation, that uses the quantization ranges estimated on previous iterations to quantize the present. Our approach enables fast static quantization of gradients and activations while requiring only minimal hardware support from the neural network accelerator to keep track of output statistics in an online fashion. It is intended as a drop-in replacement for estimating quantization ranges and can be used in conjunction with other advances in quantized training. We compare our method to existing methods for range estimation from the quantized training literature and demonstrate its effectiveness with a range of architectures, including MobileNetV2, on image classification benchmarks (Tiny ImageNet & ImageNet).
公開日:2021-05-10
翻訳日:2021-05-11 21:22:33
# (参考訳) 品質多様性探索におけるパラメータ化表現とデータ駆動表現の表現性 [全文訳有]

Expressivity of Parameterized and Data-driven Representations in Quality Diversity Search ( http://arxiv.org/abs/2105.04247v1 )

ライセンス: CC BY 4.0
Alexander Hagg, Sebastian Berns, Alexander Asteroth, Simon Colton, Thomas B\"ack(参考訳) 多様なアーティファクトの生成と新しい解の発見のために,マルチソリューション最適化と生成モデルを考える。 ドメインの変動要因が未知あるいは複雑すぎて手動で符号化できない場合、生成モデルはこれらの因子を近似するために学習された潜在空間を提供することができる。 しかし、探索空間として使われる場合、可能な出力の範囲と多様性は学習モデルの表現性と生成能力に制限される。 本研究では,(1)事前定義されたパラメータ化空間,2)変分自己エンコーダモデルの潜時空間の2つの異なる探索空間で行った品質多様性進化探索の出力多様性を比較した。 明示的なパラメトリック符号化の探索は、潜在空間を探索するよりも多種多様なアーティファクト集合を生成する。 学習モデルは、未知の例への外挿や拡大よりも、既知のデータポイント間の補間が優れている。 生成モデルの潜在空間を用いて、検索や生成ではなく、アーティファクト間の類似度を測定することを推奨する。 パラメトリック符号化が取得可能な場合、より多様な解を生成するため、学習された表現よりも好まれる。

We consider multi-solution optimization and generative models for the generation of diverse artifacts and the discovery of novel solutions. In cases where the domain's factors of variation are unknown or too complex to encode manually, generative models can provide a learned latent space to approximate these factors. When used as a search space, however, the range and diversity of possible outputs are limited to the expressivity and generative capabilities of the learned model. We compare the output diversity of a quality diversity evolutionary search performed in two different search spaces: 1) a predefined parameterized space and 2) the latent space of a variational autoencoder model. We find that the search on an explicit parametric encoding creates more diverse artifact sets than searching the latent space. A learned model is better at interpolating between known data points than at extrapolating or expanding towards unseen examples. We recommend using a generative model's latent space primarily to measure similarity between artifacts rather than for search and generation. Whenever a parametric encoding is obtainable, it should be preferred over a learned representation as it produces a higher diversity of solutions.
公開日:2021-05-10
翻訳日:2021-05-11 21:11:08
# (参考訳) アルゴリズム判別におけるモデル不確かさの会計 [全文訳有]

Accounting for Model Uncertainty in Algorithmic Discrimination ( http://arxiv.org/abs/2105.04249v1 )

ライセンス: CC BY 4.0
Junaid Ali, Preethi Lahoti, Krishna P. Gummadi(参考訳) アルゴリズム決定におけるグループフェアネスを保証する伝統的なアプローチは、集団内の異なるサブグループに対して ``total'' エラー率を等化することを目的としている。 対照的に、フェアネスアプローチは、モデルの不確実性(つまり、疫学的な不確実性)によって生じるエラーの等化にのみ焦点をあてるべきであり、最良のモデルに関する知識の欠如やデータの欠如によって引き起こされるものである。 言い換えれば、我々の提案は、データに固有の不確実性、すなわちアレータティック不確実性によって生じるエラーを無視することを要求する。 予測多重度とモデル不確実性の関係を考察し,モデル不確実性に起因する誤差の同定に予測多重度を用いた手法が有用であると主張する。 予測多重度を示す分類器を考案するために,スケーラブルな凸プロキシを提案し,提案手法が性能に匹敵し,現在の最先端技術よりも最大4桁高速であることを示す。 さらに,アルゴリズム的意思決定におけるモデル不確実性に起因するグループ誤り率の均等化を目標とし,合成データと実世界データを用いた手法の有効性を実証する。

Traditional approaches to ensure group fairness in algorithmic decision making aim to equalize ``total'' error rates for different subgroups in the population. In contrast, we argue that the fairness approaches should instead focus only on equalizing errors arising due to model uncertainty (a.k.a epistemic uncertainty), caused due to lack of knowledge about the best model or due to lack of data. In other words, our proposal calls for ignoring the errors that occur due to uncertainty inherent in the data, i.e., aleatoric uncertainty. We draw a connection between predictive multiplicity and model uncertainty and argue that the techniques from predictive multiplicity could be used to identify errors made due to model uncertainty. We propose scalable convex proxies to come up with classifiers that exhibit predictive multiplicity and empirically show that our methods are comparable in performance and up to four orders of magnitude faster than the current state-of-the-art. We further propose methods to achieve our goal of equalizing group error rates arising due to model uncertainty in algorithmic decision making and demonstrate the effectiveness of these methods using synthetic and real-world datasets.
公開日:2021-05-10
翻訳日:2021-05-11 20:57:03
# (参考訳) 多解最適化における現象型多様性の解析 [全文訳有]

An Analysis of Phenotypic Diversity in Multi-Solution Optimization ( http://arxiv.org/abs/2105.04252v1 )

ライセンス: CC BY 4.0
Alexander Hagg, Mike Preuss, Alexander Asteroth, Thomas B\"ack(参考訳) 様々な解集合を見つけるために最適化法が益々用いられる。 我々は,多目的最適化,マルチモーダル最適化,品質多様性におけるソリューションの多様性を,単純なドメインで比較する。 マルチオブジェクト最適化は必ずしも多様性を生んでいるわけではなく、マルチモーダル最適化はより高い適合性ソリューションを生み出し、品質の多様性は遺伝的中立性に敏感ではない。 オートエンコーダは表現型特徴を自動的に発見するために使用され、品質の多様性を備えたさらに多様なソリューションセットを生成する。 最後に、そのアプローチをいつ使うべきかを推奨します。

More and more, optimization methods are used to find diverse solution sets. We compare solution diversity in multi-objective optimization, multimodal optimization, and quality diversity in a simple domain. We show that multiobjective optimization does not always produce much diversity, multimodal optimization produces higher fitness solutions, and quality diversity is not sensitive to genetic neutrality and creates the most diverse set of solutions. An autoencoder is used to discover phenotypic features automatically, producing an even more diverse solution set with quality diversity. Finally, we make recommendations about when to use which approach.
公開日:2021-05-10
翻訳日:2021-05-11 20:08:31
# (参考訳) Loss-Aversively Fair 分類 [全文訳有]

Loss-Aversively Fair Classification ( http://arxiv.org/abs/2105.04273v1 )

ライセンス: CC BY 4.0
Junaid Ali, Muhammad Bilal Zafar, Adish Singla, Krishna P. Gummadi(参考訳) 人間の生活に影響を与えるシナリオにおけるアルゴリズムによる(学習に基づく)意思決定の使用は、性別や人種などの繊細な特徴に基づいて被験者を差別するなど、潜在的な不公平性に対する意思決定システムの研究を動機付けている。 しかし、新たに設計された意思決定システムの公平性を評価する際、これらの研究は人々の公平性に対する認識に重要な影響を見落としており、新しいアルゴリズムが現状、すなわち既存の意思決定システムの決定を変える方法である。 行動経済学と行動心理学(プロスペクト理論)の広範な文献に動機づけられ、我々は「損失回避更新」と呼ぶ公正な更新の概念を提案する。 Loss-averseアップデートは、ステータスクォーと比較して、改善された(より有益な)結果をもたらす更新を主題に制限する。 我々は,この概念を様々な線形および非線形分類器の訓練に組み込むことのできる,扱いやすい代理尺度を提案する。 非識別的分類器を訓練するための既存の尺度と、我々のプロキシ対策をどのように組み合わせることができるかを示す。 合成および実世界のデータセットを用いた評価は,提案手法が望ましいタスクに有効であることを示す。

The use of algorithmic (learning-based) decision making in scenarios that affect human lives has motivated a number of recent studies to investigate such decision making systems for potential unfairness, such as discrimination against subjects based on their sensitive features like gender or race. However, when judging the fairness of a newly designed decision making system, these studies have overlooked an important influence on people's perceptions of fairness, which is how the new algorithm changes the status quo, i.e., decisions of the existing decision making system. Motivated by extensive literature in behavioral economics and behavioral psychology (prospect theory), we propose a notion of fair updates that we refer to as loss-averse updates. Loss-averse updates constrain the updates to yield improved (more beneficial) outcomes to subjects compared to the status quo. We propose tractable proxy measures that would allow this notion to be incorporated in the training of a variety of linear and non-linear classifiers. We show how our proxy measures can be combined with existing measures for training nondiscriminatory classifiers. Our evaluation using synthetic and real-world datasets demonstrates that the proposed proxy measures are effective for their desired tasks.
公開日:2021-05-10
翻訳日:2021-05-11 19:59:07
# (参考訳) 変圧器による視覚接地 [全文訳有]

Visual Grounding with Transformers ( http://arxiv.org/abs/2105.04281v1 )

ライセンス: CC BY 4.0
Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang(参考訳) 本稿では,視覚的接地のためのトランスフォーマーに基づくアプローチを提案する。 事前学習された物体検出器や既定の1段検出器をテキスト埋め込みでアップグレードするプロポーザル・アンド・ランクのフレームワークとは異なり、本手法はトランスフォーマエンコーダ・デコーダ上に構築されており、任意の事前学習された検出器や単語埋め込みモデルとは独立している。 VGTR(Visual Grounding with TRansformers)と呼ばれるこの手法は,テキスト記述の指導の下で,位置情報を損なうことなく,意味識別的な視覚特徴を学習するように設計されている。 この情報フローにより、VGTRは、視覚と言語モダリティの両方の文脈レベルのセマンティクスをキャプチャする強力な能力を持つことができます。 実験により,提案手法は高速な推論速度を維持しつつ,5つのベンチマークにおいて,最先端の提案不要手法よりもかなり優れた性能を示した。

In this paper, we propose a transformer based approach for visual grounding. Unlike previous proposal-and-rank frameworks that rely heavily on pretrained object detectors or proposal-free frameworks that upgrade an off-the-shelf one-stage detector by fusing textual embeddings, our approach is built on top of a transformer encoder-decoder and is independent of any pretrained detectors or word embedding models. Termed VGTR -- Visual Grounding with TRansformers, our approach is designed to learn semantic-discriminat ive visual features under the guidance of the textual description without harming their location ability. This information flow enables our VGTR to have a strong capability in capturing context-level semantics of both vision and language modalities, rendering us to aggregate accurate visual clues implied by the description to locate the interested object instance. Experiments show that our method outperforms state-of-the-art proposal-free approaches by a considerable margin on five benchmarks while maintaining fast inference speed.
公開日:2021-05-10
翻訳日:2021-05-11 19:45:42
# (参考訳) ニューラルネットワークはどのようにプログラムを理解するのか? [全文訳有]

How could Neural Networks understand Programs? ( http://arxiv.org/abs/2105.04297v1 )

ライセンス: CC BY-SA 4.0
Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu(参考訳) プログラムの意味理解は、プログラミング言語処理(plp)の基本的な問題である。 NLPにおける事前学習技術に基づいてコード表現を学習する最近の研究は、フロンティアをこの方向に押し上げている。 しかし、PLとNLのセマンティクスには重要な違いがある。 これらのことは無視され、既製のNLP事前学習技術をソースコードに直接適用するか、ヒューリスティックな手法でモデルに機能を追加することで、プログラムをよりよく理解するモデルを構築するのは難しいと信じている。 実際、プログラムの意味論はPL理論の形式的意味論によって厳密に定義することができる。 例えば、オペレーショナルセマンティクスでは、有効なプログラムの意味を、メモリI/Oや条件分岐といった基本的な操作を通じて環境(メモリアドレス値関数)を更新することとして記述している。 そこで,本研究では,(1)操作意味論における基本操作に適合する表現,(2)プログラム理解に欠かせない環境遷移の情報からなる情報から学習すべき,新たなプログラム意味論学習パラダイムを提案する。 提案手法を検証するため,OSCARと呼ばれる階層型トランスフォーマーを用いた事前学習モデルを提案する。 OSCARは、静的解析から導出される中間表現(IR)と符号化表現から学習し、それぞれが基本的な操作を表現し、環境遷移を近似する。 OSCARは、多くの実用的なソフトウェアエンジニアリングタスクにおいて、プログラムセマンティクスが理解できることを実証的に示す。

Semantic understanding of programs is a fundamental problem for programming language processing (PLP). Recent works that learn representations of code based on pre-training techniques in NLP have pushed the frontiers in this direction. However, the semantics of PL and NL have essential differences. These being ignored, we believe it is difficult to build a model to better understand programs, by either directly applying off-the-shelf NLP pre-training techniques to the source code, or adding features to the model by the heuristic. In fact, the semantics of a program can be rigorously defined by formal semantics in PL theory. For example, the operational semantics, describes the meaning of a valid program as updating the environment (i.e., the memory address-value function) through fundamental operations, such as memory I/O and conditional branching. Inspired by this, we propose a novel program semantics learning paradigm, that the model should learn from information composed of (1) the representations which align well with the fundamental operations in operational semantics, and (2) the information of environment transition, which is indispensable for program understanding. To validate our proposal, we present a hierarchical Transformer-based pre-training model called OSCAR to better facilitate the understanding of programs. OSCAR learns from intermediate representation (IR) and an encoded representation derived from static analysis, which are used for representing the fundamental operations and approximating the environment transitions respectively. OSCAR empirically shows the outstanding capability of program semantics understanding on many practical software engineering tasks.
公開日:2021-05-10
翻訳日:2021-05-11 19:30:09
# (参考訳) 漸減レグレットによるベイズ最適化 [全文訳有]

Bayesian Optimistic Optimisation with Exponentially Decaying Regret ( http://arxiv.org/abs/2105.04332v1 )

ライセンス: CC BY 4.0
Hung Tran-The, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) ベイズ最適化 (bayesian optimization, bo) は、高価なブラックボックス関数のグローバル最適を求めるための、よく知られた効率的なアルゴリズムである。 現在の実用的なboアルゴリズムは、$\mathcal{o}(\frac{logn}{\sqrt{n}})$から$\mathcal o(e^{-\sqrt{n}})$までの後悔の限界を持ち、ここで$n$は評価の数である。 本稿では,探索空間の分割に基づくBOの概念と木に基づく楽観的最適化を交互に組み合わせることで,雑音のない環境における後悔関係を改善する可能性を検討する。 BOOアルゴリズムは,次数$\mathcal O(N^{-\sqrt{N}})$で指数的再帰を達成できる最初の実用的手法であり,目的関数が滑らか度パラメータ$\nu > 4 +\frac{D}{2}$のMat\'ernカーネルを持つガウス過程からサンプリングされるという仮定の下で,D$は次元数である。 各種合成関数の最適化と機械学習ハイパーパラメータチューニングタスクの実験を行い,アルゴリズムがベースラインより優れていることを示す。

Bayesian optimisation (BO) is a well-known efficient algorithm for finding the global optimum of expensive, black-box functions. The current practical BO algorithms have regret bounds ranging from $\mathcal{O}(\frac{logN}{\sqrt{N}})$ to $\mathcal O(e^{-\sqrt{N}})$, where $N$ is the number of evaluations. This paper explores the possibility of improving the regret bound in the noiseless setting by intertwining concepts from BO and tree-based optimistic optimisation which are based on partitioning the search space. We propose the BOO algorithm, a first practical approach which can achieve an exponential regret bound with order $\mathcal O(N^{-\sqrt{N}})$ under the assumption that the objective function is sampled from a Gaussian process with a Mat\'ern kernel with smoothness parameter $\nu > 4 +\frac{D}{2}$, where $D$ is the number of dimensions. We perform experiments on optimisation of various synthetic functions and machine learning hyperparameter tuning tasks and show that our algorithm outperforms baselines.
公開日:2021-05-10
翻訳日:2021-05-11 18:59:35
# (参考訳) Poolingformer:poolin g Attentionによる長期ドキュメントモデリング [全文訳有]

Poolingformer: Long Document Modeling with Pooling Attention ( http://arxiv.org/abs/2105.04371v1 )

ライセンス: CC BY 4.0
Hang Zhang, Yeyun Gong, Yelong Shen, Weisheng Li, Jiancheng Lv, Nan Duan, Weizhu Chen(参考訳) 本稿では,長期文書モデリングのための2レベルアテンションスキーマであるPoolingformerを提案する。 最初のレベルは、より小さなスライディングウィンドウパターンを使用して、隣人からの情報を集約する。 その第2レベルは、より大きなウィンドウを使用して受容フィールドを増加させ、計算コストとメモリ消費の両方を減らすことに注意を向けている。 我々はまず,モノリンガルNQとマルチリンガルTyDiQAという2つの長いシーケンスQAタスクでPoolingformerを評価する。 実験の結果、PoolingformerはF1によって測定された3つの公式リーダーボードの上に座っており、NQ長解では1.9ポイント(79.8対77.9)、TyDi QA通過解では1.9ポイント(79.5対77.6)、TyDi QA最小解では1.6ポイント(67.6対66.0)を上回っている。 さらに,長いシーケンス要約タスクにおける poolingformer の評価を行う。 arXivベンチマークの実験結果は、その優れた性能を示し続けている。

In this paper, we introduce a two-level attention schema, Poolingformer, for long document modeling. Its first level uses a smaller sliding window pattern to aggregate information from neighbors. Its second level employs a larger window to increase receptive fields with pooling attention to reduce both computational cost and memory consumption. We first evaluate Poolingformer on two long sequence QA tasks: the monolingual NQ and the multilingual TyDi QA. Experimental results show that Poolingformer sits atop three official leaderboards measured by F1, outperforming previous state-of-the-art models by 1.9 points (79.8 vs. 77.9) on NQ long answer, 1.9 points (79.5 vs. 77.6) on TyDi QA passage answer, and 1.6 points (67.6 vs. 66.0) on TyDi QA minimal answer. We further evaluate Poolingformer on a long sequence summarization task. Experimental results on the arXiv benchmark continue to demonstrate its superior performance.
公開日:2021-05-10
翻訳日:2021-05-11 18:26:50
# (参考訳) 相互情報下界を用いた入射モデルの勾配に基づくベイズ実験設計

Gradient-based Bayesian Experimental Design for Implicit Models using Mutual Information Lower Bounds ( http://arxiv.org/abs/2105.04379v1 )

ライセンス: CC BY 4.0
Steven Kleinegesse and Michael U. Gutmann(参考訳) 我々は,データ生成分布が難解であるが,そこからサンプリングできる暗黙のモデルを用いたベイズ実験設計(bed)のためのフレームワークを提案する。 このようなモデルに対する最適実験設計を見つけるために,ニューラルネットワークによってパラメトリされる相互情報の下位境界を最大化する。 ニューラルネットワークをサンプルデータ上でトレーニングすることにより,確率勾配法によるネットワークパラメータと設計を同時に更新する。 このフレームワークは、様々な顕著な下界を持つ実験的な設計を可能にし、パラメータ推定、モデル判別、将来の予測の改善など、幅広い科学的タスクに適用することができる。 難解な玩具モデルを用いて,上述のタスクに適用した著明な下界の包括的経験的比較を行う。 さらに, 疫学における確率微分方程式の挑戦的な系に関する枠組みを検証した。

We introduce a framework for Bayesian experimental design (BED) with implicit models, where the data-generating distribution is intractable but sampling from it is still possible. In order to find optimal experimental designs for such models, our approach maximises mutual information lower bounds that are parametrised by neural networks. By training a neural network on sampled data, we simultaneously update network parameters and designs using stochastic gradient-ascent. The framework enables experimental design with a variety of prominent lower bounds and can be applied to a wide range of scientific tasks, such as parameter estimation, model discrimination and improving future predictions. Using a set of intractable toy models, we provide a comprehensive empirical comparison of prominent lower bounds applied to the aforementioned tasks. We further validate our framework on a challenging system of stochastic differential equations from epidemiology.
公開日:2021-05-10
翻訳日:2021-05-11 18:04:59
# (参考訳) 深層学習に基づく対話システムの最新動向

Recent Advances in Deep Learning-based Dialogue Systems ( http://arxiv.org/abs/2105.04387v1 )

ライセンス: CC BY 4.0
Jinjie Ni, Tom Young, Vlad Pandelea, Fuzhao Xue, Vinay Adiga, Erik Cambria(参考訳) 対話システムは、実際のアプリケーションで有望な自然言語処理(NLP)タスクとして人気がある。 多くのNLPタスクが研究に関わっているため、これは複雑なタスクでもある。 その結果、この課題に関する数多くの新しい研究が行われ、そのほとんどは卓越した性能のため、深層学習に基づくものである。 本研究では,深層学習に基づく対話システムに着目した。 対話システムにおける最先端の研究成果を総合的にレビューし,モデルタイプとシステムタイプという2つの角度から分析する。 具体的には,対話システムにおいて広く用いられている異なるモデルの原理,特徴,応用について述べる。 これは、研究者がこれらのモデルを知り、それが最先端のフレームワークにどのように適用されているかを確認するのに役立つ。 システムタイプの角度から,タスク指向とオープンドメインの対話システムを2つの研究の流れとして論じ,関連する話題について考察する。 さらに,対話システムの評価手法とデータセットを概観的に検討し,今後の研究の道を開く。 最後に、最近の研究成果に基づいて、いくつかの研究トレンドが特定される。 私たちの知る限りでは、この調査は対話システムや対話関連タスクの領域で現在最も包括的で最新のもので、人気のあるフレームワーク、トピック、データセットを幅広くカバーしています。

Dialogue systems are a popular Natural Language Processing (NLP) task as it is promising in real-life applications. It is also a complicated task since many NLP tasks deserving study are involved. As a result, a multitude of novel works on this task are carried out, and most of them are deep learning-based due to the outstanding performance. In this survey, we mainly focus on the deep learning-based dialogue systems. We comprehensively review state-of-the-art research outcomes in dialogue systems and analyze them from two angles: model type and system type. Specifically, from the angle of model type, we discuss the principles, characteristics, and applications of different models that are widely used in dialogue systems. This will help researchers acquaint these models and see how they are applied in state-of-the-art frameworks, which is rather helpful when designing a new dialogue system. From the angle of system type, we discuss task-oriented and open-domain dialogue systems as two streams of research, providing insight into the hot topics related. Furthermore, we comprehensively review the evaluation methods and datasets for dialogue systems to pave the way for future research. Finally, some possible research trends are identified based on the recent research outcomes. To the best of our knowledge, this survey is the most comprehensive and up-to-date one at present in the area of dialogue systems and dialogue-related tasks, extensively covering the popular frameworks, topics, and datasets.
公開日:2021-05-10
翻訳日:2021-05-11 18:03:41
# (参考訳) 粗地における安定制約移動マニピュレーション計画 [全文訳有]

Stability Constrained Mobile Manipulation Planning on Rough Terrain ( http://arxiv.org/abs/2105.04396v1 )

ライセンス: CC BY 4.0
Jiazhi Song, Inna Sharf(参考訳) 本稿では, 移動マニピュレータロボットの動特性に制約のある最適軌道計画を行うためのフレームワークを提案する。 まず,移動マニピュレータロボットの運動モデルとゼロモーメントポイント(zmp)安定性尺度を理論的背景として提示する。 そこで,連続運動における安定性保証とトラクション最適化のために修正されたサンプリングベース準静的計画アルゴリズムを数学的証明とともに提示する。 ロボットの準静的経路は、非線型最適制御解法を温めるための最初の推算として使用され、そうでなければ、安定性に制約された定式化の解を見つけるのに苦労する可能性がある。 このフレームワークの性能と計算効率は、様々な地形で作業する模擬木材収穫移動マニピュレータマシンに適用することで実証される。 その結果, 動的安定性制約を満たしながら, 様々な地形におけるオンライン軌道計画が可能となった。

This paper presents a framework that allows online dynamic-stability-co nstrained optimal trajectory planning of a mobile manipulator robot working on rough terrain. First, the kinematics model of a mobile manipulator robot, and the Zero Moment Point (ZMP) stability measure are presented as theoretical background. Then, a sampling-based quasi-static planning algorithm modified for stability guarantee and traction optimization in continuous dynamic motion is presented along with a mathematical proof. The robot's quasi-static path is then used as an initial guess to warm-start a nonlinear optimal control solver which may otherwise have difficulties finding a solution to the stability-constraine d formulation efficiently. The performance and computational efficiency of the framework are demonstrated through an application to a simulated timber harvesting mobile manipulator machine working on varying terrain. The results demonstrate feasibility of online trajectory planning on varying terrain while satisfying the dynamic stability constraint.
公開日:2021-05-10
翻訳日:2021-05-11 18:02:31
# (参考訳) 無人航空機画像における列キャクタ認識のためのランダム初期化畳み込みニューラルネットワーク [全文訳有]

An Enhanced Randomly Initialized Convolutional Neural Network for Columnar Cactus Recognition in Unmanned Aerial Vehicle Imagery ( http://arxiv.org/abs/2105.04430v1 )

ライセンス: CC BY 4.0
Safa Ben Atitallah, Maha Driss, Wadii Boulila, Anis Koubaa, Nesrine Atitallah, Henda Ben Gh\'ezala(参考訳) 近年,畳み込みニューラルネットワーク (CNN) はリモートセンシング画像分類において優れた性能を発揮している。 CNNを用いた植物認識は、様々な分野、特に環境保全と自然保護の付加価値から、活発な深層学習研究のトピックの1つである。 保護地域における植物の自動認識は、これらの地域の監視プロセスを支援し、生態系の持続性を保証する。 本研究では,メキシコ南東部のtehuac\'an-cuicatl\'an谷に分布する固有植物である列状サボテンの認識のための拡張されたランダム初期化畳み込みニューラルネットワーク(eri-cnn)を提案する。 20000以上のリモートセンシング画像からなる研究者グループによって作成された公開データセットを使用した。 InceptionV3や修正LeNet-5 CNNなどの文献で報告されている他のモデルと比較して,提案モデルの有効性を確認した。 ERI-CNNは精度98%、精度97%、リコール97%、f1スコア97.5%、損失0.056である。

Recently, Convolutional Neural Networks (CNNs) have made a great performance for remote sensing image classification. Plant recognition using CNNs is one of the active deep learning research topics due to its added-value in different related fields, especially environmental conservation and natural areas preservation. Automatic recognition of plants in protected areas helps in the surveillance process of these zones and ensures the sustainability of their ecosystems. In this work, we propose an Enhanced Randomly Initialized Convolutional Neural Network (ERI-CNN) for the recognition of columnar cactus, which is an endemic plant that exists in the Tehuac\'an-Cuicatl\'an Valley in southeastern Mexico. We used a public dataset created by a group of researchers that consists of more than 20000 remote sensing images. The experimental results confirm the effectiveness of the proposed model compared to other models reported in the literature like InceptionV3 and the modified LeNet-5 CNN. Our ERI-CNN provides 98% of accuracy, 97% of precision, 97% of recall, 97.5% as f1-score, and 0.056 loss.
公開日:2021-05-10
翻訳日:2021-05-11 17:19:17
# (参考訳) 深層学習による高次元デコンボリューションのための足場シミュレーション [全文訳有]

Scaffolding Simulations with Deep Learning for High-dimensional Deconvolution ( http://arxiv.org/abs/2105.04448v1 )

ライセンス: CC BY 4.0
Anders Andreassen, Patrick T. Komiske, Eric M. Metodiev, Benjamin Nachman, Adi Suresh, and Jesse Thaler(参考訳) 科学的推論の一般的な設定は、データの明示的な確率密度を持つことなく、高忠実度フォワードモデル(シミュレーション)からサンプリングする能力である。 本稿では,OmniFold という手法を用いてシミュレーションに基づく最大解法を提案する。 ディープラーニングは、このアプローチを自然に非結合で(可変で)高次元にすることができる。 モデルパラメータ推定とは対照的に、デコンボリューションの目的は、様々な下流推論タスクを可能にするために検出器歪みを取り除くことである。 我々のアプローチは、粒子物理学における反復ベイズ展開とも呼ばれる、共通リチャードソン-ルーシーアプローチのディープラーニング一般化である。 我々は,OmniFoldが検出歪みを除去できるだけでなく,ノイズ処理や受入効果も考慮できることを示す。

A common setting for scientific inference is the ability to sample from a high-fidelity forward model (simulation) without having an explicit probability density of the data. We propose a simulation-based maximum likelihood deconvolution approach in this setting called OmniFold. Deep learning enables this approach to be naturally unbinned and (variable-, and) high-dimensional. In contrast to model parameter estimation, the goal of deconvolution is to remove detector distortions in order to enable a variety of down-stream inference tasks. Our approach is the deep learning generalization of the common Richardson-Lucy approach that is also called Iterative Bayesian Unfolding in particle physics. We show how OmniFold can not only remove detector distortions, but it can also account for noise processes and acceptance effects.
公開日:2021-05-10
翻訳日:2021-05-11 17:10:51
# (参考訳) マルチスピーカー環境における音声ナビゲーションへの深層強化学習手法 [全文訳有]

A Deep Reinforcement Learning Approach to Audio-Based Navigation in a Multi-Speaker Environment ( http://arxiv.org/abs/2105.04488v1 )

ライセンス: CC BY 4.0
Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis(参考訳) 本研究では,深層強化学習を用いて,環境からの生の聴覚情報のみを用いて,二次元空間をナビゲートできる自律エージェントを構築する。 実験の結果, エージェントは, 室内で予め定義された1組のN$話者の中から特定のターゲット話者を識別し, 他話者との衝突や部屋の境界外への移動を避けながら, その話者に向かって移動することができることがわかった。 エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。

In this work we use deep reinforcement learning to create an autonomous agent that can navigate in a two-dimensional space using only raw auditory sensory information from the environment, a problem that has received very little attention in the reinforcement learning literature. Our experiments show that the agent can successfully identify a particular target speaker among a set of $N$ predefined speakers in a room and move itself towards that speaker, while avoiding collision with other speakers or going outside the room boundaries. The agent is shown to be robust to speaker pitch shifting and it can learn to navigate the environment, even when a limited number of training utterances are available for each speaker.
公開日:2021-05-10
翻訳日:2021-05-11 17:03:14
# (参考訳) 超低解像度テキスト画像に対するエンドツーエンド光学文字認識手法 [全文訳有]

An end-to-end Optical Character Recognition approach for ultra-low-resolution printed text images ( http://arxiv.org/abs/2105.04515v1 )

ライセンス: CC BY-SA 4.0
Julian D. Gilbey, Carola-Bibiane Sch\"onlieb(参考訳) 歴史的、より最近の印刷物の中には60dpiなど、非常に低い解像度でスキャンまたは保存されているものもある。 このようなスキャンは人間が読むのが比較的容易であるが、光学文字認識(OCR)システムにはまだ大きな課題がある。 現在の最先端技術は、高解像度画像の近似を再構築するために超解像を使い、これを標準のOCRシステムに供給することである。 我々の新しいエンドツーエンド手法は、超解像ステップをバイパスし、より良いOCR結果を生成する。 このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。 実験の結果,60dpiスキャンした60dpiのテキストに対してOCRを実行することができ,その解像度は最先端のテキストに比べてかなり低く,平均文字レベル精度(CLA)は99.7%,単語レベル精度(WLA)は98.9%であった。 75dpi画像の場合、平均CLAは99.9%、平均WLAは99.4%である。 この分野での今後の作業のベンチマークとして、コードとデータ(基礎となる真実を持つ低解像度画像を含む)を公開しています。

Some historical and more recent printed documents have been scanned or stored at very low resolutions, such as 60 dpi. Though such scans are relatively easy for humans to read, they still present significant challenges for optical character recognition (OCR) systems. The current state-of-the art is to use super-resolution to reconstruct an approximation of the original high-resolution image and to feed this into a standard OCR system. Our novel end-to-end method bypasses the super-resolution step and produces better OCR results. This approach is inspired from our understanding of the human visual system, and builds on established neural networks for performing OCR. Our experiments have shown that it is possible to perform OCR on 60 dpi scanned images of English text, which is a significantly lower resolution than the state-of-the-art, and we achieved a mean character level accuracy (CLA) of 99.7% and word level accuracy (WLA) of 98.9% across a set of about 1000 pages of 60 dpi text in a wide range of fonts. For 75 dpi images, the mean CLA was 99.9% and the mean WLA was 99.4% on the same sample of texts. We make our code and data (including a set of low-resolution images with their ground truths) publicly available as a benchmark for future work in this field.
公開日:2021-05-10
翻訳日:2021-05-11 16:55:21
# (参考訳) 自動運転車の非線形操舵動力学の同定 [全文訳有]

Identification of the nonlinear steering dynamics of an autonomous vehicle ( http://arxiv.org/abs/2105.04529v1 )

ライセンス: CC BY 4.0
G. R\"od\"onyi, G. I. Beintema, R. T\'oth, M. Schoukens, D. Pup, \'A. Kisari, Zs. V\'igh, P. K\H{o}r\"os, A. Soumelidis and J. Bokor(参考訳) 自動走行アプリケーションは、運動力学を正確に予測し制御するために正確な車両固有モデルを必要とする。 しかし、現代の車両は、モデル化が困難である幅広いデジタル・メカトロニクス部品を備えており、製造者はモデリングに必要な詳細をすべて開示していない。 したがって、データ駆動モデリングを使用して関連する車両のダイナミクスを捉え、モデルに基づく制御ソリューションを合成することは魅力的である。 本稿では,実測データに基づく自律走行車のステアリングシステムの同定について述べる。 学習の近似能力と動的システム同定の効率を融合させるデータ駆動手法を必要とせず、基礎となる力学は非常に非線形であり、キャプチャが困難であることを示す。 このようなニューラルネットワークに基づくサブスペースエンコーダ法は,基礎となるダイナミックスを捕捉し,他の手法では信頼性の高い結果が得られないことを示す。

Automated driving applications require accurate vehicle specific models to precisely predict and control the motion dynamics. However, modern vehicles have a wide array of digital and mechatronic components that are difficult to model, manufactures do not disclose all details required for modelling and even existing models of subcomponents require coefficient estimation to match the specific characteristics of each vehicle and their change over time. Hence, it is attractive to use data-driven modelling to capture the relevant vehicle dynamics and synthesise model-based control solutions. In this paper, we address identification of the steering system of an autonomous car based on measured data. We show that the underlying dynamics are highly nonlinear and challenging to be captured, necessitating the use of data-driven methods that fuse the approximation capabilities of learning and the efficiency of dynamic system identification. We demonstrate that such a neural network based subspace-encoder method can successfully capture the underlying dynamics while other methods fall short to provide reliable results.
公開日:2021-05-10
翻訳日:2021-05-11 16:40:30
# (参考訳) ロスレスデバイアスによるAIシステムの公正性向上 [全文訳有]

Improving Fairness of AI Systems with Lossless De-biasing ( http://arxiv.org/abs/2105.04534v1 )

ライセンス: CC BY 4.0
Yan Zhou, Murat Kantarcioglu, Chris Clifton(参考訳) 今日の社会では、信用スコアや患者トリアージといった重要な意思決定にAIシステムがますます使われています。 しかし、AIシステムによってもたらされる大きな利便性は、少数派グループに対する偏見の波及に悩まされる。 AIシステムのバイアスを緩和して全体的な公正性を高めることが重要な課題となっている。 AIシステムにおけるバイアス軽減に関する既存の研究は、データに埋め込まれたセンシティブな人口統計情報の排除に焦点を当てている。 公平性の概念化の時間的および文脈的複雑さを考えると、人口統計情報の損失処理は、特に人口統計属性とクラスラベルが関連付けられている場合、正確性と公平性の間の不必要なトレードオフをもたらす可能性がある。 本稿では,不利グループにおけるデータの不足を対象とする情報損失のない脱バイアス手法を提案する。 既存の研究と異なり、理論的にも経験的にも、過度に表現されているグループをオーバーサンプリングすることは、特定のグループに有利な結果を常に予測するAIシステムにおけるアルゴリズムバイアスを軽減するだけでなく、多数派への偏見をもたらすデータ内のクラス不均衡を緩和することで全体的な精度を向上させることができる。 様々なフェアネス指標を用いて実データセット上での手法の有効性を実証する。

In today's society, AI systems are increasingly used to make critical decisions such as credit scoring and patient triage. However, great convenience brought by AI systems comes with troubling prevalence of bias against underrepresented groups. Mitigating bias in AI systems to increase overall fairness has emerged as an important challenge. Existing studies on mitigating bias in AI systems focus on eliminating sensitive demographic information embedded in data. Given the temporal and contextual complexity of conceptualizing fairness, lossy treatment of demographic information may contribute to an unnecessary trade-off between accuracy and fairness, especially when demographic attributes and class labels are correlated. In this paper, we present an information-lossless de-biasing technique that targets the scarcity of data in the disadvantaged group. Unlike the existing work, we demonstrate, both theoretically and empirically, that oversampling underrepresented groups can not only mitigate algorithmic bias in AI systems that consistently predict a favorable outcome for a certain group, but improve overall accuracy by mitigating class imbalance within data that leads to a bias towards the majority class. We demonstrate the effectiveness of our technique on real datasets using a variety of fairness metrics.
公開日:2021-05-10
翻訳日:2021-05-11 16:28:50
# (参考訳) カーネルを用いた近位因果学習:2段階推定とモーメント制限

Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment Restriction ( http://arxiv.org/abs/2105.04544v1 )

ライセンス: CC BY 4.0
Afsaneh Mastouri, Yuchen Zhu, Limor Gultchin, Anna Korba, Ricardo Silva, Matt J. Kusner, Arthur Gretton, Krikamol Muandet(参考訳) 本研究では, 未観測の共起の存在下での因果効果推定の問題に対処するが, 潜伏した共同設立者(s)のプロキシが観察される。 本稿では,2段階回帰法と最大モーメント制限法という2つのカーネルに基づく非線形因果効果推定手法を提案する。 我々は近位因果学習の設定に焦点をあてるが、本手法はフレドホルム積分方程式によって特徴づけられるより広い逆問題のクラスを解くのに使うことができる。 特に,この問題を非線形な設定で解くために,二段階およびモーメント制限アプローチの統一的視点を提供する。 我々は,各アルゴリズムに一貫性の保証を提供し,これらの手法が合成データと実世界のタスクをシミュレートしたデータにおいて競争的な結果をもたらすことを示す。 特に,提案手法は,プロキシ変数の活用に適さない従来の手法よりも優れている。

We address the problem of causal effect estimation in the presence of unobserved confounding, but where proxies for the latent confounder(s) are observed. We propose two kernel-based methods for nonlinear causal effect estimation in this setting: (a) a two-stage regression approach, and (b) a maximum moment restriction approach. We focus on the proximal causal learning setting, but our methods can be used to solve a wider class of inverse problems characterised by a Fredholm integral equation. In particular, we provide a unifying view of two-stage and moment restriction approaches for solving this problem in a nonlinear setting. We provide consistency guarantees for each algorithm, and we demonstrate these approaches achieve competitive results on synthetic data and data simulating a real-world task. In particular, our approach outperforms earlier methods that are not suited to leveraging proxy variables.
公開日:2021-05-10
翻訳日:2021-05-11 16:15:34
# (参考訳) スイニングトランスを用いた自己指導型学習 [全文訳有]

Self-Supervised Learning with Swin Transformers ( http://arxiv.org/abs/2105.04553v1 )

ライセンス: CC BY 4.0
Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu(参考訳) 我々はコンピュータビジョンにおけるCNNからトランスフォーマーへのモデリングシフトを目撃している。 本稿では,ビジョントランスフォーマーをバックボーンアーキテクチャとする,MoBYと呼ばれる自己教師型学習手法を提案する。 このアプローチは基本的にはMoCo v2とBYOLの組み合わせで、ImageNet-1Kの線形評価において、DeiT-SとSwin-Tを使ってそれぞれ72.8%と75.0%のTop-1の精度を300-epochのトレーニングで達成するように調整されている。 このパフォーマンスは、最近のMoCo v3やDINOのバックボーンとしてDeiTを採用したものよりも若干優れていますが、もっと軽いトリックがあります。 さらに、汎用Swin Transformerのバックボーンにより、オブジェクト検出やセマンティックセグメンテーションといった下流タスクの学習表現を評価できるが、ViT/DeiTでは、これらの密接な予測タスクに慣れていないために、ImageNet-1K上で線形評価結果しか報告しない、ViT/DeiT上に構築された最近のアプローチとは対照的である。 我々は,トランスフォーマーアーキテクチャ用に設計された自己教師あり学習手法をより包括的に評価できることを願っている。 私たちのコードとモデルはhttps://github.com/S winTransformer/Trans former-SSLで利用可能です。

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this paper, we present a self-supervised learning approach called MoBY, with Vision Transformers as its backbone architecture. The approach is basically a combination of MoCo v2 and BYOL, tuned to achieve reasonably high accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the backbone, but with much lighter tricks. More importantly, the general-purpose Swin Transformer backbone enables us to also evaluate the learnt representations on downstream tasks such as object detection and semantic segmentation, in contrast to a few recent approaches built on ViT/DeiT which only report linear evaluation results on ImageNet-1K due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results can facilitate more comprehensive evaluation of self-supervised learning methods designed for Transformer architectures. Our code and models are available at https://github.com/S winTransformer/Trans former-SSL, which will be continually enriched.
公開日:2021-05-10
翻訳日:2021-05-11 16:14:25
# (参考訳) データ駆動構成則に対する局所近似ガウス過程回帰:ニューラルネットワークの開発と比較

Local approximate Gaussian process regression for data-driven constitutive laws: Development and comparison with neural networks ( http://arxiv.org/abs/2105.04554v1 )

ライセンス: CC BY-SA 4.0
Jan Niklas Fuhg, Michele Marino, Nikolaos Bouklas(参考訳) FE$^2$ や FE-FFT といったマルチスケール力学の階層計算手法は一般に高い計算コストを伴う。 データ駆動アプローチは、各ガウスポイントで明示的に追加計算を行う必要なしに、マクロシミュレーションに効果的なマイクロメカニカル応答を組み込むことにより、プロセスを大幅にスピードアップすることができる。 伝統的に、ニューラルネットワーク(anns)はソリッド・メカニクス・コミュニティにおいて選択されるサロゲート・モデリング技術である。 しかし,そのパラメトリックな性質と準最適トレーニングと3次元的なデータセットの推論特性により,深刻な欠点に悩まされている。 これらの問題は局所近似ガウス過程回帰(laGPR)を用いて回避できる。 この方法は、ガウス過程に基づく局所回帰モデルをトレーニングし、各局所モデルに対するデータのサブセットのみを使用することで、特定のひずみ空間におけるストレスアウトプットの予測を可能にし、annよりも優れた信頼性を提供する。 FE環境における大域構造問題の解法において,ラグPR近似の局所的性質に適合する修正ニュートン・ラフソン法を提案する。 そこで,本論文では,LaGPRを用いたデータ駆動構成予測と,有限ひずみ3次元超弾性問題に対して検証したFEスキームを用いたマクロ計算を組み合わせたマルチスケール計算を実現する。

Hierarchical computational methods for multiscale mechanics such as the FE$^2$ and FE-FFT methods are generally accompanied by high computational costs. Data-driven approaches are able to speed the process up significantly by enabling to incorporate the effective micromechanical response in macroscale simulations without the need of performing additional computations at each Gauss point explicitly. Traditionally artificial neural networks (ANNs) have been the surrogate modeling technique of choice in the solid mechanics community. However they suffer from severe drawbacks due to their parametric nature and suboptimal training and inference properties for the investigated datasets in a three dimensional setting. These problems can be avoided using local approximate Gaussian process regression (laGPR). This method can allow the prediction of stress outputs at particular strain space locations by training local regression models based on Gaussian processes, using only a subset of the data for each local model, offering better and more reliable accuracy than ANNs. A modified Newton-Raphson approach is proposed to accommodate for the local nature of the laGPR approximation when solving the global structural problem in a FE setting. Hence, the presented work offers a complete and general framework enabling multiscale calculations combining a data-driven constitutive prediction using laGPR, and macroscopic calculations using an FE scheme that we test for finite-strain three-dimensional hyperelastic problems.
公開日:2021-05-07
翻訳日:2021-05-11 16:02:56
# (参考訳) 認知症高齢者の自然歩行ビデオにおけるパーキンソン病重症度の推定

Estimating Parkinsonism Severity in Natural Gait Videos of Older Adults with Dementia ( http://arxiv.org/abs/2105.03464v1 )

ライセンス: CC BY 4.0
Andrea Sabo, Sina Mehdizadeh, Andrea Iaboni, Babak Taati(参考訳) 薬物性パーキンソン症は認知症の高齢者の多くに影響を与え、歩行障害を引き起こす。 視覚に基づく人間のポーズ推定の新しい進歩は、住宅環境における歩行の頻繁で控えめな分析の可能性を開く。 本研究は認知症患者のビデオからパーキンソン病の臨床スコアを予測するための新しい空間-時間グラフ畳み込みネットワーク(st-gcn)アーキテクチャとトレーニング手順を提案する。 そこで本研究では,ST-GCNモデルによる歩行パターンの学習を促す,自己指導型事前訓練段階からなる2段階トレーニング手法を提案する。 提案したST-GCNモデルは,ビデオから抽出したジョイントトラジェクトリに基づいて評価し,従来の(通常,線形,ランダム)回帰モデルと時間畳み込みネットワークベースラインと比較した。 認知症53歳以上の高齢者の3つの2D人間のポーズ推定ライブラリ(OpenPose, Detectron, AlphaPose)とMicrosoft Kinect(2D, 3D)を用いて,4787個の自然歩行行動の関節軌跡を抽出する。 14人の参加者から得られた399人の歩行のサブセットは、統一パーキンソン病格付け尺度(updrs)とシンプソン・アンガス尺度(sas)の歩行基準でパーキンソン病重症度スコアで注釈付けされる。 Kinectから抽出した3次元ジョイントトラジェクトリで動作するST-GCNモデルは,他のモデルや機能セットよりも一貫して優れていた。 自然歩行におけるパーキンソニズムスコアの予測は、SPDRS-gait と SAS-gait のそれぞれ 0.53 +/- 0.03 と 0.40 +/- 0.02 のマクロ平均F1スコアを達成できる最良のモデルで、依然として難しい課題である。 この作業のための事前トレーニングされたモデルとデモコードは、https://github.com/t aatiteam/stgcn_parki nsonism_prediction.c omで入手できる。

Drug-induced parkinsonism affects many older adults with dementia, often causing gait disturbances. New advances in vision-based human pose-estimation have opened possibilities for frequent and unobtrusive analysis of gait in residential settings. This work proposes novel spatial-temporal graph convolutional network (ST-GCN) architectures and training procedures to predict clinical scores of parkinsonism in gait from video of individuals with dementia. We propose a two-stage training approach consisting of a self-supervised pretraining stage that encourages the ST-GCN model to learn about gait patterns before predicting clinical scores in the finetuning stage. The proposed ST-GCN models are evaluated on joint trajectories extracted from video and are compared against traditional (ordinal, linear, random forest) regression models and temporal convolutional network baselines. Three 2D human pose-estimation libraries (OpenPose, Detectron, AlphaPose) and the Microsoft Kinect (2D and 3D) are used to extract joint trajectories of 4787 natural walking bouts from 53 older adults with dementia. A subset of 399 walks from 14 participants is annotated with scores of parkinsonism severity on the gait criteria of the Unified Parkinson's Disease Rating Scale (UPDRS) and the Simpson-Angus Scale (SAS). Our results demonstrate that ST-GCN models operating on 3D joint trajectories extracted from the Kinect consistently outperform all other models and feature sets. Prediction of parkinsonism scores in natural walking bouts of unseen participants remains a challenging task, with the best models achieving macro-averaged F1-scores of 0.53 +/- 0.03 and 0.40 +/- 0.02 for UPDRS-gait and SAS-gait, respectively. Pre-trained model and demo code for this work is available: https://github.com/T aatiTeam/stgcn_parki nsonism_prediction.
公開日:2021-05-07
翻訳日:2021-05-11 16:02:34
# (参考訳) stigmergy と ant コロニーに触発されたスケーラブルな分散マルチエージェント強化学習法

Scalable, Decentralized Multi-Agent Reinforcement Learning Methods Inspired by Stigmergy and Ant Colonies ( http://arxiv.org/abs/2105.03546v1 )

ライセンス: CC BY 4.0
Austin Anhkhoi Nguyen(参考訳) 複雑なコーディネーションと制御タスクに取り組むためにマルチエージェント学習アルゴリズムを強化することは、現在進行中の研究にとって長年の課題である。 非定常性と非スケーリング性の影響を低減するために多くの方法が提案されている。 本研究では,これら2つの課題に対処する分散型マルチエージェント学習と計画手法について検討する。 特に、この方法はアリコロニーの凝集、協調、行動に触発されている。 その結果、これらのアルゴリズムは多数のエージェントを持つシステムに自然に拡張できるように設計されている。 最適性は保証されていないが、この方法は実際にうまく機能し、他のエージェントよりも有効にスケールすることを目的としている。 このアプローチは、単一エージェントrlとant-colonyにインスパイアされた分散型スティグマ作動性アルゴリズムを組み合わせて、マルチエージェント経路計画と環境修正を行う。 具体的には、このアルゴリズムをエージェントがゴール位置までナビゲートし、矩形箱を穴に押し込んで新たなトラバーサブルパスを生成するように学習する設定に適用する。 このアプローチは、この特定の環境で有望な成功をもたらすが、他人にそれほど簡単に一般化できないことが示されている。 設計されたアルゴリズムは、多くのエージェントに対して特にスケーラブルであるが、比較的単純で規則に基づくアプローチのため、その性能に制限がある。 さらに、RLトレーニングされたポリシーの構成可能性についても疑問視され、トレーニング環境ではポリシーが成功する一方で、大規模でマルチエージェントなフレームワークにトレーニングされたポリシーを適用すると予測不可能な振る舞いが生じる。

Bolstering multi-agent learning algorithms to tackle complex coordination and control tasks has been a long-standing challenge of on-going research. Numerous methods have been proposed to help reduce the effects of non-stationarity and unscalability. In this work, we investigate a novel approach to decentralized multi-agent learning and planning that attempts to address these two challenges. In particular, this method is inspired by the cohesion, coordination, and behavior of ant colonies. As a result, these algorithms are designed to be naturally scalable to systems with numerous agents. While no optimality is guaranteed, the method is intended to work well in practice and scale better in efficacy with the number of agents present than others. The approach combines single-agent RL and an ant-colony-inspired decentralized, stigmergic algorithm for multi-agent path planning and environment modification. Specifically, we apply this algorithm in a setting where agents must navigate to a goal location, learning to push rectangular boxes into holes to yield new traversable pathways. It is shown that while the approach yields promising success in this particular environment, it may not be as easily generalized to others. The algorithm designed is notably scalable to numerous agents but is limited in its performance due to its relatively simplistic, rule-based approach. Furthermore, the composability of RL-trained policies is called into question, where, while policies are successful in their training environments, applying trained policies to a larger-scale, multi-agent framework results in unpredictable behavior.
公開日:2021-05-08
翻訳日:2021-05-11 15:59:56
# (参考訳) クリック詐欺検出のためのマルチモーダル・コントラスト学習

Multimodal and Contrastive Learning for Click Fraud Detection ( http://arxiv.org/abs/2105.03567v1 )

ライセンス: CC BY 4.0
Weibin Li, Qiwei Zhong, Qingyang Zhao, Hongchun Zhang, Xiaonan Meng(参考訳) 広告クリックの不正検出は、現在のeコマースウェブサイトにおいて、ビジネスモデルの重要な要素として重要な役割を担っている。 これは、ユーザの人口統計情報やクリックの統計的特徴など、一連の対応する特徴を考慮し、クリックが不正であるか否かをコミュニティ内で予測することを目的としている。 近年,ユーザの複雑な特徴を抽出するための属性付き行動シーケンスとヘテロジニアスネットワークの導入が試みられ,クリック詐欺検出に大きな影響を与えた。 本稿では,Click Fraud Detection (MCCF) のためのマルチモーダル・コントラスト学習ネットワークを提案する。 具体的には,電子商取引プラットフォーム上では,人口統計情報,行動シーケンス,詐欺師と真のユーザ間のメディア関係の相違から動機づけられたMCCFは,幅広い特徴,行動シーケンス,異種ネットワークを共同で利用し,クリック表現を蒸留する。 さらに,これら3つのモジュールは,コントラスト学習によって統合され,最終予測に協調的に寄与する。 Alibabaプラットフォーム上での254万クリックを含む実世界のデータセットを用いて、MCCFの有効性を調査した。 実験の結果,提案手法は最先端手法と比較してAUCを7.2%,F1スコアを15.6%改善できることがわかった。

Advertising click fraud detection plays one of the vital roles in current E-commerce websites as advertising is an essential component of its business model. It aims at, given a set of corresponding features, e.g., demographic information of users and statistical features of clicks, predicting whether a click is fraudulent or not in the community. Recent efforts attempted to incorporate attributed behavior sequence and heterogeneous network for extracting complex features of users and achieved significant effects on click fraud detection. In this paper, we propose a Multimodal and Contrastive learning network for Click Fraud detection (MCCF). Specifically, motivated by the observations on differences of demographic information, behavior sequences and media relationship between fraudsters and genuine users on E-commerce platform, MCCF jointly utilizes wide and deep features, behavior sequence and heterogeneous network to distill click representations. Moreover, these three modules are integrated by contrastive learning and collaboratively contribute to the final predictions. With the real-world datasets containing 2.54 million clicks on Alibaba platform, we investigate the effectiveness of MCCF. The experimental results show that the proposed approach is able to improve AUC by 7.2% and F1-score by 15.6%, compared with the state-of-the-art methods.
公開日:2021-05-08
翻訳日:2021-05-11 15:59:35
# (参考訳) トリミングハンドで無休のマルコフアームを検知する学習

Learning to Detect an Odd Restless Markov Arm with a Trembling Hand ( http://arxiv.org/abs/2105.03603v1 )

ライセンス: CC BY 4.0
P. N. Karthik and Rajesh Sundaresan(参考訳) 本稿では, (a) 各アームが有限状態マルコフ過程であり, (b) アームがレストである場合, 多腕のバンディットにおいて異常なアームを見つける問題について検討する。 ここでの異常とは、一方の腕(奇腕)の遷移確率行列(TPM)が他方の腕の共通のTPMとは異なることを意味する。 TPMは、エラー確率の上限を条件として、奇腕の指数をできるだけ早く見つけようとする決定エンティティには未知である。 我々は、異常なアーム指数を見つけるのに必要な期待時間に基づいて、問題のインスタンス固有の漸近的下限を導出する。 さらに, 確実性同値原理に基づく政策を考案し, 連続選択仮定とtpms上の一定の規則性仮定の下で, 政策が任意に下限を満たしていることを示す。 したがって、下限はすべての問題インスタンスに対して示されるが、上限は正規性仮定を満たす問題インスタンスに対してのみ示される。 我々の実現可能性分析は、可算状態制御マルコフ過程の文脈における識別可能性問題の解法に基づいている。

This paper studies the problem of finding an anomalous arm in a multi-armed bandit when (a) each arm is a finite-state Markov process, and (b) the arms are restless. Here, anomaly means that the transition probability matrix (TPM) of one of the arms (the odd arm) is different from the common TPM of each of the non-odd arms. The TPMs are unknown to a decision entity that wishes to find the index of the odd arm as quickly as possible, subject to an upper bound on the error probability. We derive a problem instance specific asymptotic lower bound on the expected time required to find the odd arm index, where the asymptotics is as the error probability vanishes. Further, we devise a policy based on the principle of certainty equivalence, and demonstrate that under a continuous selection assumption and a certain regularity assumption on the TPMs, the policy achieves the lower bound arbitrarily closely. Thus, while the lower bound is shown for all problem instances, the upper bound is shown only for those problem instances satisfying the regularity assumption. Our achievability analysis is based on resolving the identifiability problem in the context of a certain countable-state controlled Markov process.
公開日:2021-05-08
翻訳日:2021-05-11 15:57:56
# (参考訳) 可逆機械翻訳のための二重系列列列学習

Duplex Sequence-to-Sequence Learning for Reversible Machine Translation ( http://arxiv.org/abs/2105.03458v1 )

ライセンス: CC BY-SA 4.0
Zaixiang Zheng, Hao Zhou, Shujian Huang, Jiajun Chen, Jingjing Xu and Lei Li(参考訳) 機械翻訳などのシーケンシャル・ツー・シークエンス(seq2seq)問題は双方向であり、方向性のタスクと2つの方向の学習信号のペアを自然に導出する。 しかし、典型的なseq2seqニューラルネットワークは、1つの一方向タスクのみをモデル化し、並列データから双方向学習信号の可能性を十分に活用できない。 この問題に対処するために,本論文では,sep2seqニューラルネットワーク,rereder(reversible duplex transformer)を提案し,機械翻訳に適用する。 REDERのアーキテクチャには2つの端があり、それぞれがその言語のシーケンスを読み、取得するために言語を専門にしている。 その結果、rederは双方向信号から同時に学習することができ、入力と出力を単純に反転させることで「em reversible machine translation」を可能にする。

Sequence-to-sequence (seq2seq) problems such as machine translation are bidirectional, which naturally derive a pair of directional tasks and two directional learning signals. However, typical seq2seq neural networks are {\em simplex} that only model one unidirectional task, which cannot fully exploit the potential of bidirectional learning signals from parallel data. To address this issue, we propose a {\em duplex} seq2seq neural network, REDER (Reversible Duplex Transformer), and apply it to machine translation. The architecture of REDER has two ends, each of which specializes in a language so as to read and yield sequences in that language. As a result, REDER can simultaneously learn from the bidirectional signals, and enables {\em reversible machine translation} by simply flipping the input and output ends, Experiments on widely-used machine translation benchmarks verify that REDER achieves the first success of reversible machine translation, which helps obtain considerable gains over several strong baselines.
公開日:2021-05-07
翻訳日:2021-05-11 15:55:47
# (参考訳) Incoherenceは驚きか? 言語モデルからのコヒーレンス予測の目標評価

Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction from Language Models ( http://arxiv.org/abs/2105.03495v1 )

ライセンス: CC BY 4.0
Anne Beyer and Sharid Lo\'aiciga and David Schlangen(参考訳) コヒーレントな談話は、表現の選択、表現されたイベント間の論理的関係、世界知識との暗黙の互換性など、様々な制約のセットの満足度によって、単に発話の集まりと区別される。 ニューラルネットワークモデルはそのような制約をエンコードするのか? 談話と対話の一貫性の異なる側面に対処する拡張可能なテストスイートを設計する。 従来のコヒーレンス評価研究とは異なり、文順の摂動を超えた特定の言語デバイスに対処し、コヒーレンスを構成するものや、言語モデリングの目的に基づいて訓練されたニューラルモデルがエンコードするものをよりきめ細かな分析を可能にする。 ニューラルネットワークモデルに対する目標評価パラダイム(Marvin and Linzen, 2018)を構文以外の現象に拡張することにより、このパラダイムがコヒーレンスの概念に寄与する言語的品質の評価に等しく適していることを示す。

Coherent discourse is distinguished from a mere collection of utterances by the satisfaction of a diverse set of constraints, for example choice of expression, logical relation between denoted events, and implicit compatibility with world-knowledge. Do neural language models encode such constraints? We design an extendable set of test suites addressing different aspects of discourse and dialogue coherence. Unlike most previous coherence evaluation studies, we address specific linguistic devices beyond sentence order perturbations, allowing for a more fine-grained analysis of what constitutes coherence and what neural models trained on a language modelling objective do encode. Extending the targeted evaluation paradigm for neural language models (Marvin and Linzen, 2018) to phenomena beyond syntax, we show that this paradigm is equally suited to evaluate linguistic qualities that contribute to the notion of coherence.
公開日:2021-05-07
翻訳日:2021-05-11 15:55:26
# (参考訳) 自己学習による言語横断読解の改善

Improving Cross-Lingual Reading Comprehension with Self-Training ( http://arxiv.org/abs/2105.03627v1 )

ライセンス: CC BY 4.0
Wei-Cheng Huang, Chien-yu Huang, Hung-yi Lee(参考訳) マシンが与えられたコンテキストに基づいて質問に答える機械読解において、実質的な改善がなされている。 現在の最先端のモデルは、いくつかのベンチマークで人間のパフォーマンスを超えている。 しかし、言語横断のシナリオにおけるそれらの能力はまだ検討されている。 従来の研究は、ゼロショットのクロスリンガル読解のための事前学習された多言語モデルの能力を明らかにしている。 本稿では,ラベルのないデータを利用して性能を向上する。 モデルはまずソース言語コーパスに基づいて教師あり、次にラベルなしのターゲット言語データで自己学習される。 実験の結果,すべての言語が改善され,質的側面から言語間理解に自己学習がどう役立つかを検討した。

Substantial improvements have been made in machine reading comprehension, where the machine answers questions based on a given context. Current state-of-the-art models even surpass human performance on several benchmarks. However, their abilities in the cross-lingual scenario are still to be explored. Previous works have revealed the abilities of pre-trained multilingual models for zero-shot cross-lingual reading comprehension. In this paper, we further utilized unlabeled data to improve the performance. The model is first supervised-trained on source language corpus, and then self-trained with unlabeled target language data. The experiment results showed improvements for all languages, and we also analyzed how self-training benefits cross-lingual reading comprehension in qualitative aspects.
公開日:2021-05-08
翻訳日:2021-05-11 15:55:09
# (参考訳) テキストの論理推論のための論理駆動コンテキスト拡張とデータ拡張

Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text ( http://arxiv.org/abs/2105.03659v1 )

ライセンス: CC BY 4.0
Siyuan Wang, Wanjun Zhong, Duyu Tang, Zhongyu Wei, Zhihao Fan, Daxin Jiang, Ming Zhou and Nan Duan(参考訳) テキストの論理的推論には、テキスト内の重要な論理情報の理解と推論が必要である。 論理推論のための大規模事前学習モデルは主に、記号論理を捉えるのに苦労しながら、テキストの単語レベルの意味論に焦点を当てている。 本稿では,テキスト中の論理記号と表現を理解して,その答えにたどり着くことを提案する。 このような論理的情報に基づいて,文脈拡張フレームワークを提案するだけでなく,データ拡張アルゴリズムを提案する。 前者は文脈を拡張し、論理同値法則に従って暗黙の論理式をカバーする。 後者は文字通り類似しているが論理的に異なるインスタンスを拡張して、論理情報、特に論理的負関係と条件関係をよりよくキャプチャする。 ReClorデータセット上で実験を行う。 その結果,本手法は最先端性能を実現し,論理駆動型コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度の向上に役立つことがわかった。 そしてマルチモデルアンサンブルシステムは、簡単なセットとハードセットの両方で人間のパフォーマンスを初めて上回ったシステムです。

Logical reasoning of text requires understanding critical logical information in the text and performing inference over them. Large-scale pre-trained models for logical reasoning mainly focus on word-level semantics of text while struggling to capture symbolic logic. In this paper, we propose to understand logical symbols and expressions in the text to arrive at the answer. Based on such logical information, we not only put forward a context extension framework but also propose a data augmentation algorithm. The former extends the context to cover implicit logical expressions following logical equivalence laws. The latter augments literally similar but logically different instances to better capture logical information, especially logical negative and conditional relationships. We conduct experiments on ReClor dataset. The results show that our method achieves the state-of-the-art performance, and both logic-driven context extension framework and data augmentation algorithm can help improve the accuracy. And our multi-model ensemble system is the first to surpass human performance on both EASY set and HARD set of ReClor.
公開日:2021-05-08
翻訳日:2021-05-11 15:54:58
# (参考訳) マンパワースケジューリング問題の解法に関するインテリジェントモデル

An Intelligent Model for Solving Manpower Scheduling Problems ( http://arxiv.org/abs/2105.03540v1 )

ライセンス: CC BY 4.0
Lingyu Zhang and Tianyu Liu and Yunhai Wang(参考訳) 人力スケジューリング問題は、資源管理分野における重要な研究分野である。 本稿では,スケジューリング問題に関する既存の研究に基づいて,マンパワースケジューリング問題を新しい視点から,複数制約条件下での組合せ最適化問題に変換する。 また、論理的パラダイムを用いて問題解の数学的モデルを構築し、モデルを解くための改良された多次元進化アルゴリズムも構築する。 さらに,本稿で論じる制約は,現代社会における人的資源調整の要件をすべて網羅するものであり,実験結果に支えられている。 議論部では,本モデルと他のヒューリスティックアルゴリズムや線形プログラミング手法を比較し,本論文で提案するモデルが25.7%の効率向上と17%の精度向上を実現していることを示す。 さらに,マンパワースケジューリング問題の数値解法として,タスクリスト生成のスケジューリングアルゴリズムとスケジューリング結果の表示法について検討する。 その結果, 基本アルゴリズムの様々な改良によって異なる条件問題が解決されるだけでなく, 異なるベースラインモデルとの比較により少なくとも28.91%の時間効率が向上する新しいアルゴリズムを提案する。

The manpower scheduling problem is a critical research field in the resource management area. Based on the existing studies on scheduling problem solutions, this paper transforms the manpower scheduling problem into a combinational optimization problem under multi-constraint conditions from a new perspective. It also uses logical paradigms to build a mathematical model for problem solution and an improved multi-dimensional evolution algorithm for solving the model. Moreover, the constraints discussed in this paper basically cover all the requirements of human resource coordination in modern society and are supported by our experiment results. In the discussion part, we compare our model with other heuristic algorithms or linear programming methods and prove that the model proposed in this paper makes a 25.7% increase in efficiency and a 17% increase in accuracy at most. In addition, to the numerical solution of the manpower scheduling problem, this paper also studies the algorithm for scheduling task list generation and the method of displaying scheduling results. As a result, we not only provide various modifications for the basic algorithm to solve different condition problems but also propose a new algorithm that increases at least 28.91% in time efficiency by comparing with different baseline models.
公開日:2021-05-07
翻訳日:2021-05-11 15:52:44
# (参考訳) 適応オブジェクト検出のためのドメイン特化抑制

Domain-Specific Suppression for Adaptive Object Detection ( http://arxiv.org/abs/2105.03570v1 )

ライセンス: CC BY 4.0
Yu Wang, Rui Zhang, Shuo Zhang, Miao Li, YangYang Xia, XiShan Zhang, ShaoLi Liu(参考訳) ドメイン適応メソッドは、オブジェクト検出においてパフォーマンス低下に直面し、タスクの複雑さはモデルの転送可能性についてより多くを必要とする。 本研究では,cnnモデルが伝達性を得るための新しい視点を提案し,モデルの重みを一連の運動パターンとして捉えた。 重みの方向と勾配はドメイン固有部分とドメイン不変部分に分けられ、ドメイン適応の目的はドメイン固有部分から乱を排除しながらドメイン不変方向に集中することである。 現在のudaオブジェクト検出手法では、2つの方向を最適化しながら全体として見ているため、出力機能が完全に整列していても、ドメイン不変の方向ミスマッチを引き起こす。 本稿では,2つの方向を分離し,ドメイン固有の方向を抑えるために,バックプロパゲーションにおける元の畳み込み勾配に対する例と一般化可能な制約であるドメイン固有抑制を提案する。 さらに,天気,カメラ構成,合成から現実世界への適応など,複数の領域適応オブジェクト検出タスクに関する理論的解析と手法を検証した。 実験の結果,UDAオブジェクト検出分野における最先端手法に対する大きな進歩を示し,これらすべてのドメイン適応シナリオに対して10.2\sim12.2\%$ mAPのプロモーションを行うことができた。

Domain adaptation methods face performance degradation in object detection, as the complexity of tasks require more about the transferability of the model. We propose a new perspective on how CNN models gain the transferability, viewing the weights of a model as a series of motion patterns. The directions of weights, and the gradients, can be divided into domain-specific and domain-invariant parts, and the goal of domain adaptation is to concentrate on the domain-invariant direction while eliminating the disturbance from domain-specific one. Current UDA object detection methods view the two directions as a whole while optimizing, which will cause domain-invariant direction mismatch even if the output features are perfectly aligned. In this paper, we propose the domain-specific suppression, an exemplary and generalizable constraint to the original convolution gradients in backpropagation to detach the two parts of directions and suppress the domain-specific one. We further validate our theoretical analysis and methods on several domain adaptive object detection tasks, including weather, camera configuration, and synthetic to real-world adaptation. Our experiment results show significant advance over the state-of-the-art methods in the UDA object detection field, performing a promotion of $10.2\sim12.2\%$ mAP on all these domain adaptation scenarios.
公開日:2021-05-08
翻訳日:2021-05-11 15:52:10
# (参考訳) Dynamic-OFA:不均一な組み込みプラットフォーム上でのパフォーマンススケーリングのための実行時DNNアーキテクチャスイッチ

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03596v1 )

ライセンス: CC BY 4.0
Wei Lou, Lei Xun, Amin Sabet, Jia Bi, Jonathon Hare, Geoff V. Merrett(参考訳) モバイルおよび組み込みプラットフォームは、不均一な処理要素をまたいだ計算要求のDNNを効率的に実行するためにますます必要となる。 実行時に、DNNに利用可能なハードウェアリソースは、他の並列実行アプリケーションによって大きく異なる可能性がある。 アプリケーションのパフォーマンス要件は、異なるシナリオの下でも変更できる。 所望の性能を達成するために,様々な資源制約の下で異なる要求を満たすために,チャネル/レイヤの数をリアルタイムでスケールできる動的dnnが提案されている。 しかし、このような動的DNNのトレーニングプロセスは、異なるデプロイメントシナリオのプラットフォーム対応モデルを再トレーニングする必要があるため、コストがかかる可能性がある。 本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。 全ネットワーク(OFA)。 dynamic-ofaは静的ofaバックボーンモデルからサブネットワークのファミリーをプリサンプリングし、異なるランタイム環境下で異なるサブネットワークを選択するランタイムマネージャを含む。 そのため、Dynamic-OFAは従来の動的DNNトレーニングパイプラインを必要としない。 最新技術と比較すると、Jetson Xavier NX上でのImageNetを用いた実験結果は、アプローチが類似のImageNet Top-1精度で3.5x(CPU)、2.4x(GPU)、または3.8%(CPU)、同様のレイテンシで5.1%(GPU)の精度であることを示している。

Mobile and embedded platforms are increasingly required to efficiently execute computationally demanding DNNs across heterogeneous processing elements. At runtime, the available hardware resources to DNNs can vary considerably due to other concurrently running applications. The performance requirements of the applications could also change under different scenarios. To achieve the desired performance, dynamic DNNs have been proposed in which the number of channels/layers can be scaled in real time to meet different requirements under varying resource constraints. However, the training process of such dynamic DNNs can be costly, since platform-aware models of different deployment scenarios must be retrained to become dynamic. This paper proposes Dynamic-OFA, a novel dynamic DNN approach for state-of-the-art platform-aware NAS models (i.e. Once-for-all network (OFA)). Dynamic-OFA pre-samples a family of sub-networks from a static OFA backbone model, and contains a runtime manager to choose different sub-networks under different runtime environments. As such, Dynamic-OFA does not need the traditional dynamic DNN training pipeline. Compared to the state-of-the-art, our experimental results using ImageNet on a Jetson Xavier NX show that the approach is up to 3.5x (CPU), 2.4x (GPU) faster for similar ImageNet Top-1 accuracy, or 3.8% (CPU), 5.1% (GPU) higher accuracy at similar latency.
公開日:2021-05-08
翻訳日:2021-05-11 15:51:47
# (参考訳) 不均一な組み込みプラットフォーム上での実行時DNNパフォーマンススケーリングのためのインクリメンタルトレーニングとグループ畳み込み

Incremental Training and Group Convolution Pruning for Runtime DNN Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03600v1 )

ライセンス: CC BY 4.0
Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett(参考訳) Deep Neural Networksの推論は、レイテンシ、プライバシ、接続性の利点から、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。 現代のSystem on Chipsは、通常、異なるワークロードと動的ワークロードの組み合わせを同時に実行するため、DNNで利用可能なローカルコンピューティングリソースが異なるため、実行時に推論時間/エネルギー予算を一貫して満たすことは困難である。 この課題に対処するために、様々な動的DNNが提案された。 しかしながら、これらの作業には大きなメモリオーバーヘッド、ランタイム回復可能な圧縮速度の制限、パフォーマンススケーリングのダイナミックレンジの制限がある。 本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。 dnn畳み込み層のチャネルはグループに分割され、段階的に訓練される。 実行時に、以下のグループは推論時間/エネルギー削減のためにプルーニングしたり、モデルの再トレーニングなしで精度回復のために追加することができる。 さらに、タスクマッピングと動的電圧周波数スケーリング(DVFS)を動的DNNと組み合わせることで、より広いダイナミックレンジでの精度と時間/電力/エネルギーのトレードオフをより細かくする。 我々は、CIFAR10イメージデータセットのためにAlexNetを修正し、Odroid XU3(ARM Big.LITTLE CPU)とNvidia Jetson Nano(CPUとGPU)という2つの異種ハードウェアプラットフォーム上での作業を評価した。 既存の作品と比較して、このアプローチは最大2.36倍(エネルギー)と2.73倍(時間)のダイナミックレンジを提供し、同じ圧縮レートで2.4倍のメモリフットプリントを削減できる。 タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。

Inference for Deep Neural Networks is increasingly being executed locally on mobile and embedded platforms due to its advantages in latency, privacy and connectivity. Since modern System on Chips typically execute a combination of different and dynamic workloads concurrently, it is challenging to consistently meet inference time/energy budget at runtime because of the local computing resources available to the DNNs vary considerably. To address this challenge, a variety of dynamic DNNs were proposed. However, these works have significant memory overhead, limited runtime recoverable compression rate and narrow dynamic ranges of performance scaling. In this paper, we present a dynamic DNN using incremental training and group convolution pruning. The channels of the DNN convolution layer are divided into groups, which are then trained incrementally. At runtime, following groups can be pruned for inference time/energy reduction or added back for accuracy recovery without model retraining. In addition, we combine task mapping and Dynamic Voltage Frequency Scaling (DVFS) with our dynamic DNN to deliver finer trade-off between accuracy and time/power/energy over a wider dynamic range. We illustrate the approach by modifying AlexNet for the CIFAR10 image dataset and evaluate our work on two heterogeneous hardware platforms: Odroid XU3 (ARM big.LITTLE CPUs) and Nvidia Jetson Nano (CPU and GPU). Compared to the existing works, our approach can provide up to 2.36x (energy) and 2.73x (time) wider dynamic range with a 2.4x smaller memory footprint at the same compression rate. It achieved 10.6x (energy) and 41.6x (time) wider dynamic range by combining with task mapping and DVFS.
公開日:2021-05-08
翻訳日:2021-05-11 15:51:20
# (参考訳) 組み込み機械学習のためのリソース管理の最適化

Optimising Resource Management for Embedded Machine Learning ( http://arxiv.org/abs/2105.03608v1 )

ライセンス: CC BY 4.0
Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett(参考訳) マシンラーニングの推論は、レイテンシやプライバシ、接続性に明確なメリットがあるため、モバイルおよび組み込みプラットフォーム上でのローカル実行がますます増えている。 本稿では、異種マルチコアシステムにおけるオンラインリソース管理のアプローチを提案し、機械学習ワークロードの性能を最適化する方法を示す。 パフォーマンスはプラットフォームに依存して定義することができる(例)。 スピード、エネルギー)とプラットフォームに依存しない(正確性、信頼性)メトリクス。 特に、ディープニューラルネットワーク(dnn)が動的にスケーラブルになり、これらの様々なパフォーマンス指標をトレードオフできることを示す。 異なるプラットフォーム上で実行する場合の一貫したパフォーマンスを実現するには、提供されるリソースとその能力、他のワークロードと並行して実行する場合の時間的不安定性など、非常に困難である。 利用可能なハードウェアリソース間のインターフェース管理(本質的には多種多様なハードウェアリソース)、ソフトウェア要件、ユーザエクスペリエンスはますます複雑になっています。

Machine learning inference is increasingly being executed locally on mobile and embedded platforms, due to the clear advantages in latency, privacy and connectivity. In this paper, we present approaches for online resource management in heterogeneous multi-core systems and show how they can be applied to optimise the performance of machine learning workloads. Performance can be defined using platform-dependent (e.g. speed, energy) and platform-independent (accuracy, confidence) metrics. In particular, we show how a Deep Neural Network (DNN) can be dynamically scalable to trade-off these various performance metrics. Achieving consistent performance when executing on different platforms is necessary yet challenging, due to the different resources provided and their capability, and their time-varying availability when executing alongside other workloads. Managing the interface between available hardware resources (often numerous and heterogeneous in nature), software requirements, and user experience is increasingly complex.
公開日:2021-05-08
翻訳日:2021-05-11 15:50:50
# (参考訳) デンス検索のための擬似クエリ埋め込み生成による文書表現の改善

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval ( http://arxiv.org/abs/2105.03599v1 )

ライセンス: CC BY 4.0
Hongyin Tang, Xingwu Sun, Beihong Jin, Jingang Wang, Fuzheng Zhang, Wei Wu(参考訳) 近年,高密度表現に基づく検索モデルは文書検索タスクの第1段階で徐々に適用され,従来の疎ベクトル空間モデルよりも優れた性能を示している。 高効率を得るために、これらのモデルの基本的な構造は、ほとんどの場合ビエンコーダである。 しかし、この単純な構造はクエリに依存せず、ドキュメントのエンコーディング中に深刻な情報損失を引き起こす可能性がある。 この問題に対処するために,各文書のクエリを反復的クラスタリングプロセスで模倣し,複数の疑似クエリ(すなわちクラスタセンタロイド)で文書を表現する手法を設計する。 また,近接探索ライブラリを用いて検索処理を高速化するために,2段階のスコア計算手順でマッチング機能を最適化する。 いくつかの人気ランキングとQAデータセットの実験結果から、我々のモデルが最先端の結果を得ることができることが示された。

Recently, the retrieval models based on dense representations have been gradually applied in the first stage of the document retrieval tasks, showing better performance than traditional sparse vector space models. To obtain high efficiency, the basic structure of these models is Bi-encoder in most cases. However, this simple structure may cause serious information loss during the encoding of documents since the queries are agnostic. To address this problem, we design a method to mimic the queries on each of the documents by an iterative clustering process and represent the documents by multiple pseudo queries (i.e., the cluster centroids). To boost the retrieval process using approximate nearest neighbor search library, we also optimize the matching function with a two-step score calculation procedure. Experimental results on several popular ranking and QA datasets show that our model can achieve state-of-the-art results.
公開日:2021-05-08
翻訳日:2021-05-11 15:47:33
# (参考訳) 人工ニューラルネットワークによる人力スケジューリング問題の解法

Apply Artificial Neural Network to Solving Manpower Scheduling Problem ( http://arxiv.org/abs/2105.03541v1 )

ライセンス: CC BY 4.0
Tianyu Liu and Lingyu Zhang(参考訳) マンパワースケジューリング問題は、ある種の重要な組合せ最適化問題である。 スケジューリング問題に対するソリューションの研究は、企業、病院、その他の作業ユニットの効率を改善することができる。 本稿では,既存研究に基づくマルチシフトマンパワースケジューリング問題を解決するために,ディープラーニングと組み合わせた新しいモデルを提案する。 このモデルは、まず現在の制約に従って目的関数の最適化値を解決し、最初に従業員配置の計画を見つける。 その後、スケジューリングテーブル生成アルゴリズムを使用して、短時間でスケジューリング結果を取得する。 さらに,我々の提案する最も顕著な特徴は,時系列に基づくニューラルネットワークトレーニング手法を用いて,長期・長期のスケジューリングタスクを解決し,マンパワーアレンジメントを得ることである。 本稿では,ニューラルネットワークの選択基準とトレーニングプロセスについても述べる。 本モデルでは,ニューラルネットワークの改良により正確な予測を行うことができることを示す。 本稿では,ニューラルネットワークトレーニングプロセスの課題についても論じ,アレンジメント計画の達成後に啓蒙結果を得る。 我々の研究は、ニューラルネットワークとディープラーニング戦略が、同様の問題を効果的に解決する可能性を示唆している。

The manpower scheduling problem is a kind of critical combinational optimization problem. Researching solutions to scheduling problems can improve the efficiency of companies, hospitals, and other work units. This paper proposes a new model combined with deep learning to solve the multi-shift manpower scheduling problem based on the existing research. This model first solves the objective function's optimized value according to the current constraints to find the plan of employee arrangement initially. It will then use the scheduling table generation algorithm to obtain the scheduling result in a short time. Moreover, the most prominent feature we propose is that we will use the neural network training method based on the time series to solve long-term and long-period scheduling tasks and obtain manpower arrangement. The selection criteria of the neural network and the training process are also described in this paper. We demonstrate that our model can make a precise forecast based on the improvement of neural networks. This paper also discusses the challenges in the neural network training process and obtains enlightening results after getting the arrangement plan. Our research shows that neural networks and deep learning strategies have the potential to solve similar problems effectively.
公開日:2021-05-07
翻訳日:2021-05-11 15:46:54
# (参考訳) 全分布に依存する一般報酬関数を用いた純粋探査バンドイット問題

Pure Exploration Bandit Problem with General Reward Functions Depending on Full Distributions ( http://arxiv.org/abs/2105.03598v1 )

ライセンス: CC0 1.0
Siwei Wang, Wei Chen(参考訳) 本稿では,一般分布関数の純粋探索バンディットモデルについて検討する。つまり,各アームの報酬関数は,その平均値だけでなく,分布全体に依存する。 この問題を解決するために、レースフレームワークとLUCBフレームワークを適用し、異なる種類の分布で報酬関数の価値を推定するアルゴリズムを設計する。 そして,提案手法が適切なパラメータで正確性を保証することを示し,それらのサンプル複雑性上限を求める。 最後に,学習フレームワーク下で重要なアプリケーションとその対応ソリューションについて論じる。

In this paper, we study the pure exploration bandit model on general distribution functions, which means that the reward function of each arm depends on the whole distribution, not only its mean. We adapt the racing framework and LUCB framework to solve this problem, and design algorithms for estimating the value of the reward functions with different types of distributions. Then we show that our estimation methods have correctness guarantee with proper parameters, and obtain sample complexity upper bounds for them. Finally, we discuss about some important applications and their corresponding solutions under our learning framework.
公開日:2021-05-08
翻訳日:2021-05-11 15:46:39
# (参考訳) プログラムのトレーニング方法

How To Train Your Program ( http://arxiv.org/abs/2105.03650v1 )

ライセンス: CC BY 4.0
David Tolpin(参考訳) 確率的プログラムを用いた機械学習に対するベイズ的アプローチを提案する。 本手法では,階層モデルに基づく推論として,利用可能なデータのトレーニングを行う。 モデルパラメータの後続分布は、新しいデータに対する推論が、新しいデータに対応する潜在パラメータの同じ後続分布を、より低い計算コストで、既に利用可能なデータと新しいデータの組み合わせによる階層モデル上の推論として生成する補完モデルであるtextit{stochastically condition} に使用される。 我々は,このアプローチを'stump and fungus'と呼ばれる確率的プログラミングの設計パターンとし,そのパターンの実現をディダクティックなケーススタディで示す。

We present a Bayesian approach to machine learning with probabilistic programs. In our approach, training on available data is implemented as inference on a hierarchical model. The posterior distribution of model parameters is then used to \textit{stochastically condition} a complementary model, such that inference on new data yields the same posterior distribution of latent parameters corresponding to the new data as inference on a hierachical model on the combination of both previously available and new data, at a lower computation cost. We frame the approach as a design pattern of probabilistic programming referred to herein as `stump and fungus', and illustrate realization of the pattern on a didactic case study.
公開日:2021-05-08
翻訳日:2021-05-11 15:46:30
# (参考訳) マイグレーション画像による非教師なしリモートセンシングスーパーレゾリューション

Unsupervised Remote Sensing Super-Resolution via Migration Image Prior ( http://arxiv.org/abs/2105.03579v1 )

ライセンス: CC BY 4.0
Jiaming Wang, Zhenfeng Shao, Tao Liu, Xiao Huang, Ruiqian Zhang, Yu Wang(参考訳) 近年,高時間分解能の衛星が様々な実用化に広く注目されている。 しかし、帯域幅の制限とハードウェアコストのため、そのような衛星の空間分解能はかなり低く、空間的に明示的な情報を必要とするシナリオにおいてそのポテンシャルをほとんど制限している。 画像解像度を改善するために,超解像度(sr)タスクに対処するために,低解像度ペアのトレーニングに基づく多数のアプローチが提案されている。 しかし、その成功にもかかわらず、低空間分解能と高空間分解能のペアは通常、高時間分解能の衛星では取得が困難であり、そのようなアプローチはSRでは使用できない。 本稿では,低解像度画像ペアを使わずにSRタスクを実現する,新しい教師なし学習フレームワーク"MIP"を提案する。 まず,ランダムなノイズマップをGAN(Design Generative Adversarial Network)に入力して再構成を行う。 そこで,提案手法では,参照画像を移動画像として遅延空間に変換する。 最後に、暗黙的な方法で入力ノイズを更新し、さらにテクスチャと構造化情報を参照画像から転送する。 Draperデータセットの大規模な実験結果から、MIPは最先端の手法よりも定量的にも質的にも大幅な改善を達成している。 提案されたMIPはhttp://github.com/ji aming-wang/MIPでオープンソース化されている。

Recently, satellites with high temporal resolution have fostered wide attention in various practical applications. Due to limitations of bandwidth and hardware cost, however, the spatial resolution of such satellites is considerably low, largely limiting their potentials in scenarios that require spatially explicit information. To improve image resolution, numerous approaches based on training low-high resolution pairs have been proposed to address the super-resolution (SR) task. Despite their success, however, low/high spatial resolution pairs are usually difficult to obtain in satellites with a high temporal resolution, making such approaches in SR impractical to use. In this paper, we proposed a new unsupervised learning framework, called "MIP", which achieves SR tasks without low/high resolution image pairs. First, random noise maps are fed into a designed generative adversarial network (GAN) for reconstruction. Then, the proposed method converts the reference image to latent space as the migration image prior. Finally, we update the input noise via an implicit method, and further transfer the texture and structured information from the reference image. Extensive experimental results on the Draper dataset show that MIP achieves significant improvements over state-of-the-art methods both quantitatively and qualitatively. The proposed MIP is open-sourced at http://github.com/ji aming-wang/MIP.
公開日:2021-05-08
翻訳日:2021-05-11 15:44:03
# (参考訳) マルチラベルリモートセンシング画像検索・検索のための新しい三重項サンプリング法

A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image Search and Retrieval ( http://arxiv.org/abs/2105.03647v1 )

ライセンス: CC BY 4.0
Tristan Kreuziger, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) リモートセンシング(RS)画像の類似性を学習することは、コンテンツベースRS画像検索(CBIR)の基礎となる。 近年,画像の意味的類似性を埋め込み空間にマッピングするディープメトリック学習手法が,RSで非常に人気がある。 計量空間を学習するための一般的なアプローチは、アンカーと呼ばれる参照画像に対する類似(正)および異(負)の画像の選択に依存する。 特にマルチラベルRS CBIRでは,各トレーニングイメージに複数のクラスラベルがアノテートされるため,トリプレットの選択は難しい課題である。 本稿では,多ラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNN)の枠組みにおける新しいトリプルトサンプリング手法を提案する。 提案手法は,2つの主要なステップに基づいて,最も代表的なトリプレットと情報トリプレットの小さなセットを選択する。 第1のステップでは、反復アルゴリズムを用いて現在のミニバッチから、埋め込み空間内で互いに多様なアンカー群を選択する。 第2のステップでは、新たなランキング戦略に基づいて、画像の関連性、硬度、多様性を評価することにより、各アンカーに対して異なる正と負のイメージセットを選択する。 2つのマルチラベルベンチマークで得られた実験結果から,dnnsの文脈における最も有益で代表的な三重項の選択は,(1)性能を損なうことなく,dnnのトレーニングフェーズの計算複雑性を低減すること,(2)有益三重項が高速収束を可能にするため,学習速度が向上すること,という結果が得られた。 提案手法のコードは https://git.tu-berli n.de/rsim/image-retr ieval-from-triplets で公開されている。

Learning the similarity between remote sensing (RS) images forms the foundation for content based RS image retrieval (CBIR). Recently, deep metric learning approaches that map the semantic similarity of images into an embedding space have been found very popular in RS. A common approach for learning the metric space relies on the selection of triplets of similar (positive) and dissimilar (negative) images to a reference image called as an anchor. Choosing triplets is a difficult task particularly for multi-label RS CBIR, where each training image is annotated by multiple class labels. To address this problem, in this paper we propose a novel triplet sampling method in the framework of deep neural networks (DNNs) defined for multi-label RS CBIR problems. The proposed method selects a small set of the most representative and informative triplets based on two main steps. In the first step, a set of anchors that are diverse to each other in the embedding space is selected from the current mini-batch using an iterative algorithm. In the second step, different sets of positive and negative images are chosen for each anchor by evaluating relevancy, hardness, and diversity of the images among each other based on a novel ranking strategy. Experimental results obtained on two multi-label benchmark achieves show that the selection of the most informative and representative triplets in the context of DNNs results in: i) reducing the computational complexity of the training phase of the DNNs without any significant loss on the performance; and ii) an increase in learning speed since informative triplets allow fast convergence. The code of the proposed method is publicly available at https://git.tu-berli n.de/rsim/image-retr ieval-from-triplets.
公開日:2021-05-08
翻訳日:2021-05-11 15:43:42
# (参考訳) SimJEB: Simulated Jet Engine Bracket Dataset

SimJEB: Simulated Jet Engine Bracket Dataset ( http://arxiv.org/abs/2105.03534v1 )

ライセンス: CC BY 4.0
Eamon Whalen, Azariah Beyene, Caitlin Mueller(参考訳) 近年の幾何学的ディープラーニングの進歩により、新しい種類のエンジニアリングサーロゲートモデルが可能になったが、既存の形状データセットは評価に適していない。 本稿では,クラウドソーシングされた新しい機械括弧の集合であるシミュレートジェットエンジンブラケットデータセット(simjeb)と,サロゲートモデリング用に設計された高忠実度構造シミュレーションについて紹介する。 SimJEBモデルは、パラメトリックサロゲートモデル評価で一般的に使用される合成データセットよりも複雑で多様でリアルである。 既存のエンジニアリング形状のコレクションとは対照的に、SimJEBのモデルはどれも同じエンジニアリング機能のために設計されており、一貫した構造的な負荷とサポート条件を持つ。 SimJEBのモデルは、GrabCAD Jet Engine Bracket Challenge: 56か国を代表する320人のデザイナーによる700以上の手作りCADエントリーとのオープンエンジニアリングデザインコンペティションから集められた。 各モデルはクリーニング、分類、メッシュ化され、元の競合仕様に従って有限要素分析によってシミュレートされている。 その結果は、幾何学的深層学習と工学的サロゲートモデルを進めるための多様で高品質でアプリケーション中心の設計のコレクションである。

Recent advancements in geometric deep learning have enabled a new class of engineering surrogate models; however, few existing shape datasets are well-suited to evaluate them. This paper introduces the Simulated Jet Engine Bracket Dataset (SimJEB): a new, public collection of crowdsourced mechanical brackets and high-fidelity structural simulations designed specifically for surrogate modeling. SimJEB models are more complex, diverse, and realistic than the synthetically generated datasets commonly used in parametric surrogate model evaluation. In contrast to existing engineering shape collections, SimJEB's models are all designed for the same engineering function and thus have consistent structural loads and support conditions. The models in SimJEB were collected from the original submissions to the GrabCAD Jet Engine Bracket Challenge: an open engineering design competition with over 700 hand-designed CAD entries from 320 designers representing 56 countries. Each model has been cleaned, categorized, meshed, and simulated with finite element analysis according to the original competition specifications. The result is a collection of diverse, high-quality and application-focused designs for advancing geometric deep learning and engineering surrogate models.
公開日:2021-05-07
翻訳日:2021-05-11 15:42:17
# (参考訳) 話者インフォームドモデル選択によるゼロショット個人化音声強調

Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model Selection ( http://arxiv.org/abs/2105.03542v1 )

ライセンス: CC BY 4.0
Aswin Sivaraman, Minje Kim(参考訳) 本稿では,スパースアクティブアンサンブルモデルを用いて,パーソナライズされた音声強調に対するゼロショット学習手法を提案する。 特定のテスト時間話者に向かって音声を発音するシステムを最適化することは、パフォーマンスを改善し、実行時の複雑さを低減できる。 しかし、テストタイム話者からデータを収集できない場合、テストタイムモデル適応は困難である。 そこで,本研究では,各専門家モジュールが学習集合話者の異なる分割から雑音発話を発音するアンサンブルモデルを提案する。 ゲーティングモジュールは、埋め込みベクトルの形でテスト時間スピーカ特性を安価に推定し、テスト信号をデノージする最も適切な専門モジュールを選択する。 トレーニングセットの話者を重複しない意味的に類似したグループにグループ化することは、自明で未定義である。 そこで我々はまず、雑音の多い音声対を用いてシームズネットワークを訓練し、同じ話者から発する発話の有無に応じて出力ベクトルの類似性を最大化または最小化する。 次に、トレーニングセット話者あたりの平均埋め込みベクトルによって形成された潜在空間上でk平均クラスタリングを行う。 このように話者グループを定義し,完全なトレーニングセットの分割を中心に最適化した専門モジュールを訓練する。 実験の結果,低容量スペシャリストによるアンサンブルモデルでは,高容量ジェネリストモデルよりも効率が良く,テストタイムの未確認話者への適応性が向上することがわかった。

This paper presents a novel zero-shot learning approach towards personalized speech enhancement through the use of a sparsely active ensemble model. Optimizing speech denoising systems towards a particular test-time speaker can improve performance and reduce run-time complexity. However, test-time model adaptation may be challenging if collecting data from the test-time speaker is not possible. To this end, we propose using an ensemble model wherein each specialist module denoises noisy utterances from a distinct partition of training set speakers. The gating module inexpensively estimates test-time speaker characteristics in the form of an embedding vector and selects the most appropriate specialist module for denoising the test signal. Grouping the training set speakers into non-overlapping semantically similar groups is non-trivial and ill-defined. To do this, we first train a Siamese network using noisy speech pairs to maximize or minimize the similarity of its output vectors depending on whether the utterances derive from the same speaker or not. Next, we perform k-means clustering on the latent space formed by the averaged embedding vectors per training set speaker. In this way, we designate speaker groups and train specialist modules optimized around partitions of the complete training set. Our experiments show that ensemble models made up of low-capacity specialists can outperform high-capacity generalist models with greater efficiency and improved adaptation towards unseen test-time speakers.
公開日:2021-05-08
翻訳日:2021-05-11 15:39:25
# (参考訳) 個人化音声強調に向けたテスト時間適応:知識蒸留によるゼロショット学習

Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation ( http://arxiv.org/abs/2105.03544v1 )

ライセンス: CC BY 4.0
Sunwoo Kim and Minje Kim(参考訳) エンドユーザーデバイスにおける現実的な音声強調設定では、特定の音響環境において再起しがちな話者やノイズタイプに遭遇することが多い。 本稿では,テスト時間特異性に適応するコンパクトな認知モデルを実現するための,パーソナライズされた音声強調手法を提案する。 このテスト時間適応の目標は、テスト話者のクリーンな音声目標を活用せず、ゼロショット学習の要件を満たすことである。 クリーン発話の欠如を補うため,我々は知識蒸留の枠組みを採用している。 欠落しているクリーンな発話目標の代わりに、非常に大きな教師モデルからより高度な発音結果を抽出し、それを疑似目標として、小学生モデルを訓練します。 このゼロショット学習手順は、プライバシの懸念やクリーン音声の録音が技術的に困難であることから、ユーザのクリーンスピーチの収集プロセスを回避するものだ。 種々の試験時間条件における実験により,提案手法は,大規模話者・雑音に依存しないデータセットからトレーニングした大規模ベースラインネットワークと比較して,大幅な性能向上を実現することが示された。 また,コンパクトなパーソナライズモデルが汎用モデルよりも優れた性能を持つため,提案手法は分散性能を損なうことなくモデル圧縮を行うことができると主張している。

In realistic speech enhancement settings for end-user devices, we often encounter only a few speakers and noise types that tend to reoccur in the specific acoustic environment. We propose a novel personalized speech enhancement method to adapt a compact denoising model to the test-time specificity. Our goal in this test-time adaptation is to utilize no clean speech target of the test speaker, thus fulfilling the requirement for zero-shot learning. To complement the lack of clean utterance, we employ the knowledge distillation framework. Instead of the missing clean utterance target, we distill the more advanced denoising results from an overly large teacher model, and use it as the pseudo target to train the small student model. This zero-shot learning procedure circumvents the process of collecting users' clean speech, a process that users are reluctant to comply due to privacy concerns and technical difficulty of recording clean voice. Experiments on various test-time conditions show that the proposed personalization method achieves significant performance gains compared to larger baseline networks trained from a large speaker- and noise-agnostic datasets. In addition, since the compact personalized models can outperform larger general-purpose models, we claim that the proposed method performs model compression with no loss of denoising performance.
公開日:2021-05-08
翻訳日:2021-05-11 15:39:00
# (参考訳) ニューラルネットワーク翻訳のための自己指導型カリキュラム学習 [全文訳有]

Self-Guided Curriculum Learning for Neural Machine Translation ( http://arxiv.org/abs/2105.04475v1 )

ライセンス: CC0 1.0
Lei Zhou, Liang Ding, Kevin Duh, Ryohei Sasano, Koichi Takeda(参考訳) 機械学習の分野では、よく訓練されたモデルがトレーニングラベル、すなわちトレーニングラベルを復元できると仮定される。 モデルによって予測される合成ラベルは可能な限り接地ラベルに近いはずである。 そこで我々は,ニューラルネットワーク翻訳(NMT)モデルの学習を上記の回復基準に従って促進する自己指導型カリキュラム戦略を提案し,各学習例の回復度を学習難度として評価した。 具体的には,回復度の指標として文レベルBLEUスコアを採用する。 言語前知識や第三者言語モデルに依存する既存のカリキュラムとは異なり,選択した学習難易度は,nmtモデルの知識熟達度を測定するのに適している。 WMT14 English$\Rightarrow$ German や WMT17 Chinese$\Rightarrow$ English といった翻訳ベンチマークの実験は、我々のアプローチが強力なベースライン変換器に対する翻訳性能を一貫して改善できることを実証している。

In the field of machine learning, the well-trained model is assumed to be able to recover the training labels, i.e. the synthetic labels predicted by the model should be as close to the ground-truth labels as possible. Inspired by this, we propose a self-guided curriculum strategy to encourage the learning of neural machine translation (NMT) models to follow the above recovery criterion, where we cast the recovery degree of each training example as its learning difficulty. Specifically, we adopt the sentence level BLEU score as the proxy of recovery degree. Different from existing curricula relying on linguistic prior knowledge or third-party language models, our chosen learning difficulty is more suitable to measure the degree of knowledge mastery of the NMT models. Experiments on translation benchmarks, including WMT14 English$\Rightarrow$ German and WMT17 Chinese$\Rightarrow$ English, demonstrate that our approach can consistently improve translation performance against strong baseline Transformer.
公開日:2021-05-10
翻訳日:2021-05-11 15:35:23
# 外部文脈検索と協調学習による名前付きエンティティ認識の改善

Improving Named Entity Recognition by External Context Retrieving and Cooperative Learning ( http://arxiv.org/abs/2105.03654v1 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 名前付きエンティティ認識(NER)の最近の進歩は、文書レベルのコンテキストがモデルの性能を大幅に改善できることを示している。 しかし、多くのアプリケーションシナリオでは、そのようなコンテキストは利用できない。 本稿では,原文を問合せとして,検索エンジンを通じて意味的関連テキストの集合を検索し,選択することで,文の外部コンテキストを見つけることを提案する。 文章の結合とその外部の文脈によって構築された検索ベースの入力ビューで計算された文脈表現は、文章のみに基づく元の入力ビューに比べて大幅に性能が向上することを示す。 さらに,2つの入力ビューに類似した文脈表現や出力ラベル分布を生成するトレーニング手法であるCooperative Learningにより,両方の入力ビューのモデル性能を向上させることができる。 実験の結果,5つのドメインにわたる8つのnerデータセットにおいて,新たな最先端のパフォーマンスを実現することができた。

Recent advances in Named Entity Recognition (NER) show that document-level contexts can significantly improve model performance. In many application scenarios, however, such contexts are not available. In this paper, we propose to find external contexts of a sentence by retrieving and selecting a set of semantically relevant texts through a search engine, with the original sentence as the query. We find empirically that the contextual representations computed on the retrieval-based input view, constructed through the concatenation of a sentence and its external contexts, can achieve significantly improved performance compared to the original input view based only on the sentence. Furthermore, we can improve the model performance of both input views by Cooperative Learning, a training method that encourages the two input views to produce similar contextual representations or output label distributions. Experiments show that our approach can achieve new state-of-the-art performance on 8 NER data sets across 5 domains.
公開日:2021-05-08
翻訳日:2021-05-11 15:25:12
# e-ViL:視覚言語課題における自然言語説明のためのデータセットとベンチマーク

e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks ( http://arxiv.org/abs/2105.03761v1 )

ライセンス: Link先を確認
Maxime Kayser, Oana-Maria Camburu, Leonard Salewski, Cornelius Emde, Virginie Do, Zeynep Akata, Thomas Lukasiewicz(参考訳) 近年では、視覚言語(vl)タスクの予測のために自然言語説明(nles)を生成できるモデルが導入されている。 このようなモデルは、人間にやさしく包括的な説明を提供できるので魅力的である。 しかし、これらのモデルによって生成された説明に対して統一的な評価アプローチがまだ存在しない。 さらに、現在VLタスク用のNLEのデータセットはごくわずかである。 本稿では,統合評価フレームワークを構築し,VLタスクのためのNLEを生成する既存のアプローチを総合的に比較した,説明可能な視覚言語タスクのベンチマークであるe-ViLを紹介する。 e-ViLは4つのモデルと3つのデータセットにまたがる。 自動測定と人的評価の両方が、モデル生成の説明を評価するために使用される。 また、NLE(430kインスタンス以上)を持つ既存のVLデータセットとしては最大であるe-SNLI-VEを紹介します。 最後に,画像とテキストの共同埋め込みを学習するUNITERと,テキスト生成に適した事前学習型言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。 これまでの最先端のデータを、すべてのデータセットで大きく上回っている。

Recently, an increasing number of works have introduced models capable of generating natural language explanations (NLEs) for their predictions on vision-language (VL) tasks. Such models are appealing because they can provide human-friendly and comprehensive explanations. However, there is still a lack of unified evaluation approaches for the explanations generated by these models. Moreover, there are currently only few datasets of NLEs for VL tasks. In this work, we introduce e-ViL, a benchmark for explainable vision-language tasks that establishes a unified evaluation framework and provides the first comprehensive comparison of existing approaches that generate NLEs for VL tasks. e-ViL spans four models and three datasets. Both automatic metrics and human evaluation are used to assess model-generated explanations. We also introduce e-SNLI-VE, the largest existing VL dataset with NLEs (over 430k instances). Finally, we propose a new model that combines UNITER, which learns joint embeddings of images and text, and GPT-2, a pre-trained language model that is well-suited for text generation. It surpasses the previous state-of-the-art by a large margin across all datasets.
公開日:2021-05-08
翻訳日:2021-05-11 15:24:59
# 一様収束, 対角球および簡単な治療

Uniform Convergence, Adversarial Spheres and a Simple Remedy ( http://arxiv.org/abs/2105.03491v1 )

ライセンス: Link先を確認
Gregor Bachmann, Seyed-Mohsen Moosavi-Dezfooli, Thomas Hofmann(参考訳) これまでの研究は、一様収束の一般的な枠組みと、ニューラルネットワークの一般化を説明する能力に疑問を投げかけてきた。 特定のデータセットを考慮することで、ニューラルネットワークはトレーニングデータの投影(逆数集合)を完全に誤って分類し、一様収束空白に基づいて既存の一般化を束縛する。 我々は、無限大モデルのレンズを通して、以前に研究されたデータセットの広範な理論的検討を行う。 我々は、ニューラル・タンジェント・カーネル(NTK)も同じ現象に悩まされており、その起源を明らかにする。 我々は,アウトプットバイアスの重要な役割を強調し,理論的に,賢明な選択が問題をいかに完全に緩和するかを実証的に示す。 敵セットにおける鋭い位相遷移の精度を同定し,その学習サンプルサイズ依存性について検討した。 結果として、我々は効果が消える向こうの臨界サンプルサイズを特徴づけることができる。 さらに, ニューラルネットワークの正準分解を異なる固有関数に考慮し, クリーンでノイズの多い部分への分解について検討し, バイアスが小すぎる場合でも相反する現象が持続することを示す。

Previous work has cast doubt on the general framework of uniform convergence and its ability to explain generalization in neural networks. By considering a specific dataset, it was observed that a neural network completely misclassifies a projection of the training data (adversarial set), rendering any existing generalization bound based on uniform convergence vacuous. We provide an extensive theoretical investigation of the previously studied data setting through the lens of infinitely-wide models. We prove that the Neural Tangent Kernel (NTK) also suffers from the same phenomenon and we uncover its origin. We highlight the important role of the output bias and show theoretically as well as empirically how a sensible choice completely mitigates the problem. We identify sharp phase transitions in the accuracy on the adversarial set and study its dependency on the training sample size. As a result, we are able to characterize critical sample sizes beyond which the effect disappears. Moreover, we study decompositions of a neural network into a clean and noisy part by considering its canonical decomposition into its different eigenfunctions and show empirically that for too small bias the adversarial phenomenon still persists.
公開日:2021-05-07
翻訳日:2021-05-11 15:24:44
# トポロジ的不確実性:アクティベーショングラフの永続化によるトレーニングニューラルネットワークの監視

Topological Uncertainty: Monitoring trained neural networks through persistence of activation graphs ( http://arxiv.org/abs/2105.04404v1 )

ライセンス: Link先を確認
Th\'eo Lacombe (DATASHAPE), Yuichi Ike, Mathieu Carriere, Fr\'ed\'eric Chazal, Marc Glisse, Yuhei Umeda(参考訳) ニューラルネットワークは様々な状況で驚くべきパフォーマンスを達成することができるが、複雑なタスクでネットワークを適切に訓練するには専門知識が必要であり、計算の観点からは高価である。 産業アプリケーションでは、オープンワールド設定から得られるデータは、ネットワークがトレーニングされたベンチマークデータセットと大きく異なる可能性がある。 ネットワークを再トレーニングすることなく、そのようなバリエーションの存在を監視できることは、非常に重要です。 本稿では,そのアクティベーショングラフの位相的性質に基づいて,訓練されたニューラルネットワークを監視する手法を提案する。 そこで,本研究では,最終層に限らずネットワーク全体を調査することで,予測の信頼性を評価するためのスコアであるトポロジカル不確実性(Topological Uncertainty)を,実践者が通常行うように割り当てる。 我々のアプローチは、トレーニング後のレベルで完全に機能し、ネットワークアーキテクチャ、最適化スキーム、データ拡張や補助データセットの使用など、いかなる仮定も必要とせず、広範囲のネットワークアーキテクチャやデータタイプに忠実に適用できます。 画像とグラフの合成データと実データの両方において,ネットワーク選択訓練,分散検出,シフト検出の文脈における位相的不確かさの可能性について実験的に示す。

Although neural networks are capable of reaching astonishing performances on a wide variety of contexts, properly training networks on complicated tasks requires expertise and can be expensive from a computational perspective. In industrial applications, data coming from an open-world setting might widely differ from the benchmark datasets on which a network was trained. Being able to monitor the presence of such variations without retraining the network is of crucial importance. In this article, we develop a method to monitor trained neural networks based on the topological properties of their activation graphs. To each new observation, we assign a Topological Uncertainty, a score that aims to assess the reliability of the predictions by investigating the whole network instead of its final layer only, as typically done by practitioners. Our approach entirely works at a post-training level and does not require any assumption on the network architecture, optimization scheme, nor the use of data augmentation or auxiliary datasets; and can be faithfully applied on a large range of network architectures and data types. We showcase experimentally the potential of Topological Uncertainty in the context of trained network selection, Out-Of-Distribution detection, and shift-detection, both on synthetic and real datasets of images and graphs.
公開日:2021-05-07
翻訳日:2021-05-11 15:24:26
# Facial Emotion Recognition: State of the Art Performance on FER2013

Facial Emotion Recognition: State of the Art Performance on FER2013 ( http://arxiv.org/abs/2105.03588v1 )

ライセンス: Link先を確認
Yousif Khaireddin, Zhuofa Chen(参考訳) 顔の感情認識(FER)は、臨床や行動記述などの人間とコンピュータの相互作用において重要である。 コンピュータモデルによる正確かつ堅牢なFERは、人間の顔の不均一性や、異なる顔のポーズや照明などの画像の変化により、依然として困難である。 FERのすべての技術の中で、ディープラーニングモデル、特に畳み込みニューラルネットワーク(CNN)は、強力な自動特徴抽出と計算効率のために大きな可能性を示している。 本研究では、FER2013データセット上で最も高いシングルネットワーク分類精度を実現する。 我々はvggnetアーキテクチャを採用し,そのハイパーパラメータを厳密に微調整し,様々な最適化手法を実験した。 我々の知る限り、我々のモデルは、追加のトレーニングデータを用いることなく、FER2013において最先端のシングルネットワーク精度73.28 %を達成する。

Facial emotion recognition (FER) is significant for human-computer interaction such as clinical practice and behavioral description. Accurate and robust FER by computer models remains challenging due to the heterogeneity of human faces and variations in images such as different facial pose and lighting. Among all techniques for FER, deep learning models, especially Convolutional Neural Networks (CNNs) have shown great potential due to their powerful automatic feature extraction and computational efficiency. In this work, we achieve the highest single-network classification accuracy on the FER2013 dataset. We adopt the VGGNet architecture, rigorously fine-tune its hyperparameters, and experiment with various optimization methods. To our best knowledge, our model achieves state-of-the-art single-network accuracy of 73.28 % on FER2013 without using extra training data.
公開日:2021-05-08
翻訳日:2021-05-11 15:24:04
# 表現学習のためのコントラスト条件伝達

Contrastive Conditional Transport for Representation Learning ( http://arxiv.org/abs/2105.03746v1 )

ライセンス: Link先を確認
Huangjie Zheng, Xu Chen, Jiangchao Yao, Hongxia Yang, Chunyuan Li, Ya Zhang, Hao Zhang, Ivor Tsang, Jingren Zhou, Mingyuan Zhou(参考訳) コントラスト学習(CL)はラベルの監督なしにデータ表現を学習することで大きな成功を収めた。 しかし、従来のCL損失は、負のサンプルがいくつ含まれ、どのように選択されるかに敏感である。 本稿では,無作為なクエリを描画し,正のサンプルと負のサンプルをランダムに選択し,それらのサンプルをクエリとの距離に応じて比較的に重み付けし,より遠く離れた正のサンプルをクエリにプルし,さらに近い負のサンプルをクエリからプッシュすることで,clロスを定義するコントラスト条件トランスポート(cct)を提案する。 理論的解析により、この一意的な対比的重み付けスキームは、正のサンプルとクエリを整合させ、負のサンプルとクエリの間の相互情報を減らすのに役立つ。 標準的な視覚タスクに関する大規模な実験により、CCTはコントラスト表現学習において、ベンチマークデータセット上の既存のメソッドを一貫して上回るだけでなく、解釈可能なコントラスト重みや潜在表現も提供することが示された。 PyTorchコードは提供される。

Contrastive learning (CL) has achieved remarkable success in learning data representations without label supervision. However, the conventional CL loss is sensitive to how many negative samples are included and how they are selected. This paper proposes contrastive conditional transport (CCT) that defines its CL loss over dependent sample-query pairs, which in practice is realized by drawing a random query, randomly selecting positive and negative samples, and contrastively reweighting these samples according to their distances to the query, exerting a greater force to both pull more distant positive samples towards the query and push closer negative samples away from the query. Theoretical analysis shows that this unique contrastive reweighting scheme helps in the representation space to both align the positive samples with the query and reduce the mutual information between the negative sample and query. Extensive large-scale experiments on standard vision tasks show that CCT not only consistently outperforms existing methods on benchmark datasets in contrastive representation learning but also provides interpretable contrastive weights and latent representations. PyTorch code will be provided.
公開日:2021-05-08
翻訳日:2021-05-11 15:23:53
# T-EMDE:クロスモーダル検索のためのスケッチに基づくグローバルな類似性

T-EMDE: Sketching-based global similarity for cross-modal retrieval ( http://arxiv.org/abs/2105.04242v1 )

ライセンス: Link先を確認
Barbara Rychalska, Mikolaj Wieczorek, Jacek Dabrowski(参考訳) クロスモーダル検索の鍵となる課題は、画像やテキストなど、異なるモダリティで表されるオブジェクト間の類似性を見つけることである。 しかし、各モダリティ埋め込みは非関連特徴空間に由来するため、悪名高い「異質性ギャップ」を引き起こす。 現在、多くのクロスモーダルシステムは自己注意でギャップを埋めようとしている。 しかし、自己注意はその二次的な複雑さで広く批判されており、多くの実生活の応用を妨げている。 これに対応して,最近導入された高効率マニフォールド密度推定器(EMDE)にインスパイアされたニューラルネットワーク密度推定器T-EMDEを提案する。 EMDEはスケッチ(特にマルチモーダル操作に適した表現)で動作する。 しかし、EMDEは非微分可能であり、事前計算された静的な埋め込みを取り込みます。 T-EMDEでは、エンドツーエンドのトレーニングを可能にするEMDEのトレーニング可能なバージョンを導入しました。 自己注意とは対照的に、ソリューションの複雑さはトークン/セグメントの数に線形である。 したがって、t-emdeはセルフアテンションモジュールのドロップイン代替であり、クロスモーダル設定における速度とメトリックパフォーマンスの両方に有益である。 各グローバルテキスト/画像表現は、基礎となるモダリティに関係なく同じ多様体構造を表す標準化されたスケッチヒストグラムで表現されるので、モダリティ間のコミュニケーションが容易になる。 我々は、T-EMDEを最近の2つのクロスモーダルSOTAモデルに導入し、複数のデータセット上で新しい最先端結果を実現し、モデル遅延を最大20%削減することで評価する。

The key challenge in cross-modal retrieval is to find similarities between objects represented with different modalities, such as image and text. However, each modality embeddings stem from non-related feature spaces, which causes the notorious 'heterogeneity gap'. Currently, many cross-modal systems try to bridge the gap with self-attention. However, self-attention has been widely criticized for its quadratic complexity, which prevents many real-life applications. In response to this, we propose T-EMDE - a neural density estimator inspired by the recently introduced Efficient Manifold Density Estimator (EMDE) from the area of recommender systems. EMDE operates on sketches - representations especially suitable for multimodal operations. However, EMDE is non-differentiable and ingests precomputed, static embeddings. With T-EMDE we introduce a trainable version of EMDE which allows full end-to-end training. In contrast to self-attention, the complexity of our solution is linear to the number of tokens/segments. As such, T-EMDE is a drop-in replacement for the self-attention module, with beneficial influence on both speed and metric performance in cross-modal settings. It facilitates communication between modalities, as each global text/image representation is expressed with a standardized sketch histogram which represents the same manifold structures irrespective of the underlying modality. We evaluate T-EMDE by introducing it into two recent cross-modal SOTA models and achieving new state-of-the-art results on multiple datasets and decreasing model latency by up to 20%.
公開日:2021-05-10
翻訳日:2021-05-11 15:23:30
# 雑音ラベル学習のための一般化jensen-shannon divergence loss

Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels ( http://arxiv.org/abs/2105.04522v1 )

ライセンス: Link先を確認
Erik Englesson, Hossein Azizpour(参考訳) ラベル雑音下での学習のためのjensen-shannon divergenceに基づく2つの新しい損失関数を提案する。 Ghoshらの業績に倣った。 (2017) 理論的ロバスト性について議論する。 さらに, クロスエントロピー, 平均絶対誤差, 一般化クロスエントロピー, 対称クロスエントロピー, ラベルの平滑化, および最も重要な整合正則化など, 様々な損失関数に対する情報的接続を描くことで, その他の望ましい性質を明らかにする。 合成(CIFAR)と実(WebVision)の両方のノイズを用いて広範かつ系統的な実験を行い、他の損失関数よりも顕著で一貫した改善を示す。 また, 異なる理論特性を強調する有益な側面実験を複数実施した。

We propose two novel loss functions based on Jensen-Shannon divergence for learning under label noise. Following the work of Ghosh et al. (2017), we argue about their theoretical robustness. Furthermore, we reveal several other desirable properties by drawing informative connections to various loss functions, e.g., cross entropy, mean absolute error, generalized cross entropy, symmetric cross entropy, label smoothing, and most importantly consistency regularization. We conduct extensive and systematic experiments using both synthetic (CIFAR) and real (WebVision) noise and demonstrate significant and consistent improvements over other loss functions. Also, we conduct several informative side experiments that highlight the different theoretical properties.
公開日:2021-05-10
翻訳日:2021-05-11 15:23:08
# グラフニューラルネットワークの最適化:スキップ接続によるインプシット加速と深度向上

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth ( http://arxiv.org/abs/2105.04550v1 )

ライセンス: Link先を確認
Keyulu Xu, Mozhi Zhang, Stefanie Jegelka, Kenji Kawaguchi(参考訳) グラフニューラルネットワーク(GNN)は、表現力と一般化のレンズから研究されている。 しかし、それらの最適化特性はよく分かっていない。 本研究は,GNNの勾配ダイナミクスを学習することで,GNNトレーニングの分析に向けての第一歩を踏み出す。 まず,線形化gnnを分析し,非凸性にも拘わらず,実世界のグラフ上で検証する軽度仮定の下では,線形レートでのグローバル最小値への収束が保証されることを示す。 第2に、GNNのトレーニング速度に影響を及ぼす可能性のあるものについて検討する。 その結果、GNNのトレーニングは、スキップ接続、深度、および/または良質なラベル分布によって暗黙的に加速されることがわかった。 線形化GNNの理論的結果は非線形GNNのトレーニング行動と一致していることを確認した。 この結果から, スキップ接続によるGNNの成功に対する理論的支援として, スキップ接続による深いGNNの実現が期待できる可能性が示唆された。

Graph Neural Networks (GNNs) have been studied from the lens of expressive power and generalization. However, their optimization properties are less well understood. We take the first step towards analyzing GNN training by studying the gradient dynamics of GNNs. First, we analyze linearized GNNs and prove that despite the non-convexity of training, convergence to a global minimum at a linear rate is guaranteed under mild assumptions that we validate on real-world graphs. Second, we study what may affect the GNNs' training speed. Our results show that the training of GNNs is implicitly accelerated by skip connections, more depth, and/or a good label distribution. Empirical results confirm that our theoretical results for linearized GNNs align with the training behavior of nonlinear GNNs. Our results provide the first theoretical support for the success of GNNs with skip connections in terms of optimization, and suggest that deep GNNs with skip connections would be promising in practice.
公開日:2021-05-10
翻訳日:2021-05-11 15:22:55
# Spoken Moments:ビデオ記述から共同視覚表現を学習する

Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions ( http://arxiv.org/abs/2105.04489v1 )

ライセンス: Link先を確認
Mathew Monfort, SouYoung Jin, Alexander Liu, David Harwath, Rogerio Feris, James Glass, Aude Oliva(参考訳) イベントを観察すると、重要な情報を抽象化し、何が起きているのかを簡潔に要約することができる。 これらの要約には、観察された事象の重要なハイレベルな詳細(どこで、どこで、どのように)を記述した文脈的および意味的情報が含まれ、観察者にとって重要でないと思われる背景情報を排除する。 このことを念頭に置いて、異なるダイナミックイベントのビデオに対して人々が生成する記述は、各ビデオに対する重要な情報に対する理解を大幅に改善する。 これらの記述は、ビデオラベリングのための拡張属性を提供するキャプションでキャプチャできる(例)。 action/objects/scene s/sentiment/etc.) 特定のイベントをまとめるために何が重要か、必要なのか、新たな洞察を得ることができます。 既存のビデオ理解用キャプションデータセットは、スケールが小さいか、特定のドメインに限定されている。 そこで本稿では,500kの音声キャプションからなるSpoken Moments(S-MiT)データセットについて述べる。 音声記録を用いて記述を収集し、それらが可能な限り自然で簡潔でありながら、大規模な分類データセットのサイズをスケールできるようにする。 提案するデータセットを活用するために,コントラスト学習のための新しい適応平均マージン(amm)アプローチを提案し,複数のデータセットにおける映像/キャプチャ検索に関するモデルを評価する。 我々のAMMアプローチは、我々の結果を継続的に改善し、Spken Momentsデータセットでトレーニングされたモデルは、他のビデオキャプチャデータセットでトレーニングされたモデルよりも一般化されていることを示す。

When people observe events, they are able to abstract key information and build concise summaries of what is happening. These summaries include contextual and semantic information describing the important high-level details (what, where, who and how) of the observed event and exclude background information that is deemed unimportant to the observer. With this in mind, the descriptions people generate for videos of different dynamic events can greatly improve our understanding of the key information of interest in each video. These descriptions can be captured in captions that provide expanded attributes for video labeling (e.g. actions/objects/scen es/sentiment/etc.) while allowing us to gain new insight into what people find important or necessary to summarize specific events. Existing caption datasets for video understanding are either small in scale or restricted to a specific domain. To address this, we present the Spoken Moments (S-MiT) dataset of 500k spoken captions each attributed to a unique short video depicting a broad range of different events. We collect our descriptions using audio recordings to ensure that they remain as natural and concise as possible while allowing us to scale the size of a large classification dataset. In order to utilize our proposed dataset, we present a novel Adaptive Mean Margin (AMM) approach to contrastive learning and evaluate our models on video/caption retrieval on multiple datasets. We show that our AMM approach consistently improves our results and that models trained on our Spoken Moments dataset generalize better than those trained on other video-caption datasets.
公開日:2021-05-10
翻訳日:2021-05-11 15:22:39
# NLPモデルに対する最適ロバスト記述の保証について

On Guaranteed Optimal Robust Explanations for NLP Models ( http://arxiv.org/abs/2105.03640v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Agnieszka Zbrzezny, Rhiannon Michelmore, Nicola Paoletti and Marta Kwiatkowska(参考訳) 本研究では,マシーン学習のための推論に基づく説明を構築し,自然言語処理(NLP)におけるニューラルネットワークモデルの局所的説明を計算する手法を開発した。 我々の説明は2つの重要な特徴を満たす出力テキストの単語のサブセットから構成されている。 説明の長さや頑健性といったユーザ定義のコスト関数は、単語の埋め込み空間における任意の有界摂動に対する予測不変性を保証する。 我々は,暗黙の打撃集合と最大普遍部分集合に基づく2つの解法を提示し,ハードインスタンスの収束を高速化するためのアルゴリズム改善を多数導入した。 提案手法は, 組込み空間における異なる摂動集合で構成可能であり, バイアス項に制約を含まないことで予測のバイアスを検出するとともに, アンカーのような既存のヒューリスティックなNLP説明フレームワークを拡張できることを示す。 我々は,SST,Twitter,IMDBデータセットから最大100ワードまでの感情分析タスクとテキストを3つのフレームワークで評価し,提案手法の有効性を実証した。

We build on abduction-based explanations for ma-chine learning and develop a method for computing local explanations for neural network models in natural language processing (NLP). Our explanations comprise a subset of the words of the in-put text that satisfies two key features: optimality w.r.t. a user-defined cost function, such as the length of explanation, and robustness, in that they ensure prediction invariance for any bounded perturbation in the embedding space of the left out words. We present two solution algorithms, respectively based on implicit hitting sets and maximum universal subsets, introducing a number of algorithmic improvements to speed up convergence of hard instances. We show how our method can be con-figured with different perturbation sets in the em-bedded space and used to detect bias in predictions by enforcing include/exclude constraints on biased terms, as well as to enhance existing heuristic-based NLP explanation frameworks such as Anchors. We evaluate our framework on three widely used sentiment analysis tasks and texts of up to100words from SST, Twitter and IMDB datasets,demonstrati ng the effectiveness of the derived explanations.
公開日:2021-05-08
翻訳日:2021-05-11 15:22:13
# 音声ガイドソフトマックスを用いたニューラルテキスト生成

Neural Text Generation with Part-of-Speech Guided Softmax ( http://arxiv.org/abs/2105.03641v1 )

ライセンス: Link先を確認
Zhixian Yang, Xiaojun Wan(参考訳) ニューラルテキスト生成モデルは、低多様性の問題に苦しむ可能性が高い。 様々な復号戦略や訓練に基づく手法が提案されており、文脈的特徴を利用するだけで多様性を促進することができる。 そこで本研究では,テキスト生成の指導に言語アノテーション,すなわちPOS(Part-of-speech)を用いることを提案する。 本報告では,POSガイドソフトマックス (POSG-Softmax) を用いて, (i) next-POS と (ii) next-token の2つの後方確率をモデル化する。 POSの多様性を豊かにすることで、低多様性問題に対処するPOSガイドサンプリング戦略が提案されている。 提案手法は,既存の最先端手法と比較して,同等の品質を維持しつつ,より多様なテキストを生成することができることを示す。

Neural text generation models are likely to suffer from the low-diversity problem. Various decoding strategies and training-based methods have been proposed to promote diversity only by exploiting contextual features, but rarely do they consider incorporating syntactic structure clues. In this work, we propose using linguistic annotation, i.e., part-of-speech (POS), to guide the text generation. In detail, we introduce POS Guided Softmax (POSG-Softmax) to explicitly model two posterior probabilities: (i) next-POS, and (ii) next-token from the vocabulary of the target POS. A POS guided sampling strategy is further proposed to address the low-diversity problem by enriching the diversity of POS. Extensive experiments and human evaluations demonstrate that, compared with existing state-of-the-art methods, our proposed methods can generate more diverse text while maintaining comparable quality.
公開日:2021-05-08
翻訳日:2021-05-11 15:21:54
# 極低出力ニューラルマシン翻訳のための連続混合言語事前学習

Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2105.03953v1 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Pascale Fung(参考訳) 低リソース言語のデータの不足は、堅牢なニューラルネットワーク翻訳システム構築のボトルネックとなっている。 翻訳タスクにおける多言語事前訓練モデル(例えば、mBART (Liu et al., 2020))の微調整は、低リソース言語には良いアプローチであるが、翻訳ペアに見知らぬ言語が存在する場合、その性能は大幅に制限される。 本稿では,mBARTにCPT(Continuous Pre-Training)フレームワークを導入し,未知の言語に効果的に適用する。 まず,対象言語の単言語コーパスから雑音の多い混合言語テキストを翻訳ペアに構築し,原文と対象言語の両方をカバーし,mBARTを事前学習し,元の単言語テキストを再構築する。 その結果,本手法は,未使用言語を含むすべての低リソース翻訳ペアにおいて,mbartベースラインおよび他の強力なベースライン上での微調整性能を一貫して向上できることがわかった。 さらに,本手法により,元のmBARTの事前学習で両言語が見られる翻訳ペアの性能も向上する。 コードはhttps://github.com/z liucr/cpt-nmtで入手できる。

The data scarcity in low-resource languages has become a bottleneck to building robust neural machine translation systems. Fine-tuning a multilingual pre-trained model (e.g., mBART (Liu et al., 2020)) on the translation task is a good approach for low-resource languages; however, its performance will be greatly limited when there are unseen languages in the translation pairs. In this paper, we present a continual pre-training (CPT) framework on mBART to effectively adapt it to unseen languages. We first construct noisy mixed-language text from the monolingual corpus of the target language in the translation pair to cover both the source and target languages, and then, we continue pre-training mBART to reconstruct the original monolingual text. Results show that our method can consistently improve the fine-tuning performance upon the mBART baseline, as well as other strong baselines, across all tested low-resource translation pairs containing unseen languages. Furthermore, our approach also boosts the performance on translation pairs where both languages are seen in the original mBART's pre-training. The code is available at https://github.com/z liucr/cpt-nmt.
公開日:2021-05-09
翻訳日:2021-05-11 15:21:36
# AnomalyHop:SSLベースの画像異常ローカライゼーション方法

AnomalyHop: An SSL-based Image Anomaly Localization Method ( http://arxiv.org/abs/2105.03797v1 )

ライセンス: Link先を確認
Kaitai Zhang, Bin Wang, Wei Wang, Fahad Sohrab, Moncef Gabbouj and C.-C. Jay Kuo(参考訳) 本研究では,AnomalyHopと呼ばれる連続的なサブスペース学習(SSL)フレームワークに基づく画像異常ローカライズ手法を提案する。 anomalyhop は,1) 連続部分空間学習(ssl)による特徴抽出,2) ガウスモデルによる正規性特徴分布モデリング,3) 異常マップ生成と融合の3つのモジュールで構成される。 ディープニューラルネットワーク(DNN)に基づく最先端の画像異常ローカライゼーション手法と比較して、AnomalyHopは数学的に透明で、訓練が容易で、推論速度が速い。 さらに、MVTec ADデータセットのROC曲線(ROC-AUC)の領域は95.9%であり、これはいくつかのベンチマーク手法の中でも最高のものである。 私たちのコードはgithubで公開されている。

An image anomaly localization method based on the successive subspace learning (SSL) framework, called AnomalyHop, is proposed in this work. AnomalyHop consists of three modules: 1) feature extraction via successive subspace learning (SSL), 2) normality feature distributions modeling via Gaussian models, and 3) anomaly map generation and fusion. Comparing with state-of-the-art image anomaly localization methods based on deep neural networks (DNNs), AnomalyHop is mathematically transparent, easy to train, and fast in its inference speed. Besides, its area under the ROC curve (ROC-AUC) performance on the MVTec AD dataset is 95.9%, which is among the best of several benchmarking methods. Our codes are publicly available at Github.
公開日:2021-05-08
翻訳日:2021-05-11 15:21:15
# ビデオ要約のための再構成シーケンスグラフネットワーク

Reconstructive Sequence-Graph Network for Video Summarization ( http://arxiv.org/abs/2105.04066v1 )

ライセンス: Link先を確認
Bin Zhao, Haopeng Li, Xiaoqiang Lu, Xuelong Li(参考訳) キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。 現在のアプローチは主に、リカレントニューラルネットワークによるフレームシーケンスとしてビデオのモデリングに費やされている。 しかし、シーケンスモデルの潜在的な制限の1つは、長距離の高次依存関係が完全に悪用されていない間、ローカルな近所の依存関係を捉えることに焦点を当てることである。 一般的に、各ショットのフレームは特定のアクティビティを記録し、時間とともにスムーズに変化するが、複数ホップの関係はショット間で頻繁に発生する。 この場合、ローカルおよびグローバルの依存関係はビデオコンテンツを理解する上で重要である。 そこで我々は,フレームとショットをシーケンスとグラフの階層的にエンコードするReconstructive Sequence-Graph Network (RSGN)を提案し,フレームレベルの依存関係をLong Short-Term Memory (LSTM) でエンコードし,ショットレベルの依存関係を Graph Convolutional Network (GCN) でキャプチャする。 次に、ビデオは、ショット間のローカルとグローバルの両方の依存関係を利用して要約される。 また、要約生成器に報酬を与える再構成器を開発し、教師なしの最適化が可能で、ビデオ要約における注釈付きデータの欠如を回避することができる。 さらに,コンストラクションロスの指導のもと,予測された要約は,主映像コンテンツとショットレベルの依存関係をよりよく保存することができる。 実際、一般的な3つのデータセット(summe、tvsum、vtw)の実験結果は、提案手法の要約タスクに対する優越性を示している。

Exploiting the inner-shot and inter-shot dependencies is essential for key-shot based video summarization. Current approaches mainly devote to modeling the video as a frame sequence by recurrent neural networks. However, one potential limitation of the sequence models is that they focus on capturing local neighborhood dependencies while the high-order dependencies in long distance are not fully exploited. In general, the frames in each shot record a certain activity and vary smoothly over time, but the multi-hop relationships occur frequently among shots. In this case, both the local and global dependencies are important for understanding the video content. Motivated by this point, we propose a Reconstructive Sequence-Graph Network (RSGN) to encode the frames and shots as sequence and graph hierarchically, where the frame-level dependencies are encoded by Long Short-Term Memory (LSTM), and the shot-level dependencies are captured by the Graph Convolutional Network (GCN). Then, the videos are summarized by exploiting both the local and global dependencies among shots. Besides, a reconstructor is developed to reward the summary generator, so that the generator can be optimized in an unsupervised manner, which can avert the lack of annotated data in video summarization. Furthermore, under the guidance of reconstruction loss, the predicted summary can better preserve the main video content and shot-level dependencies. Practically, the experimental results on three popular datasets i.e., SumMe, TVsum and VTW) have demonstrated the superiority of our proposed approach to the summarization task.
公開日:2021-05-10
翻訳日:2021-05-11 15:21:00
# 変形形状テンプレートを用いた教師なしポーズ推定

Unsupervised Human Pose Estimation through Transforming Shape Templates ( http://arxiv.org/abs/2105.04154v1 )

ライセンス: Link先を確認
Luca Schmidtke, Athanasios Vlontzos, Simon Ellershaw, Anna Lukens, Tomoki Arichi, Bernhard Kainz(参考訳) 人間のポーズ推定は、拡張現実やビデオキャプチャーから監視や動き追跡まで幅広い応用において主要なコンピュータビジョン問題である。 医学的文脈では、後者は幼児の神経障害にとって重要なバイオマーカーである。 多くの方法が存在するが、それらの応用は、よく注釈された大きなデータセットの必要性や、異なる形状や体組成を持つ人間に一般化できないことなどによって制限されている。 子供と幼児。 本稿では,成人および乳幼児のポーズ推定を教師なしで学習するための新しい手法を提案する。 深層特徴抽出器による学習可能なテンプレートマッチング問題としてこの問題にアプローチする。 2次元ガウス分布を特徴とする予め定義された身体部分からなるテンプレートを変換して、人間の解釈可能なランドマークを推定する。 接続先を強制することは、モデルを有意義な人間の形状表現に導く。 成人と幼児を含む2つの異なるデータセットに対するアプローチの有効性を示す。

Human pose estimation is a major computer vision problem with applications ranging from augmented reality and video capture to surveillance and movement tracking. In the medical context, the latter may be an important biomarker for neurological impairments in infants. Whilst many methods exist, their application has been limited by the need for well annotated large datasets and the inability to generalize to humans of different shapes and body compositions, e.g. children and infants. In this paper we present a novel method for learning pose estimators for human adults and infants in an unsupervised fashion. We approach this as a learnable template matching problem facilitated by deep feature extractors. Human-interpretable landmarks are estimated by transforming a template consisting of predefined body parts that are characterized by 2D Gaussian distributions. Enforcing a connectivity prior guides our model to meaningful human shape representations. We demonstrate the effectiveness of our approach on two different datasets including adults and infants.
公開日:2021-05-10
翻訳日:2021-05-11 15:20:37
# SCTN: シーンフロー推定のためのスパース畳み込み変圧器ネットワーク

SCTN: Sparse Convolution-Transfor mer Network for Scene Flow Estimation ( http://arxiv.org/abs/2105.04447v1 )

ライセンス: Link先を確認
Bing Li, Cheng Zheng, Silvio Giancola, Bernard Ghanem(参考訳) 点雲から3次元運動を捕捉・推定するための新しいシーンフロー推定手法を提案する。 点雲は非秩序であり、その密度は著しく一様ではないため、点雲の3次元運動の推定は困難である。 このような非構造化データは、ポイントクラウド間の対応するポイントのマッチングに困難をもたらし、不正確なフロー推定につながる。 本稿では,sparse convolution-transfor mer network (sctn) という新しいアーキテクチャを提案する。 具体的には、スパース畳み込みを利用して、SCTNは不規則点雲を局所的に一貫したフロー特徴に変換し、オブジェクト/局所オブジェクト部分内の連続かつ一貫した動きを推定する。 さらに,点変換モジュールを用いて点関係を明示的に学習する手法を提案する。 学習した関係に基づく文脈情報が豊富で,対応点の一致に役立ち,シーンフローの推定に有効であることを示す。 さらに,特徴の類似性に応じて流れの整合性を適応的に促進する新しい損失関数を提案する。 大規模な実験により,提案手法がシーンフロー推定における新たな手法を実現することを示す。 提案手法は,FlyingThings3DとKITTI Scene Flowでそれぞれ0.038と0.037(EPE3D)の誤差を実現する。

We propose a novel scene flow estimation approach to capture and infer 3D motions from point clouds. Estimating 3D motions for point clouds is challenging, since a point cloud is unordered and its density is significantly non-uniform. Such unstructured data poses difficulties in matching corresponding points between point clouds, leading to inaccurate flow estimation. We propose a novel architecture named Sparse Convolution-Transfor mer Network (SCTN) that equips the sparse convolution with the transformer. Specifically, by leveraging the sparse convolution, SCTN transfers irregular point cloud into locally consistent flow features for estimating continuous and consistent motions within an object/local object part. We further propose to explicitly learn point relations using a point transformer module, different from exiting methods. We show that the learned relation-based contextual information is rich and helpful for matching corresponding points, benefiting scene flow estimation. In addition, a novel loss function is proposed to adaptively encourage flow consistency according to feature similarity. Extensive experiments demonstrate that our proposed approach achieves a new state of the art in scene flow estimation. Our approach achieves an error of 0.038 and 0.037 (EPE3D) on FlyingThings3D and KITTI Scene Flow respectively, which significantly outperforms previous methods by large margins.
公開日:2021-05-10
翻訳日:2021-05-11 15:20:25
# 言語非依存のdeexicalizationを用いた多言語概念テキストNLGの一般化

Generalising Multilingual Concept-to-Text NLG with Language Agnostic Delexicalisation ( http://arxiv.org/abs/2105.03432v1 )

ライセンス: Link先を確認
Giulio Zhou and Gerasimos Lampouras(参考訳) 概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。 このタスクの以前のアプローチでは、入力の語彙化に依存することで、希少なインスタンスや見当たらないインスタンスに一般化することができた。 しかし、これはしばしば、入力が出力テキストに冗長に現れることを要求する。 これは、タスクが同じ入力を受けた複数の言語で出力テキストを生成するように拡張される、多言語設定における課題を引き起こす。 本稿では,多言語モデルのコンセプト・ツー・テキストへの応用について検討し,多言語事前学習埋め込みを用いた新しい語彙化手法である言語非依存語彙化を提案し,文字レベルのポスト編集モデルを用いて語彙化時に単語を正しい形に反映する。 5つのデータセットと5つの言語で実験した結果、多言語モデルは概念からテキストへの一言語モデルよりも優れており、我々のフレームワークは以前のアプローチ、特に低リソース言語よりも優れています。

Concept-to-text Natural Language Generation is the task of expressing an input meaning representation in natural language. Previous approaches in this task have been able to generalise to rare or unseen instances by relying on a delexicalisation of the input. However, this often requires that the input appears verbatim in the output text. This poses challenges in multilingual settings, where the task expands to generate the output text in multiple languages given the same input. In this paper, we explore the application of multilingual models in concept-to-text and propose Language Agnostic Delexicalisation, a novel delexicalisation method that uses multilingual pretrained embeddings, and employs a character-level post-editing model to inflect words in their correct form during relexicalisation. Our experiments across five datasets and five languages show that multilingual models outperform monolingual models in concept-to-text and that our framework outperforms previous approaches, especially for low resource languages.
公開日:2021-05-07
翻訳日:2021-05-11 15:20:00
# FNet: トークンとフーリエ変換の混合

FNet: Mixing Tokens with Fourier Transforms ( http://arxiv.org/abs/2105.03824v1 )

ライセンス: Link先を確認
James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon(参考訳) トランスフォーマーエンコーダのアーキテクチャは,入力トークンを"混合"する単純な線形変換に自己付着部分層を置き換えることで,少ない精度で大規模に高速化できることを示す。 これらの線形変換はフィードフォワード層の単純な非線形性とともに、いくつかのテキスト分類タスクで意味関係をモデル化するのに十分である。 おそらく最も驚くべきことに、Transformerエンコーダの自己注意サブレイヤを標準の非パラメータ化フーリエ変換に置き換えると、GLUEベンチマークではBERTの精度は92%になるが、GPUでは7倍高速で、TPUでは2倍高速である。 FNetと呼ばれる結果のモデルは、Long Range Arenaベンチマークの最も正確な"効率的な"変換器の精度と非常に効率的にスケールするが、GPU上のすべてのシーケンス長とTPU上の比較的短いシーケンス長のトレーニングと実行は高速である。 最後に、FNetは軽量メモリのフットプリントを持ち、特に小さなモデルサイズで効率的である: 固定速度と精度の予算のために、小さなFNetモデルはTransformerよりも優れている。

We show that Transformer encoder architectures can be massively sped up, with limited accuracy costs, by replacing the self-attention sublayers with simple linear transformations that "mix" input tokens. These linear transformations, along with simple nonlinearities in feed-forward layers, are sufficient to model semantic relationships in several text classification tasks. Perhaps most surprisingly, we find that replacing the self-attention sublayer in a Transformer encoder with a standard, unparameterized Fourier Transform achieves 92% of the accuracy of BERT on the GLUE benchmark, but pre-trains and runs up to seven times faster on GPUs and twice as fast on TPUs. The resulting model, which we name FNet, scales very efficiently to long inputs, matching the accuracy of the most accurate "efficient" Transformers on the Long Range Arena benchmark, but training and running faster across all sequence lengths on GPUs and relatively shorter sequence lengths on TPUs. Finally, FNet has a light memory footprint and is particularly efficient at smaller model sizes: for a fixed speed and accuracy budget, small FNet models outperform Transformer counterparts.
公開日:2021-05-09
翻訳日:2021-05-11 15:19:44
# Siamese Graph Convolutional Networksとビジネスエンティティマッチング

Business Entity Matching with Siamese Graph Convolutional Networks ( http://arxiv.org/abs/2105.03701v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Mattia Atzeni, Katsiaryna Mirylenka, Paolo Scotton, Christoph Miksovic, Anton Zorin(参考訳) データ統合は数十年にわたって広く研究され、異なる角度からアプローチされてきた。 しかし、このドメインは依然としてルール駆動であり、普遍的な自動化がない。 最近の機械学習や特にディープラーニングの発展は、データ統合タスクに対するより汎用的で効率的なソリューションへの道を開いた。 本稿では,それらの関係や文脈情報を活用することによって,エンティティのモデリングと統合を可能にするアプローチを示す。 siameseとgraphニューラルネットワークを組み合わせることで、接続されたエンティティ間の情報を効果的に伝搬し、高いスケーラビリティをサポートする。 我々は、従来のルールベースシステムと他のディープラーニングアプローチよりも優れていることを示すとともに、ビジネスエンティティに関するデータを統合するタスクに対するアプローチを評価した。

Data integration has been studied extensively for decades and approached from different angles. However, this domain still remains largely rule-driven and lacks universal automation. Recent developments in machine learning and in particular deep learning have opened the way to more general and efficient solutions to data-integration tasks. In this paper, we demonstrate an approach that allows modeling and integrating entities by leveraging their relations and contextual information. This is achieved by combining siamese and graph neural networks to effectively propagate information between connected entities and support high scalability. We evaluated our approach on the task of integrating data about business entities, demonstrating that it outperforms both traditional rule-based systems and other deep learning approaches.
公開日:2021-05-08
翻訳日:2021-05-11 15:19:20
# Generative Actor-Critic: Push-forwardモデルを用いたオフポリシーアルゴリズム

Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model ( http://arxiv.org/abs/2105.03733v1 )

ライセンス: Link先を確認
Peng Lingwei(参考訳) モデルなしの深層強化学習は、ビデオゲーム、レコメンデーションシステム、ロボット制御タスクなど、多くの領域で大きな成功を収めている。 連続制御タスクでは、ガウス分布を持つ広く使われるポリシーは、多くの場合、環境の非効率的な探索とアルゴリズムの性能の制限をもたらす。 本稿では,政策の表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズム(GAC)を提案し,また,探索と搾取のバランスをとるためにエントロピー的手法であるMDDエントロピー正規化器を含む。 さらに,このレギュレータを自動スケールする適応機構を考案し,GACの安定性と堅牢性をさらに向上させる。 実験結果から, プッシュフォワードポリシには, 探索効率の向上やアルゴリズムの漸近性能の向上など, 望ましい特徴があることが明らかとなった。

Model-free deep reinforcement learning has achieved great success in many domains, such as video games, recommendation systems and robotic control tasks. In continuous control tasks, widely used policies with Gaussian distributions results in ineffective exploration of environments and limited performance of algorithms in many cases. In this paper, we propose a density-free off-policy algorithm, Generative Actor-Critic(GAC), using the push-forward model to increase the expressiveness of policies, which also includes an entropy-like technique, MMD-entropy regularizer, to balance the exploration and exploitation. Additionnally, we devise an adaptive mechanism to automatically scale this regularizer, which further improves the stability and robustness of GAC. The experiment results show that push-forward policies possess desirable features, such as multi-modality, which can improve the efficiency of exploration and asymptotic performance of algorithms obviously.
公開日:2021-05-08
翻訳日:2021-05-11 15:19:10
# アンカー型グラフニューラルネットワークにおける経路情報の利用

Exploiting Path Information for Anchor Based Graph Neural Network ( http://arxiv.org/abs/2105.03821v1 )

ライセンス: Link先を確認
Yuheng Lu, ChuXiong Sun, Jie Hu(参考訳) グラフ構造から情報を取り込むノード表現の学習は、グラフ上の幅広いタスクに役立つ。 既存のグラフニューラルネットワーク(GNN)の大部分は、特定のノードの位置情報をキャプチャする能力に制限がある。 選択されたアンカーを持つノードの位置決めは、主に距離情報の明示的なラベル付けに依存している。 本稿では、各ノードのアンカーに関連する経路情報をエンコードするアンカーベースGNNであるグラフ推論表現(GIR)を提案する。 位置認識の埋め込み能力は、GIRとそのコアバリアントに対して理論的および実験的に研究されている。 さらに、GIRと典型的なGNNの埋め込みの相補的特性を示す。 我々は、GIRが位置認識のシナリオよりも優れており、GIRを埋め込むことで、GNNの結果を改善することができることを示した。

Learning node representation that incorporating information from graph structure benefits wide range of tasks on graph. Majority of existing graph neural networks (GNNs) have limited power in capturing position information for a given node. The idea of positioning nodes with selected anchors has been exploit, yet mainly rely on explicit labeling of distance information. Here we propose Graph Inference Representation (GIR), an anchor based GNN encoding path information related to anchors for each node. Abilities to get position-aware embedding are theoretically and experimentally investigated on GIRs and its core variants. Further, the complementary characteristic of GIRs and typical GNNs embeddings are demonstrated. We show that GIRs get outperformed results on position-aware scenario, and could improve GNNs results by fuse GIRs embedding.
公開日:2021-05-09
翻訳日:2021-05-11 15:18:52
# CASA-B: モデルレス強化学習の統一フレームワーク

CASA-B: A Unified Framework of Model-Free Reinforcement Learning ( http://arxiv.org/abs/2105.03923v1 )

ライセンス: Link先を確認
Changnan Xiao, Haosen Shi, Jiajun Fan, Shihong Deng(参考訳) 本稿では、強化学習のブレークスルーに基づいて、モデルフリー強化学習の統一フレームワークであるCASA-B, Critic AS an Actor with Bandits Vote Algorithmを紹介する。 CASA-Bはアクタークリティカルなフレームワークで、状態-値、状態-アクション-値、ポリシーを推定する。 コンバージェンス特性が保証される状態-値と状態-アクション-値を学ぶために、期待正しいDouubly Robust Traceが導入された。 我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。 政策評価は、関数近似誤差を軽減する補償政策改善と等価であり、また、エントロピー規則化された政策改善と等価であり、政策が最適以下の解に崩壊することを防ぐ。 この設計に基づいて、「行動方針のエントロピー」と目標方針のアントロピーが歪められているのが分かる。 この観察に基づいて,行動ポリシーの任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。 実験の結果, CASAB は高効率であり, アーケード学習環境における State-Of-The-Art を実現することがわかった。 我々の平均的人間正規化スコアは6456.63%であり、中央値の人間正規化スコアは477.17%である。

Building on the breakthrough of reinforcement learning, this paper introduces a unified framework of model-free reinforcement learning, CASA-B, Critic AS an Actor with Bandits Vote Algorithm. CASA-B is an actor-critic framework that estimates state-value, state-action-value and policy. An expectation-correct Doubly Robust Trace is introduced to learn state-value and state-action-value, whose convergence properties are guaranteed. We prove that CASA-B integrates a consistent path for the policy evaluation and the policy improvement. The policy evaluation is equivalent to a compensational policy improvement, which alleviates the function approximation error, and is also equivalent to an entropy-regularized policy improvement, which prevents the policy from collapsing to a suboptimal solution. Building on this design, we find the entropy of the behavior policies' and the target policy's are disentangled. Based on this observation, we propose a progressive closed-form entropy control mechanism, which explicitly controls the behavior policies' entropy to arbitrary range. Our experiments show that CASAB is super sample efficient and achieves State-Of-The-Art on Arcade Learning Environment. Our mean Human Normalized Score is 6456.63% and our median Human Normalized Score is 477.17%, under 200M training scale.
公開日:2021-05-09
翻訳日:2021-05-11 15:18:42
# パラメータフリー勾配時間差学習

Parameter-free Gradient Temporal Difference Learning ( http://arxiv.org/abs/2105.04129v1 )

ライセンス: Link先を確認
Andrew Jacobsen, Alan Chan(参考訳) 強化学習はいくつかの課題の交点にある。 興味のある多くの応用は、非常に大きな状態空間を含み、扱いやすい計算を可能にするために関数近似を必要とする。 さらに、学習者は単一の経験の流れしか持たず、多種多様なアクション・コースを評価できるため、非政治的学習が可能なアルゴリズムを必要とする。 しかし、オフ・ポリシー学習と関数近似の組み合わせは時間差法の違いにつながる。 勾配に基づく時間差法に関する最近の研究は、安定性への道を約束しているが、高価なハイパーパラメータチューニングのコストがかかる。 オンライン学習の進歩は、対数項まで最小限の保証を実現するパラメータフリーな手法を提供してきたが、強化学習への応用はまだ検討されていない。 本研究では、パラメータフリーで勾配に基づく時間差アルゴリズムを導出した2つの攻撃列を組み合わせる。 我々のアルゴリズムは線形時間で動作し、GTD2の値と最大$\log$因子の一致を保証する。 本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を維持していることを示す。

Reinforcement learning lies at the intersection of several challenges. Many applications of interest involve extremely large state spaces, requiring function approximation to enable tractable computation. In addition, the learner has only a single stream of experience with which to evaluate a large number of possible courses of action, necessitating algorithms which can learn off-policy. However, the combination of off-policy learning with function approximation leads to divergence of temporal difference methods. Recent work into gradient-based temporal difference methods has promised a path to stability, but at the cost of expensive hyperparameter tuning. In parallel, progress in online learning has provided parameter-free methods that achieve minimax optimal guarantees up to logarithmic terms, but their application in reinforcement learning has yet to be explored. In this work, we combine these two lines of attack, deriving parameter-free, gradient-based temporal difference algorithms. Our algorithms run in linear time and achieve high-probability convergence guarantees matching those of GTD2 up to $\log$ factors. Our experiments demonstrate that our methods maintain high prediction performance relative to fully-tuned baselines, with no tuning whatsoever.
公開日:2021-05-10
翻訳日:2021-05-11 15:18:18
# 概念ボトルネックモデルは意図的に学習するか?

Do Concept Bottleneck Models Learn as Intended? ( http://arxiv.org/abs/2105.04289v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Matthew Ashman, Umang Bhatt, Yanzhi Chen, Mateja Jamnik, Adrian Weller(参考訳) 概念ボトルネックモデルは、生の入力から概念へ、そして概念からターゲットへマップします。 このようなモデルは、事前に規定された高レベルの概念を学習手順に取り入れることを目的としており、解釈可能性、予測可能性、インターベンタビリティの3つのデシダータを満たすために動機付けられている。 しかし、概念ボトルネックモデルはこれらの目標を達成するのに苦労している。 ポストホック解釈法を用いて,概念が入力空間において意味的に意味のあるものとは対応しないことを実証し,概念ボトルネックモデルの有用性に疑問を呈する。

Concept bottleneck models map from raw inputs to concepts, and then from concepts to targets. Such models aim to incorporate pre-specified, high-level concepts into the learning procedure, and have been motivated to meet three desiderata: interpretability, predictability, and intervenability. However, we find that concept bottleneck models struggle to meet these goals. Using post hoc interpretability methods, we demonstrate that concepts do not correspond to anything semantically meaningful in input space, thus calling into question the usefulness of concept bottleneck models in their current form.
公開日:2021-05-10
翻訳日:2021-05-11 15:18:00
# グラフ特徴ゲーティングネットワーク

Graph Feature Gating Networks ( http://arxiv.org/abs/2105.04493v1 )

ライセンス: Link先を確認
Wei Jin, Xiaorui Liu, Yao Ma, Tyler Derr, Charu Aggarwal, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、グラフの効率的な表現を学習する能力によって大きな注目を集めている。 ほとんどのGNNは、近隣から情報を集約して変換することでノード表現を更新するメッセージパッシングスキームに従う。 一方、異なる特徴次元から情報を集約するのと同じ戦略を採用している。 しかし、社会次元理論とスペクトル埋め込みによって示唆されるように、凝集過程の間、次元を異なるものにする潜在的な利点がある。 本研究では,GNNにおける特徴次元の不均一な寄与を実現するために検討する。 特に,グラフ信号記述問題に基づく汎用グラフ特徴ゲーティングネットワーク(GFGN)を提案し,それに対応する3つのグラフフィルタを導入し,特徴量から異なるレベルのコントリビューションを可能にする。 様々な実世界のデータセットに対する大規模な実験は、提案したフレームワークの有効性と堅牢性を示している。

Graph neural networks (GNNs) have received tremendous attention due to their power in learning effective representations for graphs. Most GNNs follow a message-passing scheme where the node representations are updated by aggregating and transforming the information from the neighborhood. Meanwhile, they adopt the same strategy in aggregating the information from different feature dimensions. However, suggested by social dimension theory and spectral embedding, there are potential benefits to treat the dimensions differently during the aggregation process. In this work, we investigate to enable heterogeneous contributions of feature dimensions in GNNs. In particular, we propose a general graph feature gating network (GFGN) based on the graph signal denoising problem and then correspondingly introduce three graph filters under GFGN to allow different levels of contributions from feature dimensions. Extensive experiments on various real-world datasets demonstrate the effectiveness and robustness of the proposed frameworks.
公開日:2021-05-10
翻訳日:2021-05-11 15:17:50
# 画像パラグラフキャプションにおける視覚特徴と階層的セマンティックトピックのマッチング

Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning ( http://arxiv.org/abs/2105.04143v1 )

ライセンス: Link先を確認
Dandan Guo, Ruiying Lu, Bo Chen, Zequn Zeng, Mingyuan Zhou(参考訳) 画像の集合とそれに対応する段落を観察するには,画像の視覚的内容を記述するために意味的に一貫性のある段落を生成する方法を学ぶことが課題である。 本稿では,このタスクに意味的トピックを統合することの最近の成功に触発されて,視覚的抽出器と深いトピックモデルとを結合して言語モデルの学習を導く,階層的トピック誘導画像段落生成フレームワークを開発した。 複数の抽象レベルで画像とテキストの相関関係を捉え,画像から意味的トピックを学習するために,画像特徴からテキストキャプションへのマッピングを構築するための変分推論ネットワークを設計する。 段落生成を導くために、学習した階層的トピックと視覚的特徴をLong Short-Term Memory (LSTM)やTransformerなどの言語モデルに統合し、共同最適化する。 パブリックデータセットにおける実験は、標準評価メトリクスの観点から多くの最先端のアプローチと競合する、提案モデルが、解釈可能な多層トピックを蒸留し、多様で一貫性のあるキャプションを生成するのに使用できることを示した。

Observing a set of images and their corresponding paragraph-captions, a challenging task is to learn how to produce a semantically coherent paragraph to describe the visual content of an image. Inspired by recent successes in integrating semantic topics into this task, this paper develops a plug-and-play hierarchical-topic-g uided image paragraph generation framework, which couples a visual extractor with a deep topic model to guide the learning of a language model. To capture the correlations between the image and text at multiple levels of abstraction and learn the semantic topics from images, we design a variational inference network to build the mapping from image features to textual captions. To guide the paragraph generation, the learned hierarchical topics and visual features are integrated into the language model, including Long Short-Term Memory (LSTM) and Transformer, and jointly optimized. Experiments on public dataset demonstrate that the proposed models, which are competitive with many state-of-the-art approaches in terms of standard evaluation metrics, can be used to both distill interpretable multi-layer topics and generate diverse and coherent captions.
公開日:2021-05-10
翻訳日:2021-05-11 15:17:39
# 微分木モジュールを用いた解釈可能な混合密度推定

Interpretable Mixture Density Estimation by use of Differentiable Tree-module ( http://arxiv.org/abs/2105.03616v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Tomu Yanabe(参考訳) 機械学習を用いて信頼性の高いサービスを開発するためには,モデル出力の不確実性を理解することが重要である。 予測対象が従う確率分布は複雑であり、不確実性が従う分布として混合分布が仮定されることが多い。 混合密度推定の出力は複雑であるため、実際のサービスでの利用を考えると、その解釈性が重要となる。 本稿では,解釈可能な木構造を用いた混合密度推定手法を提案する。 さらに、時間不変情報キャッシュに基づく高速推論処理は、高速かつ解釈性の両方を達成する。

In order to develop reliable services using machine learning, it is important to understand the uncertainty of the model outputs. Often the probability distribution that the prediction target follows has a complex shape, and a mixture distribution is assumed as a distribution that uncertainty follows. Since the output of mixture density estimation is complicated, its interpretability becomes important when considering its use in real services. In this paper, we propose a method for mixture density estimation that utilizes an interpretable tree structure. Further, a fast inference procedure based on time-invariant information cache achieves both high speed and interpretability.
公開日:2021-05-08
翻訳日:2021-05-11 15:17:18
# パラメトリックホークスの細粒度$\epsilon$-margin閉形式安定化

Fine-Grained $\epsilon$-Margin Closed-Form Stabilization of Parametric Hawkes Processes ( http://arxiv.org/abs/2105.03800v1 )

ライセンス: Link先を確認
Rafael Lima(参考訳) hawkesプロセスは、連続時間イベントストリームにおける離散イベントの自己および相互にエキサイティングなインタラクションをモデリングするためのデフォルトツールとして人気が高まっている。 MLE(Maximum Likelihood Estimation)は、対応する強度関数のトリガーカーネルをパラメトリックに仮定した形に制限のない最適化手順であり、特に少ないシーケンスや短いシーケンスのデータに向いている。 しかし、MLE最適化には、トリガーカーネルのパラメータに関する強い仮定を除いて保証が欠如しており、その結果のパラメータの不安定性につながる可能性がある。本研究では、これらの過度に制限された仮定を伴わずに、単純な安定化手順によってMLE最適化の性能が向上することを示す。

Hawkes Processes have undergone increasing popularity as default tools for modeling self- and mutually exciting interactions of discrete events in continuous-time event streams. A Maximum Likelihood Estimation (MLE) unconstrained optimization procedure over parametrically assumed forms of the triggering kernels of the corresponding intensity function are a widespread cost-effective modeling strategy, particularly suitable for data with few and/or short sequences. However, the MLE optimization lacks guarantees, except for strong assumptions on the parameters of the triggering kernels, and may lead to instability of the resulting parameters .In the present work, we show how a simple stabilization procedure improves the performance of the MLE optimization without these overly restrictive assumptions.This stabilized version of the MLE is shown to outperform traditional methods over sequences of several different lengths.
公開日:2021-05-08
翻訳日:2021-05-11 15:17:11
# ロバストマルコフ決定プロセスの非漸近的性能

Non-asymptotic Performances of Robust Markov Decision Processes ( http://arxiv.org/abs/2105.03863v1 )

ライセンス: Link先を確認
Wenhao Yang, Zhihua Zhang(参考訳) 本稿では,真の遷移ダイナミクスを持つロバスト値関数に対する最適ポリシーの非漸近的性能について検討する。 最適なロバストポリシは、真の遷移ダイナミクスにアクセスせずに生成モデルやオフラインデータセットから解決される。 特に、$(s,a)$-rectangular と $s$-rectangular の両方において、$l_1$、$\chi^2$、kl 球を含む3つの異なる不確実性集合を考える。 我々の結果は、不確実性集合上で$(s,a)$-rectangularを仮定すると、サンプルの複雑さは約$\widetilde{O}\left(\frac{|\mathcal{S}|^2|\mathcal{A}|}{\varepsilon^2\rho^2(1-\gamma)^4}\right)$および$\widetilde{O}\left(\frac{|\mathcal{S}|}{\nu_{\min}\varepsilon^2\rho^2(1-\gamma)^4}\right)$であることを示している。 非漸近的パフォーマンスに関する先行研究は、klボールと$(s,a)$-rectangular の仮定で制限されているが、より一般的な $s$-rectangular の仮定にも拡張し、$(s,a)$-rectangular の仮定よりも大きなサンプルの複雑さをもたらす。

In this paper, we study the non-asymptotic performance of optimal policy on robust value function with true transition dynamics. The optimal robust policy is solved from a generative model or offline dataset without access to true transition dynamics. In particular, we consider three different uncertainty sets including the $L_1$, $\chi^2$ and KL balls in both $(s,a)$-rectangular and $s$-rectangular assumptions. Our results show that when we assume $(s,a)$-rectangular on uncertainty sets, the sample complexity is about $\widetilde{O}\left(\frac{|\mathcal{S}|^2|\mathcal{A}|}{\varepsilon^2\rho^2(1-\gamma)^4}\right)$ in the generative model setting and $\widetilde{O}\left(\frac{|\mathcal{S}|}{\nu_{\min}\varepsilon^2\rho^2(1-\gamma)^4}\right)$ in the offline dataset setting. While prior works on non-asymptotic performances are restricted with the KL ball and $(s,a)$-rectangular assumption, we also extend our results to a more general $s$-rectangular assumption, which leads to a larger sample complexity than the $(s,a)$-rectangular assumption.
公開日:2021-05-09
翻訳日:2021-05-11 15:16:54
# 球対称分布下における方向収束解析

Directional Convergence Analysis under Spherically Symmetric Distribution ( http://arxiv.org/abs/2105.03879v1 )

ライセンス: Link先を確認
Dachao Lin, Zhihua Zhang(参考訳) 勾配流や勾配降下を伴うニューラルネットワークを用いた線形予測子(すなわち、ゼロマージンの分離可能なデータセット)の学習に関する基礎的な問題を考える。 球対称なデータ分布を仮定すると、2つの隠れノードを持つ2層非線形ネットワークと(ディープ)線形ネットワークの正確な収束率で方向収束保証を示す。 さらに,先行研究とは対照的に,初期損失と完全分類制約を伴わずに初期化から動的に発見する。 結果をさらに強化し、一般化する上での課題についても指摘し、検討する。

We consider the fundamental problem of learning linear predictors (i.e., separable datasets with zero margin) using neural networks with gradient flow or gradient descent. Under the assumption of spherically symmetric data distribution, we show directional convergence guarantees with exact convergence rate for two-layer non-linear networks with only two hidden nodes, and (deep) linear networks. Moreover, our discovery is built on dynamic from the initialization without both initial loss and perfect classification constraint in contrast to previous works. We also point out and study the challenges in further strengthening and generalizing our results.
公開日:2021-05-09
翻訳日:2021-05-11 15:16:16
# 混合型変数を持つ(In)依存性のベイズカーネル化試験

Bayesian Kernelised Test of (In)dependence with Mixed-type Variables ( http://arxiv.org/abs/2105.04001v1 )

ライセンス: Link先を確認
Alessio Benavoli and Cassio de Campos(参考訳) AIの基本課題は、混合型変数(テキスト、画像、音声)間の(独立性)を評価することである。 本稿では,ディリクレ過程モデルを用いた(in)依存性のベイズ核化相関テストを提案する。 データに基づいて、(混合型)変数は独立しているか? 依存/依存の確率はどのくらいか? 2つの混合型変数が単に弱依存以上である確率はどのくらい高いか? 理論的には,提案手法の特性と,それを用いた高速計算アルゴリズムを示す。 提案手法の有効性を,その性能を解析し,混合型変数を用いたデータセットやタスクについて,他の頻度主義的手法やベイズ的手法と比較することにより実証的に実証する。

A fundamental task in AI is to assess (in)dependence between mixed-type variables (text, image, sound). We propose a Bayesian kernelised correlation test of (in)dependence using a Dirichlet process model. The new measure of (in)dependence allows us to answer some fundamental questions: Based on data, are (mixed-type) variables independent? How likely is dependence/independe nce to hold? How high is the probability that two mixed-type variables are more than just weakly dependent? We theoretically show the properties of the approach, as well as algorithms for fast computation with it. We empirically demonstrate the effectiveness of the proposed method by analysing its performance and by comparing it with other frequentist and Bayesian approaches on a range of datasets and tasks with mixed-type variables.
公開日:2021-05-09
翻訳日:2021-05-11 15:16:06
# ディープラーニングの現代数学

The Modern Mathematics of Deep Learning ( http://arxiv.org/abs/2105.04026v1 )

ライセンス: Link先を確認
Julius Berner, Philipp Grohs, Gitta Kutyniok, Philipp Petersen(参考訳) 深層学習の数学的解析の新しい分野について述べる。 この分野は、古典的学習理論の枠組みでは答えられていない研究質問のリストを中心に出現した。 過剰パラメータ化されたニューラルネットワークの卓越した一般化能力、深層アーキテクチャにおける奥行きの役割、次元の呪いの明らかな欠如、問題の非凸性にも拘わらず驚くほどの最適化性能、どの特徴が学習されているかを理解し、なぜ深いアーキテクチャが物理的問題において異常によく機能するのか、アーキテクチャの微妙な側面が学習タスクの振る舞いにどのような影響を及ぼすのか、といった疑問である。 これらの疑問に部分的に答える近代的アプローチの概要を述べる。 選択されたアプローチに対しては、主要なアイデアをより詳細に記述する。

We describe the new field of mathematical analysis of deep learning. This field emerged around a list of research questions that were not answered within the classical framework of learning theory. These questions concern: the outstanding generalization power of overparametrized neural networks, the role of depth in deep architectures, the apparent absence of the curse of dimensionality, the surprisingly successful optimization performance despite the non-convexity of the problem, understanding what features are learned, why deep architectures perform exceptionally well in physical problems, and which fine aspects of an architecture affect the behavior of a learning task in which way. We present an overview of modern approaches that yield partial answers to these questions. For selected approaches, we describe the main ideas in more detail.
公開日:2021-05-09
翻訳日:2021-05-11 15:15:54
# 深部生成モデルを用いた特異分布の非パラメトリック推定への可能性

A likelihood approach to nonparametric estimation of a singular distribution using deep generative models ( http://arxiv.org/abs/2105.04046v1 )

ライセンス: Link先を確認
Minwoo Chae, Dongha Kim, Yongdai Kim, Lizhen Lin(参考訳) 深部生成モデルを用いた特異分布の非パラメトリック推定に対する確率的アプローチの統計的特性について検討する。 より具体的には、ある低次元構造の周りに集中すると仮定される高次元データをモデル化するために、深い生成モデルが用いられる。 低次元多様体のようなこの低次元構造に支持される分布を推定することは、その特異性から周囲空間のルベーグ測度に関して難しい。 検討されたモデルでは、通常の確率的アプローチは特異性のために目標分布を常に推定できない。 そこで,本論文では,データに最適な収束率で基礎となる分布を一貫した推定をもたらすインスタンスノイズを摂動することで,新しい効率的な解が存在することを示す。 また,深層生成モデルを用いて効率的に推定できる分布のクラスを特徴付ける。 このクラスは、積分布、古典的に滑らかな分布、低次元多様体上で支持される分布といった様々な構造化分布を含むのに十分一般的である。 本解析は,非パラメトリック分布推定における次元の呪いを避けるための深い生成モデルに関する知見を与える。 提案手法が推定性能を大幅に向上することを示すために,詳細なシミュレーション研究と実データ解析を行い,実データ解析を行った。

We investigate statistical properties of a likelihood approach to nonparametric estimation of a singular distribution using deep generative models. More specifically, a deep generative model is used to model high-dimensional data that are assumed to concentrate around some low-dimensional structure. Estimating the distribution supported on this low-dimensional structure such as a low-dimensional manifold is challenging due to its singularity with respect to the Lebesgue measure in the ambient space. In the considered model, a usual likelihood approach can fail to estimate the target distribution consistently due to the singularity. We prove that a novel and effective solution exists by perturbing the data with an instance noise which leads to consistent estimation of the underlying distribution with desirable convergence rates. We also characterize the class of distributions that can be efficiently estimated via deep generative models. This class is sufficiently general to contain various structured distributions such as product distributions, classically smooth distributions and distributions supported on a low-dimensional manifold. Our analysis provides some insights on how deep generative models can avoid the curse of dimensionality for nonparametric distribution estimation. We conduct thorough simulation study and real data analysis to empirically demonstrate that the proposed data perturbation technique improves the estimation performance significantly.
公開日:2021-05-09
翻訳日:2021-05-11 15:15:40
# SigGPDE:シーケンスデータに基づくスパースガウスプロセスのスケーリング

SigGPDE: Scaling Sparse Gaussian Processes on Sequential Data ( http://arxiv.org/abs/2105.04211v1 )

ライセンス: Link先を確認
Maud Lemercier, Cristopher Salvi, Thomas Cass, Edwin V. Bonilla, Theodoros Damoulas, Terry Lyons(参考訳) 入力データがシーケンシャルな場合の予測と不確かさの定量化は基本的な学習課題であり、近年は注目を集めている。 SigGPDEは,ガウス過程(GP)を逐次データに基づいて拡張可能な分散変動推論フレームワークである。 私たちの貢献は2倍です。 まず、スパース近似の根底にある変数を誘導し、その結果のエビデンスの下限(ELBO)が行列反転を必要としないように構成する。 次に,GPシグネチャカーネルの勾配は双曲偏微分方程式(PDE)の解であることを示す。 この理論的洞察により、ELBOを最適化する効率的なバックプロパゲーションアルゴリズムを構築することができる。 本稿では,SigGPDEの計算精度を既存手法と比較し,最大100万個の多変量時系列の大規模データセット上での分類タスクの最先端性能を示す。

Making predictions and quantifying their uncertainty when the input data is sequential is a fundamental learning challenge, recently attracting increasing attention. We develop SigGPDE, a new scalable sparse variational inference framework for Gaussian Processes (GPs) on sequential data. Our contribution is twofold. First, we construct inducing variables underpinning the sparse approximation so that the resulting evidence lower bound (ELBO) does not require any matrix inversion. Second, we show that the gradients of the GP signature kernel are solutions of a hyperbolic partial differential equation (PDE). This theoretical insight allows us to build an efficient back-propagation algorithm to optimize the ELBO. We showcase the significant computational gains of SigGPDE compared to existing methods, while achieving state-of-the-art performance for classification tasks on large datasets of up to 1 million multivariate time series.
公開日:2021-05-10
翻訳日:2021-05-11 15:15:21
# meta-cal:ランキングによるポストホックキャリブレーション

Meta-Cal: Well-controlled Post-hoc Calibration by Ranking ( http://arxiv.org/abs/2105.04290v1 )

ライセンス: Link先を確認
Xingchen Ma, Matthew B. Blaschko(参考訳) 多くのアプリケーションでは、分類器が正確な予測を行うだけでなく、校正された確率も出力することが望ましい。 しかし、多くの既存の分類器、特にディープニューラルネットワーク分類器は校正されない傾向にある。 ポストホック校正はモデルを校正する技法であり、その目標は校正マップを学ぶことである。 既存のアプローチは主に、キャリブレーション誤差の低いキャリブレーションマップの構築に重点を置いている。 これらの方法とは対照的に,制約下でのマルチクラス分類のポストホックキャリブレーションは,キャリブレーションエラーの少ないキャリブレータは必ずしも実用的ではない。 本稿では,検討すべき2つの実践的制約について紹介する。 次に、ベースキャリブレータとランキングモデルから構築したMeta-Calを紹介する。 いくつかの穏やかな仮定の下では、これらの制約に関して2つの高確率境界が与えられる。 CIFAR-10, CIFAR-100, ImageNetの実証実験の結果, 提案手法は, ポストホックなマルチクラス分類校正技術において, 高い性能を示した。

In many applications, it is desirable that a classifier not only makes accurate predictions, but also outputs calibrated probabilities. However, many existing classifiers, especially deep neural network classifiers, tend not to be calibrated. Post-hoc calibration is a technique to recalibrate a model, and its goal is to learn a calibration map. Existing approaches mostly focus on constructing calibration maps with low calibration errors. Contrary to these methods, we study post-hoc calibration for multi-class classification under constraints, as a calibrator with a low calibration error does not necessarily mean it is useful in practice. In this paper, we introduce two practical constraints to be taken into consideration. We then present Meta-Cal, which is built from a base calibrator and a ranking model. Under some mild assumptions, two high-probability bounds are given with respect to these constraints. Empirical results on CIFAR-10, CIFAR-100 and ImageNet and a range of popular network architectures show our proposed method significantly outperforms the current state of the art for post-hoc multi-class classification calibration.
公開日:2021-05-10
翻訳日:2021-05-11 15:15:03
# 資源配分のための組合せ多腕バンディット

Combinatorial Multi-armed Bandits for Resource Allocation ( http://arxiv.org/abs/2105.04373v1 )

ライセンス: Link先を確認
Jinhang Zuo, Carlee Joe-Wong(参考訳) 意思決定者がリソース間で予算を割当する逐次的資源割当問題について検討する。 モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザ(すなわちリソース)に割り当てることがある。 各段階において、意思決定者は利用可能な予算を様々なリソースに分配し、期待される報酬を最大化する。 意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。 例えば、ユーザは無線スペクトル帯域上で異なる緊急性のメッセージを送信し、スペクトルをユーザに割り当てることで発生する報酬は、メッセージの緊急性に依存する。 各ユーザの報酬は、当初未知のランダムなプロセスに従うと仮定する。 我々は,この問題を離散的あるいは連続的な予算で解くために,コンビネート型多武装バンディットアルゴリズムを設計する。 提案アルゴリズムは半帯域フィードバックの下で対数的後悔を実現する。

We study the sequential resource allocation problem where a decision maker repeatedly allocates budgets between resources. Motivating examples include allocating limited computing time or wireless spectrum bands to multiple users (i.e., resources). At each timestep, the decision maker should distribute its available budgets among different resources to maximize the expected reward, or equivalently to minimize the cumulative regret. In doing so, the decision maker should learn the value of the resources allocated for each user from feedback on each user's received reward. For example, users may send messages of different urgency over wireless spectrum bands; the reward generated by allocating spectrum to a user then depends on the message's urgency. We assume each user's reward follows a random process that is initially unknown. We design combinatorial multi-armed bandit algorithms to solve this problem with discrete or continuous budgets. We prove the proposed algorithms achieve logarithmic regrets under semi-bandit feedback.
公開日:2021-05-10
翻訳日:2021-05-11 15:14:46
# 自然後部ネットワーク:特定家族分布における深ベイズ予測不確かさ

Natural Posterior Network: Deep Bayesian Predictive Uncertainty for Exponential Family Distributions ( http://arxiv.org/abs/2105.04471v1 )

ライセンス: Link先を確認
Bertrand Charpentier, Oliver Borchert, Daniel Z\"ugner, Simon Geisler, Stephan G\"unnemann(参考訳) 不確実性認識は、信頼できる機械学習モデルを開発するために不可欠である。 本研究では,目標分布が指数族に属するタスクに対して,高速かつ高品質な不確実性を推定するためのNatural Posterior Network(NatPN)を提案する。 したがって、NatPNは分類と一般的な回帰設定の両方に適用できる。 従来の多くのアプローチとは異なり、NatPNはトレーニング時にアウト・オブ・ディストリビューション(OOD)データを必要としない。 その代わり、正規化フローを利用して学習された低次元およびタスク依存の潜在空間に1つの密度を適合させる。 任意の入力サンプルに対して、NatPNは予測確率を使用して、ターゲット分布に対してベイズ更新を実行する。 理論的には、NatPNはトレーニングデータから遠く離れたところで高い不確実性を割り当てる。 キャリブレーションとOOD検出の広範な実験により,NatPNは分類,回帰,カウント予測タスクにおいて高い競争力を発揮することが示された。

Uncertainty awareness is crucial to develop reliable machine learning models. In this work, we propose the Natural Posterior Network (NatPN) for fast and high-quality uncertainty estimation for any task where the target distribution belongs to the exponential family. Thus, NatPN finds application for both classification and general regression settings. Unlike many previous approaches, NatPN does not require out-of-distribution (OOD) data at training time. Instead, it leverages Normalizing Flows to fit a single density on a learned low-dimensional and task-dependent latent space. For any input sample, NatPN uses the predicted likelihood to perform a Bayesian update over the target distribution. Theoretically, NatPN assigns high uncertainty far away from training data. Empirically, our extensive experiments on calibration and OOD detection show that NatPN delivers highly competitive performance for classification, regression and count prediction tasks.
公開日:2021-05-10
翻訳日:2021-05-11 15:14:34
# 深いガウス過程のポイント推定としてのディープニューラルネットワーク

Deep Neural Networks as Point Estimates for Deep Gaussian Processes ( http://arxiv.org/abs/2105.04504v1 )

ライセンス: Link先を確認
Vincent Dutordoir, James Hensman, Mark van der Wilk, Carl Henrik Ek, Zoubin Ghahramani, Nicolas Durrande(参考訳) ディープガウス過程 (DGP) はベイズ推論に関連する問題とコストのため、応用の関連性に苦慮している。 本稿では,DGPの近似後部平均がDeep Neural Network (DNN) と同じ数学的構造を持つ部分変動近似法を提案する。 我々は、GP後方平均をReLU基底関数の和として表すドメイン間変換を求めることで、ReLU DNNと同等のDGPを前方通過させる。 この統合により、ニューラルネットワークとしてのdgpの初期化とトレーニングが可能になり、ディープラーニングコミュニティで確立されたプラクティスを活用して、推論タスクを大いに支援する。 実験では、現在のDGP法と比較して精度の向上と訓練の高速化が示された。

Deep Gaussian processes (DGPs) have struggled for relevance in applications due to the challenges and cost associated with Bayesian inference. In this paper we propose a sparse variational approximation for DGPs for which the approximate posterior mean has the same mathematical structure as a Deep Neural Network (DNN). We make the forward pass through a DGP equivalent to a ReLU DNN by finding an interdomain transformation that represents the GP posterior mean as a sum of ReLU basis functions. This unification enables the initialisation and training of the DGP as a neural network, leveraging the well established practice in the deep learning community, and so greatly aiding the inference task. The experiments demonstrate improved accuracy and faster training compared to current DGP methods, while retaining favourable predictive uncertainties.
公開日:2021-05-10
翻訳日:2021-05-11 15:14:21
# Pareto-OptimalのResNetは、ほぼ4ビット

Pareto-Optimal Quantized ResNet Is Mostly 4-bit ( http://arxiv.org/abs/2105.03536v1 )

ライセンス: Link先を確認
AmirAli Abdolrashidi, Lisa Wang, Shivani Agrawal, Jonathan Malmaud, Oleg Rybakov, Chas Leichner, Lukasz Lew(参考訳) 量子化はニューラルネットワークを圧縮し計算コストを下げるための一般的な技術となっているが、以前の研究はネットワークサイズを変えることなく量子化を研究することに集中していた。 ニューラルネットワークの現実世界のアプリケーションの多くは、計算コストとメモリ予算を持ち、パラメータの数を変更することでモデル品質と引き換えることができる。 本研究ではResNetをケーススタディとして,計算コスト品質のトレードオフ曲線に対する量子化の効果を体系的に検討する。 すなわち、bfloat16計算コスト品質のトレードオフ曲線は4ビットと8ビットの曲線によってパレートされ、モデルは主に4ビットに量子化され、最も良いパレート曲線が得られる。 さらに,4ビットResNet-50のImageNet上で,量子化学習を行い,トップ1のeval精度77.09%を得る。 一般化ギャップの測定により量子化の正則化効果を示す。 私たちが使った量子化方法は実用性のために最適化されています。 我々の研究は、量子化のための最適な数値形式の研究と、これらのフォーマットをサポートする機械学習アクセラレータの開発を動機付けている。 そのライブラリはhttps://github.com/g oogle-research/googl e-research/tree/mast er/aqtでオープンソース化されています。

Quantization has become a popular technique to compress neural networks and reduce compute cost, but most prior work focuses on studying quantization without changing the network size. Many real-world applications of neural networks have compute cost and memory budgets, which can be traded off with model quality by changing the number of parameters. In this work, we use ResNet as a case study to systematically investigate the effects of quantization on inference compute cost-quality tradeoff curves. Our results suggest that for each bfloat16 ResNet model, there are quantized models with lower cost and higher accuracy; in other words, the bfloat16 compute cost-quality tradeoff curve is Pareto-dominated by the 4-bit and 8-bit curves, with models primarily quantized to 4-bit yielding the best Pareto curve. Furthermore, we achieve state-of-the-art results on ImageNet for 4-bit ResNet-50 with quantization-aware training, obtaining a top-1 eval accuracy of 77.09%. We demonstrate the regularizing effect of quantization by measuring the generalization gap. The quantization method we used is optimized for practicality: It requires little tuning and is designed with hardware capabilities in mind. Our work motivates further research into optimal numeric formats for quantization, as well as the development of machine learning accelerators supporting these formats. As part of this work, we contribute a quantization library written in JAX, which is open-sourced at https://github.com/g oogle-research/googl e-research/tree/mast er/aqt.
公開日:2021-05-07
翻訳日:2021-05-11 15:14:09
# 画像ベース機械学習を用いた養殖における魚病検出

Fish Disease Detection Using Image Based Machine Learning Technique in Aquaculture ( http://arxiv.org/abs/2105.03934v1 )

ライセンス: Link先を確認
Md Shoaib Ahmed, Tanjim Taharat Aurpa, Md. Abul Kalam Azad(参考訳) 養殖における魚の病気は栄養の安全にとって重大な危険である。 養殖場における感染した魚類の同定は、必要なインフラの確保のため、早期発見が困難である。 感染した魚をタイムリーに識別することは、病気の拡散を防ぐための義務である。 本研究は,サケの養殖が世界最速の食品生産システムであり,市場の70%(250万トン)を占めることから,養殖におけるサケの病気の解明を目指すものである。 欠陥のない画像処理と機械学習機構の連携により,様々な病原体によって引き起こされる感染した魚類を同定した。 この仕事は2つの部分に分けられる。 ルーディメンタリー部では、画像の前処理とセグメンテーションを適用してノイズを低減し、画像を誇張している。 第2部では,カーネル機能を持つ機械学習のsvm( support vector machine)アルゴリズムの助けを借りて,疾患を分類するための関連する特徴を抽出する。 最初の部分の処理されたイメージはこの(SVM)モデルを通過した。 そこで本研究では,サケ画像データセットを用いて魚の病気を調査する手法と組み合わせた総合実験を行った。 我々は、画像拡張の有無に関わらず、この作業を新しいデータセットで伝達した。 その結果, 適用したSVMの精度は91.42と94.12%で, 増補および無増補による評価が得られた。

Fish diseases in aquaculture constitute a significant hazard to nutriment security. Identification of infected fishes in aquaculture remains challenging to find out at the early stage due to the dearth of necessary infrastructure. The identification of infected fish timely is an obligatory step to thwart from spreading disease. In this work, we want to find out the salmon fish disease in aquaculture, as salmon aquaculture is the fastest-growing food production system globally, accounting for 70 percent (2.5 million tons) of the market. In the alliance of flawless image processing and machine learning mechanism, we identify the infected fishes caused by the various pathogen. This work divides into two portions. In the rudimentary portion, image pre-processing and segmentation have been applied to reduce noise and exaggerate the image, respectively. In the second portion, we extract the involved features to classify the diseases with the help of the Support Vector Machine (SVM) algorithm of machine learning with a kernel function. The processed images of the first portion have passed through this (SVM) model. Then we harmonize a comprehensive experiment with the proposed combination of techniques on the salmon fish image dataset used to examine the fish disease. We have conveyed this work on a novel dataset compromising with and without image augmentation. The results have bought a judgment of our applied SVM performs notably with 91.42 and 94.12 percent of accuracy, respectively, with and without augmentation.
公開日:2021-05-09
翻訳日:2021-05-11 15:13:43
# 畳み込みニューラルネットワークを用いたデホモジェナイゼーション

De-homogenization using Convolutional Neural Networks ( http://arxiv.org/abs/2105.04232v1 )

ライセンス: Link先を確認
Martin O. Elingaard, Niels Aage, J. Andreas B{\ae}rentzen, Ole Sigmund(参考訳) 本稿では,構造コンプライアンス最小化のための深層学習に基づく非均質化手法を提案する。 畳み込みニューラルネットワークを用いて粗いメッシュ上のラミネートパラメータのセットから細かいメッシュ上のワンスケール設計へのマッピングをパラメータ化することで、従来の非ホモゲン化アプローチに関連する最小二乗問題の解決を回避し、対応する時間を節約する。 ニューラルネットワークをトレーニングするために、局所的な積層方向に従う周期的な出力フィールドを保証する2段階のカスタム損失関数が開発された。 提案手法の鍵となる特徴は,提案手法を頑健かつ無感なwrtで表現する構造最適化問題の利用や参照を伴わない訓練を行うことである。 ドメインのサイズ、境界条件、ロード。 出力フィールドスケルトン上の距離変換を利用した後処理手順を用いて、所望のラミネート幅を予め定義された最小長スケールと体積率を確保しつつ出力フィールドに投影する。 ディープラーニングアプローチが一般化性に優れたことを示すために,いくつかの異なる負荷条件と境界条件について数値例を示す。 パラメータの適切な選択のために、非ホモジナイズド設計は、計算コストのごく一部で、均質化ベースのソリューションの7~25セント以内で実行される。 さらなる改善のためのいくつかのオプションにより、このスキームは将来のインタラクティブな高解像度トポロジー最適化の基礎を提供することができる。

This paper presents a deep learning-based de-homogenization method for structural compliance minimization. By using a convolutional neural network to parameterize the mapping from a set of lamination parameters on a coarse mesh to a one-scale design on a fine mesh, we avoid solving the least square problems associated with traditional de-homogenization approaches and save time correspondingly. To train the neural network, a two-step custom loss function has been developed which ensures a periodic output field that follows the local lamination orientations. A key feature of the proposed method is that the training is carried out without any use of or reference to the underlying structural optimization problem, which renders the proposed method robust and insensitive wrt. domain size, boundary conditions, and loading. A post-processing procedure utilizing a distance transform on the output field skeleton is used to project the desired lamination widths onto the output field while ensuring a predefined minimum length-scale and volume fraction. To demonstrate that the deep learning approach has excellent generalization properties, numerical examples are shown for several different load and boundary conditions. For an appropriate choice of parameters, the de-homogenized designs perform within $7-25\%$ of the homogenization-based solution at a fraction of the computational cost. With several options for further improvements, the scheme may provide the basis for future interactive high-resolution topology optimization.
公開日:2021-05-10
翻訳日:2021-05-11 15:13:24
# DocReader: 文書情報抽出モデルのバウンディングボックスフリートレーニング

DocReader: Bounding-Box Free Training of a Document Information Extraction Model ( http://arxiv.org/abs/2105.04313v1 )

ライセンス: Link先を確認
Shachar Klaiman and Marius Lehne(参考訳) ドキュメントからの情報抽出は、多くのビジネスアプリケーションにおいて、ユビキタスな第一歩です。 このステップでは、さまざまなフィールドのエントリをまずスキャンされたドキュメントのイメージから読み込み、その後処理し、対応するデータベースに挿入する必要があります。 上記の抽出手順を自動化するために、ここ数年、様々な方法が開発されてきたが、いずれもトレーニング文書のバウンディングボックスやテキストセグメントアノテーションの要件を共有している。 本稿では,画像と読み込む対象値のみを使用してトレーニング可能な,エンドツーエンドのニューラルネットワークに基づく情報抽出ソリューションであるdocreaderを提案する。 これによりDocReaderは、既存の履歴抽出データを活用することができ、既存のヒューマンオペレーションサービスセンターで自然に利用できるもの以外の追加アノテーションの必要性を完全に排除できる。 我々はDocReaderが、トレーニングのためにバウンディングボックスを必要とする他のメソッドに到達し、また、本番環境へのデプロイ中に継続的学習の明確なパスを提供することができることを示した。

Information extraction from documents is a ubiquitous first step in many business applications. During this step, the entries of various fields must first be read from the images of scanned documents before being further processed and inserted into the corresponding databases. While many different methods have been developed over the past years in order to automate the above extraction step, they all share the requirement of bounding-box or text segment annotations of their training documents. In this work we present DocReader, an end-to-end neural-network-based information extraction solution which can be trained using solely the images and the target values that need to be read. The DocReader can thus leverage existing historical extraction data, completely eliminating the need for any additional annotations beyond what is naturally available in existing human-operated service centres. We demonstrate that the DocReader can reach and surpass other methods which require bounding-boxes for training, as well as provide a clear path for continual learning during its deployment in production.
公開日:2021-05-10
翻訳日:2021-05-11 15:13:03
# 潜時ニューラルフォッカー・プランクカーネルを用いた高次元分布の学習

Learning High-Dimensional Distributions with Latent Neural Fokker-Planck Kernels ( http://arxiv.org/abs/2105.04538v1 )

ライセンス: Link先を確認
Yufan Zhou, Changyou Chen, Jinhui Xu(参考訳) 高次元分布の学習は、さまざまな領域で応用される機械学習において重要な課題である。 本稿では,高次元データ空間における課題を軽減すべく,低次元潜在空間におけるfokker-planck方程式の解法として問題を定式化する新しい手法を提案する。 提案モデルでは,潜在分散モーフィング,ジェネレータ,パラメータ化Fokker-Planckカーネル関数からなる。 このモデルの興味深い特性の1つは、潜在分布モーフィングの任意のステップで、あるいはモーフィングなしでも訓練できることであり、これは生成的敵ネットワーク(gans)と同じくらい柔軟で効率的である。 さらに、この特性により、潜在分布の変形を効率的なプラグ・アンド・プレイ方式とし、任意のGANを改善するために使用することができ、より興味深いことに、GANモデルの障害ケースを効果的に修正することができる。 拡張実験は,提案手法の既存モデルに対する利点を実証するものである。

Learning high-dimensional distributions is an important yet challenging problem in machine learning with applications in various domains. In this paper, we introduce new techniques to formulate the problem as solving Fokker-Planck equation in a lower-dimensional latent space, aiming to mitigate challenges in high-dimensional data space. Our proposed model consists of latent-distribution morphing, a generator and a parameterized Fokker-Planck kernel function. One fascinating property of our model is that it can be trained with arbitrary steps of latent distribution morphing or even without morphing, which makes it flexible and as efficient as Generative Adversarial Networks (GANs). Furthermore, this property also makes our latent-distribution morphing an efficient plug-and-play scheme, thus can be used to improve arbitrary GANs, and more interestingly, can effectively correct failure cases of the GAN models. Extensive experiments illustrate the advantages of our proposed method over existing models.
公開日:2021-05-10
翻訳日:2021-05-11 15:12:46
# FastCorrect: 自動音声認識のための編集アライメントによる誤り訂正

FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition ( http://arxiv.org/abs/2105.03842v1 )

ライセンス: Link先を確認
Yichong Leng, Xu Tan, Linchen Zhu, Jin Xu, Renqian Luo, Linquan Liu, Tao Qin, Xiang-Yang Li, Ed Lin, Tie-Yan Liu(参考訳) 誤り訂正技術は、自動音声認識(ASR)モデルから出力文を洗練させ、元のASR出力よりも低い単語誤り率(WER)を達成するために用いられている。 従来の著作では、asr出力文を自己回帰的に修正するシーケンシャル・ツー・シーケンス・モデルを使用しており、これは大きなレイテンシを引き起こし、オンラインasrサービスではデプロイできない。 非自己回帰型(nar)ニューラルマシン翻訳にインスパイアされたレイテンシを削減するための簡単な解決策は、asrエラー訂正にnarシーケンス生成モデルを使用することだが、asrエラー率を大幅に増加させるコストがかかる。 本稿では,ASRにおける独特の誤りパターンと修正操作(挿入,削除,置換)を観察し,編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。 トレーニングにおいて、FastCorrectは、ソースとターゲット文間の編集距離に基づいて、ASR出力文から各ソーストークンを対応する接頭辞からターゲットトークンに調整し、エディション/修正時に各ソーストークンに対応するターゲットトークン数を抽出し、長さ予測器をトレーニングし、ソーストークンを調整して、ターゲット文の長さを並列生成する。 推論において、長さ予測器によって予測されるトークン番号は、ターゲットシーケンス生成のソーストークンを調整するために使用される。 一般のAISHELL-1データセットと産業規模のASRデータセットを用いた実験では,ASR誤り訂正のためのFastCorrectの有効性が示された。1) 推論を6~9倍に高速化し,自己回帰補正モデルと比較して精度(8~14% WER削減)を維持し,2) ニューラルネットワーク翻訳で採用される一般的なNARモデルの精度を大きなマージンで上回る。

Error correction techniques have been used to refine the output sentences from automatic speech recognition (ASR) models and achieve a lower word error rate (WER) than original ASR outputs. Previous works usually use a sequence-to-sequence model to correct an ASR output sentence autoregressively, which causes large latency and cannot be deployed in online ASR services. A straightforward solution to reduce latency, inspired by non-autoregressive (NAR) neural machine translation, is to use an NAR sequence generation model for ASR error correction, which, however, comes at the cost of significantly increased ASR error rate. In this paper, observing distinctive error patterns and correction operations (i.e., insertion, deletion, and substitution) in ASR, we propose FastCorrect, a novel NAR error correction model based on edit alignment. In training, FastCorrect aligns each source token from an ASR output sentence to the target tokens from the corresponding ground-truth sentence based on the edit distance between the source and target sentences, and extracts the number of target tokens corresponding to each source token during edition/correction, which is then used to train a length predictor and to adjust the source tokens to match the length of the target sentence for parallel generation. In inference, the token number predicted by the length predictor is used to adjust the source tokens for target sequence generation. Experiments on the public AISHELL-1 dataset and an internal industrial-scale ASR dataset show the effectiveness of FastCorrect for ASR error correction: 1) it speeds up the inference by 6-9 times and maintains the accuracy (8-14% WER reduction) compared with the autoregressive correction model; and 2) it outperforms the accuracy of popular NAR models adopted in neural machine translation by a large margin.
公開日:2021-05-09
翻訳日:2021-05-11 15:12:29
# 可制御音声合成のためのロバスト遅延表現の学習

Learning Robust Latent Representations for Controllable Speech Synthesis ( http://arxiv.org/abs/2105.04458v1 )

ライセンス: Link先を確認
Shakti Kumar, Jithin Pradeep, Hussain Zaidi(参考訳) ゆがみのある潜在表現を学習するための最先端の変分自動エンコーダ(VAE)は、音声データにおけるピッチ、停止時間、アクセントなどの特徴を発見し、高い制御可能な音声合成をもたらす。 しかしながら、これらのLSTMベースのVAEは、制限されたデータセットまたはノイズの多いデータセットでトレーニングされた場合、話者属性の潜在クラスタを学習することができない。 さらに、異なる潜在変数が同じ特徴をエンコードし始め、音声合成中の制御と表現性を制限する。 そこで本研究では,異なる潜在変数間の相互情報を最小限に抑えるrti-vae(reordered transformer with information reduction vae)を提案する。 RTI-VAEは、LSTM-VAEの少なくとも30倍、バニラトランスフォーマー-VAEの少なくとも7倍の話者属性のクラスタオーバーラップを低減する。

State-of-the-art Variational Auto-Encoders (VAEs) for learning disentangled latent representations give impressive results in discovering features like pitch, pause duration, and accent in speech data, leading to highly controllable text-to-speech (TTS) synthesis. However, these LSTM-based VAEs fail to learn latent clusters of speaker attributes when trained on either limited or noisy datasets. Further, different latent variables start encoding the same features, limiting the control and expressiveness during speech synthesis. To resolve these issues, we propose RTI-VAE (Reordered Transformer with Information reduction VAE) where we minimize the mutual information between different latent variables and devise a modified Transformer architecture with layer reordering to learn controllable latent representations in speech data. We show that RTI-VAE reduces the cluster overlap of speaker attributes by at least 30\% over LSTM-VAE and by at least 7\% over vanilla Transformer-VAE.
公開日:2021-05-10
翻訳日:2021-05-11 15:11:52
# 損失耐性連合学習

Loss Tolerant Federated Learning ( http://arxiv.org/abs/2105.03591v1 )

ライセンス: Link先を確認
Pengyuan Zhou, Pei Fang, Pan Hui(参考訳) 近年,プライバシー保護を伴う分散デバイス上でのデータの協調学習が注目されている。 モバイルとIoTデバイスの限られたネットワーク容量は、デバイス間フェデレーション学習における大きな課題の1つと見なされている。 近年,通信効率を確保するためのしきい値ベースのクライアント選択方式に注目している。 しかし,このアプローチはクライアントの選択に偏りが生じ,性能が低下する可能性がある。 さらに,ネットワーク制限の課題が過大評価されている場合もあり,パケット損失が必ずしも有害であるとは限らない。 本稿では,損失耐性フェデレート学習(LT-FL)について,アグリゲーション,フェアネス,パーソナライゼーションの観点から検討する。 我々はThrowRightAway (TRA) を用いて、パケット損失を意図的に無視することで、低帯域デバイスのデータアップロードを高速化する。 その結果、traと他のアルゴリズムは、一定の割合(10%-30%)以下のパケット損失に直面して、パーソナライズと公平性のパフォーマンスを共に保証できることが示唆された。

Federated learning has attracted attention in recent years for collaboratively training data on distributed devices with privacy-preservation . The limited network capacity of mobile and IoT devices has been seen as one of the major challenges for cross-device federated learning. Recent solutions have been focusing on threshold-based client selection schemes to guarantee the communication efficiency. However, we find this approach can cause biased client selection and results in deteriorated performance. Moreover, we find that the challenge of network limit may be overstated in some cases and the packet loss is not always harmful. In this paper, we explore the loss tolerant federated learning (LT-FL) in terms of aggregation, fairness, and personalization. We use ThrowRightAway (TRA) to accelerate the data uploading for low-bandwidth-device s by intentionally ignoring some packet losses. The results suggest that, with proper integration, TRA and other algorithms can together guarantee the personalization and fairness performance in the face of packet loss below a certain fraction (10%-30%).
公開日:2021-05-08
翻訳日:2021-05-11 15:11:32
# 特徴粗化による大規模多孔質流予測のためのディープラーニング性能の向上

Improving Deep Learning Performance for Predicting Large-Scale Porous-Media Flow through Feature Coarsening ( http://arxiv.org/abs/2105.03752v1 )

ライセンス: Link先を確認
Bicheng Yan, Dylan Robert Harp, Bailian Chen, Rajesh J. Pawar(参考訳) 多孔質媒質中の流体流動の物理シミュレーションは、状態変数の時間空間的進化を予測するための計算技術である。 圧力) 多孔質媒質中では, 通常は非線形性や研究領域の規模により高い計算コストが要求される。 本文では, 大規模3次元多孔質媒質中の流体の流れとして圧力変化を予測するための深層学習(DL)ワークフローについて述べる。 特に,最も代表的な情報を抽出し,粗いスケールでDLのトレーニングと予測を行い,さらに2次元立方体補間により微細スケールでの分解能を復元する特徴粗化手法を適用した。 物理シミュレーションデータからトレーニングしたDL手法を用いて,フィールドスケールの3次元地質CO_2貯留層における圧力場を予測する。 我々は,特徴粗化がDL性能に与える影響を評価し,特徴粗化がトレーニング時間を74%削減し,メモリ消費を75%削減するだけでなく,時間誤差を1.5%維持することを示した。 さらに、DLワークフローは物理ベースのシミュレーションに比べて約1400倍のスピードアップで予測効率を提供する。

Physics-based simulation for fluid flow in porous media is a computational technology to predict the temporal-spatial evolution of state variables (e.g. pressure) in porous media, and usually requires high computational expense due to its nonlinearity and the scale of the study domain. This letter describes a deep learning (DL) workflow to predict the pressure evolution as fluid flows in large-scale 3D heterogeneous porous media. In particular, we apply feature coarsening technique to extract the most representative information and perform the training and prediction of DL at the coarse scale, and further recover the resolution at the fine scale by 2D piecewise cubic interpolation. We validate the DL approach that is trained from physics-based simulation data to predict pressure field in a field-scale 3D geologic CO_2 storage reservoir. We evaluate the impact of feature coarsening on DL performance, and observe that the feature coarsening can not only decrease training time by >74% and reduce memory consumption by >75%, but also maintains temporal error <1.5%. Besides, the DL workflow provides predictive efficiency with ~1400 times speedup compared to physics-based simulation.
公開日:2021-05-08
翻訳日:2021-05-11 15:11:17
# 量的トレーディングのためのエキスパート軌道を用いた強化学習

Reinforcement Learning with Expert Trajectory For Quantitative Trading ( http://arxiv.org/abs/2105.03844v1 )

ライセンス: Link先を確認
Sihang Chen, Weiqi Luo and Chao Yu(参考訳) 近年、定量的な投資手法と人工知能が組み合わさって、投資家や研究者の注目を集めている。 教師付き学習に基づく既存の手法は、将来的な取引における長期的な目標と遅延報酬の学習にはあまり適していない。 そこで本稿では,価格予測問題をマルコフ決定過程(MDP)としてモデル化し,専門家軌道による強化学習により最適化する。 提案手法では,MDPの状態を記述するための既存手法において,価格・ボリューム・技術的要因の代わりに,100以上の短期的アルファ因子を用いる。 さらに, DQN (Deep Q-learning) やBC (Behavior cloning) と異なり, 訓練段階のエキスパート体験を導入し, 専門家-環境相互作用とエージェント-環境相互作用の両方を考慮し, 時間差誤差を設計し, エージェントが金融データの避けられないノイズに適応できるようにした。 IF (CSI 300) とIC (CSI 500) を含む中国における株価指数の将来を実験的に評価した結果, 提案手法の利点が3つの典型的な技術分析と2つの深い傾きに基づく手法と比較された。

In recent years, quantitative investment methods combined with artificial intelligence have attracted more and more attention from investors and researchers. Existing related methods based on the supervised learning are not very suitable for learning problems with long-term goals and delayed rewards in real futures trading. In this paper, therefore, we model the price prediction problem as a Markov decision process (MDP), and optimize it by reinforcement learning with expert trajectory. In the proposed method, we employ more than 100 short-term alpha factors instead of price, volume and several technical factors in used existing methods to describe the states of MDP. Furthermore, unlike DQN (deep Q-learning) and BC (behavior cloning) in related methods, we introduce expert experience in training stage, and consider both the expert-environment interaction and the agent-environment interaction to design the temporal difference error so that the agents are more adaptable for inevitable noise in financial data. Experimental results evaluated on share price index futures in China, including IF (CSI 300) and IC (CSI 500), show that the advantages of the proposed method compared with three typical technical analysis and two deep leaning based methods.
公開日:2021-05-09
翻訳日:2021-05-11 15:10:59
# MS MARCO: 大規模データレジームにおけるランキングモデルのベンチマーク

MS MARCO: Benchmarking Ranking Models in the Large-Data Regime ( http://arxiv.org/abs/2105.04021v1 )

ライセンス: Link先を確認
Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos and Jimmy Lin(参考訳) TREC,CLEF,NTCIR,FIRE などの評価活動とMS MARCOのような公共のリーダーボードは,研究の促進と進捗の追跡を目的としており,我々の分野における大きな疑問に対処している。 しかし、ゴールは単にどのランがベストかを特定することではなく、トップスコアを達成することである。 目標は、さまざまな環境で機能し、研究や実践で採用される、新しい堅牢な技術を開発することによって、分野を前進させることだ。 本稿では,MS MARCO と TREC Deep Learning Track を事例として,1990年代の TREC アドホックランキングと比較した。 評価の取り組みのデザインは、ある成果を奨励または阻止し、結果の内部的および外部的妥当性に関する疑問を提起する。 我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。 これまでの取り組みの進捗状況を要約し、望まれる“ロバストな有用性”の最後状態と、私たちをそこに導くために必要なステップについて説明する。

Evaluation efforts such as TREC, CLEF, NTCIR and FIRE, alongside public leaderboard such as MS MARCO, are intended to encourage research and track our progress, addressing big questions in our field. However, the goal is not simply to identify which run is "best", achieving the top score. The goal is to move the field forward by developing new robust techniques, that work in many different settings, and are adopted in research and practice. This paper uses the MS MARCO and TREC Deep Learning Track as our case study, comparing it to the case of TREC ad hoc ranking in the 1990s. We show how the design of the evaluation effort can encourage or discourage certain outcomes, and raising questions about internal and external validity of results. We provide some analysis of certain pitfalls, and a statement of best practices for avoiding such pitfalls. We summarize the progress of the effort so far, and describe our desired end state of "robust usefulness", along with steps that might be required to get us there.
公開日:2021-05-09
翻訳日:2021-05-11 15:10:36
# モデルデバッグにおける説明の有用性のベンチマークに向けて

Towards Benchmarking the Utility of Explanations for Model Debugging ( http://arxiv.org/abs/2105.04505v1 )

ライセンス: Link先を確認
Maximilian Idahl, Lijun Lyu, Ujwal Gadiraju, Avishek Anand(参考訳) ポストホックな説明法は、訓練されたモデルの決定の根拠を理解するための重要なアプローチのクラスである。 しかし、エンドユーザーが特定のタスクを達成するのにどれくらい役に立つか? 本稿では,ポストホックな説明手法の有効性を評価するためのベンチマークの必要性を論じる。 この目的の最初のステップとして、そのようなベンチマークがテキスト分類器をデバッグするタスクのために持つべき望ましいプロパティを列挙する。 さらに,このようなベンチマークは,説明の有効性を評価するだけでなく,その効率性を評価するのに役立つことを強調する。

Post-hoc explanation methods are an important class of approaches that help understand the rationale underlying a trained model's decision. But how useful are they for an end-user towards accomplishing a given task? In this vision paper, we argue the need for a benchmark to facilitate evaluations of the utility of post-hoc explanation methods. As a first step to this end, we enumerate desirable properties that such a benchmark should possess for the task of debugging text classifiers. Additionally, we highlight that such a benchmark facilitates not only assessing the effectiveness of explanations but also their efficiency.
公開日:2021-05-10
翻訳日:2021-05-11 15:10:17
# NLP-IIS@UT at SemEval-2021 Task 4: Long Document Transformer を用いた機械読解

NLP-IIS@UT at SemEval-2021 Task 4: Machine Reading Comprehension using the Long Document Transformer ( http://arxiv.org/abs/2105.03775v1 )

ライセンス: Link先を確認
Hossein Basafa, Sajad Movahedi, Ali Ebrahimi, Azadeh Shakery and Heshaam Faili(参考訳) 本稿では,SemEval-2021の4番目の課題である「抽象的意味の理解」に関する技術的報告を紹介する。 このタスクでは、状況に応じた質問に基づいて正しい回答を予測したい。 通常、コンテキストは非常に長く、モデルから大きな受容フィールドを必要とする。 したがって、bertのような一般的なコンテキスト化言語モデルは、入力トークンの容量が限られているため、詳細な表現とパフォーマンスを欠いている。 この問題に対処するために、Longformerモデルを使い、シーケンスをよりよく処理しました。 さらに,wikihopデータセットのlongformerベンチマークで提案する手法を用いて,サブタスク1と2のベースラインで達成したタスクデータの精度を23.01%,22.95%から70.30%,64.38%に改善した。

This paper presents a technical report of our submission to the 4th task of SemEval-2021, titled: Reading Comprehension of Abstract Meaning. In this task, we want to predict the correct answer based on a question given a context. Usually, contexts are very lengthy and require a large receptive field from the model. Thus, common contextualized language models like BERT miss fine representation and performance due to the limited capacity of the input tokens. To tackle this problem, we used the Longformer model to better process the sequences. Furthermore, we utilized the method proposed in the Longformer benchmark on Wikihop dataset which improved the accuracy on our task data from 23.01% and 22.95% achieved by the baselines for subtask 1 and 2, respectively, to 70.30% and 64.38%.
公開日:2021-05-08
翻訳日:2021-05-11 15:10:07
# 非定常分布に対する適応潜在空間チューニング

Adaptive Latent Space Tuning for Non-Stationary Distributions ( http://arxiv.org/abs/2105.03584v1 )

ライセンス: Link先を確認
Alexander Scheinker, Frederick Cropp, Sergio Paiagua, Daniele Filippetto(参考訳) 畳み込みニューラルネットワーク(CNN)のような強力なディープラーニングツールは、データから直接大規模な複雑なシステムの入出力関係を学習することができる。 エンコーダデコーダディープcnnは、画像から直接特徴を抽出し、一般的な低次元の潜在空間内でスカラー入力と混合し、複雑な物理現象を表す新しい複雑な2d出力を生成することができる。 ディープラーニング手法が直面する重要な課題の1つは、再学習が不可能な時間とともに特徴が急速に変化する大規模非定常システムである。 本稿では,リアルタイムフィードバックに基づくディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。 電場加速と集束磁界)が時間とともに急速に変化している粒子加速器において、時間変化の粒子ビームの特性を予測するための我々の手法を実証する。

Powerful deep learning tools, such as convolutional neural networks (CNN), are able to learn the input-output relationships of large complicated systems directly from data. Encoder-decoder deep CNNs are able to extract features directly from images, mix them with scalar inputs within a general low-dimensional latent space, and then generate new complex 2D outputs which represent complex physical phenomenon. One important challenge faced by deep learning methods is large non-stationary systems whose characteristics change quickly with time for which re-training is not feasible. In this paper we present a method for adaptive tuning of the low-dimensional latent space of deep encoder-decoder style CNNs based on real-time feedback to quickly compensate for unknown and fast distribution shifts. We demonstrate our approach for predicting the properties of a time-varying charged particle beam in a particle accelerator whose components (accelerating electric fields and focusing magnetic fields) are also quickly changing with time.
公開日:2021-05-08
翻訳日:2021-05-11 15:09:55
# 確率的決定木を学ぶ

Learning stochastic decision trees ( http://arxiv.org/abs/2105.03594v1 )

ライセンス: Link先を確認
Guy Blanc and Jane Lange and Li-Yang Tan(参考訳) 対向雑音に最適な確率的決定木を学習するための準多項式時間アルゴリズムを提案する。 サイズ-s$ 確率的決定木でラベル付けされた一様ランダムなサンプルの$\eta$ が与えられると、アルゴリズムは時間$n^{o(\log(s/\varepsilon )/\varepsilon^2)} で実行され、ベイズの最適値の2\eta + \varepsilon$ 内の誤差を持つ仮説を返す。 追加の$2\eta$は情報理論の最小値である。 以前は、より弱いノイズモデルであっても、$O(\eta) + \varepsilon$を保証する非自明なアルゴリズムは知られていない。 我々のアルゴリズムはさらに適切であり、それ自体が決定木である仮説を返す。

We give a quasipolynomial-time algorithm for learning stochastic decision trees that is optimally resilient to adversarial noise. Given an $\eta$-corrupted set of uniform random samples labeled by a size-$s$ stochastic decision tree, our algorithm runs in time $n^{O(\log(s/\varepsilon )/\varepsilon^2)}$ and returns a hypothesis with error within an additive $2\eta + \varepsilon$ of the Bayes optimal. An additive $2\eta$ is the information-theoreti c minimum. Previously no non-trivial algorithm with a guarantee of $O(\eta) + \varepsilon$ was known, even for weaker noise models. Our algorithm is furthermore proper, returning a hypothesis that is itself a decision tree; previously no such algorithm was known even in the noiseless setting.
公開日:2021-05-08
翻訳日:2021-05-11 15:09:40
# 初期停止ミラー降下によるノイズスパース位相検索における準最小最適速度

Nearly Minimax-Optimal Rates for Noisy Sparse Phase Retrieval via Early-Stopped Mirror Descent ( http://arxiv.org/abs/2105.03678v1 )

ライセンス: Link先を確認
Fan Wu, Patrick Rebeschini(参考訳) 本稿では,雑音による2次ガウス測度から$k$sparse信号 $\mathbf{x}^\star\in\mathbb{R}^n$ を復元する問題である雑音のスパース位相探索に適用した初期停止ミラー降下について検討する。 非凸)非正規化経験的リスク最小化問題を考えると、双曲的エントロピーミラーマップと適切な初期化を備えると、サンプルサイズが少なくとも$k^2$ (modulo logarithmic term) であり、信号の最小(モジュラー内)非零入力が$\|\mathbf{x}^\star\|_2/\sqrt{k}$ の順であることから、初期停止ミラー降下は、ほぼ最小の最適収束率を達成する。 我々の理論は、空間性を促進するために明示的な正規化やしきい値化のステップに依存しない単純なアルゴリズムにつながる。 より一般に, 雑音下スパース位相検索の非凸問題におけるミラー降下とスパース性の関係が確立され, 勾配降下による非スパース, ユークリッド, 凸設定に主に焦点をあてた早期停止に関する文献が追加されている。 この証明は、ミラー降下のポテンシャルに基づく解析と、ミラー降下の経路に沿って確立される変動コヒーレンス特性を、所定の停止時間まで定量的に制御することを組み合わせたものである。

This paper studies early-stopped mirror descent applied to noisy sparse phase retrieval, which is the problem of recovering a $k$-sparse signal $\mathbf{x}^\star\in\mathbb{R}^n$ from a set of quadratic Gaussian measurements corrupted by sub-exponential noise. We consider the (non-convex) unregularized empirical risk minimization problem and show that early-stopped mirror descent, when equipped with the hyperbolic entropy mirror map and proper initialization, achieves a nearly minimax-optimal rate of convergence, provided the sample size is at least of order $k^2$ (modulo logarithmic term) and the minimum (in modulus) non-zero entry of the signal is on the order of $\|\mathbf{x}^\star\|_2/\sqrt{k}$. Our theory leads to a simple algorithm that does not rely on explicit regularization or thresholding steps to promote sparsity. More generally, our results establish a connection between mirror descent and sparsity in the non-convex problem of noisy sparse phase retrieval, adding to the literature on early stopping that has mostly focused on non-sparse, Euclidean, and convex settings via gradient descent. Our proof combines a potential-based analysis of mirror descent with a quantitative control on a variational coherence property that we establish along the path of mirror descent, up to a prescribed stopping time.
公開日:2021-05-08
翻訳日:2021-05-11 15:09:21
# 自己拡張と適合性を用いたデータ汚染防止対策

Provable Guarantees against Data Poisoning Using Self-Expansion and Compatibility ( http://arxiv.org/abs/2105.03692v1 )

ライセンス: Link先を確認
Charles Jin, Melinda Sun, Martin Rinard(参考訳) 最近の研究で、ディープネットワークはバックドアデータ中毒の攻撃を受けやすいことが示されている。 具体的には、少数の悪意のあるデータをトレーニング分布に注入することにより、敵は推論中にモデルの振る舞いを制御する能力を得る。 本研究では,このトレーニングセットから有毒データを除去する反復的なトレーニング手順を提案する。 私たちのアプローチは2つのステップからなる。 まず,弱い学習者のアンサンブルを訓練し,学習セットの異なる部分集団を自動的に発見する。 そして、クリーンなデータを復元するためにブースティングフレームワークを利用します。 実験的な方法では,クリーンかつ汚いラベル攻撃を含む,最先端のバックドア攻撃に対する防御に成功している。 また,最近の<textit{adaptive}中毒攻撃を含む,独立した第三者による評価結果も提示する。 その結果,本手法はディープニューラルネットワークにおけるバックドア攻撃に対する既存の防御と競合することを示し,いくつかのシナリオにおいて最先端を著しく上回っている。

A recent line of work has shown that deep networks are highly susceptible to backdoor data poisoning attacks. Specifically, by injecting a small amount of malicious data into the training distribution, an adversary gains the ability to control the model's behavior during inference. In this work, we propose an iterative training procedure for removing poisoned data from the training set. Our approach consists of two steps. We first train an ensemble of weak learners to automatically discover distinct subpopulations in the training set. We then leverage a boosting framework to recover the clean data. Empirically, our method successfully defends against several state-of-the-art backdoor attacks, including both clean and dirty label attacks. We also present results from an independent third-party evaluation including a recent \textit{adaptive} poisoning adversary. The results indicate our approach is competitive with existing defenses against backdoor attacks on deep neural networks, and significantly outperforms the state-of-the-art in several scenarios.
公開日:2021-05-08
翻訳日:2021-05-11 15:08:47
# クラスタ間の個人の関心を保護する - 保証付きスペクトルクラスタリング

Protecting Individual Interests across Clusters: Spectral Clustering with Guarantees ( http://arxiv.org/abs/2105.03714v1 )

ライセンス: Link先を確認
Shubham Gupta and Ambedkar Dukkipati(参考訳) 機械学習における公正性に関する研究は、近年、高い意思決定におけるその絶え間ない役割により、勢いを増している。 例えば、アルゴリズムによって発見された全てのクラスタが、性別の多様性が高いことを保証することが望ましい。 従来、これらの問題は、クラスタ間の多様性を規定する公平性条件が観測可能であると仮定されるため、保護されたグループが容易に利用できるという設定の下で研究されてきた。 ほとんどの場合、これは真実ではないかもしれないし、多様性や個人の興味は、ソーシャルネットワークの本質的または潜伏的な特徴として現れうる。 例えば、潜伏感のある属性に依存すると、個人は相互に相互作用し、互いの興味を表現し、結果としてネットワークとなり、それを表現グラフと呼ぶ。 これを動機として、グラフ $\mathcal{G}$ をクラスタリングする個々の公正度基準を提案し、各クラスタは表現グラフ $\mathcal{R}$ の下で、個人に連結された適切な数のメンバを含む必要がある。 スペクトルクラスタリングアルゴリズムを考案し、与えられた表現グラフの下で公正なクラスターを見つける。 さらに,確率ブロックモデルの変種を提案し,このモデルの下でのアルゴリズムの弱い一貫性を確立する。 最後に, 理論的知見を裏付ける実験結果を示す。

Studies related to fairness in machine learning have recently gained traction due to its ever-expanding role in high-stakes decision making. For example, it may be desirable to ensure that all clusters discovered by an algorithm have high gender diversity. Previously, these problems have been studied under a setting where sensitive attributes, with respect to which fairness conditions impose diversity across clusters, are assumed to be observable; hence, protected groups are readily available. Most often, this may not be true, and diversity or individual interests can manifest as an intrinsic or latent feature of a social network. For example, depending on latent sensitive attributes, individuals interact with each other and represent each other's interests, resulting in a network, which we refer to as a representation graph. Motivated by this, we propose an individual fairness criterion for clustering a graph $\mathcal{G}$ that requires each cluster to contain an adequate number of members connected to the individual under a representation graph $\mathcal{R}$. We devise a spectral clustering algorithm to find fair clusters under a given representation graph. We further propose a variant of the stochastic block model and establish our algorithm's weak consistency under this model. Finally, we present experimental results to corroborate our theoretical findings.
公開日:2021-05-08
翻訳日:2021-05-11 15:08:33
# 機械学習におけるバウンディング情報漏洩

Bounding Information Leakage in Machine Learning ( http://arxiv.org/abs/2105.03875v1 )

ライセンス: Link先を確認
Ganesh Del Grosso, Georg Pichler, Catuscia Palamidessi, Pablo Piantanida(参考訳) 機械学習サービスは、アルゴリズムと/またはモデルを使用して敵が機密データにアクセスしやすいように、広範囲のアプリケーションにデプロイされている。 本稿では,情報漏洩の基本的な境界について検討する。 まず、最悪の場合のメンバシップ推論攻撃の成功率を特定し、それをターゲットモデルの一般化エラーに結びつける。 第2に,トレーニングセットに関するアルゴリズムがどれだけの機密情報を格納しているかという問題について検討し,機密属性とモデルパラメータの相互情報の境界を導出する。 我々の貢献はほとんどが理論的な性質であるが、境界と関連する概念は実際的妥当性がある。 理論解析に触発されて,線形回帰モデルとdnnモデルを用いて,mlモデルのプライバシ保証を評価する手法について検討した。

Machine Learning services are being deployed in a large range of applications that make it easy for an adversary, using the algorithm and/or the model, to gain access to sensitive data. This paper investigates fundamental bounds on information leakage. First, we identify and bound the success rate of the worst-case membership inference attack, connecting it to the generalization error of the target model. Second, we study the question of how much sensitive information is stored by the algorithm about the training set and we derive bounds on the mutual information between the sensitive attributes and model parameters. Although our contributions are mostly of theoretical nature, the bounds and involved concepts are of practical relevance. Inspired by our theoretical analysis, we study linear regression and DNN models to illustrate how these bounds can be used to assess the privacy guarantees of ML models.
公開日:2021-05-09
翻訳日:2021-05-11 15:08:12
# chameleon:中小企業向け生産対応mlシステムの迅速かつスケーラブルな開発とデプロイを目的とした半自動フレームワーク

Chameleon: A Semi-AutoML framework targeting quick and scalable development and deployment of production-ready ML systems for SMEs ( http://arxiv.org/abs/2105.03669v1 )

ライセンス: Link先を確認
Johannes Otterbach, Thomas Wollmann(参考訳) 現代の機械学習ソリューションの開発、スケーリング、デプロイは、中小企業(SME)にとって依然として困難である。 これは、専用のITチームを構築し維持する上での参入障壁の高さと、標準ベンチマークデータと比較して現実のデータ(RWD)の難しさによるものです。 この課題に対処するために、セミオートMLフレームワークであるChameleonの実装と概念について議論する。 Chameleonの目標は、プロダクション対応機械学習システムの高速でスケーラブルな開発とデプロイを中小企業のワークフローに組み込むことだ。 まず、中小企業が直面するrwdの課題について論じる。 その後、RWD関連デフォルトを持つモデルおよび損失関数動物園であるフレームワークの中心部分について概説する。 次に、実験イテレーションサイクルの自動化と、開発とデプロイメントの間のギャップを縮めるために、テンプレート可能なフレームワークをどのように使用できるかを示す。 最後に、テストフレームワークコンポーネントに触れて、共通のモデル障害モードを調査し、モデルのデプロイメントガバナンスのベストプラクティスをサポートすることができます。

Developing, scaling, and deploying modern Machine Learning solutions remains challenging for small- and middle-sized enterprises (SMEs). This is due to a high entry barrier of building and maintaining a dedicated IT team as well as the difficulties of real-world data (RWD) compared to standard benchmark data. To address this challenge, we discuss the implementation and concepts of Chameleon, a semi-AutoML framework. The goal of Chameleon is fast and scalable development and deployment of production-ready machine learning systems into the workflow of SMEs. We first discuss the RWD challenges faced by SMEs. After, we outline the central part of the framework which is a model and loss-function zoo with RWD-relevant defaults. Subsequently, we present how one can use a templatable framework in order to automate the experiment iteration cycle, as well as close the gap between development and deployment. Finally, we touch on our testing framework component allowing us to investigate common model failure modes and support best practices of model deployment governance.
公開日:2021-05-08
翻訳日:2021-05-11 15:08:00
# アンタングル表現による自己教師付き逆例検出

Self-Supervised Adversarial Example Detection by Disentangled Representation ( http://arxiv.org/abs/2105.03689v1 )

ライセンス: Link先を確認
Zhaoxi Zhang, Leo Yu Zhang, Xufei Zheng, Shengshan Hu, Jinyu Tian, Jiantao Zhou(参考訳) 深層学習モデルは、悪意のある目的のために精巧に設計され、人間の知覚システムには受け入れられない敵の例に弱いことが知られている。 autoencoderは、良質な例だけを訓練すると、敵の例がより大きな再構成エラーをもたらすという仮定に基づいて、(監視された)敵検出に広く使われている。 しかし、訓練における逆例の欠如やオートエンコーダの強大な一般化能力のため、この仮定は実際には必ずしも成り立たない。 この問題を軽減するために,オートエンコーダ構造下の画像の絡み合った表現を用いて,逆例を検出する。 入力画像をクラスの特徴や意味的特徴として切り離すことで,識別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティック特徴と誤ってペア化されたクラス/セマンティック特徴の両方でトレーニングし,良さと反例を再構築する。 これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。 現状の自己監視検出手法と比較して,本手法は,異なるデータセット(MNIST, Fashion-MNIST, CIFAR-10),異なる敵攻撃手法(FGSM, BIM, PGD, DeepFool, CW),および異なる犠牲者モデル(8層CNN, 16層VGG)に対して,より優れた性能を示す。 本手法は, 対人攻撃と異なる被害者モデル(30件の攻撃設定)下での最先端の自己監視検出手法と比較し, 多くの攻撃設定において, 各種測定(AUC, FPR, TPR)において優れた性能を示す。 理想的には、AUCは1ドルであり、我々の方法はすべての攻撃に対してCIFAR-10で0.99+$を達成する。 特に、他のオートエンコーダベースの検出器とは異なり、我々の手法は適応的な敵に対する抵抗を与えることができる。

Deep learning models are known to be vulnerable to adversarial examples that are elaborately designed for malicious purposes and are imperceptible to the human perceptual system. Autoencoder, when trained solely over benign examples, has been widely used for (self-supervised) adversarial detection based on the assumption that adversarial examples yield larger reconstruction error. However, because lacking adversarial examples in its training and the too strong generalization ability of autoencoder, this assumption does not always hold true in practice. To alleviate this problem, we explore to detect adversarial examples by disentangled representations of images under the autoencoder structure. By disentangling input images as class features and semantic features, we train an autoencoder, assisted by a discriminator network, over both correctly paired class/semantic features and incorrectly paired class/semantic features to reconstruct benign and counterexamples. This mimics the behavior of adversarial examples and can reduce the unnecessary generalization ability of autoencoder. Compared with the state-of-the-art self-supervised detection methods, our method exhibits better performance in various measurements (i.e., AUC, FPR, TPR) over different datasets (MNIST, Fashion-MNIST and CIFAR-10), different adversarial attack methods (FGSM, BIM, PGD, DeepFool, and CW) and different victim models (8-layer CNN and 16-layer VGG). We compare our method with the state-of-the-art self-supervised detection methods under different adversarial attacks and different victim models (30 attack settings), and it exhibits better performance in various measurements (AUC, FPR, TPR) for most attacks settings. Ideally, AUC is $1$ and our method achieves $0.99+$ on CIFAR-10 for all attacks. Notably, different from other Autoencoder-based detectors, our method can provide resistance to the adaptive adversary.
公開日:2021-05-08
翻訳日:2021-05-11 15:07:46
# 視覚誘導型自動運転車への学習イメージアタック

Learning Image Attacks toward Vision Guided Autonomous Vehicles ( http://arxiv.org/abs/2105.03834v1 )

ライセンス: Link先を確認
Hyung-Jin Yoon, Hamid Jafarnejad Sani, Petros Voulgaris(参考訳) 対向ニューラルネットワークは静的な画像攻撃で成功したことが示されているが、自動運転車の基盤となる物理的ダイナミクス、そのミッション、環境を考慮して、オンライン画像ストリームを攻撃するためのアプローチはごく少数である。 本稿では,自動運転車のミッションを効果的に誤ることのできる,オンライン対向機械学習フレームワークを提案する。 自動運転車向けに開発された既存の画像攻撃手法では、各画像フレームに対して最適化ステップが繰り返される。 このフレームワークは、リアルタイムでイメージアタックを実現するために、各フレームで完全に収束した最適化の必要性を取り除く。 強化学習を用いて、生成ニューラルネットワークは一連の画像フレーム上でトレーニングされ、動的で不確実な環境に対してより堅牢な攻撃ポリシーを得る。 画像ストリームを処理するための状態推定器を導入し、未知の位置や速度などの物理変数に対する攻撃ポリシーの感度を低下させる。 結果を検証するためのシミュレーション研究が提供されている。

While adversarial neural networks have been shown successful for static image attacks, very few approaches have been developed for attacking online image streams while taking into account the underlying physical dynamics of autonomous vehicles, their mission, and environment. This paper presents an online adversarial machine learning framework that can effectively misguide autonomous vehicles' missions. In the existing image attack methods devised toward autonomous vehicles, optimization steps are repeated for every image frame. This framework removes the need for fully converged optimization at every frame to realize image attacks in real-time. Using reinforcement learning, a generative neural network is trained over a set of image frames to obtain an attack policy that is more robust to dynamic and uncertain environments. A state estimator is introduced for processing image streams to reduce the attack policy's sensitivity to physical variables such as unknown position and velocity. A simulation study is provided to validate the results.
公開日:2021-05-09
翻訳日:2021-05-11 15:07:10
# DiagSet:前立腺癌組織像分類のためのデータセット

DiagSet: a dataset for prostate cancer histopathological image classification ( http://arxiv.org/abs/2105.04014v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski, Bogus{\l}aw Cyganek, Bogus{\l}aw Olborski, Zbigniew Antosz, Marcin \.Zydak, Bogdan Kwolek, Pawe{\l} W\k{a}sowicz, Andrzej Buka{\l}a, Jakub Swad\'zba, Piotr Sitkowski(参考訳) がん疾患は最も重要な社会的課題の1つである。 本稿では前立腺癌検出のための新しい病理組織学的データセットを提案する。 提案したデータセットは、430件の完全アノテートスキャンから抽出された260万以上の組織パッチ、4675件のバイナリ診断によるスキャン、46件の組織病理学者グループによる診断によるスキャンからなり、https://ai-econsilio .diag.plで見ることができる。 さらに,癌組織領域の検出とスキャンレベルの診断の予測を行う機械学習フレームワークを提案する。 実験評価の結果,ラベルノイズの存在,データ不均衡,データ量など,検討モデルの性能に悪影響を及ぼす要因がいくつか見いだされ,さらなる研究の基盤となる。 提案手法は、異なるスケールの組織学的スキャンで動作するディープニューラルネットワークのアンサンブルで構成され、パッチレベルの認識において94.6%の精度を達成し、9人の病理学者とスキャンレベルの診断で比較される。

Cancer diseases constitute one of the most significant societal challenges. In this paper we introduce a novel histopathological dataset for prostate cancer detection. The proposed dataset, consisting of over 2.6 million tissue patches extracted from 430 fully annotated scans, 4675 scans with assigned binary diagnosis, and 46 scans with diagnosis given independently by a group of histopathologists, can be found at https://ai-econsilio .diag.pl. Furthermore, we propose a machine learning framework for detection of cancerous tissue regions and prediction of scan-level diagnosis, utilizing thresholding and statistical analysis to abstain from the decision in uncertain cases. During the experimental evaluation we identify several factors negatively affecting the performance of considered models, such as presence of label noise, data imbalance, and quantity of data, that can serve as a basis for further research. The proposed approach, composed of ensembles of deep neural networks operating on the histopathological scans at different scales, achieves 94.6% accuracy in patch-level recognition, and is compared in a scan-level diagnosis with 9 human histopathologists.
公開日:2021-05-09
翻訳日:2021-05-11 15:06:56
# 弱教師付きパン・カンサーセグメンテーションツール

Weakly supervised pan-cancer segmentation tool ( http://arxiv.org/abs/2105.04269v1 )

ライセンス: Link先を確認
Marvin Lerousseau and Marion Classe and Enzo Battistella and Th\'eo Estienne and Th\'eophraste Henry and Amaury Leroy and Roger Sun and Maria Vakalopoulou and Jean-Yves Scoazec and Eric Deutsch and Nikos Paragios(参考訳) セマンティクスのセグメンテーションのアプローチのほとんどが、時間と手間がかかる退屈なピクセルレベルのアノテーションに依存しています。 これらの問題に対処するために、最近のアプローチでは、概して堅牢性と一般化に苦しむスライドレベルで分類アノテーションを活用している。 本稿では,クリニカルルーチンに高速かつ定期的に存在する定量的なスライドレベルのアノテーションを解読する,弱教師付きマルチインスタンス学習手法を提案する。 提案手法の極端なポテンシャルは, 固形癌サブタイプの腫瘍分節化に有効である。 提案手法は,アウトオブディストリビューション,アウトオブロケーション,ドメイン外テストセットにおいて優れたパフォーマンスを実現する。

The vast majority of semantic segmentation approaches rely on pixel-level annotations that are tedious and time consuming to obtain and suffer from significant inter and intra-expert variability. To address these issues, recent approaches have leveraged categorical annotations at the slide-level, that in general suffer from robustness and generalization. In this paper, we propose a novel weakly supervised multi-instance learning approach that deciphers quantitative slide-level annotations which are fast to obtain and regularly present in clinical routine. The extreme potentials of the proposed approach are demonstrated for tumor segmentation of solid cancer subtypes. The proposed approach achieves superior performance in out-of-distribution, out-of-location, and out-of-domain testing sets.
公開日:2021-05-10
翻訳日:2021-05-11 15:06:35
# 条件付きデフォルマブルテンプレートのための生成逆レジストレーション

Generative Adversarial Registration for Improved Conditional Deformable Templates ( http://arxiv.org/abs/2105.04349v1 )

ライセンス: Link先を確認
Neel Dey, Mengwei Ren, Adrian V. Dalca, Guido Gerig(参考訳) 変形可能なテンプレートは、大規模医療画像登録、セグメンテーション、人口分析に不可欠である。 現在の従来型および深層ネットワークベースのテンプレート構築手法では、正規化登録対象のみを使用し、しばしばぼやけた、または解剖学的に意味のない外観でテンプレートを生成し、下流の生物医学的解釈を基礎としている。 我々は,フレキシブル画像共変量に基づく生成的逆登録フレームワークを用いて,移動テンプレートのリアリズムを奨励する敵ゲームとして,変形可能な登録と条件付きテンプレート推定を再構成する。 得られたテンプレートは、年齢や病気などの属性に特異的に顕著な増加を示し、グループワイドの時空間傾向に適合し、シャープネスと集中性が向上した。 これらの改良により、様々な共変量を持つより正確な集団モデリングが可能となり、下流解析が標準化され、興味のある構造に対する解剖学的記述が容易になった。

Deformable templates are essential to large-scale medical image registration, segmentation, and population analysis. Current conventional and deep network-based methods for template construction use only regularized registration objectives and often yield templates with blurry and/or anatomically implausible appearance, confounding downstream biomedical interpretation. We reformulate deformable registration and conditional template estimation as an adversarial game wherein we encourage realism in the moved templates with a generative adversarial registration framework conditioned on flexible image covariates. The resulting templates exhibit significant gain in specificity to attributes such as age and disease, better fit underlying group-wise spatiotemporal trends, and achieve improved sharpness and centrality. These improvements enable more accurate population modeling with diverse covariates for standardized downstream analyses and easier anatomical delineation for structures of interest.
公開日:2021-05-07
翻訳日:2021-05-11 15:06:24
# マスク領域を用いた畳み込みニューラルネットワークによる空中画像のココナッツ木検出とセグメンテーション

Coconut trees detection and segmentation in aerial imagery using mask region-based convolution neural network ( http://arxiv.org/abs/2105.04356v1 )

ライセンス: Link先を確認
Muhammad Shakaib Iqbal, Hazrat Ali, Son N. Tran, Talha Iqbal(参考訳) 食料資源は地震、サイクロン、津波などの異常な災害で深刻な被害を受ける。 このようなシナリオでは,被災地の援助活動を支援するため,農地からの食料資源の迅速評価が重要である。 本稿では,OpenAerialMapとWeRoboticsと共同で世界銀行が主催するAIコンペティションを通じて,空中画像中のココナッツトレースの検出とセグメンテーションを行うためのディープラーニング手法を提案する。 Maked Region-based Convolutional Neural Network approach was used identified and segmentation of coconut trees。 セグメンテーションタスクでは、ResNet50とResNet1010をベースとしたMask R-CNNモデルが使用された。 構成パラメータの異なるいくつかの実験を行い,90%以上の信頼度を有するココナッツ樹の検出に最適な構成を報告した。 評価のために、Microsoft COCOデータセット評価基準、すなわち平均平均精度(mAP)を使用した。 全体の91%がココナッツ樹検出の平均精度であった。

Food resources face severe damages under extraordinary situations of catastrophes such as earthquakes, cyclones, and tsunamis. Under such scenarios, speedy assessment of food resources from agricultural land is critical as it supports aid activity in the disaster hit areas. In this article, a deep learning approach is presented for the detection and segmentation of coconut tress in aerial imagery provided through the AI competition organized by the World Bank in collaboration with OpenAerialMap and WeRobotics. Maked Region-based Convolutional Neural Network approach was used identification and segmentation of coconut trees. For the segmentation task, Mask R-CNN model with ResNet50 and ResNet1010 based architectures was used. Several experiments with different configuration parameters were performed and the best configuration for the detection of coconut trees with more than 90% confidence factor was reported. For the purpose of evaluation, Microsoft COCO dataset evaluation metric namely mean average precision (mAP) was used. An overall 91% mean average precision for coconut trees detection was achieved.
公開日:2021-05-10
翻訳日:2021-05-11 15:06:09
# 二次元テンソルネットワークとしてのボルツマンマシン

Boltzmann machines as two-dimensional tensor networks ( http://arxiv.org/abs/2105.04130v1 )

ライセンス: Link先を確認
Sujie Li, Feng Pan, Pengfei Zhou, Pan Zhang(参考訳) 制限ボルツマンマシン(rbm)とディープボルツマンマシン(dbm)は機械学習の重要なモデルであり、最近量子多体物理学において多くの応用が発見された。 これらとテンソルネットワークの間には基本的な接続があることを示す。 特に、任意の RBM と DBM が2次元テンソルネットワークとして正確に表現可能であることを示す。 この表現は、テンソルネットワークの絡み合い構造を用いて、RBMとDBMの表現力を理解し、RBMとDBMの計算分割関数に対する効率的なテンソルネットワーク収縮アルゴリズムを提供する。 数値実験により,提案アルゴリズムは制限されたボルツマンマシンとディープボルツマンマシンの分割関数を推定する最先端の機械学習手法よりもはるかに正確であり,一般的な機械学習タスクにおけるディープボルツマンマシンのトレーニングに潜在的に応用できることを示した。

Restricted Boltzmann machines (RBM) and deep Boltzmann machines (DBM) are important models in machine learning, and recently found numerous applications in quantum many-body physics. We show that there are fundamental connections between them and tensor networks. In particular, we demonstrate that any RBM and DBM can be exactly represented as a two-dimensional tensor network. This representation gives an understanding of the expressive power of RBM and DBM using entanglement structures of the tensor networks, also provides an efficient tensor network contraction algorithm for the computing partition function of RBM and DBM. Using numerical experiments, we demonstrate that the proposed algorithm is much more accurate than the state-of-the-art machine learning methods in estimating the partition function of restricted Boltzmann machines and deep Boltzmann machines, and have potential applications in training deep Boltzmann machines for general machine learning tasks.
公開日:2021-05-10
翻訳日:2021-05-11 15:05:55
# 自己教師型深層学習によるマルチスライス機能MRIの改良

Improved Simultaneous Multi-Slice Functional MRI Using Self-supervised Deep Learning ( http://arxiv.org/abs/2105.04532v1 )

ライセンス: Link先を確認
Omer Burak Demirel, Burhaneddin Yaman, Logan Dowdle, Steen Moeller, Luca Vizioli, Essa Yacoub, John Strupp, Cheryl A. Olman, K\^amil U\u{g}urbil and Mehmet Ak\c{c}akaya(参考訳) 機能MRI(Functional MRI)は、脳全体の神経活動の解釈に一般的に用いられる。 多くの加速fMRI技術は時空間分解能の向上を目的としている。 これらのうち、同時マルチスライス(sms)イメージングは強力な戦略として登場し、ヒトコネクトームプロジェクトのような大規模研究の一部となった。 しかし、sms画像と面内加速度を組み合わせると、従来のsms再構成法ではノイズ増幅などのアーチファクトが発生することがある。 近年, 深層学習(DL)技術はMRIの再建に注目されている。 しかし、これらの手法は通常、フルサンプリングされた参照データを必要とする教師ありの方法で訓練される。 近年,完全サンプルデータを必要としない自己教師付き学習が提案され,教師付き学習と同じような性能を示している。 しかし、これは平面内加速にのみ適用されている。 さらに, DL再建がその後のfMRI解析に与える影響は明らかでない。 本研究では,自己教師型DL再構成をSMS画像に拡張する。 予測10倍加速7T fMRIデータを用いた結果,自己教師型DLは再建ノイズを低減し,遺物を抑制することが示された。 その後のfMRI解析はDL処理によって変更されず、時間信号-雑音比の改善はタスク実行間のコヒーレンス推定を高くする。

Functional MRI (fMRI) is commonly used for interpreting neural activities across the brain. Numerous accelerated fMRI techniques aim to provide improved spatiotemporal resolutions. Among these, simultaneous multi-slice (SMS) imaging has emerged as a powerful strategy, becoming a part of large-scale studies, such as the Human Connectome Project. However, when SMS imaging is combined with in-plane acceleration for higher acceleration rates, conventional SMS reconstruction methods may suffer from noise amplification and other artifacts. Recently, deep learning (DL) techniques have gained interest for improving MRI reconstruction. However, these methods are typically trained in a supervised manner that necessitates fully-sampled reference data, which is not feasible in highly-accelerated fMRI acquisitions. Self-supervised learning that does not require fully-sampled data has recently been proposed and has shown similar performance to supervised learning. However, it has only been applied for in-plane acceleration. Furthermore the effect of DL reconstruction on subsequent fMRI analysis remains unclear. In this work, we extend self-supervised DL reconstruction to SMS imaging. Our results on prospectively 10-fold accelerated 7T fMRI data show that self-supervised DL reduces reconstruction noise and suppresses residual artifacts. Subsequent fMRI analysis remains unaltered by DL processing, while the improved temporal signal-to-noise ratio produces higher coherence estimates between task runs.
公開日:2021-05-10
翻訳日:2021-05-11 15:05:38
# 文脈認識機械翻訳における文脈使用量の測定と増加

Measuring and Increasing Context Usage in Context-Aware Machine Translation ( http://arxiv.org/abs/2105.03482v1 )

ライセンス: Link先を確認
Patrick Fernandes, Kayo Yin, Graham Neubig, Andr\'e F. T. Martins(参考訳) ニューラルマシン翻訳における最近の研究は、現在翻訳されているもの以外の文から、文間コンテキストを使うことの必要性と実現可能性の両方を示している。 しかし、理論的にはこの余分な文脈を利用できるモデルアーキテクチャを提示する現在の手法は多く存在するが、翻訳時に実際にどの程度利用するのかはよく分かっていない。 本稿では,これらのモデルによる文脈の利用を定量化する新しい指標である条件付きクロスミュータント情報を提案する。 このメトリクスを用いて、文書レベルの機械翻訳システムが特定の種類のコンテキストを使用するかを測定する。 我々は、ターゲットコンテキストはソースコンテキストよりも多く参照され、より長いコンテキストでの条件付けは結果に減少することを示した。 次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。 実験により,提案手法は文脈使用量を増やし,bleuやcometなどの指標による翻訳品質を反映し,照応代名詞分解能や語彙コヒーションコントラストデータセットの性能向上に寄与することが示された。

Recent work in neural machine translation has demonstrated both the necessity and feasibility of using inter-sentential context -- context from sentences other than those currently being translated. However, while many current methods present model architectures that theoretically can use this extra context, it is often not clear how much they do actually utilize it at translation time. In this paper, we introduce a new metric, conditional cross-mutual information, to quantify the usage of context by these models. Using this metric, we measure how much document-level machine translation systems use particular varieties of context. We find that target context is referenced more than source context, and that conditioning on a longer context has a diminishing effect on results. We then introduce a new, simple training method, context-aware word dropout, to increase the usage of context by context-aware models. Experiments show that our method increases context usage and that this reflects on the translation quality according to metrics such as BLEU and COMET, as well as performance on anaphoric pronoun resolution and lexical cohesion contrastive datasets.
公開日:2021-05-07
翻訳日:2021-05-11 15:05:16
# 人間レベルNLPのための事前学習型トランスフォーマーの実証評価:サンプルサイズと寸法の役割

Empirical Evaluation of Pre-trained Transformers for Human-Level NLP: The Role of Sample Size and Dimensionality ( http://arxiv.org/abs/2105.03484v1 )

ライセンス: Link先を確認
Adithya V Ganesan, Matthew Matero, Aravind Reddy Ravula, Huy Vu and H. Andrew Schwartz(参考訳) メンタルヘルス、パーソナリティ、人口統計などの人間レベルのNLPタスクでは、現代のトランスフォーマーベースの言語モデルにおいて、各レイヤの標準的な768以上の隠れ状態サイズよりも観測回数が小さくなり、トランスフォーマーを効果的に活用する能力が制限される。 本稿では,次元削減手法(主成分分析,分解技術,多層自動エンコーダ)の役割と,予測性能の関数としての埋め込みベクトルと標本サイズの次元性について,系統的研究を行った。 まず,データ量に制限のある微調整型大規模モデルでは,事前学習した次元削減体制で克服できるような大きな困難が生じる。 RoBERTaは、人間レベルのタスクにおいて一貫して最高のパフォーマンスを達成し、PCAは、長いテキストを書くユーザーの扱いを改善するために、他の削減方法よりも有利である。 最後に、ほとんどのタスクが、埋め込み次元の$\frac{1}{12}$で最高のパフォーマンスに匹敵する結果が得られることを観察する。

In human-level NLP tasks, such as predicting mental health, personality, or demographics, the number of observations is often smaller than the standard 768+ hidden state sizes of each layer within modern transformer-based language models, limiting the ability to effectively leverage transformers. Here, we provide a systematic study on the role of dimension reduction methods (principal components analysis, factorization techniques, or multi-layer auto-encoders) as well as the dimensionality of embedding vectors and sample sizes as a function of predictive performance. We first find that fine-tuning large models with a limited amount of data pose a significant difficulty which can be overcome with a pre-trained dimension reduction regime. RoBERTa consistently achieves top performance in human-level tasks, with PCA giving benefit over other reduction methods in better handling users that write longer texts. Finally, we observe that a majority of the tasks achieve results comparable to the best performance with just $\frac{1}{12}$ of the embedding dimensions.
公開日:2021-05-07
翻訳日:2021-05-11 15:04:56
# 変分グラフオートエンコーダを用いた教師なしクロスドメイン必須連鎖学習

Unsupervised Cross-Domain Prerequisite Chain Learning using Variational Graph Autoencoders ( http://arxiv.org/abs/2105.03505v1 )

ライセンス: Link先を確認
Irene Li, Vanessa Yan, Tianxiao Li, Rihao Qu and Dragomir Radev(参考訳) 前提条件チェーンの学習は、既知の領域と未知領域の両方で知識を効率的に獲得するための重要なタスクである。 例えば、自然言語処理(nlp)ドメインの専門家であるかもしれないが、未知のコンピュータビジョンドメイン(cv)で新しい概念を学ぶための最善の順序を判断したいと考えている。 どちらのドメインも、機械学習の基礎やディープラーニングモデルなど、一般的な概念を共有している。 本稿では,最適化された変分グラフオートエンコーダを用いた教師なしクロスドメイン概念の前提条件学習を提案する。 本モデルは,情報豊富なドメイン(ソースドメイン)から情報対象ドメイン(ターゲットドメイン)への概念的前提関係の伝達を学習し,他のベースラインモデルを大幅に上回る。 また、CVとバイオインフォマティクス(BIO)という2つの新しいドメインを導入することで、既存のデータセットを拡張する。 注釈付きデータとリソース、およびコードも公開される予定だ。

Learning prerequisite chains is an essential task for efficiently acquiring knowledge in both known and unknown domains. For example, one may be an expert in the natural language processing (NLP) domain but want to determine the best order to learn new concepts in an unfamiliar Computer Vision domain (CV). Both domains share some common concepts, such as machine learning basics and deep learning models. In this paper, we propose unsupervised cross-domain concept prerequisite chain learning using an optimized variational graph autoencoder. Our model learns to transfer concept prerequisite relations from an information-rich domain (source domain) to an information-poor domain (target domain), substantially surpassing other baseline models. Also, we expand an existing dataset by introducing two new domains: CV and Bioinformatics (BIO). The annotated data and resources, as well as the code, will be made publicly available.
公開日:2021-05-07
翻訳日:2021-05-11 15:04:37
# notの理解による理解:言語モデルにおける否定のモデリング

Understanding by Understanding Not: Modeling Negation in Language Models ( http://arxiv.org/abs/2105.03519v1 )

ライセンス: Link先を確認
Arian Hosseini, Siva Reddy, Dzmitry Bahdanau, R Devon Hjelm, Alessandro Sordoni and Aaron Courville(参考訳) 否定は自然言語の中核構造である。 多くのタスクで非常に成功したにもかかわらず、最先端の事前学習された言語モデルは、しばしば否定を正しく処理する。 この点において、言語モデルを改善するために、原文コーパスから否定的な汎用文をベースとした、異種目的の言語モデリングの目的を強化することを提案する。 BERTと組み合わせた目標をトレーニングすることにより、否定されたLAMAデータセット上で平均1エラー率を4%に削減する。 また、否定的なNLIベンチマークも改善されている。

Negation is a core construction in natural language. Despite being very successful on many tasks, state-of-the-art pre-trained language models often handle negation incorrectly. To improve language models in this regard, we propose to augment the language modeling objective with an unlikelihood objective that is based on negated generic sentences from a raw text corpus. By training BERT with the resulting combined objective we reduce the mean top~1 error rate to 4% on the negated LAMA dataset. We also see some improvements on the negated NLI benchmarks.
公開日:2021-05-07
翻訳日:2021-05-11 15:04:19