このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210215となっている論文です。

PDF登録状況(公開日: 20210215)

TitleAuthorsAbstract論文公表日・翻訳日
# 符号切替音声認識用トランスデューサ

Transformer-Transduc ers for Code-Switched Speech Recognition ( http://arxiv.org/abs/2011.15023v2 )

ライセンス: Link先を確認
Siddharth Dalmia, Yuzong Liu, Srikanth Ronanki, Katrin Kirchhoff(参考訳) 私たちは人口の60%が2つ以上の言語を流麗に話せる世界に住んでいます。 これらのコミュニティのメンバーは、会話をするときに常に言語を切り替えます。 音声認識(ASR)システムが現実世界に展開されているため、発話中または発話中の両方で複数の言語を処理できる実用的なシステムが必要である。 本稿では,コード切替音声認識のためのトランスデューサモデルアーキテクチャを用いたエンドツーエンドASRシステムを提案する。 コードスイッチングのさまざまな側面を扱うために,バニラモデルに対する3つの修正を提案する。 まず,コードスイッチングの低リソースシナリオを処理するために,補助損失関数を2つ導入する。 第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。 最後に,膨大な単言語音声コーパスをコードスイッチングに活用するマルチラベル/マルチオーディオエンコーダ構造を提案する。 提案手法は,公開マンダ英語コード交換コーパスであるseameデータセットにおいて,test_manとtest_sgeでそれぞれ18.5%と26.3%の混合エラー率を達成した。

We live in a world where 60% of the population can speak two or more languages fluently. Members of these communities constantly switch between languages when having a conversation. As automatic speech recognition (ASR) systems are being deployed to the real-world, there is a need for practical systems that can handle multiple languages both within an utterance or across utterances. In this paper, we present an end-to-end ASR system using a transformer-transduc er model architecture for code-switched speech recognition. We propose three modifications over the vanilla model in order to handle various aspects of code-switching. First, we introduce two auxiliary loss functions to handle the low-resource scenario of code-switching. Second, we propose a novel mask-based training strategy with language ID information to improve the label encoder training towards intra-sentential code-switching. Finally, we propose a multi-label/multi-au dio encoder structure to leverage the vast monolingual speech corpora towards code-switching. We demonstrate the efficacy of our proposed approaches on the SEAME dataset, a public Mandarin-English code-switching corpus, achieving a mixed error rate of 18.5% and 26.3% on test_man and test_sge sets respectively.
翻訳日:2021-06-06 14:41:38 公開日:2021-02-15
# (参考訳) 戦略分類のためのPAC学習 [全文訳有]

PAC-Learning for Strategic Classification ( http://arxiv.org/abs/2012.03310v3 )

ライセンス: CC BY 4.0
Ravi Sundaram, Anil Vullikanti, Haifeng Xu, Fan Yao(参考訳) 分類器を騙すためのテストデータの戦略的あるいは敵対的な操作に関する研究が近年注目を集めている。 これまでのほとんどの研究は、テストデータポイントが完全に敵対的であるか、常に正のラベルを好む2つの極端な状況に焦点を当ててきた。 本稿では,これらを戦略分類のための統一的な枠組みを通じて一般化し,戦略VC次元の概念を導入し,一般戦略設定におけるPAC学習可能性を把握する。 SVCは、Cullinaらによって導入された最近の逆VC次元(AVC)の概念を確実に一般化する。 arXiv:1806.01471。 基本戦略線形分類問題に対する枠組みのインスタンス化を行う。 我々は,(1)SVCをピンダウンすることで線形分類器の統計的学習可能性,(2)経験的リスク最小化問題の複雑性をピンダウンすることで計算的トラクタビリティを十分に特徴付ける。 興味深いことに、線形分類器のSVCは常に標準VC次元によって上界となる。 この特徴づけはまた、arXiv:1806.01471 における線形分類器の AVC 境界を厳密に一般化する。

The study of strategic or adversarial manipulation of testing data to fool a classifier has attracted much recent attention. Most previous works have focused on two extreme situations where any testing data point either is completely adversarial or always equally prefers the positive label. In this paper, we generalize both of these through a unified framework for strategic classification, and introduce the notion of strategic VC-dimension (SVC) to capture the PAC-learnability in our general strategic setup. SVC provably generalizes the recent concept of adversarial VC-dimension (AVC) introduced by Cullina et al. arXiv:1806.01471. We instantiate our framework for the fundamental strategic linear classification problem. We fully characterize: (1) the statistical learnability of linear classifiers by pinning down its SVC; (2) its computational tractability by pinning down the complexity of the empirical risk minimization problem. Interestingly, the SVC of linear classifiers is always upper bounded by its standard VC-dimension. This characterization also strictly generalizes the AVC bound for linear classifiers in arXiv:1806.01471.
翻訳日:2021-05-22 05:13:48 公開日:2021-02-15
# MOLTR:モノクロRGBビデオからの複数物体の局所化、追跡、再構成

MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from Monocular RGB Videos ( http://arxiv.org/abs/2012.05360v2 )

ライセンス: Link先を確認
Kejie Li, Hamid Rezatofighi, Ian Reid(参考訳) セマンティック認識の再構築は、将来のロボットやAR/VRアプリケーションのための幾何学のみの再構築よりも有利だ。 オブジェクト中心マッピング(オブジェクト中心マッピング)は、オブジェクトが分離され、幾何情報と意味情報の両方を伝達する意味のあるエンティティであるオブジェクトレベルの再構築を構築するタスクである。 本稿では,モノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションであるMOLTRを提案する。 rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。 新しいRGBフレームが与えられた後、MOLTRはまずモノクロ3D検出器を応用して、興味のある物体をローカライズし、学習された埋め込み空間内の物体の形状を表す形状コードを取り出す。 検出は、データアソシエーション後にマップ内の既存のオブジェクトにマージされる。 運動状態 (Motion State)。 各物体の運動学および運動状態)を多重モデルベイズフィルタにより追跡し、複数の形状コードを用いて物体形状を段階的に洗練する。 屋内および屋外シーンのベンチマークデータセットのローカライゼーション,追跡,再構成を評価し,従来の手法よりも優れた性能を示した。

Semantic aware reconstruction is more advantageous than geometric-only reconstruction for future robotic and AR/VR applications because it represents not only where things are, but also what things are. Object-centric mapping is a task to build an object-level reconstruction where objects are separate and meaningful entities that convey both geometry and semantic information. In this paper, we present MOLTR, a solution to object-centric mapping using only monocular image sequences and camera poses. It is able to localise, track, and reconstruct multiple objects in an online fashion when an RGB camera captures a video of the surrounding. Given a new RGB frame, MOLTR firstly applies a monocular 3D detector to localise objects of interest and extract their shape codes that represent the object shapes in a learned embedding space. Detections are then merged to existing objects in the map after data association. Motion state (i.e. kinematics and the motion status) of each object is tracked by a multiple model Bayesian filter and object shape is progressively refined by fusing multiple shape code. We evaluate localisation, tracking, and reconstruction on benchmarking datasets for indoor and outdoor scenes, and show superior performance over previous approaches.
翻訳日:2021-05-16 01:58:25 公開日:2021-02-15
# 分散マッチング市場におけるバンディット学習

Bandit Learning in Decentralized Matching Markets ( http://arxiv.org/abs/2012.07348v3 )

ライセンス: Link先を確認
Lydia T. Liu, Feng Ruan, Horia Mania, Michael I. Jordan(参考訳) 本研究では、一方の市場(プレイヤー)が他方の市場(腕)に対する嗜好について事前知識を持っておらず、その嗜好を経験から学ぶ必要がある二面マッチング市場について検討する。 また、プレイヤーは直接のコミュニケーション手段を持たないと仮定する。 このモデルは、標準的な確率的マルチアームバンディットフレームワークを、競争を伴う分散マルチプレイヤー設定に拡張する。 この設定に新たなアルゴリズムを導入し、ある時間帯に$T$が$\mathcal{O}(\log(T))$ プレイヤーよりも腕の好みを共有した場合に$\mathcal{O}(\log(T))$ と $\mathcal{O}(\log(T)^2)$ のどちらにも好みの仮定がない場合に$ である。 さらに、一つのプレイヤーが逸脱する可能性のある設定では、腕の好みが共有されるたびにアルゴリズムがインセンティブ互換であることが示されるが、選好が完全に一般的である場合は必ずしもそうではない。

We study two-sided matching markets in which one side of the market (the players) does not have a priori knowledge about its preferences for the other side (the arms) and is required to learn its preferences from experience. Also, we assume the players have no direct means of communication. This model extends the standard stochastic multi-armed bandit framework to a decentralized multiple player setting with competition. We introduce a new algorithm for this setting that, over a time horizon $T$, attains $\mathcal{O}(\log(T))$ stable regret when preferences of the arms over players are shared, and $\mathcal{O}(\log(T)^2)$ regret when there are no assumptions on the preferences on either side. Moreover, in the setting where a single player may deviate, we show that the algorithm is incentive compatible whenever the arms' preferences are shared, but not necessarily so when preferences are fully general.
翻訳日:2021-05-08 14:36:38 公開日:2021-02-15
# (参考訳) 知識グラフ上の論理クエリからの自己教師付き双曲表現 [全文訳有]

Self-Supervised Hyperboloid Representations from Logical Queries over Knowledge Graphs ( http://arxiv.org/abs/2012.13023v2 )

ライセンス: CC BY 4.0
Nurendra Choudhary, Nikhil Rao, Sumeet Katariya, Karthik Subbian, Chandan K. Reddy(参考訳) 知識グラフ(kgs)は、web検索、eコマース、ソーシャルネットワーク、生物学といった現実世界のアプリケーションにおいて、情報格納のためのユビキタスな構造である。 KGのクエリは、サイズと複雑さのため、基礎的で難しい問題である。 この問題に取り組むための有望なアプローチには、クエリ埋め込みがその結果に関連する情報を含むようなユークリッド空間にkg単位(例えば、エンティティと関係)を埋め込みることが含まれる。 しかし、これらのアプローチは、グラフに存在するエンティティの階層的性質と意味情報の取り込みに失敗した。 さらに、これらのアプローチのほとんどはマルチホップクエリ(単純な翻訳操作でモデル化できる)のみを使用して埋め込みを学習し、単純なクエリの交わりや結合のようなより複雑な操作を無視する。 このような複雑な操作に取り組むために,本論文では,翻訳,交叉,結合問合せを利用した自己教師あり論理問合せ推論問題として,kg表現学習を定式化する。 本研究では, 1kg 上の正の 1 次実存クエリを用いて,ポインカージャイ球の双曲型表現とその関係を学習する,新しい自己教師付き動的推論フレームワークであるhyperboloid embeddeds (hype)を提案する。 HypEは、正の1次クエリを幾何学的変換、交叉、結合としてモデル化する。 実世界のデータセットにおけるkg推論の問題のために、提案されたハイプモデルは最先端の成果を大きく上回っている。 また,HypEを一般的なeコマースWebサイト製品分類の異常検出タスクや階層的に整理されたWeb記事に適用し,既存のベースライン手法と比較して大幅な性能向上を示す。 最後に,poincar\'e ボールへのハイプ埋め込みを可視化し,表現空間を明確に解釈し理解する。

Knowledge Graphs (KGs) are ubiquitous structures for information storagein several real-world applications such as web search, e-commerce, social networks, and biology. Querying KGs remains a foundational and challenging problem due to their size and complexity. Promising approaches to tackle this problem include embedding the KG units (e.g., entities and relations) in a Euclidean space such that the query embedding contains the information relevant to its results. These approaches, however, fail to capture the hierarchical nature and semantic information of the entities present in the graph. Additionally, most of these approaches only utilize multi-hop queries (that can be modeled by simple translation operations) to learn embeddings and ignore more complex operations such as intersection and union of simpler queries. To tackle such complex operations, in this paper, we formulate KG representation learning as a self-supervised logical query reasoning problem that utilizes translation, intersection and union queries over KGs. We propose Hyperboloid Embeddings (HypE), a novel self-supervised dynamic reasoning framework, that utilizes positive first-order existential queries on a KG to learn representations of its entities and relations as hyperboloids in a Poincar\'e ball. HypE models the positive first-order queries as geometrical translation, intersection, and union. For the problem of KG reasoning in real-world datasets, the proposed HypE model significantly outperforms the state-of-the art results. We also apply HypE to an anomaly detection task on a popular e-commerce website product taxonomy as well as hierarchically organized web articles and demonstrate significant performance improvements compared to existing baseline methods. Finally, we also visualize the learned HypE embeddings in a Poincar\'e ball to clearly interpret and comprehend the representation space.
翻訳日:2021-04-25 18:59:55 公開日:2021-02-15
# 逆ラベル雑音下における任意の幅のSGD学習ニューラルネットワークの確率的一般化

Provable Generalization of SGD-trained Neural Networks of Any Width in the Presence of Adversarial Label Noise ( http://arxiv.org/abs/2101.01152v3 )

ライセンス: Link先を確認
Spencer Frei and Yuan Cao and Quanquan Gu(参考訳) 任意初期化後の確率勾配降下(SGD)により訓練された任意の幅の1層リークReLUネットワークを考える。 我々はSGDが、ログ凹凸等方性分布とハードマージン分布を含む幅広い分布の分布に対して、最適なハーフスペースの分類精度と競合するニューラルネットワークを生成することを証明した。 同様に、そのようなネットワークは、データ分布が線形分離可能であるが、過度に適合する能力にもかかわらず、逆ラベルノイズで破損した場合に一般化することができる。 私たちの知る限りでは、sgdがトレーニングした過パラメータニューラルネットワークが、逆ラベルノイズでデータが破損した時に一般化できることを示す最初の研究です。

We consider a one-hidden-layer leaky ReLU network of arbitrary width trained by stochastic gradient descent (SGD) following an arbitrary initialization. We prove that SGD produces neural networks that have classification accuracy competitive with that of the best halfspace over the distribution for a broad class of distributions that includes log-concave isotropic and hard margin distributions. Equivalently, such networks can generalize when the data distribution is linearly separable but corrupted with adversarial label noise, despite the capacity to overfit. To the best of our knowledge, this is the first work to show that overparameterized neural networks trained by SGD can generalize when the data is corrupted with adversarial label noise.
翻訳日:2021-04-11 22:59:19 公開日:2021-02-15
# ガウスおよびRKHS設定におけるエントロピー正則ワッサーシュタイン距離の収束と有限サンプル近似

Convergence and finite sample approximations of entropic regularized Wasserstein distances in Gaussian and RKHS settings ( http://arxiv.org/abs/2101.01429v2 )

ライセンス: Link先を確認
Minh Ha Quang(参考訳) この研究はヒルベルト空間設定におけるエントロピー正則化ワッサーシュタイン距離の収束と有限サンプル近似を研究する。 第一の主な結果は、無限次元ヒルベルト空間上のガウス測度に対して、2-シンクホーンの発散の収束は、正確な 2-ワッセルシュタイン距離の収束よりも厳密に弱い。 具体的には、中心となるガウス測度の列が、対応する共分散作用素がヒルベルト・シュミットノルムに収束すると、2-シンクホーン分岐に収束する。 これは、ガウス測度の列が正確な2-ワッサーシュタイン距離に収束することと、共分散作用素がトレースクラスノルムに収束することとが対照的である。 再生カーネルヒルベルト空間 (RKHS) において、RKHS 上で定義されるガウス測度の間のシンクホーン発散(英語版)(Sinkhorn divergence)である {\it kernel Gaussian-Sinkhorn divergence} は、ポーランド空間上のボレル確率測度の集合上の半計量を定義する。 ヒルベルト・シュミットノルム収束により、核のガウス・シンクホーン分岐の有限サンプル近似に対する、最大平均偏差と同じ順序の「it次元非依存」収束率が得られる。 これらの収束率は特にユークリッド空間上のガウス測度と無限次元ヒルベルト空間の間のシンクホーン分岐に適用される。 ユークリッド空間上のガウス測度の間の2-wasserstein距離のサンプル複雑性は、シンクホーンの発散よりも次元依存で大きいが、文献の最悪の場合よりも指数関数的に速い。

This work studies the convergence and finite sample approximations of entropic regularized Wasserstein distances in the Hilbert space setting. Our first main result is that for Gaussian measures on an infinite-dimensional Hilbert space, convergence in the 2-Sinkhorn divergence is {\it strictly weaker} than convergence in the exact 2-Wasserstein distance. Specifically, a sequence of centered Gaussian measures converges in the 2-Sinkhorn divergence if the corresponding covariance operators converge in the Hilbert-Schmidt norm. This is in contrast to the previous known result that a sequence of centered Gaussian measures converges in the exact 2-Wasserstein distance if and only if the covariance operators converge in the trace class norm. In the reproducing kernel Hilbert space (RKHS) setting, the {\it kernel Gaussian-Sinkhorn divergence}, which is the Sinkhorn divergence between Gaussian measures defined on an RKHS, defines a semi-metric on the set of Borel probability measures on a Polish space, given a characteristic kernel on that space. With the Hilbert-Schmidt norm convergence, we obtain {\it dimension-independen t} convergence rates for finite sample approximations of the kernel Gaussian-Sinkhorn divergence, with the same order as the Maximum Mean Discrepancy. These convergence rates apply in particular to Sinkhorn divergence between Gaussian measures on Euclidean and infinite-dimensional Hilbert spaces. The sample complexity for the 2-Wasserstein distance between Gaussian measures on Euclidean space, while dimension-dependent and larger than that of the Sinkhorn divergence, is exponentially faster than the worst case scenario in the literature.
翻訳日:2021-04-11 11:44:09 公開日:2021-02-15
# 並列MRIにおけるGRAPPA-GAN

GRAPPA-GANs for Parallel MRI Reconstruction ( http://arxiv.org/abs/2101.03135v2 )

ライセンス: Link先を確認
Nader Tavaf, Amirsina Torfi, Kamil Ugurbil, Pierre-Francois Van de Moortele(参考訳) k空間アンダーサンプリングはMR画像取得を高速化する標準的な手法である。 GeneRalized Autocalibrating partial Parallel Acquisition(GRAPPA)とその変異体を含む再建技術は、臨床および研究環境で広く利用されている。 GRAPPAと条件付き生成逆数ネットワーク(GAN)を組み合わせた再構成モデルを開発し, 高速MRIデータセットを用いたマルチコイルヒト脳画像を用いて実験を行った。 様々な加速速度について, ピーク信号対雑音比 (psnr) と構造類似度 (ssim) を用いてganとgrappaの再構成を比較検討した。 R=4の加速速度では、PSNRは正規化GRAPPAを使用して33.88からGANを使って37.65に改善された。 GANはGRAPPAを様々な加速速度で一貫して上回った。

k-space undersampling is a standard technique to accelerate MR image acquisitions. Reconstruction techniques including GeneRalized Autocalibrating Partial Parallel Acquisition(GRAPPA) and its variants are utilized extensively in clinical and research settings. A reconstruction model combining GRAPPA with a conditional generative adversarial network (GAN) was developed and tested on multi-coil human brain images from the fastMRI dataset. For various acceleration rates, GAN and GRAPPA reconstructions were compared in terms of peak signal-to-noise ratio (PSNR) and structural similarity (SSIM). For an acceleration rate of R=4, PSNR improved from 33.88 using regularized GRAPPA to 37.65 using GAN. GAN consistently outperformed GRAPPA for various acceleration rates.
翻訳日:2021-04-11 11:39:59 公開日:2021-02-15
# (参考訳) BERTに基づく文脈表現を用いた文書内イベント照合 [全文訳有]

Within-Document Event Coreference with BERT-Based Contextualized Representations ( http://arxiv.org/abs/2102.09600v1 )

ライセンス: CC0 1.0
Shafiuddin Rehan Ahmed and James H. Martin(参考訳) イベントのコア参照は情報抽出の難しい問題であり続けている。 イベントに対する外部の知識ベースがないため、coreferenceは、イベントが言及されるコンテキストの効果的な表現に依存するクラスタリングタスクになる。 文脈化言語表現の最近の進歩は多くのタスクで成功したが、イベントリンクでの使用は限られていた。 本稿では,(1)事前学習されたBERTモデルから導出された表現を用いて,(2)ニューラルネットワーク分類器を訓練し,(3)単純なクラスタリングアルゴリズムを駆動してコア参照連鎖を生成する3つのアプローチを提案する。 文書内イベントコア参照タスクの2つの標準データセット上で,このモデルを用いて技術結果の状態を達成し,第3の新たなデータセットに新たな標準を確立する。

Event coreference continues to be a challenging problem in information extraction. With the absence of any external knowledge bases for events, coreference becomes a clustering task that relies on effective representations of the context in which event mentions appear. Recent advances in contextualized language representations have proven successful in many tasks, however, their use in event linking been limited. Here we present a three part approach that (1) uses representations derived from a pretrained BERT model to (2) train a neural classifier to (3) drive a simple clustering algorithm to create coreference chains. We achieve state of the art results with this model on two standard datasets for within-document event coreference task and establish a new standard on a third newer dataset.
翻訳日:2021-04-06 05:03:18 公開日:2021-02-15
# 表面ウォーピングによる機械学習によるドメイン類似度推定:鉱山地質モデリングと自動化の新しいパラダイム

Surface Warping Incorporating Machine Learning Assisted Domain Likelihood Estimation: A New Paradigm in Mine Geology Modelling and Automation ( http://arxiv.org/abs/2103.03923v1 )

ライセンス: Link先を確認
Raymond Leung, Mehala Balamurali, Alexander Lowe(参考訳) 本稿では,機械学習(ML)の複雑なシステムにおける応用について述べる。 表面採掘において、生産掘削から得られたアッセイ測定は、スパース探査データを用いて作成された初期不正確な表面の修正とその後の改善を可能にする豊富な情報を提供することが多い。 近年,新たに取得した破砕孔データによる地球化学的・空間的制約に基づいて,モデル面を再構成するベイズワープ手法が提案されている。 本稿では,このワーピングフレームワークに機械学習を組み込んで,可能性計算を一般化することに焦点を当てる。 この手法は表面上の頂点の位置を調整し、疎地球化学観測に関してモデル化された地質境界の整合性を最大化する。 その基礎は、p(g|c) が p(y(c)|g) に類似した役割を果たす地質学的領域の確率によって構成される。 この観察により、ml技術はデータ駆動の方法で前者を推定するために使用されるため、後者を中心に手動で調整されたプロセスを自動化できる。 グラデーションブースティング,ニューラルネットワーク,ランダムフォレストなどの分類器に対して,精度とリコール率を用いて機械学習の性能を評価する。 表面改質フレームワークにML候補推定器を組み込んだ場合, 表面改質性能は, 表面改質面上および下方における試験試料の分類的分布を調べて不明瞭なデータを用いて評価する。 マタン3/2カーネルによるガウス過程推定により, 後部平均値が得られる鉱石粒度推定システムにおいて, ML支援表面ワープの総合的有効性を評価するため, 大規模検証実験を行った。

This paper illustrates an application of machine learning (ML) within a complex system that performs grade estimation. In surface mining, assay measurements taken from production drilling often provide rich information that allows initially inaccurate surfaces created using sparse exploration data to be revised and subsequently improved. Recently, a Bayesian warping technique has been proposed to reshape modeled surfaces based on geochemical and spatial constraints imposed by newly acquired blasthole data. This paper focuses on incorporating machine learning in this warping framework to make the likelihood computation generalizable. The technique works by adjusting the position of vertices on the surface to maximize the integrity of modeled geological boundaries with respect to sparse geochemical observations. Its foundation is laid by a Bayesian derivation in which the geological domain likelihood given the chemistry, p(g|c), plays a similar role to p(y(c)|g). This observation allows a manually calibrated process centered around the latter to be automated since ML techniques may be used to estimate the former in a data-driven way. Machine learning performance is evaluated for gradient boosting, neural network, random forest and other classifiers in a binary and multi-class context using precision and recall rates. Once ML likelihood estimators are integrated in the surface warping framework, surface shaping performance is evaluated using unseen data by examining the categorical distribution of test samples located above and below the warped surface. Large-scale validation experiments are performed to assess the overall efficacy of ML assisted surface warping as a fully integrated component within an ore grade estimation system where the posterior mean is obtained via Gaussian Process inference with a Matern 3/2 kernel.
翻訳日:2021-04-05 00:39:16 公開日:2021-02-15
# ロボティクスにおける大規模行動空間の行動優先

Action Priors for Large Action Spaces in Robotics ( http://arxiv.org/abs/2101.04178v2 )

ライセンス: Link先を確認
Ondrej Biza, Dian Wang, Robert Platt, Jan-Willem van de Meent and Lawson L. S. Wong(参考訳) ロボット工学では、報酬形成やカリキュラム学習を伴わず、純粋なモデルなし強化学習を用いて有用な政策を学ぶことはしばしば不可能である。 その結果、多くの研究者は、学習をガイドする専門家のデモンストレーションに頼っている。 しかし、専門家によるデモンストレーションの獲得は高価である。 本稿では,先程解決したタスクの解法を,将来のタスクの探索を容易にするためのアクションを生成するための代替手法を提案する。 前者のアクションは、前のタスクを解決するポリシーの集合をまとめるアクション上の確率分布である。 以上の結果から,本手法は専門的な実演なしでは実現不可能なロボット操作問題の解決に有効であることが示唆された。 ソースコードは \url{https://github.com/o ndrejba/action_prior s} で入手できる。

In robotics, it is often not possible to learn useful policies using pure model-free reinforcement learning without significant reward shaping or curriculum learning. As a consequence, many researchers rely on expert demonstrations to guide learning. However, acquiring expert demonstrations can be expensive. This paper proposes an alternative approach where the solutions of previously solved tasks are used to produce an action prior that can facilitate exploration in future tasks. The action prior is a probability distribution over actions that summarizes the set of policies found solving previous tasks. Our results indicate that this approach can be used to solve robotic manipulation problems that would otherwise be infeasible without expert demonstrations. Source code is available at \url{https://github.com/o ndrejba/action_prior s}.
翻訳日:2021-04-04 14:29:27 公開日:2021-02-15
# (参考訳) LBS: 自動圧縮のための損失認識ビット共有 [全文訳有]

LBS: Loss-aware Bit Sharing for Automatic Model Compression ( http://arxiv.org/abs/2101.04935v2 )

ライセンス: CC BY 4.0
Jing Liu, Bohan Zhuang, Peng Chen, Yong Guo, Chunhua Shen, Jianfei Cai, Mingkui Tan(参考訳) 低ビット幅モデル圧縮は、モデルサイズと計算オーバーヘッドを減らす効果的な方法である。 既存の圧縮方法はいくつかの圧縮構成(プルーニングレートやビット幅など)に依存しており、しばしば手動で決定される。 自動で検索する試みもあるが、最適化プロセスは非常に高価であることが多い。 これを解決するために,Los-Aware Bit Sharing (LBS) というシンプルな手法を考案し,最適なモデル圧縮構成を自動検索する。 そこで本研究では,ビット幅量子化値の高い値を,最小ビット幅量子化値と一連の再割り当てオフセットの合計に分解可能な,全ての候補圧縮構成を符号化する新しい単一パスモデルを提案する。 次に、学習可能なバイナリゲートを導入してビット幅の選択を符号化し、フィルタプルーニングのためのフィルタワイズ0ビットを含む。 ネットワークパラメータとともにバイナリゲートを共同でトレーニングすることにより、各レイヤの圧縮構成を自動的に決定することができる。 CIFAR-100とImageNetの広範な実験により、LBSは有望な性能を維持しながら計算コストを大幅に削減できることが示された。

Low-bitwidth model compression is an effective method to reduce the model size and computational overhead. Existing compression methods rely on some compression configurations (such as pruning rates, and/or bitwidths), which are often determined manually and not optimal. Some attempts have been made to search them automatically, but the optimization process is often very expensive. To alleviate this, we devise a simple yet effective method named Loss-aware Bit Sharing (LBS) to automatically search for optimal model compression configurations. To this end, we propose a novel single-path model to encode all candidate compression configurations, where a high bitwidth quantized value can be decomposed into the sum of the lowest bitwidth quantized value and a series of re-assignment offsets. We then introduce learnable binary gates to encode the choice of bitwidth, including filter-wise 0-bit for filter pruning. By jointly training the binary gates in conjunction with network parameters, the compression configurations of each layer can be automatically determined. Extensive experiments on both CIFAR-100 and ImageNet show that LBS is able to significantly reduce computational cost while preserving promising performance.
翻訳日:2021-04-03 18:31:42 公開日:2021-02-15
# 時系列予測のための離散グラフ構造学習

Discrete Graph Structure Learning for Forecasting Multiple Time Series ( http://arxiv.org/abs/2101.06861v2 )

ライセンス: Link先を確認
Chao Shang, Jie Chen, Jinbo Bi(参考訳) 時系列予測は統計学、経済学、計算機科学の分野で広く研究されている。 多変量時系列における変数間の相関関係と因果関係の探索により,時系列モデルの性能向上が期待できる。 深層ニューラルネットワークを予測モデルとして使用する場合、複数の(多変量)時系列間のペア情報の活用も予測を改善するという仮説を立てる。 明示的なグラフ構造が知られている場合、グラフニューラルネットワーク(GNN)はその構造を利用する強力なツールとして実証されている。 本稿では,グラフが未知である場合,GNNと同時に構造を学習することを提案する。 我々は,グラフ分布の平均性能を最適化し,確率的グラフモデルを学ぶことを課題とした。 分布はニューラルネットワークによってパラメータ化され、離散グラフは再パラメータ化によって微分的にサンプリングできる。 経験的評価は,最近提案されたグラフ構造学習のための二段階学習手法よりも,よりシンプルで効率的,かつ優れた性能を示すとともに,深層学習,深層学習、非深層学習、グラフ学習、非グラフ学習など幅広い予測モデルが提案されている。

Time series forecasting is an extensively studied subject in statistics, economics, and computer science. Exploration of the correlation and causation among the variables in a multivariate time series shows promise in enhancing the performance of a time series model. When using deep neural networks as forecasting models, we hypothesize that exploiting the pairwise information among multiple (multivariate) time series also improves their forecast. If an explicit graph structure is known, graph neural networks (GNNs) have been demonstrated as powerful tools to exploit the structure. In this work, we propose learning the structure simultaneously with the GNN if the graph is unknown. We cast the problem as learning a probabilistic graph model through optimizing the mean performance over the graph distribution. The distribution is parameterized by a neural network so that discrete graphs can be sampled differentiably through reparameterization. Empirical evaluations show that our method is simpler, more efficient, and better performing than a recently proposed bilevel learning approach for graph structure learning, as well as a broad array of forecasting models, either deep or non-deep learning based, and graph or non-graph based.
翻訳日:2021-03-27 06:05:35 公開日:2021-02-15
# GAN DCT異常検出によるディープフェイク対策

Fighting deepfakes by detecting GAN DCT anomalies ( http://arxiv.org/abs/2101.09781v3 )

ライセンス: Link先を確認
Oliver Giudice (1), Luca Guarnera (1 and 2), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) 人間の顔に適用されるGAN(Generative Adversarial Networks)のようなAI技術によって作成された合成マルチメディアコンテンツは、深刻な社会的および政治的結果をもたらす可能性があります。 最先端のアルゴリズムはディープニューラルネットワークを使って偽のコンテンツを検出するが、残念ながらほとんどのアプローチは一般化も説明もできないようだ。 本稿では,Deepfake画像の高精度な識別が可能な新しい高速検出手法を提案する。 離散コサイン変換 (DCT) を用いて, 実画像データセットとDeepfake画像データセットの異常周波数を解析した。 ac係数の分布によって推定される \beta統計はganエンジン生成画像を認識する鍵となっている。 提案手法は異なるganアーキテクチャにより合成された顔の高品質画像上で検証されている。 実験により,本手法は革新的であり,最先端技術を超え,説明可能性の観点から多くの洞察を与えることができた。

Synthetic multimedia contents created through AI technologies, such as Generative Adversarial Networks (GAN), applied to human faces can have serious social and political consequences. State-of-the-art algorithms employ deep neural networks to detect fake contents but, unfortunately, almost all approaches appear to be neither generalizable nor explainable. In this paper, a new fast detection method able to discriminate Deepfake images with high precision is proposed. By employing Discrete Cosine Transform (DCT), anomalous frequencies in real and Deepfake image datasets were analyzed. The \beta statistics inferred by the distribution of AC coefficients have been the key to recognize GAN-engine generated images. The proposed technique has been validated on pristine high quality images of faces synthesized by different GAN architectures. Experiments carried out show that the method is innovative, exceeds the state-of-the-art and also gives many insights in terms of explainability.
翻訳日:2021-03-16 09:13:13 公開日:2021-02-15
# 視覚サーベイランスのための時空間データ拡張

Spatio-temporal Data Augmentation for Visual Surveillance ( http://arxiv.org/abs/2101.09895v3 )

ライセンス: Link先を確認
Jae-Yeul Kim, Jong-Eun Ha(参考訳) 視覚監視は、固定カメラから取得した連続画像を用いて前景物体を安定的に検出することを目的とする。 教師付き学習に基づく最近のディープラーニング手法は、古典的背景抽出アルゴリズムよりも優れた性能を示す。 但し、静的な前景、動的背景、堅い影、照明変更、camouflage、等の改善のための余地はまだあります。 さらに、ディープラーニングベースの手法のほとんどは、トレーニングに似た環境で動作する。 テスト環境がトレーニング環境と異なる場合、そのパフォーマンスは低下します。 その結果、優れたパフォーマンスを保証するためには、これらの運用環境に対する追加のトレーニングが必要となる。 過去の研究では,過去の画像や背景画像,現在の画像から得られた時空間入力データを用いて,訓練と異なる環境下で有望な結果を示したが,単純なu-net構造を用いていた。 本論文では,前作と同様のネットワークを用いて,視覚的監視に適したデータ拡張手法を提案し,さらなる性能向上を図った。 ディープラーニングでは、ほとんどのデータ拡張技術が、画像分類やオブジェクト検出に用いられる空間レベルのデータ拡張技術を扱う。 本論文では、これまでの研究に適した時空間次元におけるデータ拡張の新しい手法を提案する。 背景モデル画像と過去の画像を調整する2つのデータ拡張手法を提案する。 これにより,前景やゴーストオブジェクトなどの難しい領域において,従来の研究に比べて性能が向上することが示された。 sbi,lasiesta,および独自のデータセットを用いた定量的・質的評価により,深層学習に基づくアルゴリズムや背景減算アルゴリズムよりも優れた性能を示す。

Visual surveillance aims to stably detect a foreground object using a continuous image acquired from a fixed camera. Recent deep learning methods based on supervised learning show superior performance compared to classical background subtraction algorithms. However, there is still a room for improvement in static foreground, dynamic background, hard shadow, illumination changes, camouflage, etc. In addition, most of the deep learning-based methods operates well on environments similar to training. If the testing environments are different from training ones, their performance degrades. As a result, additional training on those operating environments is required to ensure a good performance. Our previous work which uses spatio-temporal input data consisted of a number of past images, background images and current image showed promising results in different environments from training, although it uses a simple U-NET structure. In this paper, we propose a data augmentation technique suitable for visual surveillance for additional performance improvement using the same network used in our previous work. In deep learning, most data augmentation techniques deal with spatial-level data augmentation techniques for use in image classification and object detection. In this paper, we propose a new method of data augmentation in the spatio-temporal dimension suitable for our previous work. Two data augmentation methods of adjusting background model images and past images are proposed. Through this, it is shown that performance can be improved in difficult areas such as static foreground and ghost objects, compared to previous studies. Through quantitative and qualitative evaluation using SBI, LASIESTA, and our own dataset, we show that it gives superior performance compared to deep learning-based algorithms and background subtraction algorithms.
翻訳日:2021-03-14 19:07:18 公開日:2021-02-15
# MIMO OFDMシステムにおけるSuccessive Denoisingによるチャネル推定:強化学習手法

Channel Estimation via Successive Denoising in MIMO OFDM Systems: A Reinforcement Learning Approach ( http://arxiv.org/abs/2101.10300v3 )

ライセンス: Link先を確認
Myeung Suk Oh, Seyyedali Hosseinalipour, Taejoon Kim, Christopher G. Brinton, David J. Love(参考訳) 多重入力多重出力(MIMO)直交周波数分割多重化(OFDM)による信頼性の高い通信には正確なチャネル推定が必要である。 既存の文献では、時間領域における(i)チャネル分析と(ii)教師付き学習技術の両方に依存するチャネル推定のための分節化手法に重点を置いている。 これらの制約に対処するために,事前のチャネル知識やラベル付きデータを必要としない強化学習フレームワークの適用に基づく周波数領域除算法を提案する。 提案手法は,チャネル曲率計算に基づく新しい逐次チャネル除算プロセスを含み,信頼できないチャネル推定を同定するためのチャネル曲率等級閾値を求める。 このプロセスに基づいて、マルコフ決定プロセスとしてデノベーション機構を定式化し、幾何学に基づくチャネル推定更新によってアクションを定義し、MSEを減らすポリシーに基づいて報酬関数を定義する。 次に、Q-learningを使用して、チャンネルの見積をタイムインスタンスで更新します。 数値解析により、ノイズ除去アルゴリズムがチャネル推定におけるノイズの低減に成功しました。 特に,本アルゴリズムは,実用的最小二乗法 (ls) のチャネル推定法に対して有意な改善を行い,チャネル統計の完全な知識を持つ理想線形最小二乗誤差 (lmmse) に接近する性能を提供する。

Reliable communication through multiple-input multiple-output (MIMO) orthogonal frequency division multiplexing (OFDM) requires accurate channel estimation. Existing literature largely focuses on denoising methods for channel estimation that are dependent on either (i) channel analysis in the time-domain, and/or (ii) supervised learning techniques, requiring large pre-labeled datasets for training. To address these limitations, we present a frequency-domain denoising method based on the application of a reinforcement learning framework that does not need a priori channel knowledge and pre-labeled data. Our methodology includes a new successive channel denoising process based on channel curvature computation, for which we obtain a channel curvature magnitude threshold to identify unreliable channel estimates. Based on this process, we formulate the denoising mechanism as a Markov decision process, where we define the actions through a geometry-based channel estimation update, and the reward function based on a policy that reduces the MSE. We then resort to Q-learning to update the channel estimates over the time instances. Numerical results verify that our denoising algorithm can successfully mitigate noise in channel estimates. In particular, our algorithm provides a significant improvement over the practical least squares (LS) channel estimation method and provides performance that approaches that of the ideal linear minimum mean square error (LMMSE) with perfect knowledge of channel statistics.
翻訳日:2021-03-14 18:57:10 公開日:2021-02-15
# 機械学習アルゴリズムを用いた水質解析による魚類病の早期検出

Early Detection of Fish Diseases by Analyzing Water Quality Using Machine Learning Algorithm ( http://arxiv.org/abs/2102.09390v1 )

ライセンス: Link先を確認
Al-Akhir Nayan, Ahamad Nokib Mozumder, Joyeta Saha, Khan Raqib Mahmud, Abul Kalam Al Azad(参考訳) 魚類の病気の早期発見と根本的な原因の特定は、農家が潜在的な流行を緩和するために必要な措置を講じ、国民経済に明らかに負の影響を及ぼす財政損失を回避するために不可欠である。 生物化学的研究によると、特定の細菌やウイルスの存在はpH, DO, BOD, COD, TSS, TDS, EC, PO43-, NO3-N, NH3-Nの濃度に影響し、魚の死をもたらす可能性がある。 また、自然の過程、例えば光合成、呼吸、分解は、魚の健康に悪影響を及ぼす水質の変化にも寄与する。 本論文では, 高精度な分類・意思決定タスクにおける複雑な関係データ解析における機械学習技術の最近の成功を動機として, 水質劣化をタイムリーかつ正確に検出・予測する最新の機械学習アルゴリズムを採用し, 潜在的な魚類疾患に対する事前回避策を講じる。 実験の結果, 実際のデータセットを用いたアルゴリズムにより, 特定の水質に特有な魚病の検出精度が向上した。

Early detection of fish diseases and identifying the underlying causes are crucial for farmers to take necessary steps to mitigate the potential outbreak, and thus to avert financial losses with apparent negative implications to national economy. Typically, fish diseases are caused by virus and bacteria; according to biochemical studies, the presence of certain bacteria and virus may affect the level of pH, DO, BOD, COD, TSS, TDS, EC, PO43-, NO3-N, and NH3-N in water, resulting in the death of fishes. Besides, natural processes, e.g., photosynthesis, respiration, and decomposition also contribute to the alteration of water quality that adversely affects fish health. Being motivated by the recent successes of machine learning techniques in complex relational data analyses in accurate classification and decision-making tasks, a state-of-art machine learning algorithm has been adopted in this paper to detect and predict the degradation of water quality timely and accurately, thus it helps taking pre-emptive steps against potential fish diseases. The experimental results show a high accuracy in detecting fish diseases particular to specific water quality based on the algorithm with real datasets.
翻訳日:2021-02-19 14:31:40 公開日:2021-02-15
# ELIXIR:Recommenderモデルを改善するための説明に関するユーザフィードバックから学ぶ

ELIXIR: Learning from User Feedback on Explanations to Improve Recommender Models ( http://arxiv.org/abs/2102.09388v1 )

ライセンス: Link先を確認
Azin Ghazimatin, Soumajit Pramanik, Rishiraj Saha Roy, Gerhard Weikum(参考訳) システムが提供するレコメンデーションの説明は、透明で信頼できるAIの重要な要素です。 最先端の研究では、これはユーザー受け入れを改善するための一方通行の信号だ。 本稿では,説明の役割を振り返り,生成したレコメンデーション自体の品質向上にどのように貢献できるかを検討する。 説明に対するユーザフィードバックをユーザ好みのペアワイズ学習に活用する,ループ内人間フレームワーク ELIXIR を考案した。 ELIXIRは、レコメンデーションと説明のペアによるフィードバックを活用して、アイテム類似性に基づく近傍でのラベル伝搬による疎度を克服し、ユーザ固有の遅延優先ベクトルを学習する。 このフレームワークは、ランダムウォークとリスタートによる一般化グラフレコメンデーションを用いてインスタンス化される。 実際のユーザー調査による洞察力のある実験は、項目レベルのフィードバックよりも映画や書籍の推奨事項の大幅な改善を示しています。

System-provided explanations for recommendations are an important component towards transparent and trustworthy AI. In state-of-the-art research, this is a one-way signal, though, to improve user acceptance. In this paper, we turn the role of explanations around and investigate how they can contribute to enhancing the quality of generated recommendations themselves. We devise a human-in-the-loop framework, called ELIXIR, where user feedback on explanations is leveraged for pairwise learning of user preferences. ELIXIR leverages feedback on pairs of recommendations and explanations to learn user-specific latent preference vectors, overcoming sparseness by label propagation with item-similarity-base d neighborhoods. Our framework is instantiated using generalized graph recommendation via Random Walk with Restart. Insightful experiments with a real user study show significant improvements in movie and book recommendations over item-level feedback.
翻訳日:2021-02-19 14:27:00 公開日:2021-02-15
# HSR:Hyperbolic Social Recommender

HSR: Hyperbolic Social Recommender ( http://arxiv.org/abs/2102.09389v1 )

ライセンス: Link先を確認
Anchen Li, Bo Yang(参考訳) オンライン・ソーシャルメディアの普及に伴い、利用者のソーシャル・コネクションは広く研究され、レコメンデーション・システムの性能向上に利用されている。 本稿では,双曲幾何学の社会推薦への応用について検討する。 本稿では,ハイパボリック・ソーシャル・レコメンデーション・フレームワークであるHyperbolic Social Recommender(HSR)を紹介した。 ハイパーボリック空間の助けを借りて、HSRは高品質のユーザーとアイテムの表現を学び、ユーザーとアイテムの相互作用とユーザーとユーザーの社会的関係をより良くモデリングできます。 提案するhsrは,クリックスルー率予測とtop-kレコメンデーションにおいて,euclideanや最先端ソーシャルレコメンデーションよりも優れており,双曲線空間における社会的レコメンデーションの有効性が実証されている。

With the prevalence of online social media, users' social connections have been widely studied and utilized to enhance the performance of recommender systems. In this paper, we explore the use of hyperbolic geometry for social recommendation. We present Hyperbolic Social Recommender (HSR), a novel social recommendation framework that utilizes hyperbolic geometry to boost the performance. With the help of hyperbolic spaces, HSR can learn high-quality user and item representations for better modeling user-item interaction and user-user social relations. Via a series of extensive experiments, we show that our proposed HSR outperforms its Euclidean counterpart and state-of-the-art social recommenders in click-through rate prediction and top-K recommendation, demonstrating the effectiveness of social recommendation in the hyperbolic space.
翻訳日:2021-02-19 14:12:20 公開日:2021-02-15
# オンラインモニタリングのためのスキルグラフの自動構築のための知識ベースアプローチ

A Knowledge-based Approach for the Automatic Construction of Skill Graphs for Online Monitoring ( http://arxiv.org/abs/2102.08827v1 )

ライセンス: Link先を確認
Inga Jatzkowski, Till Menzel, and Markus Maurer(参考訳) 自動運転車は、現在持っている能力に気付く必要がある。 スキルグラフは、車両の能力とそれらの能力間の依存関係がモデル化されるアシルグラフである。 車両に必要なスキルは、車両が実行しなければならない行動と車両の運用設計領域(ODD)によって異なります。 スキルグラフは当初、自動走行車の現在の能力のオンライン監視のために提案された。 それらはまた、開発プロセスの他の部分、例えば、有用であることが示されています。 システム設計、システム検証。 スキルグラフの構築は、ガイドラインがほとんどなく、反復的で専門家ベースの手動プロセスです。 したがって、このプロセスは、特に車両の意図するODDのスキルグラフへの変更の伝播に関して、エラーや矛盾が生じやすい。 この問題を回避するために,知識ベースにスキルグラフ構築に関する専門知識を形式化し,構築プロセスを自動化することを提案する。 したがって、車両のODDのすべての変更はスキルグラフに反映され、構築されたスキルグラフにおける不整合とエラーが自動的に減少する。

Automated vehicles need to be aware of the capabilities they currently possess. Skill graphs are directed acylic graphs in which a vehicle's capabilities and the dependencies between these capabilities are modeled. The skills a vehicle requires depend on the behaviors the vehicle has to perform and the operational design domain (ODD) of the vehicle. Skill graphs were originally proposed for online monitoring of the current capabilities of an automated vehicle. They have also been shown to be useful during other parts of the development process, e.g. system design, system verification. Skill graph construction is an iterative, expert-based, manual process with little to no guidelines. This process is, thus, prone to errors and inconsistencies especially regarding the propagation of changes in the vehicle's intended ODD into the skill graphs. In order to circumnavigate this problem, we propose to formalize expert knowledge regarding skill graph construction into a knowledge base and automate the construction process. Thus, all changes in the vehicle's ODD are reflected in the skill graphs automatically leading to a reduction in inconsistencies and errors in the constructed skill graphs.
翻訳日:2021-02-18 14:32:47 公開日:2021-02-15
# (参考訳) リンク予測の隠れた挑戦: どのペアをチェックするか? [全文訳有]

A Hidden Challenge of Link Prediction: Which Pairs to Check? ( http://arxiv.org/abs/2102.07878v1 )

ライセンス: CC BY 4.0
Caleb Belth, Alican B\"uy\"uk\c{c}ak{\i}r, Danai Koutra(参考訳) ネットワークにおける従来のリンク予測の設定は、通常バランスの取れたノードペアのテストセットが、リンクの存在を予測するために利用できると仮定している。 しかし、実際にはテストセットはありません:グラウンド・トラスは知られていないため、予測可能なペアの数はグラフ内のノードの数で2次です。 さらに、グラフはスパースであるため、これらの可能なペアのほとんどはリンクではない。 したがって、ノード類似性の近接保存埋め込みやヒューリスティックな概念に依存することが多いリンク予測方法は、近接しているが、それはリンクされるべきではない多くのペアで、広大な検索空間に直面します。 この問題を軽減するため,我々はlinkwaldoという,ノード対のこの二次的で大きめの探索空間から選択するフレームワークを導入し,近接するだけでなく,観測されたエッジにも構造的に類似する候補対の簡潔な集合を提案する。 これにより、いくつかの高確率対を無視することができるが、高確率対と低確率対を識別することができる。 我々のフレームワークは、理論上は確率ブロックモデル(sbms)とノード近接モデルを組み合わせたモデルに基づいている。 SBMのブロック構造は、検索スペース内で新しいリンクが落ちると予想される場所をマップし、近接部はこれらのブロックの中で最も妥当なリンクを識別し、局所性に敏感なハッシュを用いて高価な徹底的な検索を避ける。 LinkWaldoはノード表現の学習や近接のヒューリスティックな定義を利用でき、任意のリンク予測方法の候補ペアを生成することができ、実際のリンク予測のために現在および将来のメソッドの表現力を実現できます。 複数のドメインにまたがる13のネットワーク上でlinkwaldoを評価し、平均すると、埋め込みベースラインとヒューリスティックベースラインの両方のセットよりも、7-33%の欠落と将来のリンクを含む候補セットを返す。

The traditional setup of link prediction in networks assumes that a test set of node pairs, which is usually balanced, is available over which to predict the presence of links. However, in practice, there is no test set: the ground-truth is not known, so the number of possible pairs to predict over is quadratic in the number of nodes in the graph. Moreover, because graphs are sparse, most of these possible pairs will not be links. Thus, link prediction methods, which often rely on proximity-preserving embeddings or heuristic notions of node similarity, face a vast search space, with many pairs that are in close proximity, but that should not be linked. To mitigate this issue, we introduce LinkWaldo, a framework for choosing from this quadratic, massively-skewed search space of node pairs, a concise set of candidate pairs that, in addition to being in close proximity, also structurally resemble the observed edges. This allows it to ignore some high-proximity but low-resemblance pairs, and also identify high-resemblance, lower-proximity pairs. Our framework is built on a model that theoretically combines Stochastic Block Models (SBMs) with node proximity models. The block structure of the SBM maps out where in the search space new links are expected to fall, and the proximity identifies the most plausible links within these blocks, using locality sensitive hashing to avoid expensive exhaustive search. LinkWaldo can use any node representation learning or heuristic definition of proximity, and can generate candidate pairs for any link prediction method, allowing the representation power of current and future methods to be realized for link prediction in practice. We evaluate LinkWaldo on 13 networks across multiple domains, and show that on average it returns candidate sets containing 7-33% more missing and future links than both embedding-based and heuristic baselines' sets.
翻訳日:2021-02-18 12:13:44 公開日:2021-02-15
# (参考訳) 量子分類器の普遍的逆例と摂動 [全文訳有]

Universal Adversarial Examples and Perturbations for Quantum Classifiers ( http://arxiv.org/abs/2102.07788v1 )

ライセンス: CC BY 4.0
Weiyuan Gong and Dong-Ling Deng(参考訳) 量子機械学習は、機械学習と量子物理学の相互作用を探求し、両方の分野に前例のない視点をもたらす可能性がある。 実際、最近の研究は、量子コンピュータがある種の注目すべき機械学習タスクを解く際に、古典的コンピュータより優れているという強い証拠を示している。 しかし、量子学習システムも脆弱性に悩まされる可能性がある。正統な入力データに微妙に細工された摂動を加えると、システムは特に高い信頼度で誤った予測を下すことになる。 本稿では,量子分類器の逆例と摂動の普遍性について検討する。 実生活画像の分類と物質の量子位相を含む具体的な例を通して、異なる量子分類器の集合を騙すことができる普遍的な逆例が存在することを示す。 それぞれの入力データを$n$ qubitsとする$k$分類器の集合に対して、$O(\frac{\ln k} {2^n})$摂動強度の増加は、適度な普遍的対角リスクを確保するのに十分であることを示す。 さらに、与えられた量子分類器に対して、異なる正当なサンプルに追加でき、分類器の逆の例にすることができる普遍的な逆摂動が存在することを示す。 本研究では、機械学習の問題解決における短期的および将来の量子技術の実用化に不可欠となる量子機械学習システムに対する逆攻撃の普遍的な視点を明らかにした。

Quantum machine learning explores the interplay between machine learning and quantum physics, which may lead to unprecedented perspectives for both fields. In fact, recent works have shown strong evidences that quantum computers could outperform classical computers in solving certain notable machine learning tasks. Yet, quantum learning systems may also suffer from the vulnerability problem: adding a tiny carefully-crafted perturbation to the legitimate input data would cause the systems to make incorrect predictions at a notably high confidence level. In this paper, we study the universality of adversarial examples and perturbations for quantum classifiers. Through concrete examples involving classifications of real-life images and quantum phases of matter, we show that there exist universal adversarial examples that can fool a set of different quantum classifiers. We prove that for a set of $k$ classifiers with each receiving input data of $n$ qubits, an $O(\frac{\ln k} {2^n})$ increase of the perturbation strength is enough to ensure a moderate universal adversarial risk. In addition, for a given quantum classifier we show that there exist universal adversarial perturbations, which can be added to different legitimate samples and make them to be adversarial examples for the classifier. Our results reveal the universality perspective of adversarial attacks for quantum machine learning systems, which would be crucial for practical applications of both near-term and future quantum technologies in solving machine learning problems.
翻訳日:2021-02-18 09:16:26 公開日:2021-02-15
# (参考訳) データ同化を用いた機械学習と知識ベースコンポーネントを組み合わせたハイブリッド予測システムの学習 [全文訳有]

Using Data Assimilation to Train a Hybrid Forecast System that Combines Machine-Learning and Knowledge-Based Components ( http://arxiv.org/abs/2102.07819v1 )

ライセンス: CC BY 4.0
Alexander Wikner, Jaideep Pathak, Brian R. Hunt, Istvan Szunyogh, Michelle Girvan, and Edward Ott(参考訳) 本研究では,カオス力学系の過去と現在の状態の雑音部分的な測定の形で利用可能なデータが存在する場合,カオス力学系のデータ支援予測の問題を検討する。 近年、機械学習を用いたカオスダイナミクスシステムの予測に関するデータ駆動型アプローチがいくつかある。 特に有望なのは、機械学習と知識ベースのモデルを組み合わせたハイブリッドアプローチである。 このような不完全さは、基礎となるダイナミクスシステム(例えば大気や海)における物理プロセスの不完全な理解と/または限られた解決による可能性がある。 従来提案されたデータ駆動予測アプローチでは、トレーニングには、予測を意図したすべての変数の測定が必要となる傾向があった。 機械学習とデータ同化を組み合わせることで、この仮定を緩和する方法を説明します。 本手法は, エンサンブル変換カルマンフィルタ (ETKF) を用いて, 3変数ロレンツ系と倉本-シヴァシンスキー系の合成データを同化し, モデル誤差を不特定パラメータ値でシミュレーションしたものである。 動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。

We consider the problem of data-assisted forecasting of chaotic dynamical systems when the available data is in the form of noisy partial measurements of the past and present state of the dynamical system. Recently there have been several promising data-driven approaches to forecasting of chaotic dynamical systems using machine learning. Particularly promising among these are hybrid approaches that combine machine learning with a knowledge-based model, where a machine-learning technique is used to correct the imperfections in the knowledge-based model. Such imperfections may be due to incomplete understanding and/or limited resolution of the physical processes in the underlying dynamical system, e.g., the atmosphere or the ocean. Previously proposed data-driven forecasting approaches tend to require, for training, measurements of all the variables that are intended to be forecast. We describe a way to relax this assumption by combining data assimilation with machine learning. We demonstrate this technique using the Ensemble Transform Kalman Filter (ETKF) to assimilate synthetic data for the 3-variable Lorenz system and for the Kuramoto-Sivashinsky system, simulating model error in each case by a misspecified parameter value. We show that by using partial measurements of the state of the dynamical system, we can train a machine learning model to improve predictions made by an imperfect knowledge-based model.
翻訳日:2021-02-18 08:42:49 公開日:2021-02-15
# (参考訳) Top-k$ eXtreme Contextual Bandits with Arm Hierarchy

Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy ( http://arxiv.org/abs/2102.07800v1 )

ライセンス: CC BY 4.0
Rajat Sen, Alexander Rakhlin, Lexing Ying, Rahul Kidambi, Dean Foster, Daniel Hill, Inderjit Dhillon(参考訳) オンライン広告やレコメンデーションシステムなどの近代的な応用に動機づけられた我々は、腕の総数が膨大になり得る極端文脈的包帯問題について研究し、学習者は、腕を選択して、選択した腕に対する報酬の全てまたは一部を観察することができる。 本稿ではまず,逆ギャップ重み付け方式を用いて,非極端実現可能設定のためのアルゴリズムを提案する。 我々のアルゴリズムは、$O(k\sqrt{(A-k+1)T \log (|\mathcal{F}|T)})$で、$A$はアームの総数であり、$\mathcal{F}$は回帰関数を含むクラスであるが、$\tilde{O}(A)$計算は時間ステップごとに必要である。 腕の総数が数百万にもなる極端な環境下では、統計的および計算的効率を確保するために、特定の構造を平均報酬で誘導する実用的な動機付け腕階層モデルを提案します。 階層構造は各文脈の関連アーム数を指数関数的に減らすことを可能にし、その結果 $O(k\sqrt{(\log A-k+1)T \log (|\mathcal{F}|T)})$ の後悔保証となる。 最後に,階層型線形関数クラスを用いてアルゴリズムを実装し,極限マルチラベル分類データセットを用いたシミュレーションバンディットフィードバック実験において,よく知られたベンチマークに対して優れた性能を示す。 300万の腕を持つデータセットでは、平均推定時間はわずか7.9ミリ秒であり、これは100倍の改善である。

Motivated by modern applications, such as online advertisement and recommender systems, we study the top-$k$ extreme contextual bandits problem, where the total number of arms can be enormous, and the learner is allowed to select $k$ arms and observe all or some of the rewards for the chosen arms. We first propose an algorithm for the non-extreme realizable setting, utilizing the Inverse Gap Weighting strategy for selecting multiple arms. We show that our algorithm has a regret guarantee of $O(k\sqrt{(A-k+1)T \log (|\mathcal{F}|T)})$, where $A$ is the total number of arms and $\mathcal{F}$ is the class containing the regression function, while only requiring $\tilde{O}(A)$ computation per time step. In the extreme setting, where the total number of arms can be in the millions, we propose a practically-motivate d arm hierarchy model that induces a certain structure in mean rewards to ensure statistical and computational efficiency. The hierarchical structure allows for an exponential reduction in the number of relevant arms for each context, thus resulting in a regret guarantee of $O(k\sqrt{(\log A-k+1)T \log (|\mathcal{F}|T)})$. Finally, we implement our algorithm using a hierarchical linear function class and show superior performance with respect to well-known benchmarks on simulated bandit feedback experiments using extreme multi-label classification datasets. On a dataset with three million arms, our reduction scheme has an average inference time of only 7.9 milliseconds, which is a 100x improvement.
翻訳日:2021-02-18 05:51:42 公開日:2021-02-15
# (参考訳) Momentum Residual Neural Networks

Momentum Residual Neural Networks ( http://arxiv.org/abs/2102.07870v1 )

ライセンス: CC BY 4.0
Michael E. Sander, Pierre Ablin, Mathieu Blondel, Gabriel Peyr\'e(参考訳) バックプロパゲーションを備えたディープ残留ニューラルネットワーク(ResNets)のトレーニングは、ネットワークの深さに関して線形に増加するメモリコストを有する。 この問題を回避する簡単な方法は、可逆的なアーキテクチャを使用することです。 本稿では,運動量項を付加することで,resnetのフォワードルールを変更することを提案する。 その結果得られるネットワーク、運動量残差ニューラルネットワーク(momentumnets)は可逆である。 従来の反転型アーキテクチャとは異なり、既存のResNetブロックのドロップイン代替として使用できる。 そこで本研究では,MomentumNetsを二階常微分方程式(ODE)と解釈し,運動量を加えることでMomentumNetsの表現能力が向上することを示す。 解析の結果,ResNetではできないが,MomentumNetsは乗算係数までの線形写像を学習できることがわかった。 一定の点への収束が必要な設定を最適化する学習において、既存の可逆的アーキテクチャが失敗しながら、我々の手法が成功することを理論的かつ実証的に示す。 CIFARとImageNetで、MomentumNetsはResNetsと同じ精度であり、メモリフットプリントははるかに小さく、事前トレーニングされたMomentumNetsが微調整モデルに期待できることを示す。

The training of deep residual neural networks (ResNets) with backpropagation has a memory cost that increases linearly with respect to the depth of the network. A simple way to circumvent this issue is to use reversible architectures. In this paper, we propose to change the forward rule of a ResNet by adding a momentum term. The resulting networks, momentum residual neural networks (MomentumNets), are invertible. Unlike previous invertible architectures, they can be used as a drop-in replacement for any existing ResNet block. We show that MomentumNets can be interpreted in the infinitesimal step size regime as second-order ordinary differential equations (ODEs) and exactly characterize how adding momentum progressively increases the representation capabilities of MomentumNets. Our analysis reveals that MomentumNets can learn any linear mapping up to a multiplicative factor, while ResNets cannot. In a learning to optimize setting, where convergence to a fixed point is required, we show theoretically and empirically that our method succeeds while existing invertible architectures fail. We show on CIFAR and ImageNet that MomentumNets have the same accuracy as ResNets, while having a much smaller memory footprint, and show that pre-trained MomentumNets are promising for fine-tuning models.
翻訳日:2021-02-18 05:50:27 公開日:2021-02-15
# (参考訳) メタバックトランスレーション [全文訳有]

Meta Back-translation ( http://arxiv.org/abs/2102.07847v1 )

ライセンス: CC BY 4.0
Hieu Pham, Xinyi Wang, Yiming Yang, Graham Neubig(参考訳) バック翻訳は、擬似並列データを生成することにより、ニューラルネットワーク翻訳〜(NMT)のパフォーマンスを向上させる効果的な戦略です。 しかし、いくつかの最近の研究により、擬似並列データのより良い翻訳品質が必ずしもより良い最終翻訳モデルをもたらすとは限らないことが判明した。 本稿では,事前学習した逆翻訳モデルから擬似並列データを生成する手法を提案する。 本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。 標準データセットであるWMT En-De'14とWMT En-Fr'14および多言語翻訳設定における評価では,強いベースラインよりも大幅に改善されている。 コードが利用可能になります。

Back-translation is an effective strategy to improve the performance of Neural Machine Translation~(NMT) by generating pseudo-parallel data. However, several recent works have found that better translation quality of the pseudo-parallel data does not necessarily lead to better final translation models, while lower-quality but more diverse data often yields stronger results. In this paper, we propose a novel method to generate pseudo-parallel data from a pre-trained back-translation model. Our method is a meta-learning algorithm which adapts a pre-trained back-translation model so that the pseudo-parallel data it generates would train a forward-translation model to do well on a validation set. In our evaluations in both the standard datasets WMT En-De'14 and WMT En-Fr'14, as well as a multilingual translation setting, our method leads to significant improvements over strong baselines. Our code will be made available.
翻訳日:2021-02-18 04:59:52 公開日:2021-02-15
# (参考訳) ディープネットワークを用いた位相変調レーダ波形分類 [全文訳有]

Phase-Modulated Radar Waveform Classification Using Deep Networks ( http://arxiv.org/abs/2102.07827v1 )

ライセンス: CC BY 4.0
Michael Wharton, Anne M. Pavy, and Philip Schniter(参考訳) ノイズの多い位相変調レーダ波形を分類する問題を検討する。 伝統的にこれは手作りの機能に古典的な機械学習アルゴリズムを適用することで達成されてきたが、最近、生のI/Q波形を分類するためにディープニューラルネットワーク(DNN)を訓練することで、より良いパフォーマンスが得られることが示されている。 しかし、既存のDNNは時間同期波形を仮定し、複雑な信号構造を利用せず、DNNの設計と訓練の多くの側面が最適である。 我々は,改良されたDNNアーキテクチャとトレーニング手順により,SIDLEデータセットからの非同期波形の分類誤差を18%から0.14%に削減できることを実証した。 さらに,4個の非同期シドル波形を用いて4.0%誤差を達成することで,多重重なり波形の正確な分類が可能となることを示す。

We consider the problem of classifying noisy, phase-modulated radar waveforms. While traditionally this has been accomplished by applying classical machine-learning algorithms on hand-crafted features, it has recently been shown that better performance can be attained by training deep neural networks (DNNs) to classify raw I/Q waveforms. However, existing DNNs assume time-synchronized waveforms and do not exploit complex-valued signal structure, and many aspects of the their DNN design and training are suboptimal. We demonstrate that, with an improved DNN architecture and training procedure, it is possible to reduce classification error from 18% to 0.14% on asynchronous waveforms from the SIDLE dataset. Unlike past work, we furthermore demonstrate that accurate classification of multiple overlapping waveforms is also possible, by achieving 4.0% error with 4 asynchronous SIDLE waveforms.
翻訳日:2021-02-18 03:15:44 公開日:2021-02-15
# (参考訳) HDMI:高階深度多重情報最大 [全文訳有]

HDMI: High-order Deep Multiplex Infomax ( http://arxiv.org/abs/2102.07810v1 )

ライセンス: CC BY 4.0
Baoyu Jing, Chanyoung Park, Hanghang Tong(参考訳) ネットワークは、学術ネットワークやソーシャルネットワークなどのオブジェクト間の関係を表すために広く使用され、ネットワークのための埋め込みの学習は、多くの研究の注目を集めています。 自己監視型ネットワーク表現学習は、外部の監督なしにノード埋め込みを抽出することを目的としている。 近年,ローカルノード埋め込みとグローバルサマリーの相互情報を最大化している(例)。 Deep Graph Infomax(略してDGI)は、ノード分類などの多くの下流タスクで有望な結果を示しています。 しかし、DGIには2つの大きな制限がある。 まず、DGIは内在的な信号(すなわちノード埋め込みとグローバル要約の間の相互情報)を無視しながら、外在的な監視信号(すなわちノード埋め込みとノード属性間の相互依存)を単に考慮する。 第二に、現実世界のネットワークのノードは通常、異なる関係を持つ複数のエッジで接続されるが、DGIはノード間の様々な関係を完全には探索しない。 そこで本研究では,マルチプレックスネットワークへのノード埋め込みを自己監視的に学習するための,HDMI(High-order Deep Multiplex Infomax)と呼ばれる新しいフレームワークを提案する。 より具体的には、まず、高次相互情報による外部情報と内在情報の両方を含む共同監視信号を設計し、提案した監視信号を最適化するための高次深度情報マックス(HDI)を提案する。 次に,マルチプレックスネットワークの異なる層からのノード埋め込みを組み合わせるための注意に基づく融合モジュールを提案する。 最後に,非教師付きクラスタリングや教師付き分類などの下流タスクで提案するhdmiの評価を行った。 実験の結果,HDMIはこれらのタスクの最先端性能を実現することがわかった。

Networks have been widely used to represent the relations between objects such as academic networks and social networks, and learning embedding for networks has thus garnered plenty of research attention. Self-supervised network representation learning aims at extracting node embedding without external supervision. Recently, maximizing the mutual information between the local node embedding and the global summary (e.g. Deep Graph Infomax, or DGI for short) has shown promising results on many downstream tasks such as node classification. However, there are two major limitations of DGI. Firstly, DGI merely considers the extrinsic supervision signal (i.e., the mutual information between node embedding and global summary) while ignores the intrinsic signal (i.e., the mutual dependence between node embedding and node attributes). Secondly, nodes in a real-world network are usually connected by multiple edges with different relations, while DGI does not fully explore the various relations among nodes. To address the above-mentioned problems, we propose a novel framework, called High-order Deep Multiplex Infomax (HDMI), for learning node embedding on multiplex networks in a self-supervised way. To be more specific, we first design a joint supervision signal containing both extrinsic and intrinsic mutual information by high-order mutual information, and we propose a High-order Deep Infomax (HDI) to optimize the proposed supervision signal. Then we propose an attention based fusion module to combine node embedding from different layers of the multiplex network. Finally, we evaluate the proposed HDMI on various downstream tasks such as unsupervised clustering and supervised classification. The experimental results show that HDMI achieves state-of-the-art performance on these tasks.
翻訳日:2021-02-18 02:33:35 公開日:2021-02-15
# (参考訳) 機械学習による異常音検出:システムレビュー [全文訳有]

Anomalous Sound Detection with Machine Learning: A Systematic Review ( http://arxiv.org/abs/2102.07820v1 )

ライセンス: CC BY 4.0
Eduardo C. Nunes(参考訳) Anomalous Sound Detection (ASD)は、物体から発せられる音が正常または異常であるかどうかを識別するタスクです。 場合によっては、この異常の早期発見はいくつかの問題を防ぐことができます。 本稿では,機械学習(ML)技術を用いたアナモルス音検出に関する研究に関するシステムレビュー(SR)について述べる。 このSRは、2010年から2020年の間にジャーナルや会議で発表された31の研究(受け入れ研究)の選択を通じて実施されました。 技術の現状は、データセットの収集、音声の特徴抽出方法、mlモデル、およびasdに使用される評価方法によって解決された。 その結果、ToyADMOS, MIMII, Miviaデータセット、機能抽出のためのMel- frequency cepstral coefficients (MFCC)メソッド、Autoencoder (AE)およびConvolutional Neural Network (CNN)モデル、AUCおよびF1スコア評価方法が最も引用された。

Anomalous sound detection (ASD) is the task of identifying whether the sound emitted from an object is normal or anomalous. In some cases, early detection of this anomaly can prevent several problems. This article presents a Systematic Review (SR) about studies related to Anamolous Sound Detection using Machine Learning (ML) techniques. This SR was conducted through a selection of 31 (accepted studies) studies published in journals and conferences between 2010 and 2020. The state of the art was addressed, collecting data sets, methods for extracting features in audio, ML models, and evaluation methods used for ASD. The results showed that the ToyADMOS, MIMII, and Mivia datasets, the Mel-frequency cepstral coefficients (MFCC) method for extracting features, the Autoencoder (AE) and Convolutional Neural Network (CNN) models of ML, the AUC and F1-score evaluation methods were most cited.
翻訳日:2021-02-18 02:16:23 公開日:2021-02-15
# (参考訳) ウェブサイトスクリーンショットから誤情報を識別する [全文訳有]

Identifying Misinformation from Website Screenshots ( http://arxiv.org/abs/2102.07849v1 )

ライセンス: CC BY 4.0
Sara Abdali, Rutuja Gurav, Siddharth Menon, Daniel Fonseca, Negin Entezari, Neil Shah, Evangelos E. Papalexakis(参考訳) ウェブサイトのルック&フィールは、記事の信頼性に関する情報を与えてくれるだろうか? 本稿では,その誤用を検出する上で,有望だが無視される側面,すなわちドメインのウェブページの全体像の利用を提案する。 この全体像を捉えるために、不整形または信頼できるWebドメインによって提供されるニュース記事のスクリーンショットを取得し、テンソル分解に基づく半教師付き分類手法を利用する。 提案されたアプローチ、すなわち、VizFakeは画像のグレースケールへの変換、画像のベクトル化、スクリーンショットの一部の喪失など、多くの画像変換に敏感である。 VizFakeは、非常に少量の既知のラベルを活用し、ラベル(特に既知の誤情報記事)が不足し、すぐに日付になる現実的で実用的なシナリオを反映しています。 500以上のドメインにまたがる50万件のニュース記事のデータセット上のVizFakeのF1スコアは、地上の真実ラベルの5%しか使用していない約85%である。 さらに、監視されていない方法で得られたVizFakeのテンソル表現は、問題の貴重な洞察を提供するデータの探索分析を可能にします。 最後に,VizFakeとDeep Transfer Learningを比較した。画像分類やテキストベースの手法として非常に人気のあるブラックボックスアプローチである。 VizFakeは、深層移動学習モデルとの競合精度を最大2桁高速で達成し、厳格なハイパーパラメータチューニングを必要としない。

Can the look and the feel of a website give information about the trustworthiness of an article? In this paper, we propose to use a promising, yet neglected aspect in detecting the misinformativeness: the overall look of the domain webpage. To capture this overall look, we take screenshots of news articles served by either misinformative or trustworthy web domains and leverage a tensor decomposition based semi-supervised classification technique. The proposed approach i.e., VizFake is insensitive to a number of image transformations such as converting the image to grayscale, vectorizing the image and losing some parts of the screenshots. VizFake leverages a very small amount of known labels, mirroring realistic and practical scenarios, where labels (especially for known misinformative articles), are scarce and quickly become dated. The F1 score of VizFake on a dataset of 50k screenshots of news articles spanning more than 500 domains is roughly 85% using only 5% of ground truth labels. Furthermore, tensor representations of VizFake, obtained in an unsupervised manner, allow for exploratory analysis of the data that provides valuable insights into the problem. Finally, we compare VizFake with deep transfer learning, since it is a very popular black-box approach for image classification and also well-known text text-based methods. VizFake achieves competitive accuracy with deep transfer learning models while being two orders of magnitude faster and not requiring laborious hyper-parameter tuning.
翻訳日:2021-02-18 02:02:50 公開日:2021-02-15
# (参考訳) KNH: ミス情報検出のためのK-Nearest Hyperplanes Graphを用いたマルチビューモデリング [全文訳有]

KNH: Multi-View Modeling with K-Nearest Hyperplanes Graph for Misinformation Detection ( http://arxiv.org/abs/2102.07857v1 )

ライセンス: CC BY 4.0
Sara Abdali, Neil Shah, Evangelos E. Papalexakis(参考訳) グラフはデータポイントとその関係を表現するための最も効率的な構造のひとつであり、様々なアプリケーションで広く利用されている。 これまで、ノード間の高次関係はハイパーグラフとして知られるグラフの一般化によってモデル化されてきた。 ハイパーグラフでは、エッジはノードの集合、すなわちデータ間の高次関係を示すためにハイパーエッジによって定義される。 しかし、ノード自体の明示的な高階一般化は存在しない。 本研究では,K-Nearest Hyperplanes graph (KNH) と呼ばれるグラフの新たな一般化を導入し,ノードのマルチビューモデリングのための高次ユークリッド部分空間を用いてノードを定義する。 実際、KNHでは、ノードはデータポイントの代わりに超平面またはより正確にmフラットである。 誤情報検出のための2つのマルチアスペクトデータセット上でKNHグラフを実験的に評価した。 実験結果から,KNHグラフを用いた記事のマルチビューモデリングは,分類性能において従来のKNNグラフよりも優れていたことが示唆された。

Graphs are one of the most efficacious structures for representing datapoints and their relations, and they have been largely exploited for different applications. Previously, the higher-order relations between the nodes have been modeled by a generalization of graphs known as hypergraphs. In hypergraphs, the edges are defined by a set of nodes i.e., hyperedges to demonstrate the higher order relationships between the data. However, there is no explicit higher-order generalization for nodes themselves. In this work, we introduce a novel generalization of graphs i.e., K-Nearest Hyperplanes graph (KNH) where the nodes are defined by higher order Euclidean subspaces for multi-view modeling of the nodes. In fact, in KNH, nodes are hyperplanes or more precisely m-flats instead of datapoints. We experimentally evaluate the KNH graph on two multi-aspect datasets for misinformation detection. The experimental results suggest that multi-view modeling of articles using KNH graph outperforms the classic KNN graph in terms of classification performance.
翻訳日:2021-02-18 01:42:04 公開日:2021-02-15
# (参考訳) エントロピー規則化最適輸送による微分粒子フィルタリング [全文訳有]

Differentiable Particle Filtering via Entropy-Regularized Optimal Transport ( http://arxiv.org/abs/2102.07850v1 )

ライセンス: CC BY 4.0
Adrien Corenflos, James Thornton, Arnaud Doucet, George Deligiannidis(参考訳) 粒子フィルタリング(PF)法は、非線形状態空間モデルにおける推論を行うための確立されたクラスの手順である。 再サンプリングはPFの重要な成分であり、低い分散可能性と状態推定を得るために必要である。 しかし、従来の再サンプリング手法では、PFに基づく損失関数はモデルやPFパラメータに対して微分できない。 変分推論の文脈では、再サンプリングはPFに基づく証拠の低い境界の高分散勾配推定も得る。 最適輸送理論を活用し, 原理的微分可能な粒子フィルタを導入し, 収束結果を提供する。 我々はこの新手法を様々なアプリケーションで実証する。

Particle Filtering (PF) methods are an established class of procedures for performing inference in non-linear state-space models. Resampling is a key ingredient of PF, necessary to obtain low variance likelihood and states estimates. However, traditional resampling methods result in PF-based loss functions being non-differentiable with respect to model and PF parameters. In a variational inference context, resampling also yields high variance gradient estimates of the PF-based evidence lower bound. By leveraging optimal transport ideas, we introduce a principled differentiable particle filter and provide convergence results. We demonstrate this novel method on a variety of applications.
翻訳日:2021-02-18 00:43:56 公開日:2021-02-15
# (参考訳) Unified Shapley Framework - 予測ドリフトを説明する [全文訳有]

Unified Shapley Framework to Explain Prediction Drift ( http://arxiv.org/abs/2102.07862v1 )

ライセンス: CC BY 4.0
Aalok Shanbhag, Avijit Ghosh, Josh Rubin(参考訳) 予測は機械学習モデルの通貨であり、データセットのセグメントや時間の経過とともにモデルの振る舞いを理解することは、機械学習の研究と実践において重要な問題である。 現在、入力特徴と点の観点から、時間的あるいは意味論的に意味のある2つのデータスライス間の予測分布において、この流れを理解するための体系的なフレームワークは存在しない。 我々は,この問題に対処するための公理的正当化手法として,グループハプリーとグループイグ(統合勾配)を提案する。 そのために私たちは,現在の機能/データ重要度指標をすべてシャプリー値に基づいて再編成し,分散比較の本質的に問題として,共通の傘の下でそれらを統一します。 分布差の特定の望ましい性質を公理化し,経験的選択の意義について検討する。

Predictions are the currency of a machine learning model, and to understand the model's behavior over segments of a dataset, or over time, is an important problem in machine learning research and practice. There currently is no systematic framework to understand this drift in prediction distributions over time or between two semantically meaningful slices of data, in terms of the input features and points. We propose GroupShapley and GroupIG (Integrated Gradients), as axiomatically justified methods to tackle this problem. In doing so, we re-frame all current feature/data importance measures based on the Shapley value as essentially problems of distributional comparisons, and unify them under a common umbrella. We axiomatize certain desirable properties of distributional difference, and study the implications of choosing them empirically.
翻訳日:2021-02-17 21:14:30 公開日:2021-02-15
# (参考訳) GP-Tree:Few-Shotインクリメンタルラーニングのためのガウス的プロセス分類器 [全文訳有]

GP-Tree: A Gaussian Process Classifier for Few-Shot Incremental Learning ( http://arxiv.org/abs/2102.07868v1 )

ライセンス: CC0 1.0
Idan Achituve, Aviv Navon, Yochai Yemini, Gal Chechik, Ethan Fetaya(参考訳) ガウス過程(GP)は非パラメトリックで柔軟で、多くのタスクでうまく機能するモデルです。 深層カーネル学習によってGPと深層学習手法を組み合わせることは、ネットワークによって引き起こされる強力な表現力のために特に説得力があります。 しかし、深層カーネル学習の有無に関わらず、GPの推論は大規模データセット上で計算的に困難である。 本稿では,ガウス過程と深層カーネル学習を用いたマルチクラス分類手法GP-Treeを提案する。 木の各内部ノードが、Polya-Gamma拡張スキームを用いてGPとデータに適合する木に基づく階層モデルを開発する。 その結果、私たちのメソッドはクラス数とデータサイズの両方でうまくスケールします。 我々は,他のガウスプロセストレーニングベースラインに対する手法の有効性を実証し,我々のgpアプローチがインクリメンタルなマイナショット学習にどのように適用され,最先端のパフォーマンスに達するかを示す。

Gaussian processes (GPs) are non-parametric, flexible, models that work well in many tasks. Combining GPs with deep learning methods via deep kernel learning is especially compelling due to the strong expressive power induced by the network. However, inference in GPs, whether with or without deep kernel learning, can be computationally challenging on large datasets. Here, we propose GP-Tree, a novel method for multi-class classification with Gaussian processes and deep kernel learning. We develop a tree-based hierarchical model in which each internal node of the tree fits a GP to the data using the Polya-Gamma augmentation scheme. As a result, our method scales well with both the number of classes and data size. We demonstrate our method effectiveness against other Gaussian process training baselines, and we show how our general GP approach is easily applied to incremental few-shot learning and reaches state-of-the-art performance.
翻訳日:2021-02-17 21:00:52 公開日:2021-02-15
# (参考訳) 標準バックプロパゲーションはアダムよりも破滅的に少ないのか? [全文訳有]

Does Standard Backpropagation Forget Less Catastrophically Than Adam? ( http://arxiv.org/abs/2102.07686v1 )

ライセンス: CC BY 4.0
Dylan R. Ashley, Sina Ghiassian, Richard S. Sutton(参考訳) 破滅的な忘れることは、ニューラルネットワーク(anns)の広範な応用に深刻な障害であり続けているが、まだ理解されていない現象である。 破滅的な忘れ物に関する膨大な研究にもかかわらず、この現象がどの程度正確に定量化されるべきなのか、そしてさらに、学習システムを設計する際の選択が破滅的な忘れ物の数に影響を与えるかは、まだ不明である。 我々は、強化学習と教師付き学習文献の様々なテストベッドを用いて、(1)ANNのトレーニングに近代的な勾配に基づく最適化アルゴリズムが使われているかの選択が破滅的な忘れの量に重大な影響を与えることを示す証拠を提供し、そして、当然ながら、バニラSGDのような古典的アルゴリズムは、アダムのようなより近代的なアルゴリズムよりも破滅的な忘れの少ない例が多い。 我々は,破滅的忘れを定量化するための4つの既存の指標を実証的に比較し,(2) 学習システムが破滅的忘れを経験する程度が,ある原則的尺度から別の尺度への変化が研究の結論を劇的に変えるのに十分であることを示す。 以上より,より厳密な実験手法が必要であることが示唆された。 本研究では,教師付き学習におけるタスク間忘れは,リテンションと再学習の両方の指標で同時に測定し,強化学習におけるタスク内忘れは,少なくとも対面干渉で測定することを推奨する。

Catastrophic forgetting remains a severe hindrance to the broad application of artificial neural networks (ANNs), however, it continues to be a poorly understood phenomenon. Despite the extensive amount of work on catastrophic forgetting, we argue that it is still unclear how exactly the phenomenon should be quantified, and, moreover, to what degree all of the choices we make when designing learning systems affect the amount of catastrophic forgetting. We use various testbeds from the reinforcement learning and supervised learning literature to (1) provide evidence that the choice of which modern gradient-based optimization algorithm is used to train an ANN has a significant impact on the amount of catastrophic forgetting and show that--surprisingly-- in many instances classical algorithms such as vanilla SGD experience less catastrophic forgetting than the more modern algorithms such as Adam. We empirically compare four different existing metrics for quantifying catastrophic forgetting and (2) show that the degree to which the learning systems experience catastrophic forgetting is sufficiently sensitive to the metric used that a change from one principled metric to another is enough to change the conclusions of a study dramatically. Our results suggest that a much more rigorous experimental methodology is required when looking at catastrophic forgetting. Based on our results, we recommend inter-task forgetting in supervised learning must be measured with both retention and relearning metrics concurrently, and intra-task forgetting in reinforcement learning must--at the very least--be measured with pairwise interference.
翻訳日:2021-02-17 19:12:17 公開日:2021-02-15
# (参考訳) エゴスフィア空間記憶の終端 [全文訳有]

End-to-End Egospheric Spatial Memory ( http://arxiv.org/abs/2102.07764v1 )

ライセンス: CC BY 4.0
Daniel Lenton, Stephen James, Ronald Clark, Andrew J. Davison(参考訳) 空間記憶、または特定の場所やオブジェクトを記憶し、記憶する能力は、実際の環境でタスクを実行する自律エージェントの能力の中心です。 しかし、既存の人工記憶モジュールのほとんどは、長期間にわたる情報のリコールが困難であり、空間情報の保存にはあまり適していない。 Egospheric Spatial Memory (ESM) は、エージェントの周りの自我圏内のメモリをエンコードし、表現力のある3D表現を可能にする。 esmは、模倣または強化学習によってエンドツーエンドでトレーニングすることができ、ドローンおよびマニピュレータのバイスモータ制御タスクの他のメモリベースラインに対するトレーニング効率と最終的なパフォーマンスの両方を改善する。 明示的なエゴセントリックジオメトリにより、学習したコントローラとローカル障害物回避のような他の学習されていないモダリティをシームレスに組み合わせることができます。 さらに、ESMが画像レベルとマップレベルの推論モダリティを自然に組み合わせたScanNetデータセット上のセマンティックセグメンテーションへの適用を示す。 実験により,ESMは空間的推論を具体化するための一般的な計算グラフを提供し,モジュールはリアルタイムマッピングシステムと微分可能なメモリアーキテクチャのブリッジを形成することを示した。

Spatial memory, or the ability to remember and recall specific locations and objects, is central to autonomous agents' ability to carry out tasks in real environments. However, most existing artificial memory modules have difficulty recalling information over long time periods and are not very adept at storing spatial information. We propose a parameter-free module, Egospheric Spatial Memory (ESM), which encodes the memory in an ego-sphere around the agent, enabling expressive 3D representations. ESM can be trained end-to-end via either imitation or reinforcement learning, and improves both training efficiency and final performance against other memory baselines on both drone and manipulator visuomotor control tasks. The explicit egocentric geometry also enables us to seamlessly combine the learned controller with other non-learned modalities, such as local obstacle avoidance. We further show applications to semantic segmentation on the ScanNet dataset, where ESM naturally combines image-level and map-level inference modalities. Through our broad set of experiments, we show that ESM provides a general computation graph for embodied spatial reasoning, and the module forms a bridge between real-time mapping systems and differentiable memory architectures.
翻訳日:2021-02-17 17:33:44 公開日:2021-02-15
# (参考訳) 大規模言語モデルのためのプロンプトプログラミング:Few-Shotパラダイムを超えて [全文訳有]

Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm ( http://arxiv.org/abs/2102.07350v1 )

ライセンス: CC BY 4.0
Laria Reynolds and Kyle McDonell(参考訳) 大きな生成言語モデルを教師付きタスクにマッピングする手法は、モデルの新たな能力を十分に探すことができない可能性がある。 GPT-3をケーススタディとして,0ショットプロンプトは数ショットプロンプトを著しく上回ることを示す。 これらの事例では,メタラーニングよりも,すでに学習済みの課題を探索する方がよいことが示唆された。 この分析は、強力な言語モデルの制御と評価におけるプロンプトの役割を再考する動機となる。 本稿では,自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。 文章や文化的なアンカーの能力を利用して、ニュアンスのある意図をエンコードする手法や、問題の分解をコンポーネントに促進する手法を検証する前に検討します。 プロンプトプログラミングのこのより包含する理論に触発されて、我々は様々なタスクに独自の自然言語プロンプトを生成するためにモデルをシードするメタプロンプトのアイデアも紹介する。 最後に、これらより一般的な言語モデルとの相互作用方法が、既存および将来のベンチマークおよび実用的なアプリケーションにどのように組み込まれるかについて議論する。

Prevailing methods for mapping large generative language models to supervised tasks may fail to sufficiently probe models' novel capabilities. Using GPT-3 as a case study, we show that 0-shot prompts can significantly outperform few-shot prompts. We suggest that the function of few-shot examples in these cases is better described as locating an already learned task rather than meta-learning. This analysis motivates rethinking the role of prompts in controlling and evaluating powerful language models. In this work, we discuss methods of prompt programming, emphasizing the usefulness of considering prompts through the lens of natural language. We explore techniques for exploiting the capacity of narratives and cultural anchors to encode nuanced intentions and techniques for encouraging deconstruction of a problem into components before producing a verdict. Informed by this more encompassing theory of prompt programming, we also introduce the idea of a metaprompt that seeds the model to generate its own natural language prompts for a range of tasks. Finally, we discuss how these more general methods of interacting with language models can be incorporated into existing and future benchmarks and practical applications.
翻訳日:2021-02-17 17:09:38 公開日:2021-02-15
# (参考訳) 半監督知識蒸留による顧客取引分類の改善 [全文訳有]

Improved Customer Transaction Classification using Semi-Supervised Knowledge Distillation ( http://arxiv.org/abs/2102.07635v1 )

ライセンス: CC BY 4.0
Rohan Sukumaran(参考訳) ピックアップおよび配送サービスでは、顧客が提供する無料テキストに基づくトランザクション分類が難しい問題である。 さまざまな顧客入力を、さまざまな顧客書き込みスタイルに適応しつつ、一定のカテゴリのセットに関連付けることを含む。 この分類はビジネスにとって重要です:それは市場のニーズと傾向を理解し、顧客のさまざまなセグメントのためのパーソナライズされた体験を構築するのにも役立ちます。 したがって、これらのカテゴリ情報の傾向を高精度かつ高精度に把握することが不可欠である。 本稿では、1つのカテゴリが各トランザクションを駆動する特定のユースケースに焦点を当てる。 本稿では,セミスーパービジョンおよび知識蒸留フレームワークに基づくコスト効率の高いトランザクション分類手法を提案する。 このアプローチは、顧客が入力した自由テキストを用いてトランザクションのカテゴリを特定する。 弱いラベルを使い、人間の注釈付きサンプルを使うのと性能が似ていることに気付きます。 大規模な内部データセットと20Newsgroupデータセットでは、RoBERTaが分類タスクに最適であることがわかった。 さらに、ALBERTモデル(RoBERTaのパラメータが33倍少ない)を用いて、RoBERTaを教師として、RoBERTaと同じような性能を示し、未適応のALBERTよりも優れた性能を示す。 このフレームワークは、ALBERTを学生として、RoBERTaを教師として、さらにR-ALBERTと呼ばれる。 モデルは生産中であり、変化する傾向を理解し、適切な決定を下すためにビジネスによって使用されます。

In pickup and delivery services, transaction classification based on customer provided free text is a challenging problem. It involves the association of a wide variety of customer inputs to a fixed set of categories while adapting to the various customer writing styles. This categorization is important for the business: it helps understand the market needs and trends, and also assist in building a personalized experience for different segments of the customers. Hence, it is vital to capture these category information trends at scale, with high precision and recall. In this paper, we focus on a specific use-case where a single category drives each transaction. We propose a cost-effective transaction classification approach based on semi-supervision and knowledge distillation frameworks. The approach identifies the category of a transaction using free text input given by the customer. We use weak labelling and notice that the performance gains are similar to that of using human-annotated samples. On a large internal dataset and on 20Newsgroup dataset, we see that RoBERTa performs the best for the categorization tasks. Further, using an ALBERT model (it has 33x fewer parameters vis-a-vis parameters of RoBERTa), with RoBERTa as the Teacher, we see a performance similar to that of RoBERTa and better performance over unadapted ALBERT. This framework, with ALBERT as a student and RoBERTa as teacher, is further referred to as R-ALBERT in this paper. The model is in production and is used by business to understand changing trends and take appropriate decisions.
翻訳日:2021-02-17 16:50:45 公開日:2021-02-15
# (参考訳) DAC:Representation Learningの汎用ディープラーニングフレームワークであるDeep Autoencoderベースのクラスタリング [全文訳有]

DAC: Deep Autoencoder-based Clustering, a General Deep Learning Framework of Representation Learning ( http://arxiv.org/abs/2102.07472v1 )

ライセンス: CC BY 4.0
Si Lu and Ruisi Li(参考訳) クラスタリングは、市場調査、パターン認識、データ分析、画像処理など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。 しかし、入力特徴値の高い寸法性のために、クラスタリングアルゴリズムに供給されるデータは通常ノイズを含んでおり、不正確なクラスタリング結果につながる可能性があります。 従来の次元減少と特徴選択アルゴリズムはこの問題に対処するために用いられるが、これらのアルゴリズムで使用される単純なヒューリスティックなルールは特定の仮定に基づいている。 これらの仮定が成り立たない場合、これらのアルゴリズムは機能しないかもしれない。 本稿では,深層ニューロンネットワークを用いてクラスタリング表現を学習する汎用データ駆動フレームワーク,DAC,Deep Autoencoderベースのクラスタリングを提案する。 実験結果から,K-Meansクラスタリングアルゴリズムの性能を各種データセット上で効果的に向上させることができた。

Clustering performs an essential role in many real world applications, such as market research, pattern recognition, data analysis, and image processing. However, due to the high dimensionality of the input feature values, the data being fed to clustering algorithms usually contains noise and thus could lead to in-accurate clustering results. While traditional dimension reduction and feature selection algorithms could be used to address this problem, the simple heuristic rules used in those algorithms are based on some particular assumptions. When those assumptions does not hold, these algorithms then might not work. In this paper, we propose DAC, Deep Autoencoder-based Clustering, a generalized data-driven framework to learn clustering representations using deep neuron networks. Experiment results show that our approach could effectively boost performance of the K-Means clustering algorithm on a variety types of datasets.
翻訳日:2021-02-17 15:56:47 公開日:2021-02-15
# (参考訳) TIカプセル:株価予測のためのカプセルネットワーク [全文訳有]

TI-Capsule: Capsule Network for Stock Exchange Prediction ( http://arxiv.org/abs/2102.07718v1 )

ライセンス: CC BY 4.0
Ramin Mousa, Sara Nazari, Ali Karhe Abadi, Reza Shoukhcheshm, Mohammad Niknam Pirzadeh, Leila Safari(参考訳) 今日、ソーシャルネットワークデータの利用は、株式市場の予測に多くの学術的および商業的関心を惹きつけている。 この分野のほとんどの研究では、ソーシャルネットワーク上のユーザー投稿の内容の感情分析が市場の変動を予測するために使用されます。 関連する変数のため、株式マーケティングの予測は困難です。 短期的には市場は投票マシンのように振る舞うが、長期的には計量マシンのように振る舞う。 この研究の目的は、金融テキストとキャンドルスティック画像上のカプセルネットワークを使用してEUR / USD株式の行動を予測することです。 Capsule Networkの最も重要な特徴の1つは、ベクター内の機能の維持であり、機能間のスペースも考慮します。 提案モデルであるTI-Capsule (Text and Image information based Capsule Neural Network)は,テキスト情報と画像情報の両方を同時にトレーニングする。 収集したデータセットを用いた大規模な実験により、TI-Capsule が株価予測問題を91%の精度で解いた。

Today, the use of social networking data has attracted a lot of academic and commercial attention in predicting the stock market. In most studies in this area, the sentiment analysis of the content of user posts on social networks is used to predict market fluctuations. Predicting stock marketing is challenging because of the variables involved. In the short run, the market behaves like a voting machine, but in the long run, it acts like a weighing machine. The purpose of this study is to predict EUR/USD stock behavior using Capsule Network on finance texts and Candlestick images. One of the most important features of Capsule Network is the maintenance of features in a vector, which also takes into account the space between features. The proposed model, TI-Capsule (Text and Image information based Capsule Neural Network), is trained with both the text and image information simultaneously. Extensive experiments carried on the collected dataset have demonstrated the effectiveness of TI-Capsule in solving the stock exchange prediction problem with 91% accuracy.
翻訳日:2021-02-17 15:35:57 公開日:2021-02-15
# 確率自由推論のための後方支援正則化

Posterior-Aided Regularization for Likelihood-Free Inference ( http://arxiv.org/abs/2102.07770v1 )

ライセンス: Link先を確認
Dongjun Kim, Kyungwoo Song, Seungjae Shin, Wanmo Kang, Il-Chul Moon(参考訳) 確率自由推論の最近の発展は、シミュレーションから一連の入出力ペアを用いて、ターゲット後部に対するフレキシブルな密度推定器を訓練することを目的としている。 シミュレーション構造の多様性を考えると、シミュレーションモデルごとに単一の統一推論方法を見つけることは困難である。 本稿では, モデル構造に関わらず, 密度推定器の学習に適用可能な, PAR (Posterior-Aided Regularization) と呼ばれる一般化正規化手法を提案する。 特にPARは、シミュレーションの出力寸法が大きくなると発生するモード崩壊の問題を解決します。 PARは、1)モード探索特性との逆KL分岐、2)可能性に関する高品質の表現のための相互情報の混合により、この後方モードの退化を解決します。 PARの推定の難しさから,1つのニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一的推定法を提案する。 その後、理論上は正則化最適解の非正則化最適解への漸近収束を証明し、正則化等級は 0 に収束する。 さらに, PARと組み合わせた過去の逐次的ニューラルな確率推定が, 多様なシミュレーションタスクにおいて統計的に有意な利得を示すことを実証的に示す。

The recent development of likelihood-free inference aims training a flexible density estimator for the target posterior with a set of input-output pairs from simulation. Given the diversity of simulation structures, it is difficult to find a single unified inference method for each simulation model. This paper proposes a universally applicable regularization technique, called Posterior-Aided Regularization (PAR), which is applicable to learning the density estimator, regardless of the model structure. Particularly, PAR solves the mode collapse problem that arises as the output dimension of the simulation increases. PAR resolves this posterior mode degeneracy through a mixture of 1) the reverse KL divergence with the mode seeking property; and 2) the mutual information for the high quality representation on likelihood. Because of the estimation intractability of PAR, we provide a unified estimation method of PAR to estimate both reverse KL term and mutual information term with a single neural network. Afterwards, we theoretically prove the asymptotic convergence of the regularized optimal solution to the unregularized optimal solution as the regularization magnitude converges to zero. Additionally, we empirically show that past sequential neural likelihood inferences in conjunction with PAR present the statistically significant gains on diverse simulation tasks.
翻訳日:2021-02-17 15:23:15 公開日:2021-02-15
# Null Bootstrappingによる偽発見率の制御

Controlling False Discovery Rates Using Null Bootstrapping ( http://arxiv.org/abs/2102.07826v1 )

ライセンス: Link先を確認
Junpei Komiyama, Masaya Abe, Kei Nakagawa, Kenichiro McAlinn(参考訳) 未知の相関構造を有する多くの試験における誤検出率の制御を検討する。 多くの仮説を考えると、誤った発見や行方不明発見は分析を苦しめる可能性がある。 偽の発見を制御するための多くの手順が提案されているが、それらは独立した仮説を仮定するか、統計力を欠いている。 nullブートストラップを用いた偽検出制御の新しい手法を提案する。 相関するnullからブートストラップすることにより、既存の方法に対する優れた統計力を達成し、誤発見率が制御されることを証明します。 シミュレーション例では,既存手法に対する提案手法の有効性を示す。 我々は、提案した手法を金融資産価格に適用し、目的は、潜在的な多数の要因から過剰なリターンにつながる「要素」を決定することです。

We consider controlling the false discovery rate for many tests with unknown correlation structure. Given a large number of hypotheses, false and missing discoveries can plague an analysis. While many procedures have been proposed to control false discovery, they either assume independent hypotheses or lack statistical power. We propose a novel method for false discovery control using null bootstrapping. By bootstrapping from the correlated null, we achieve superior statistical power to existing methods and prove that the false discovery rate is controlled. Simulated examples illustrate the efficacy of our method over existing methods. We apply our proposed methodology to financial asset pricing, where the goal is to determine which "factors" lead to excess returns out of a large number of potential factors.
翻訳日:2021-02-17 15:22:54 公開日:2021-02-15
# 任意共変シフトによる効率的な学習

Efficient Learning with Arbitrary Covariate Shift ( http://arxiv.org/abs/2102.07802v1 )

ライセンス: Link先を確認
Adam Kalai, Varun Kanade(参考訳) 有界VC次元のクラスCのバイナリ関数を学習するための効率的なアルゴリズムを、Pに応じて分布するトレーニングデータと、Qに従って分布するテストデータとで、PとQはX上の任意の分布である。 これは、任意の P と Q が重複しなくてもよいので一般に不可能である共変シフトと呼ばれるものの一般的な形式である。 しかしながら、最近、PQラーニング(Goldwasser et al., 2020)と呼ばれるモデルでは、学習者が(a)Qからのラベル付きテスト例へのアクセス(Pからのラベル付きサンプルに加えて、半教師付き学習)、(b)任意の例を拒絶し、それを分類する(選択的分類)オプションが与えられた。 goldwasserらによるアルゴリズム。 本研究では,信頼性の高い学習(Kalai et al., 2012)が片面ノイズ学習のモデルであるCの「信頼できる」学習者に対して,オーラクルを用いた多項式時間PQ学習アルゴリズムを提供する。 さらに、信頼性とPQ学習の等価性を示すという意味で、当社の削減は最適です。

We give an efficient algorithm for learning a binary function in a given class C of bounded VC dimension, with training data distributed according to P and test data according to Q, where P and Q may be arbitrary distributions over X. This is the generic form of what is called covariate shift, which is impossible in general as arbitrary P and Q may not even overlap. However, recently guarantees were given in a model called PQ-learning (Goldwasser et al., 2020) where the learner has: (a) access to unlabeled test examples from Q (in addition to labeled samples from P, i.e., semi-supervised learning); and (b) the option to reject any example and abstain from classifying it (i.e., selective classification). The algorithm of Goldwasser et al. (2020) requires an (agnostic) noise tolerant learner for C. The present work gives a polynomial-time PQ-learning algorithm that uses an oracle to a "reliable" learner for C, where reliable learning (Kalai et al., 2012) is a model of learning with one-sided noise. Furthermore, our reduction is optimal in the sense that we show the equivalence of reliable and PQ learning.
翻訳日:2021-02-17 15:18:20 公開日:2021-02-15
# すべてを支配する1行:lo-shot soft-labelプロトタイプの生成

One Line To Rule Them All: Generating LO-Shot Soft-Label Prototypes ( http://arxiv.org/abs/2102.07834v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Nam-Hwui Kim, Ryan P. Browne, Matthias Schonlau(参考訳) ますます大きなデータセットが、機械学習の計算コストを急速に押し上げている。 プロトタイプ生成メソッドは、トレーニングデータセットを正確に表現するが、そこから学ぶ計算コストを大幅に削減する、小さな合成観測セットを作成することを目指している。 ソフトラベルをプロトタイプに割り当てることで、小さなプロトタイプセットが元のトレーニングデータセットを正確に表現できるようになります。 ショットラーニングの基礎的な研究は、クラスごとに1回未満の観察で学習の理論的可能性を証明するが、そのようなプロトタイプを生成するための実用的なアルゴリズムの開発は未知の領域のままである。 本論文では,データ内のクラス数よりもプロトタイプが少ない場合でも,表現精度を維持したソフトラベル原形線生成のモジュール化手法を提案する。 また,これらの原型線に基づく階層型ソフトラベルk-nearest近傍分類アルゴリズムを提案する。 本手法は,高度に不均衡で難しいデータを扱う場合でも,データセット表現に必要なプロトタイプ数を大幅に削減しながら,高い分類精度を維持していることを示す。 私たちのコードはhttps://github.com/i lia10000/SLkNNで入手できます。

Increasingly large datasets are rapidly driving up the computational costs of machine learning. Prototype generation methods aim to create a small set of synthetic observations that accurately represent a training dataset but greatly reduce the computational cost of learning from it. Assigning soft labels to prototypes can allow increasingly small sets of prototypes to accurately represent the original training dataset. Although foundational work on `less than one'-shot learning has proven the theoretical plausibility of learning with fewer than one observation per class, developing practical algorithms for generating such prototypes remains an unexplored territory. We propose a novel, modular method for generating soft-label prototypical lines that still maintains representational accuracy even when there are fewer prototypes than the number of classes in the data. In addition, we propose the Hierarchical Soft-Label Prototype k-Nearest Neighbor classification algorithm based on these prototypical lines. We show that our method maintains high classification accuracy while greatly reducing the number of prototypes required to represent a dataset, even when working with severely imbalanced and difficult data. Our code is available at https://github.com/i lia10000/SLkNN.
翻訳日:2021-02-17 15:17:54 公開日:2021-02-15
# 自己監督機能によるオープンワールド学習の改善

Self-Supervised Features Improve Open-World Learning ( http://arxiv.org/abs/2102.07848v1 )

ライセンス: Link先を確認
Akshay Raj Dhamija, Touqeer Ahmad, Jonathan Schwan, Mohsen Jafarzadeh, Chunchun Li, Terrance E. Boult(参考訳) 本論文は,オープンワールド学習の問題に対処しつつ,その基盤となる特徴表現を自己スーパービジョンを用いて学習することを提案する。 また,単発的学習,分散検出,オープンワールド学習の3つの個別研究次元を組み合わせた統一的なオープンワールドフレームワークを提案する。 オープンワールド設定において,教師付き特徴表現は限定的かつ退化的であり,教師なし特徴表現はこれらの3つの問題領域のそれぞれに固有のものである。 教師なし特徴表現では、システムトレーニングとシステムテストで使用されるデータに応じて、未知をラベル外空間または分散外検出として検出する問題を分類する。 パイプラインの漸進的な学習コンポーネントは、ImageNet-100プロトコルの最先端に対して相対的に動作し、基盤となるディープネットワークのバックプロパゲーションや再トレーニングは不要であるゼロのオンラインモデルである。 それは単に同等の例の同じ数を使用することによって現在の最先端の状態を更に上回ります。 オープンワールド学習に対する我々のアプローチを評価するため、我々は新しい包括的プロトコルを提案し、段階的な段階ごとにアウト・オブ・ラベルとアウト・オブ・ディストリビューションの両方でその性能を評価する。 また,最近提案された自己監督型特徴表現手法のいずれに対しても,プラグインとして機能することを示すことにより,アプローチの適応性を示す。

This is a position paper that addresses the problem of Open-World learning while proposing for the underlying feature representation to be learnt using self-supervision. We also present an unifying open-world framework combining three individual research dimensions which have been explored independently \ie Incremental Learning, Out-of-Distribution detection and Open-World learning. We observe that the supervised feature representations are limited and degenerate for the Open-World setting and unsupervised feature representation is native to each of these three problem domains. Under an unsupervised feature representation, we categorize the problem of detecting unknowns as either Out-of-Label-space or Out-of-Distribution detection, depending on the data used during system training versus system testing. The incremental learning component of our pipeline is a zero-exemplar online model which performs comparatively against state-of-the-art on ImageNet-100 protocol and does not require any back-propagation or retraining of the underlying deep-network. It further outperforms the current state-of-the-art by simply using the same number of exemplars as its counterparts. To evaluate our approach for Open-World learning, we propose a new comprehensive protocol and evaluate its performance in both Out-of-Label and Out-of-Distribution settings for each incremental stage. We also demonstrate the adaptability of our approach by showing how it can work as a plug-in with any of the recently proposed self-supervised feature representation methods.
翻訳日:2021-02-17 15:15:54 公開日:2021-02-15
# トポロジカルグラフニューラルネットワーク

Topological Graph Neural Networks ( http://arxiv.org/abs/2102.07835v1 )

ライセンス: Link先を確認
Max Horn, Edward De Brouwer, Michael Moor, Yves Moreau, Bastian Rieck, Karsten Borgwardt(参考訳) グラフニューラルネットワーク(gnns)は、グラフ学習タスクに取り組むための強力なアーキテクチャであるが、サイクルのようなエミナントなサブ構造に従わないことが示されている。 永続ホモロジーを用いたグラフのグローバルトポロジ情報を取り入れた新しい層であるTOGLを提案する。 TOGL は任意の種類の GNN に容易に統合でき、Weisfeiler-Lehman test of isomorphism の観点からは厳密に表現できる。 我々の層でGNNを増強すると、人工的なデータセットにおいて、人間によって自明に分類されるが、通常のGNNでは分類されず、実世界のデータでは有益な予測性能が得られる。

Graph neural networks (GNNs) are a powerful architecture for tackling graph learning tasks, yet have been shown to be oblivious to eminent substructures, such as cycles. We present TOGL, a novel layer that incorporates global topological information of a graph using persistent homology. TOGL can be easily integrated into any type of GNN and is strictly more expressive in terms of the Weisfeiler--Lehman test of isomorphism. Augmenting GNNs with our layer leads to beneficial predictive performance, both on synthetic data sets, which can be trivially classified by humans but not by ordinary GNNs, and on real-world data.
翻訳日:2021-02-17 15:11:55 公開日:2021-02-15
# 過信のための過度パラメータ化を損なわない:二元分類におけるキャリブレーションの理論的解析

Don't Just Blame Over-parametrization for Over-confidence: Theoretical Analysis of Calibration in Binary Classification ( http://arxiv.org/abs/2102.07856v1 )

ライセンス: Link先を確認
Yu Bai, Song Mei, Huan Wang, Caiming Xiong(参考訳) 精度の高い現代の機械学習モデルは、しばしば誤解される - 予測された最高確率は実際の正確性を反映しておらず、自信過剰である傾向がある。 このような過度な自信は、主に過度なパラメトリゼーションによるものと考えられており、特にトレーニングデータを記憶し、信頼性を最大化するのに十分な大きさのモデルがある場合である。 本稿では,過度パラメトリゼーションが過度信頼の唯一の理由ではないことを理論的に示す。 我々はロジスティック回帰が本質的に過信であり、ロジスティックモデルからデータが生成され、サンプルサイズがパラメータの数よりもはるかに大きい、実現可能で過度にパラメータ化された設定であることを示す。 さらに、この過信は、活性化が対称で正の部分に凹い限り、一般に明確に定義された二項分類問題に対して起こる。 おそらく驚くべきことに、過信は必ずしもそうではないことも示しています。学習した分類器が何らかの確率値で信頼できない別の活性化関数(および適切な損失関数)が存在するのです。 私たちの理論は、シミュレーションと実データ実験で検証する、実現可能なバイナリ分類におけるキャリブレーションの正確な評価を提供します。

Modern machine learning models with high accuracy are often miscalibrated -- the predicted top probability does not reflect the actual accuracy, and tends to be over-confident. It is commonly believed that such over-confidence is mainly due to over-parametrization , in particular when the model is large enough to memorize the training data and maximize the confidence. In this paper, we show theoretically that over-parametrization is not the only reason for over-confidence. We prove that logistic regression is inherently over-confident, in the realizable, under-parametrized setting where the data is generated from the logistic model, and the sample size is much larger than the number of parameters. Further, this over-confidence happens for general well-specified binary classification problems as long as the activation is symmetric and concave on the positive part. Perhaps surprisingly, we also show that over-confidence is not always the case -- there exists another activation function (and a suitable loss function) under which the learned classifier is under-confident at some probability values. Overall, our theory provides a precise characterization of calibration in realizable binary classification, which we verify on simulations and real data experiments.
翻訳日:2021-02-17 15:11:43 公開日:2021-02-15
# 新型コロナウイルスが言語をどう変えるか : Twitterの単語埋め込みにおける意味的変化の検出

How COVID-19 Is Changing Our Language : Detecting Semantic Shift in Twitter Word Embeddings ( http://arxiv.org/abs/2102.07836v1 )

ライセンス: Link先を確認
Yanzhu Guo, Christos Xypolopoulos and Michalis Vazirgiannis(参考訳) 単語は、テキストに反映されるイベントに影響される可搬オブジェクトです。 新型コロナウイルス(COVID-19)の世界的な流行にある私たちの研究は、健康危機によって引き起こされるソーシャルメディア言語のセマンティックシフトを検出することを目指しています。 新型コロナウイルス関連ビッグデータをTwitterから抽出し、流行後、異なる期間に別々の単語埋め込みモデルをトレーニングします。 これらの埋め込みを、COVID-19とは無関係な汎用的なTwitter埋め込みと比較するために、アライメントベースのアプローチを採用しています。 また、トレーニング済みの埋め込みをダイアクロニックな進化を観察するために比較します。 トピック検出によって選択された単語群についてケーススタディを実施し,アライメントアプローチが有効であることを検証した。 最後に, 前後回転アライメントに基づく安定性尺度を用いて, グローバルセマンティクスシフトの大きさを定量化する。

Words are malleable objects, influenced by events that are reflected in written texts. Situated in the global outbreak of COVID-19, our research aims at detecting semantic shifts in social media language triggered by the health crisis. With COVID-19 related big data extracted from Twitter, we train separate word embedding models for different time periods after the outbreak. We employ an alignment-based approach to compare these embeddings with a general-purpose Twitter embedding unrelated to COVID-19. We also compare our trained embeddings among them to observe diachronic evolution. Carrying out case studies on a set of words chosen by topic detection, we verify that our alignment approach is valid. Finally, we quantify the size of global semantic shift by a stability measure based on back-and-forth rotational alignment.
翻訳日:2021-02-17 15:07:54 公開日:2021-02-15
# Ada-SISE:畳み込みニューラルネットワークの効率的な説明のための適応意味入力サンプリング

Ada-SISE: Adaptive Semantic Input Sampling for Efficient Explanation of Convolutional Neural Networks ( http://arxiv.org/abs/2102.07799v1 )

ライセンス: Link先を確認
Mahesh Sudhakar, Sam Sattarzadeh, Konstantinos N. Plataniotis, Jongseong Jang, Yeonjeong Jeong, Hyunwoo Kim(参考訳) 説明可能なAI(XAI)は、タスク特定学習モデルに対する透明性と信頼性を確保し、ニューラルネットワークの決定を解釈する積極的な研究領域です。 最近、摂動に基づくモデル解析はより良い解釈を示しているが、その計算効率のためにバックプロパゲーション技術がまだ普及している。 本研究では,両手法をハイブリッド視覚説明アルゴリズムとして組み合わせ,畳み込みニューラルネットワークの効率的な解釈法を提案する。 本手法は,アクティベートされた特徴を探索する予測に主に寄与する最も重要な特徴を適応的に選択する。 実験の結果,提案手法は,説明の質を損なうことなく,競争性を高めつつ,実行時間を最大30%削減できることがわかった。

Explainable AI (XAI) is an active research area to interpret a neural network's decision by ensuring transparency and trust in the task-specified learned models. Recently, perturbation-based model analysis has shown better interpretation, but backpropagation techniques are still prevailing because of their computational efficiency. In this work, we combine both approaches as a hybrid visual explanation algorithm and propose an efficient interpretation method for convolutional neural networks. Our method adaptively selects the most critical features that mainly contribute towards a prediction to probe the model by finding the activated features. Experimental results show that the proposed method can reduce the execution time up to 30% while enhancing competitive interpretability without compromising the quality of explanation generated.
翻訳日:2021-02-17 15:05:45 公開日:2021-02-15
# integrated grad-cam:integrated gradient-based scoringによる深層畳み込みネットワークの感度認識ビジュアル説明

Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep Convolutional Networks via Integrated Gradient-Based Scoring ( http://arxiv.org/abs/2102.07805v1 )

ライセンス: Link先を確認
Sam Sattarzadeh, Mahesh Sudhakar, Konstantinos N. Plataniotis, Jongseong Jang, Yeonjeong Jeong, Hyunwoo Kim(参考訳) 畳み込みニューラルネットワーク(cnns)が捉えた特徴の可視化は、これらのモデルによる予測を多くの画像認識アプリケーションで解釈するための従来の手法の一つである。 Grad-CAMは、モデルから得られたアクティベーションマップを組み合わせて視覚化する一般的なソリューションである。 しかし、この方法で展開された平均勾配ベースの用語は、モデルが予測に発見した表現の貢献を過小評価します。 そこで、グラッドCAMのグラデーションに基づく項の経路積分を計算することで、この問題に取り組むソリューションを紹介します。 提案手法は,cnnの予測における抽出表現の重要性を計測し,対象の局所化とモデル解釈における手法の管理に寄与することを示すため,詳細な分析を行った。

Visualizing the features captured by Convolutional Neural Networks (CNNs) is one of the conventional approaches to interpret the predictions made by these models in numerous image recognition applications. Grad-CAM is a popular solution that provides such a visualization by combining the activation maps obtained from the model. However, the average gradient-based terms deployed in this method underestimates the contribution of the representations discovered by the model to its predictions. Addressing this problem, we introduce a solution to tackle this issue by computing the path integral of the gradient-based terms in Grad-CAM. We conduct a thorough analysis to demonstrate the improvement achieved by our method in measuring the importance of the extracted representations for the CNN's predictions, which yields to our method's administration in object localization and model interpretation.
翻訳日:2021-02-17 15:05:32 公開日:2021-02-15
# VA-RED$^2$:ビデオ適応冗長化

VA-RED$^2$: Video Adaptive Redundancy Reduction ( http://arxiv.org/abs/2102.07887v1 )

ライセンス: Link先を確認
Bowen Pan, Rameswar Panda, Camilo Fosco, Chung-Ching Lin, Alex Andonian, Yue Meng, Kate Saenko, Aude Oliva, Rogerio Feris(参考訳) ビデオの深層学習モデルに対する推論は、ロバストな認識を実現するのに必要な大量の計算資源のため、依然として課題である。 実世界のビデオの固有の特性は、フレーム間の情報の高い相関であり、モデルの時間的または空間的特徴マップの冗長性に変換できる。 静的ビデオは時間的冗長度が高いのに対して、オブジェクトに焦点を当てたビデオはチャネルの冗長度が高い傾向があります。 ここでは,入力に依存した冗長性低減フレームワークva-red$^2$を提案する。 具体的には、VA-RED$^2$フレームワークは、入力依存ポリシーを使用して、時間的およびチャネル寸法で計算される機能の数を決定します。 元のモデルのキャパシティを維持するため、必要な機能をフルに計算した後、安価な線形演算を用いて残余の機能を再構築する。 我々は,ネットワーク重みと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習し,高効率化を図る。 複数のビデオデータセットと異なる視覚的タスクに関する広範な実験は、パフォーマンスの損失のない最先端の方法と比較して、私たちのフレームワークが計算(FLOP)の$ 20\% - 40\%$削減を達成することを示しています。 プロジェクトページ: http://people.csail. mit.edu/bpan/va-red/

Performing inference on deep learning models for videos remains a challenge due to the large amount of computational resources required to achieve robust recognition. An inherent property of real-world videos is the high correlation of information across frames which can translate into redundancy in either temporal or spatial feature maps of the models, or both. The type of redundant features depends on the dynamics and type of events in the video: static videos have more temporal redundancy while videos focusing on objects tend to have more channel redundancy. Here we present a redundancy reduction framework, termed VA-RED$^2$, which is input-dependent. Specifically, our VA-RED$^2$ framework uses an input-dependent policy to decide how many features need to be computed for temporal and channel dimensions. To keep the capacity of the original model, after fully computing the necessary features, we reconstruct the remaining redundant features from those using cheap linear operations. We learn the adaptive policy jointly with the network weights in a differentiable way with a shared-weight mechanism, making it highly efficient. Extensive experiments on multiple video datasets and different visual tasks show that our framework achieves $20\% - 40\%$ reduction in computation (FLOPs) when compared to state-of-the-art methods without any performance loss. Project page: http://people.csail. mit.edu/bpan/va-red/ .
翻訳日:2021-02-17 15:05:17 公開日:2021-02-15
# 「私の見るところ、これは理にかなっている」:アルゴリズム結果の意味を見る

"From What I see, this makes sense": Seeing meaning in algorithmic results ( http://arxiv.org/abs/2102.07844v1 )

ライセンス: Link先を確認
Samir Passi(参考訳) 本稿では,現在進行中のフィールドワークから得られた経験的例を用いて,アルゴリズム的結果を理解する過程の複雑さと位置性を示す。 アルゴリズムのアウトプットの評価、検証、コンテキスト化の方法です これまでの研究では,教室や研修ワークショップなどのデータ分析学習環境において,このような感覚形成プロセスに焦点をあててきた。 フィールドワークにおける複数のモーメントは、データ分析において意味は、データ、コード、仮定、事前知識、アルゴリズムの結果の間の反復的で反射的な対話によって構築されることを示唆している。 データ分析の結果は、社会技術的な成果に留まらず、データ分析作業の「人間」と「技術」の形式を明確に区別することは、時には不可能であっても非常に困難です。 本論文は,本ワークショップでさらに検討したい質問のセットで締めくくったものである。

In this workshop paper, we use an empirical example from our ongoing fieldwork, to showcase the complexity and situatedness of the process of making sense of algorithmic results; i.e. how to evaluate, validate, and contextualize algorithmic outputs. So far, in our research work, we have focused on such sense-making processes in data analytic learning environments such as classrooms and training workshops. Multiple moments in our fieldwork suggest that meaning, in data analytics, is constructed through an iterative and reflexive dialogue between data, code, assumptions, prior knowledge, and algorithmic results. A data analytic result is nothing short of a sociotechnical accomplishment - one in which it is extremely difficult, if not at times impossible, to clearly distinguish between 'human' and 'technical' forms of data analytic work. We conclude this paper with a set of questions that we would like to explore further in this workshop.
翻訳日:2021-02-17 15:03:06 公開日:2021-02-15
# リアルタイム繰り返し学習によるオンラインハイパーパラメータ最適化

Online hyperparameter optimization by real-time recurrent learning ( http://arxiv.org/abs/2102.07813v1 )

ライセンス: Link先を確認
Daniel Jiwoong Im, Cristina Savin, Kyunghyun Cho(参考訳) 従来のハイパーパラメータ最適化手法は計算集約的で、生涯学習などハイパーパラメータの動的適応を必要とするシナリオに一般化するのは難しい。 本稿では,理論上も実用上も漸近的に正確に計算可能であるオンラインハイパーパラメータ最適化アルゴリズムを提案する。 recurrent neural network (rnns) におけるハイパーパラメータ最適化とパラメータ学習の類似性を利用した。 RNNのオンライン学習アルゴリズムは、反復最適化を繰り返し展開することなく、ハイパーパラメータとネットワークパラメータを同時にチューニングする。 この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。

Conventional hyperparameter optimization methods are computationally intensive and hard to generalize to scenarios that require dynamically adapting hyperparameters, such as life-long learning. Here, we propose an online hyperparameter optimization algorithm that is asymptotically exact and computationally tractable, both theoretically and practically. Our framework takes advantage of the analogy between hyperparameter optimization and parameter learning in recurrent neural networks (RNNs). It adapts a well-studied family of online learning algorithms for RNNs to tune hyperparameters and network parameters simultaneously, without repeatedly rolling out iterative optimization. This procedure yields systematically better generalization performance compared to standard methods, at a fraction of wallclock time.
翻訳日:2021-02-17 15:02:09 公開日:2021-02-15
# LSTMにおけるプログラマブル変換に対する認証ロバスト性

Certified Robustness to Programmable Transformations in LSTMs ( http://arxiv.org/abs/2102.07818v1 )

ライセンス: Link先を確認
Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni(参考訳) 自然言語処理のための深いニューラルネットワークは、逆の例に直面して脆弱である - シノニム置換や単語重複などの小さな入力摂動は、ニューラルネットワークがその予測を変更する原因となる。 本稿では,LSTM(およびLSTMの拡張)の堅牢性を検証し,効率よく検証可能なトレーニングモデルを提案する。 本手法は,文字列変換の言語でプログラム的に定義される大きな摂動空間に対するロバスト性を証明することができる。 提案手法の重要な洞察は、再帰的LSTM構造を利用した抽象解釈の応用であり、インプットのシンボリックな集合を漸進的に伝播させ、大きな摂動空間をコンパクトに表現する。 本研究では,(1)既存の手法と比べ,文字列変換の組み合わせに強靭なモデルを訓練できること,(2)得られたモデルを高い認証精度で評価できること,を評価した。

Deep neural networks for natural language processing are fragile in the face of adversarial examples--small input perturbations, like synonym substitution or word duplication, which cause a neural network to change its prediction. We present an approach to certifying the robustness of LSTMs (and extensions of LSTMs) and training models that can be efficiently certified. Our approach can certify robustness to intractably large perturbation spaces defined programmatically in a language of string transformations. The key insight of our approach is an application of abstract interpretation that exploits recursive LSTM structure to incrementally propagate symbolic sets of inputs, compactly representing a large perturbation space. Our evaluation shows that (1) our approach can train models that are more robust to combinations of string transformations than those produced using existing techniques; (2) our approach can show high certification accuracy of the resulting models.
翻訳日:2021-02-17 15:01:57 公開日:2021-02-15
# 逆行訓練における低曲率アクティベーションによる過剰フィットの軽減

Low Curvature Activations Reduce Overfitting in Adversarial Training ( http://arxiv.org/abs/2102.07861v1 )

ライセンス: Link先を確認
Vasu Singla, Sahil Singla, David Jacobs, Soheil Feizi(参考訳) 敵の訓練は敵の攻撃に対する最も効果的な防御の1つです。 従来の研究は、オーバーフィッティングが、ニューラルネットワークにおけるテストとトレーニングの精度の間に大きな一般化ギャップをもたらす敵の訓練において、支配的な現象であることを示している。 本研究では,観測された一般化ギャップが活性化関数の選択と密接に関連していることを示す。 特に,(実か近似か)低い曲率値を持つ活性化関数を用いることで,標準とロバストの両方の一般化ギャップを著しく減少させる正則化効果を示す。 swishのような微分可能/スムートアクティベーションと、 leakyreluのような非微分可能/非スムートアクティベーションの両方に対するこの効果を観察した。 後者の場合、活性化の近似曲率が低い。 最後に,低曲率のアクティベーション関数に対しては,逆行訓練モデルに対する二重降下現象は発生しないことを示した。

Adversarial training is one of the most effective defenses against adversarial attacks. Previous works suggest that overfitting is a dominant phenomenon in adversarial training leading to a large generalization gap between test and train accuracy in neural networks. In this work, we show that the observed generalization gap is closely related to the choice of the activation function. In particular, we show that using activation functions with low (exact or approximate) curvature values has a regularization effect that significantly reduces both the standard and robust generalization gaps in adversarial training. We observe this effect for both differentiable/smoot h activations such as Swish as well as non-differentiable/n on-smooth activations such as LeakyReLU. In the latter case, the approximate curvature of the activation is low. Finally, we show that for activation functions with low curvature, the double descent phenomenon for adversarially trained models does not occur.
翻訳日:2021-02-17 15:01:43 公開日:2021-02-15
# 不均衡最適輸送による分散制約政策最適化

Distributionally-Con strained Policy Optimization via Unbalanced Optimal Transport ( http://arxiv.org/abs/2102.07889v1 )

ライセンス: Link先を確認
Arash Givchi, Pei Wang, Junqi Wang, Patrick Shafto(参考訳) 我々は、強化学習における制約されたポリシーの最適化を検討する。そこでは、制約は状態訪問とグローバルな行動実行の限界の形態である。 これらの分布を仮定し、占有測度の空間上の不均衡最適輸送として政策最適化を定式化する。 Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。 このアプローチは、状態またはアクション空間が大きい場合のアクタークリティカルアルゴリズムを認め、限界からのサンプルのみが利用可能である。 提案手法の応用を議論し,提案アルゴリズムの有効性を示す実演を行う。

We consider constrained policy optimization in Reinforcement Learning, where the constraints are in form of marginals on state visitations and global action executions. Given these distributions, we formulate policy optimization as unbalanced optimal transport over the space of occupancy measures. We propose a general purpose RL objective based on Bregman divergence and optimize it using Dykstra's algorithm. The approach admits an actor-critic algorithm for when the state or action space is large, and only samples from the marginals are available. We discuss applications of our approach and provide demonstrations to show the effectiveness of our algorithm.
翻訳日:2021-02-17 15:01:28 公開日:2021-02-15
# 説明可能な人工知能(XAI)から何が欲しいですか? --XAIの利害関係者と学際的XAI研究を指導する概念モデル

What Do We Want From Explainable Artificial Intelligence (XAI)? -- A Stakeholder Perspective on XAI and a Conceptual Model Guiding Interdisciplinary XAI Research ( http://arxiv.org/abs/2102.07817v1 )

ライセンス: Link先を確認
Markus Langer, Daniel Oster, Timo Speith, Holger Hermanns, Lena K\"astner, Eva Schmidt, Andreas Sesing, Kevin Baum(参考訳) 説明可能な人工知能(XAI)の以前の研究は、説明可能性アプローチの主な目的は、さまざまな文脈において人工システムに関する特定の関心、目標、期待、ニーズ、要求を満たすことであることを示唆している。 しかし、XAIに関する文献は広く、主に不連結な複数の分野に広がっており、ステークホルダーのデシデラタを満たすという目標を達成するための説明可能性のアプローチがどうあるべきかは定かではない。 本稿では,人工システムの説明可能性を求める利害関係者の主要なクラスについて論じ,デシダータをレビューする。 ステークホルダーのデシデラタを満足することを目的とした説明可能性アプローチの評価、調整、選択、開発において、考慮し、調査するために必要な主な概念と関係を明示的に記述するモデルを提供する。 このモデルは、XAIにまつわる様々な分野の研究者に共通基盤として役立てることができる。 それは、評価と説明可能性のアプローチの開発に学際的な可能性があるところを強調します。

Previous research in Explainable Artificial Intelligence (XAI) suggests that a main aim of explainability approaches is to satisfy specific interests, goals, expectations, needs, and demands regarding artificial systems (we call these stakeholders' desiderata) in a variety of contexts. However, the literature on XAI is vast, spreads out across multiple largely disconnected disciplines, and it often remains unclear how explainability approaches are supposed to achieve the goal of satisfying stakeholders' desiderata. This paper discusses the main classes of stakeholders calling for explainability of artificial systems and reviews their desiderata. We provide a model that explicitly spells out the main concepts and relations necessary to consider and investigate when evaluating, adjusting, choosing, and developing explainability approaches that aim to satisfy stakeholders' desiderata. This model can serve researchers from the variety of different disciplines involved in XAI as a common ground. It emphasizes where there is interdisciplinary potential in the evaluation and the development of explainability approaches.
翻訳日:2021-02-17 14:58:53 公開日:2021-02-15
# KnowledgeCheckR: 偽造防止のためのインテリジェントな技術

KnowledgeCheckR: Intelligent Techniques for Counteracting Forgetting ( http://arxiv.org/abs/2102.07825v1 )

ライセンス: Link先を確認
Martin Stettinger and Trang Tran and Ingo Pribik and Gerhard Leitner and Alexander Felfernig and Ralph Samer and Muesluem Atas and Manfred Wundara(参考訳) 既存のeラーニング環境は主に直感的な学習コンテンツを提供し、パーソナライズされた方法で学習ユニットを推薦する側面に焦点を当てている。 KnowledgeCheckR環境の主な焦点は、学習ユニットが完成した直後に開始されるプロセスを忘れることを考慮することです。 この文脈では、将来の学習セッションでどの学習ユニットが最も関連性の高いものかを予測できる技術が必要である。 本稿では,KnowledgeCheckRに組み込まれたレコメンデーションアプローチの概要について述べる。 その例としては,将来的に繰り返される学習内容の識別を支援するユーティリティベースのレコメンデーション,セッションベースのレコメンデーションを実装するための協調フィルタリングアプローチ,インテリジェントな質問応答を支援するコンテントベースのレコメンデーションなどがある。 提示された手法の適用可能性を示すために、実世界のシナリオで実施された実証的研究の結果の概要を示す。

Existing e-learning environments primarily focus on the aspect of providing intuitive learning contents and to recommend learning units in a personalized fashion. The major focus of the KnowledgeCheckR environment is to take into account forgetting processes which immediately start after a learning unit has been completed. In this context, techniques are needed that are able to predict which learning units are the most relevant ones to be repeated in future learning sessions. In this paper, we provide an overview of the recommendation approaches integrated in KnowledgeCheckR. Examples thereof are utility-based recommendation that helps to identify learning contents to be repeated in the future, collaborative filtering approaches that help to implement session-based recommendation, and content-based recommendation that supports intelligent question answering. In order to show the applicability of the presented techniques, we provide an overview of the results of empirical studies that have been conducted in real-world scenarios.
翻訳日:2021-02-17 14:58:32 公開日:2021-02-15
# Descemet膜内皮形成術後のAS-OCTによる角膜パキメトリー

Corneal Pachymetry by AS-OCT after Descemet's Membrane Endothelial Keratoplasty ( http://arxiv.org/abs/2102.07846v1 )

ライセンス: Link先を確認
Friso G. Heslinga, Ruben T. Lucassen, Myrthe A. van den Berg, Luuk van der Hoek, Josien P.W. Pluim, Javier Cabrerizo, Mark Alberti, Mitko Veta(参考訳) 角膜厚 (pachymetry) マップは、例えばデスセメット膜内皮角膜移植(DMEK)後の角膜内皮機能の回復を監視するために用いられる。 前部セグメント光コヒーレンス断層撮影(as-oct)における角膜界面の自動デライン化は、病理学による不規則な形状の角膜や手術の結果、不正確な厚み測定につながる可能性がある。 本研究では,ポストdmek as-oct b-scans において,角膜界面の自動同定と角膜厚測定に深層学習が用いられている。 68例のBスキャン960例に基づいて3つの異なる深層学習戦略を開発した。 320bスキャンの独立したテストセットでは、中央9mmの範囲で13.98マイクロメートルから15.50マイクロメートルの誤差で角膜厚の測定が可能であり、平均角膜厚の3%未満である。 正確な厚み測定は詳細なパキメトリーマップの作成に用いられた。 さらに、解剖学的ランドマークに基づいてフォローアップスキャンを登録し、差分pachymetryマップを得ることができます。 これらの地図は、角膜の異なる領域で厚さが頻繁に変化するDMEK後の内皮機能の回復をより包括的に理解することができ、その後、標準化された術後体制に寄与する可能性がある。

Corneal thickness (pachymetry) maps can be used to monitor restoration of corneal endothelial function, for example after Descemet's membrane endothelial keratoplasty (DMEK). Automated delineation of the corneal interfaces in anterior segment optical coherence tomography (AS-OCT) can be challenging for corneas that are irregularly shaped due to pathology, or as a consequence of surgery, leading to incorrect thickness measurements. In this research, deep learning is used to automatically delineate the corneal interfaces and measure corneal thickness with high accuracy in post-DMEK AS-OCT B-scans. Three different deep learning strategies were developed based on 960 B-scans from 68 patients. On an independent test set of 320 B-scans, corneal thickness could be measured with an error of 13.98 to 15.50 micrometer for the central 9 mm range, which is less than 3% of the average corneal thickness. The accurate thickness measurements were used to construct detailed pachymetry maps. Moreover, follow-up scans could be registered based on anatomical landmarks to obtain differential pachymetry maps. These maps may enable a more comprehensive understanding of the restoration of the endothelial function after DMEK, where thickness often varies throughout different regions of the cornea, and subsequently contribute to a standardized postoperative regime.
翻訳日:2021-02-17 14:58:17 公開日:2021-02-15
# psa-net : 術後前立腺癌の臨床ターゲットボリュームのための深層学習型医師スタイル・アウェアセグメンテーションネットワーク

PSA-Net: Deep Learning based Physician Style-Aware Segmentation Network for Post-Operative Prostate Cancer Clinical Target Volume ( http://arxiv.org/abs/2102.07880v1 )

ライセンス: Link先を確認
Anjali Balagopal, Howard Morgan, Michael Dohopoloski, Ramsey Timmerman, Jie Shan, Daniel F. Heitjan, Wei Liu, Dan Nguyen, Raquibul Hannan, Aurelie Garant, Neil Desai, Steve Jiang(参考訳) dlアルゴリズムによる医用画像の自動分割は非常に成功している。 これらのアルゴリズムの多くでは、サーバ間の変動は認識される問題であり、準最適結果をもたらす。 この問題は、画像にマクロ視的視覚腫瘍が存在しないため、術後臨床標的量(術後CTV)セグメンテーションにおいてさらに重要である。 本研究は,CTV後のセグメンテーションをテストベッドとして用い,医師スタイルの整合性と学習性,医師スタイルが治療成績と毒性に与える影響,DLアルゴリズムの医師スタイルを明示的に扱う方法,臨床的受容を促進する方法について検討する。 分類器は、医師のスタイルが一貫性があり、学習可能であるかどうかを判断するために、輪郭と対応するCTスキャンからCTVを輪郭化した医師を特定するように訓練されます。 次に, 結果の差異の欠如により, 医師のスタイルに自動的セグメンテーションを適用することが臨床的に実現可能かどうかを評価する。 ctvセグメンテーションの異なる医師スタイルをモデル化するために、知覚損失を訓練したエンコーダマルチデコーダネットワークであるdoctor style-aware(psa)セグメンテーションという概念が提案されている。 提案されたドクタースタイル認識ネットワーク(PSA-Net)では、Diceの類似度係数(DSC)の精度は、スタイルに適合していない一般的なモデルからすべてのドクターの平均3.4%増加します。 本研究では,同じセグメンテーションガイドラインに従った制度間での様式的輪郭変動も存在し,提案手法が新たな制度スタイルに適応する効果を示す。 別施設のスタイルに適応した場合,DSCでは5%の精度向上が観察された。

Automatic segmentation of medical images with DL algorithms has proven to be highly successful. With most of these algorithms, inter-observer variation is an acknowledged problem, leading to sub-optimal results. This problem is even more significant in post-operative clinical target volume (post-op CTV) segmentation due to the absence of macroscopic visual tumor in the image. This study, using post-op CTV segmentation as the test bed, tries to determine if physician styles are consistent and learnable, if there is an impact of physician styles on treatment outcome and toxicity; and how to explicitly deal with physician styles in DL algorithms to facilitate its clinical acceptance. A classifier is trained to identify which physician has contoured the CTV from just the contour and corresponding CT scan, to determine if physician styles are consistent and learnable. Next, we evaluate if adapting automatic segmentation to physician styles would be clinically feasible based on a lack of difference between outcomes. For modeling different physician styles of CTV segmentation, a concept called physician style-aware (PSA) segmentation is proposed which is an encoder-multidecoder network trained with perceptual loss. With the proposed physician style-aware network (PSA-Net), Dice similarity coefficient (DSC) accuracy increases on an average of 3.4% for all physicians from a general model that is not style adapted. We show that stylistic contouring variations also exist between institutions that follow the same segmentation guidelines and show the effectiveness of the proposed method in adapting to new institutional styles. We observed an accuracy improvement of 5% in terms of DSC when adapting to the style of a separate institution.
翻訳日:2021-02-17 14:55:18 公開日:2021-02-15
# 配電網におけるグリッドエッジ資源の時空間観測性の向上

Enhancing the Spatio-temporal Observability of Grid-Edge Resources in Distribution Grids ( http://arxiv.org/abs/2102.07801v1 )

ライセンス: Link先を確認
Shanny Lin and Hao Zhu(参考訳) 分散エネルギー資源(DER)の時空間観測可能性を高めることは,配電網の安全かつ効率的な運用を実現する上で重要である。 本稿では, 異種の測定値の補足強度を活用し, 集合的な住宅負荷回復枠組みについて述べる。 提案手法は,各負荷ノードに対して収集した低分解能スマートメータデータを,限られた数のファサー測定ユニットによって提供される高速サンプリングフィードレベル測定と統合する。 データ不足に対処するために,電気機器や電気自動車(evs)の頻度の低さと太陽光発電(pv)発生の場所依存性という,負荷とdersに対する2つの重要な特徴を生かした。 したがって、凸荷重回復問題を解くために有意義な正規化項を導入し、計算複雑性を低減するためにさらに単純化する。 負荷回復ソリューションは、各負荷ノードにおけるev充電イベントを識別し、総後方pv出力を推定するために使用することができる。 実世界のデータを用いた数値実験により,これらのグリッドエッジDERの視認性を高めるための提案手法の有効性が示された。

Enhancing the spatio-temporal observability of distributed energy resources (DERs) is crucial for achieving secure and efficient operations in distribution grids. This paper puts forth a joint recovery framework for residential loads by leveraging the complimentary strengths of heterogeneous types of measurements. The proposed approaches integrate the low-resolution smart meter data collected for every load node with the fast-sampled feeder-level measurements provided by limited number of phasor measurement units. To address the lack of data, we exploit two key characteristics for the loads and DERs, namely the sparse changes due to infrequent activities of appliances and electric vehicles (EVs) and the locational dependence of solar photovoltaic (PV) generation. Accordingly, meaningful regularization terms are introduced to cast a convex load recovery problem, which will be further simplified to reduce computational complexity. The load recovery solutions can be utilized to identify the EV charging events at each load node and to infer the total behind-the-meter PV output. Numerical tests using real-world data have demonstrated the effectiveness of the proposed approaches in enhancing the visibility of these grid-edge DERs.
翻訳日:2021-02-17 14:53:05 公開日:2021-02-15
# ReLU安定度によるニューラルネットワーク圧縮のスケールアップ

Scaling Up Exact Neural Network Compression by ReLU Stability ( http://arxiv.org/abs/2102.07804v1 )

ライセンス: Link先を確認
Thiago Serra, Abhinav Kumar, Srikumar Ramalingam(参考訳) ニューロンの一部が安定している場合、ある入力領域に関してその基礎機能を正確に保持しながら、ニューラルネットワークを圧縮することができる。 しかし、整流線形単位(relu)活性化を持つネットワークにおけるニューロンの安定性を決定する現在のアプローチでは、複数の離散最適化問題に対するよい近似を求める必要がある。 本研究では,全ての安定ニューロンを同定する単一最適化問題に基づくアルゴリズムを提案する。 私たちのアプローチは最先端の方法の21倍の速度で、より深い(5 x 100)ネットワークとより広い(2 x 800)ネットワークの正確な圧縮を数分で探索できます。 精度を悪くしないL1正規化の量で訓練された分類器では、最大40%の接続を除去できる。

We can compress a neural network while exactly preserving its underlying functionality with respect to a given input domain if some of its neurons are stable. However, current approaches to determine the stability of neurons in networks with Rectified Linear Unit (ReLU) activations require solving or finding a good approximation to multiple discrete optimization problems. In this work, we introduce an algorithm based on solving a single optimization problem to identify all stable neurons. Our approach is on median 21 times faster than the state-of-art method, which allows us to explore exact compression on deeper (5 x 100) and wider (2 x 800) networks within minutes. For classifiers trained under an amount of L1 regularization that does not worsen accuracy, we can remove up to 40% of the connections.
翻訳日:2021-02-17 14:52:46 公開日:2021-02-15
# シーケンスニューラルモデル理解のためのクープマンアプローチ

A Koopman Approach to Understanding Sequence Neural Models ( http://arxiv.org/abs/2102.07824v1 )

ライセンス: Link先を確認
Ilan Naiman and Omri Azencot(参考訳) 訓練されたシーケンスニューラルネットワークモデルを理解するための新しいアプローチ、koopman analysis of neural networks (kann) を提案する。 時系列モデルと自己マップの関係を動機に、潜在ダイナミクスをうまくエンコードするおよそのKoopman演算子を計算します。 適用性に制限がある他の既存手法とは異なり、我々のフレームワークはグローバルであり、入力に対する弱い制約しか持たない。 さらに、クープマン作用素は線型であり、豊かな数学理論と関連している。 そこで本研究では,線形解析とクープマン理論からツールと洞察を利用できる。 例えば、演算子 eigendecomposition がネットワークの支配的な特徴を探索するのに役立つことを示す。 私たちの結果は、コピー問題、ECG分類および感情分析タスクのデモンストレーションとして、タスクとアーキテクチャに広がっています。

We introduce a new approach to understanding trained sequence neural models: the Koopman Analysis of Neural Networks (KANN) method. Motivated by the relation between time-series models and self-maps, we compute approximate Koopman operators that encode well the latent dynamics. Unlike other existing methods whose applicability is limited, our framework is global, and it has only weak constraints over the inputs. Moreover, the Koopman operator is linear, and it is related to a rich mathematical theory. Thus, we can use tools and insights from linear analysis and Koopman Theory in our study. For instance, we show that the operator eigendecomposition is instrumental in exploring the dominant features of the network. Our results extend across tasks and architectures as we demonstrate for the copy problem, and ECG classification and sentiment analysis tasks.
翻訳日:2021-02-17 14:52:30 公開日:2021-02-15
# MARINA:圧縮による非凸分散学習の高速化

MARINA: Faster Non-Convex Distributed Learning with Compression ( http://arxiv.org/abs/2102.07845v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Konstantin Burlachenko, Zhize Li, Peter Richt\'arik(参考訳) 異種データセット上での非凸分散学習のための通信効率の高い新しい手法であるMARINAを開発し解析する。 MARINAは、Mishchenko et al(2019)のDIANA法で採用された戦略と似ているが異なる勾配差の圧縮に基づいて、新しい通信圧縮戦略を採用しています。 ほぼ全ての競合する分散一階法(DIANAを含む)とは異なり、我々は慎重に設計された偏り勾配推定器をベースとしている。 我々の知る限り、私たちがMARINAで証明した通信複雑性境界は、以前の一階法よりも厳格に優れている。 さらに,VR-MARINAとPP-MARINAの2種類を開発・分析する。 第1の方法は、クライアントが所有するローカル損失関数が有限和または期待形式のいずれかの場合のために設計され、第2の方法は、連合学習において重要な特徴であるクライアントの部分的参加を可能にする。 全ての手法は, オラクル/コミュニケーションの複雑さの観点から, 従来の最先端手法よりも優れている。 最後に,polyak-lojasiewicz条件を満たす問題に対する全手法の収束解析を行う。

We develop and analyze MARINA: a new communication efficient method for non-convex distributed learning over heterogeneous datasets. MARINA employs a novel communication compression strategy based on the compression of gradient differences which is reminiscent of but different from the strategy employed in the DIANA method of Mishchenko et al (2019). Unlike virtually all competing distributed first-order methods, including DIANA, ours is based on a carefully designed biased gradient estimator, which is the key to its superior theoretical and practical performance. To the best of our knowledge, the communication complexity bounds we prove for MARINA are strictly superior to those of all previous first order methods. Further, we develop and analyze two variants of MARINA: VR-MARINA and PP-MARINA. The first method is designed for the case when the local loss functions owned by clients are either of a finite sum or of an expectation form, and the second method allows for partial participation of clients -- a feature important in federated learning. All our methods are superior to previous state-of-the-art methods in terms of the oracle/communication complexity. Finally, we provide convergence analysis of all methods for problems satisfying the Polyak-Lojasiewicz condition.
翻訳日:2021-02-17 14:52:17 公開日:2021-02-15
# 均質ハダマール空間におけるリーマン的隠れマルコフモデルのオンライン学習

Online learning of Riemannian hidden Markov models in homogeneous Hadamard spaces ( http://arxiv.org/abs/2102.07771v1 )

ライセンス: Link先を確認
Quinten Tupker, Salem Said, Cyrus Mostajeran(参考訳) ユークリッド空間における観測を伴う隠れマルコフモデルは、信号と画像処理において重要な役割を果たす。 Baum-Welchアルゴリズムに基づくリーマン多様体で観測されるモデルに拡張する以前の研究は、高いメモリ使用量と遅い速度に悩まされていた。 ここでは、オンラインでより正確で、スピードと効率の劇的な改善を提供するアルゴリズムを提案する。

Hidden Markov models with observations in a Euclidean space play an important role in signal and image processing. Previous work extending to models where observations lie in Riemannian manifolds based on the Baum-Welch algorithm suffered from high memory usage and slow speed. Here we present an algorithm that is online, more accurate, and offers dramatic improvements in speed and efficiency.
翻訳日:2021-02-17 14:48:30 公開日:2021-02-15
# periodnet:周期成分と非周期成分を分離した非自己回帰波形生成モデル

PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components ( http://arxiv.org/abs/2102.07786v1 )

ライセンス: Link先を確認
Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda(参考訳) 音声波形の周期成分と非周期成分をモデル化する新しいモデル構造を持つ非自己回帰(非ar)波形生成モデルである periodnet を提案する。 非ar波形生成モデルは、音声波形を並列に生成することができ、音響特徴を条件付けして音声ボコーダとして使用できる。 音声波形は周期成分と周期成分を含むため、両成分を適切にモデル化して高品質な音声波形を生成する必要がある。 しかし,前もって自然な音声波形から成分を分解することは困難である。 そこで本研究では,周期成分と周期成分を分離した並列モデルと系列モデル構造を提案する。 提案モデルの特徴は,明示的な周期的および周期的信号を入力として捉え,トレーニング中に外部の周期的/時間的分解を必要としないことである。 歌声コーパスを用いた実験により,生成波形の自然性を改善することが示唆された。 また、トレーニングデータ範囲外のピッチを持つ音声波形をより自然度で生成できることも示します。

We propose PeriodNet, a non-autoregressive (non-AR) waveform generation model with a new model structure for modeling periodic and aperiodic components in speech waveforms. The non-AR waveform generation models can generate speech waveforms parallelly and can be used as a speech vocoder by conditioning an acoustic feature. Since a speech waveform contains periodic and aperiodic components, both components should be appropriately modeled to generate a high-quality speech waveform. However, it is difficult to decompose the components from a natural speech waveform in advance. To address this issue, we propose a parallel model and a series model structure separating periodic and aperiodic components. The features of our proposed models are that explicit periodic and aperiodic signals are taken as input, and external periodic/aperiodic decomposition is not needed in training. Experiments using a singing voice corpus show that our proposed structure improves the naturalness of the generated waveform. We also show that the speech waveforms with a pitch outside of the training data range can be generated with more naturalness.
翻訳日:2021-02-17 14:48:23 公開日:2021-02-15
# 放射状基底関数を用いたmepdg気候モデリングの精度向上

Improving the Accuracy Of MEPDG Climate Modeling Using Radial Basis Function ( http://arxiv.org/abs/2102.07890v1 )

ライセンス: Link先を確認
Amirehsan Ghasemi, Kelvin J Msechu, Arash Ghasemi, Mbakisya A. Onyango, Ignatius Fomunung, Joseph Owino(参考訳) 本稿では,2つのメッシュフリー近似手法である重力モデルと放射基底関数の精度を比較した。 2つのスキームの収束挙動は、RBFが重力モデルよりも高速で精度が高いことを証明している。 ケーススタディでは,米国テネセ州の異なる場所における温度の補間を比較した。 Delaunayメッシュ生成は、これらの場所にデータを組み込むことができる境界の内側と上にランダムなポイントを作成するために使用されます。 49 MERRA気象ステーションは、特定の日と時間の温度を提供するためにデータソースとして使用されます。 結果セクションで提供される補間温度の輪郭は、RBFは、補間データのより滑らかで広い範囲を示すことによって、重力モデルよりも正確な方法です。

In this paper, the accuracy of two mesh-free approximation approaches, the Gravity model and Radial Basis Function, are compared. The two schemes' convergence behaviors prove that RBF is faster and more accurate than the Gravity model. As a case study, the interpolation of temperature at different locations in Tennesse, USA, are compared. Delaunay mesh generation is used to create random points inside and on the border, which data can be incorporated in these locations. 49 MERRA weather stations as used as data sources to provide the temperature at a specific day and hour. The contours of interpolated temperatures provided in the result section assert RBF is a more accurate method than the Gravity model by showing a smoother and broader range of interpolated data.
翻訳日:2021-02-17 14:48:05 公開日:2021-02-15
# (参考訳) テンソル時系列のネットワーク [全文訳有]

Network of Tensor Time Series ( http://arxiv.org/abs/2102.07736v1 )

ライセンス: CC BY 4.0
Baoyu Jing, Hanghang Tong, Yada Zhu(参考訳) 共同進化する時系列は、環境監視、財務分析、スマート輸送などの多数のアプリケーションに現れます。 本稿では、時間系列の明示的な関係ネットワークを組み込む方法(C1)、時間ダイナミクスの暗黙的な関係をモデル化する方法(C2)など、以下の課題に取り組む。 TGCN(Tensor Graph Convolutional Network)とTRNN(Tensor Recurrent Neural Network)の2つのモジュールから構成される「Network of Tensor Time Series」という新しいモデルを提案する。 TGCNは、フラットグラフのグラフ畳み込みネットワーク(GCN)をテンソルグラフに一般化することで、テンソルに関連する複数のグラフ間の相乗効果をキャプチャすることで、最初の課題に取り組みます。 TRNNはテンソル分解を利用して共進化する時系列間の暗黙の関係をモデル化する。 5つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。

Co-evolving time series appears in a multitude of applications such as environmental monitoring, financial analysis, and smart transportation. This paper aims to address the following challenges, including (C1) how to incorporate explicit relationship networks of the time series; (C2) how to model the implicit relationship of the temporal dynamics. We propose a novel model called Network of Tensor Time Series, which is comprised of two modules, including Tensor Graph Convolutional Network (TGCN) and Tensor Recurrent Neural Network (TRNN). TGCN tackles the first challenge by generalizing Graph Convolutional Network (GCN) for flat graphs to tensor graphs, which captures the synergy between multiple graphs associated with the tensors. TRNN leverages tensor decomposition to model the implicit relationships among co-evolving time series. The experimental results on five real-world datasets demonstrate the efficacy of the proposed method.
翻訳日:2021-02-17 14:33:20 公開日:2021-02-15
# (参考訳) 非自動回帰モデルとBERTからのクロスモーダルナレッジ転送による高速エンドツーエンド音声認識 [全文訳有]

Fast End-to-End Speech Recognition via Non-Autoregressive Models and Cross-Modal Knowledge Transferring from BERT ( http://arxiv.org/abs/2102.07594v1 )

ライセンス: CC BY 4.0
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang(参考訳) アテンションベースエンコーダデコーダ(AED)モデルは音声認識において有望な性能を達成した。 しかし、デコーダは自動回帰的にテキストトークン(文字や単語など)を予測するため、AEDモデルでは全てのトークンを並列に予測することは困難である。 これにより、推論速度は比較的遅くなります。 我々は、エンコーダがトークンレベルの関係を暗黙的に有する音声発話全体を既に捉えているため、明示的な自己回帰言語モデリングなしにトークンを予測できると信じている。 トークンの予測が他のトークンに依存しない場合、シーケンス内のすべてのトークンの並列予測は実現可能である。 この考え方に基づき, LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。 モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。 3つのモジュールは基本的な注意ブロックに基づいている。 エンコーダは、音声から高レベル表現を抽出する。 PDSはトークンに対応する位置エンコーディングを使用して、音響表現をトークンレベル表現に変換する。 デコーダはさらに、自己照準機構とのトークンレベルの関係をキャプチャする。 最後に、各トークン位置毎に語彙上の確率分布を算出する。 このため、位置分類問題として音声認識が再定式化される。 さらに,大規模な事前学習型言語モデルBERTのセマンティクスを洗練し,性能を向上させるためのクロスモーダルトランスファー学習手法を提案する。

Attention-based encoder-decoder (AED) models have achieved promising performance in speech recognition. However, because the decoder predicts text tokens (such as characters or words) in an autoregressive manner, it is difficult for an AED model to predict all tokens in parallel. This makes the inference speed relatively slow. We believe that because the encoder already captures the whole speech utterance, which has the token-level relationship implicitly, we can predict a token without explicitly autoregressive language modeling. When the prediction of a token does not rely on other tokens, the parallel prediction of all tokens in the sequence is realizable. Based on this idea, we propose a non-autoregressive speech recognition model called LASO (Listen Attentively, and Spell Once). The model consists of an encoder, a decoder, and a position dependent summarizer (PDS). The three modules are based on basic attention blocks. The encoder extracts high-level representations from the speech. The PDS uses positional encodings corresponding to tokens to convert the acoustic representations into token-level representations. The decoder further captures token-level relationships with the self-attention mechanism. At last, the probability distribution on the vocabulary is computed for each token position. Therefore, speech recognition is re-formulated as a position-wise classification problem. Further, we propose a cross-modal transfer learning method to refine semantics from a large-scale pre-trained language model BERT for improving the performance.
翻訳日:2021-02-17 14:09:22 公開日:2021-02-15
# (参考訳) 局所パラメータ化を用いたトラクタブル構造化自然勾配降下

Tractable structured natural gradient descent using local parameterizations ( http://arxiv.org/abs/2102.07405v1 )

ライセンス: CC BY 4.0
Wu Lin, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 構造化パラメータ空間(例えば低ランク共分散)の自然勾配降下は、複雑な逆フィッシャー行列計算のために計算的に困難である。 この問題を最適化、推論、探索問題に対して \emph{local-parameter coordinates} を用いて対処します。 提案手法は,既存の進化ストラテジー法を一般化し,特にニュートン法とリーマン法を復元し,ガウス分布とウィッシュアート分布のフレキシブルな共分散構造を学習するための,新たな抽出可能な自然勾配アルゴリズムを生成する。 我々は、ディープラーニング、変分推論、進化戦略に関する様々な応用について結果を示す。 我々の研究は、局所パラメータ化によるスケーラブルな構造的手法の新しい方向を開く。

Natural-gradient descent on structured parameter spaces (e.g., low-rank covariances) is computationally challenging due to complicated inverse Fisher-matrix computations. We address this issue for optimization, inference, and search problems by using \emph{local-parameter coordinates}. Our method generalizes an existing evolutionary-strateg y method, recovers Newton and Riemannian-gradient methods as special cases, and also yields new tractable natural-gradient algorithms for learning flexible covariance structures of Gaussian and Wishart-based distributions. We show results on a range of applications on deep learning, variational inference, and evolution strategies. Our work opens a new direction for scalable structured geometric methods via local parameterizations.
翻訳日:2021-02-17 12:11:08 公開日:2021-02-15
# (参考訳) コミュニケーション制約付き共同レジストの分散オンライン学習

Distributed Online Learning for Joint Regret with Communication Constraints ( http://arxiv.org/abs/2102.07521v1 )

ライセンス: CC BY 4.0
Dirk van der Hoeven, H\'edi Hadiji, Tim van Erven(参考訳) 本論文では,コミュニケーション制約との共同後悔のための分散オンライン学習環境を検討する。 これは、各ラウンド$t$のマルチエージェント設定で、敵がエージェントを起動し、予測を発行しなければならない。 すべてのエージェントのサブセットは、グラフ内の隣人に$b$-bitメッセージを送信することができる。 すべてのエージェントは共同後悔を制御するために協力し、最良の固定された共通コンパレータパラメータである$\pmb{u}$で評価された損失を減らすエージェントの損失の合計である。 この設定に対するコンパレータ適応アルゴリズムは、共同後悔はコンパレータ $\|\pmb{u}\|$ のノルムと共にスケールすることを意味する。 コミュニケーションの制約に対処するため、我々は決定論的かつ確率的勾配圧縮スキームを提供し、これらの圧縮スキームにより、全てのエージェントがラウンドごとに通信する場合に、アルゴリズムが最悪の場合に最適に後悔することを示す。 さらに、アルゴリズムのコンパレータ適応性を利用して、候補パーティションの集合から最適なパーティションを学習し、エージェントの異なるサブセットが異なるコンパレータを学習できるようにする。

In this paper we consider a distributed online learning setting for joint regret with communication constraints. This is a multi-agent setting in which in each round $t$ an adversary activates an agent, which has to issue a prediction. A subset of all the agents may then communicate a $b$-bit message to their neighbors in a graph. All agents cooperate to control the joint regret, which is the sum of the losses of the agents minus the losses evaluated at the best fixed common comparator parameters $\pmb{u}$. We provide a comparator-adaptive algorithm for this setting, which means that the joint regret scales with the norm of the comparator $\|\pmb{u}\|$. To address communication constraints we provide deterministic and stochastic gradient compression schemes and show that with these compression schemes our algorithm has worst-case optimal regret for the case that all agents communicate in every round. Additionally, we exploit the comparator-adaptive property of our algorithm to learn the best partition from a set of candidate partitions, which allows different subsets of agents to learn a different comparator.
翻訳日:2021-02-17 12:10:09 公開日:2021-02-15
# (参考訳) サーティフィアブルロバスト可変オートエンコーダ [全文訳有]

Certifiably Robust Variational Autoencoders ( http://arxiv.org/abs/2102.07559v1 )

ライセンス: CC BY 4.0
Ben Barrett, Alexander Camuto, Matthew Willetts, Tom Rainforth(参考訳) 敵攻撃に対して確実に堅牢な変分自動エンコーダ(VAE)を訓練するためのアプローチを提案する。 具体的には、まず、入力摂動の最小サイズについて、エンコーダとデコーダのリプシッツ定数のような特定の鍵パラメータに依存する条件で、VAEの再構成を許容量以上変更するために必要な動作可能な境界を導出する。 次に,これらのパラメータの制御方法を示し,vaeが所望のロバスト性を達成することを保証するメカニズムを提供する。 さらに,VAEを訓練するための完全な実践的アプローチに拡張して,基準を満たすようにした。 批判的なことに,本手法では,事前に所望のロバスト性レベルを指定し,このロバスト性を達成するために保証されたVAEをトレーニングすることができる。 さらに,これらのリプシッツ拘束型vaesは,従来のvaesよりも攻撃に頑健であることを示す。

We introduce an approach for training Variational Autoencoders (VAEs) that are certifiably robust to adversarial attack. Specifically, we first derive actionable bounds on the minimal size of an input perturbation required to change a VAE's reconstruction by more than an allowed amount, with these bounds depending on certain key parameters such as the Lipschitz constants of the encoder and decoder. We then show how these parameters can be controlled, thereby providing a mechanism to ensure a priori that a VAE will attain a desired level of robustness. Moreover, we extend this to a complete practical approach for training such VAEs to ensure our criteria are met. Critically, our method allows one to specify a desired level of robustness upfront and then train a VAE that is guaranteed to achieve this robustness. We further demonstrate that these Lipschitz--constrain ed VAEs are more robust to attack than standard VAEs in practice.
翻訳日:2021-02-17 12:04:27 公開日:2021-02-15
# (参考訳) SVMとディープニューラルネットワークの一般化二次損失 [全文訳有]

A generalized quadratic loss for SVM and Deep Neural Networks ( http://arxiv.org/abs/2102.07606v1 )

ライセンス: CC0 1.0
Filippo Portera(参考訳) 我々は、いくつかの監督されたバイナリ分類タスクと回帰タスクを検討するが、SVMとDeep Learningは現在、最高の一般化パフォーマンスを示す。 パターン相関を検討する学習問題に対する一般化二次損失に関する研究[3]を拡張し、パターンがより高密度に分布する入力空間領域に学習問題を集中させる。 浅い方法の視点から(例)。 SVM) は, [3] における問題 (9) の数学的導出が不正確であるため, [3] における問題 (8) から再開し, 主目的関数と双対目的関数が収束するまで, 双対変数を反復する1つの手順で解こうとする。 また,予備問題の定式化から直接分類問題を解こうとする別のアルゴリズムを提案する。 また、一般化性能を向上させるために多重カーネル学習を利用する。 さらに,浅層および深層学習タスクのパターン相関を考慮したカスタム損失を初めて紹介する。 パターン選択基準とSVM法における4つのUCIデータセットに関する結果を提案する。 また,uciから引用した,twitterに基づく大規模バイナリ分類データセットと,一般化された二次損失の有無に関わらず,浅層学習ニューラルネットワークを併用した結果を報告する。 最後に、UCIから取られたより大きな回帰タスクの中で、Deep Neural Networkで損失をテストします。 我々は、最適化器の結果を、よく知られたSVMlightやKeras Multi-Layers Neural Networksの標準損失とパラメータ化された一般化二次損失と比較し、比較結果を得た。

We consider some supervised binary classification tasks and a regression task, whereas SVM and Deep Learning, at present, exhibit the best generalization performances. We extend the work [3] on a generalized quadratic loss for learning problems that examines pattern correlations in order to concentrate the learning problem into input space regions where patterns are more densely distributed. From a shallow methods point of view (e.g.: SVM), since the following mathematical derivation of problem (9) in [3] is incorrect, we restart from problem (8) in [3] and we try to solve it with one procedure that iterates over the dual variables until the primal and dual objective functions converge. In addition we propose another algorithm that tries to solve the classification problem directly from the primal problem formulation. We make also use of Multiple Kernel Learning to improve generalization performances. Moreover, we introduce for the first time a custom loss that takes in consideration pattern correlation for a shallow and a Deep Learning task. We propose some pattern selection criteria and the results on 4 UCI data-sets for the SVM method. We also report the results on a larger binary classification data-set based on Twitter, again drawn from UCI, combined with shallow Learning Neural Networks, with and without the generalized quadratic loss. At last, we test our loss with a Deep Neural Network within a larger regression task taken from UCI. We compare the results of our optimizers with the well known solver SVMlight and with Keras Multi-Layers Neural Networks with standard losses and with a parameterized generalized quadratic loss, and we obtain comparable results.
翻訳日:2021-02-17 11:22:04 公開日:2021-02-15
# (参考訳) モデルにデータが反応するときの学習方法: 実行的勾配降下 [全文訳有]

How to Learn when Data Reacts to Your Model: Performative Gradient Descent ( http://arxiv.org/abs/2102.07698v1 )

ライセンス: CC BY 4.0
Zachary Izzo, Lexing Ying, James Zou(参考訳) performanceative distribution shiftは、どのmlモデルがデプロイされるかの選択がデータ分布を変更する設定をキャプチャする。 例えば、ローンで顧客のデフォルトリスクを決定するためにオープンクレジットラインの数を使用する銀行は、顧客が承認される可能性を高めるためにより多くのクレジットラインを開くように誘導する可能性があります。 モデルとデータ分布の相互作用のために、最適なモデルパラメータを見つけることは困難です。 この領域の研究は安定点の発見に焦点を合わせており、最適とはほど遠い。 今回紹介するPerformative gradient descend(PerfGD)は、パフォーマンス的に最適な点に収束する最初のアルゴリズムです。 PerfGDは、モデルの変更がデータ分布にどのように影響するかを明示的にキャプチャし、使いやすいです。 我々は理論と実験で発見を支持している。

Performative distribution shift captures the setting where the choice of which ML model is deployed changes the data distribution. For example, a bank which uses the number of open credit lines to determine a customer's risk of default on a loan may induce customers to open more credit lines in order to improve their chances of being approved. Because of the interactions between the model and data distribution, finding the optimal model parameters is challenging. Works in this area have focused on finding stable points, which can be far from optimal. Here we introduce performative gradient descent (PerfGD), which is the first algorithm which provably converges to the performatively optimal point. PerfGD explicitly captures how changes in the model affects the data distribution and is simple to use. We support our findings with theory and experiments.
翻訳日:2021-02-17 11:07:19 公開日:2021-02-15
# (参考訳) Win-Fail アクション認識 [全文訳有]

Win-Fail Action Recognition ( http://arxiv.org/abs/2102.07355v1 )

ライセンス: CC BY 4.0
Paritosh Parmar, Brendan Morris(参考訳) 現在のビデオ/アクション理解システムは、大きな認識タスクで印象的なパフォーマンスを発揮しています。 しかし、彼らは行動を完全に理解しようとするのではなく、時空間的パターンを認識するための学習に制限される可能性がある。 ビデオのより深い理解、真の方向への進歩を促進するために、さまざまな活動で成功した試みと失敗した試みを区別するウィンフェイルアクション認識のタスクを紹介します。 我々は,その種類のウィンフェイル行動理解データセットの1つとして,"General Stunts","Internet Wins-Fails","Trick Shots","Party Games"の3つの領域のサンプルを紹介する。 既存のアクション認識データセットとは異なり、クラス内の変動はタスクを難しくするが実行可能である。 先駆的行動認識ネットワークを用いたwin-failタスク/データセットの特徴と新しい映像検索タスクを体系的に解析する。 現在のアクション認識手法はタスク/データセットでうまく機能しますが、高いパフォーマンスを達成するには大きなギャップを残しています。 アクション/ビデオの真の理解に向けて、より多くの作業の動機づけを願っています。 Datasetはhttps://github.com/P aritoshParmar/Win-Fa il-Action-Recognitio nから入手できる。

Current video/action understanding systems have demonstrated impressive performance on large recognition tasks. However, they might be limiting themselves to learning to recognize spatiotemporal patterns, rather than attempting to thoroughly understand the actions. To spur progress in the direction of a truer, deeper understanding of videos, we introduce the task of win-fail action recognition -- differentiating between successful and failed attempts at various activities. We introduce a first of its kind paired win-fail action understanding dataset with samples from the following domains: "General Stunts," "Internet Wins-Fails," "Trick Shots," and "Party Games." Unlike existing action recognition datasets, intra-class variation is high making the task challenging, yet feasible. We systematically analyze the characteristics of the win-fail task/dataset with prototypical action recognition networks and a novel video retrieval task. While current action recognition methods work well on our task/dataset, they still leave a large gap to achieve high performance. We hope to motivate more work towards the true understanding of actions/videos. Dataset will be available from https://github.com/P aritoshParmar/Win-Fa il-Action-Recognitio n.
翻訳日:2021-02-17 09:57:00 公開日:2021-02-15
# (参考訳) 高速コンビナトリアル・ジェネリゼーションを可能にする神経・自律神経政策 [全文訳有]

Neuro-algorithmic Policies enable Fast Combinatorial Generalization ( http://arxiv.org/abs/2102.07456v1 )

ライセンス: CC BY 4.0
Marin Vlastelica, Michal Rol\'inek and Georg Martius(参考訳) システムの制御を学習するためのモデルベースおよびモデルフリーなアプローチは、標準ベンチマークで目覚ましい結果を得たが、タスクのバリエーションへの一般化はいまだに不足している。 近年, 標準アーキテクチャの一般化は, 排他的データ取得後にのみ改善されることが示唆されている。 一般化能力は、多くの場合、問題の組合せ的な側面で一般化できないことがボトルネックになっていることを示す。 さらに、MDPフレームワークの特定のサブクラスに対して、これは神経-アルゴリズムアーキテクチャーによって緩和できることを示す。 多くの制御問題は、ニューラルネットワークだけでは一般的な解決が難しい長期計画を必要とする。 本稿では,ニューラルネットワークと組込み時間に依存した最短経路ソルバからなる自律神経系ポリシアーキテクチャを提案する。 これらのポリシーは、ブラックボックスの差別化によってエンドツーエンドでトレーニングできます。 このタイプのアーキテクチャは、いくつかの例を見て、既に見つからない環境のバリエーションによく応用できることを示す。

Although model-based and model-free approaches to learning the control of systems have achieved impressive results on standard benchmarks, generalization to task variations is still lacking. Recent results suggest that generalization for standard architectures improves only after obtaining exhaustive amounts of data. We give evidence that generalization capabilities are in many cases bottlenecked by the inability to generalize on the combinatorial aspects of the problem. Furthermore, we show that for a certain subclass of the MDP framework, this can be alleviated by neuro-algorithmic architectures. Many control problems require long-term planning that is hard to solve generically with neural networks alone. We introduce a neuro-algorithmic policy architecture consisting of a neural network and an embedded time-dependent shortest path solver. These policies can be trained end-to-end by blackbox differentiation. We show that this type of architecture generalizes well to unseen variations in the environment already after seeing a few examples.
翻訳日:2021-02-17 07:55:31 公開日:2021-02-15
# (参考訳) 長期学習のためのワンショット学習--人工海馬アルゴリズムによる統合 [全文訳有]

One-shot learning for the long term: consolidation with an artificial hippocampal algorithm ( http://arxiv.org/abs/2102.07503v1 )

ライセンス: CC BY 4.0
Gideon Kowadlo, Abdelrahman Ahmed, David Rawlinson(参考訳) 標準的な少数ショット実験は、クラスごとに未発見のサンプルを効率的にマッチングする学習を伴う。 従来の概念を忘れることなく、将来的な知識を同化して、少人数の学習は長期的なものであるべきだと我々は主張する。 哺乳類の脳では、海馬は短期間で学習し、短期的に新皮質に知識を統合することで、この過程において重要な役割を果たすと理解されている。 本研究では, 人工海馬アルゴリズムであるAHAが, 新皮質に類似した従来のMLモデルを用いて, 短期・長期のワンショット学習が可能かどうかを検証した。 結果は、ahaを添加することで、システムは一発で学習し、破滅的な忘れることなく長期的な知識を統合できることを示した。 本研究は、海馬のCLSモデルを用いて記憶を集約した最初の例の1つであり、連続学習へのステップを構成する。

Standard few-shot experiments involve learning to efficiently match previously unseen samples by class. We claim that few-shot learning should be long term, assimilating knowledge for the future, without forgetting previous concepts. In the mammalian brain, the hippocampus is understood to play a significant role in this process, by learning rapidly and consolidating knowledge to the neocortex over a short term period. In this research we tested whether an artificial hippocampal algorithm, AHA, could be used with a conventional ML model analogous to the neocortex, to achieve one-shot learning both short and long term. The results demonstrated that with the addition of AHA, the system could learn in one-shot and consolidate the knowledge for the long term without catastrophic forgetting. This study is one of the first examples of using a CLS model of hippocampus to consolidate memories, and it constitutes a step toward few-shot continual learning.
翻訳日:2021-02-17 07:34:02 公開日:2021-02-15
# (参考訳) 引き込みのない直交多様体の高速かつ正確な最適化 [全文訳有]

Fast and accurate optimization on the orthogonal manifold without retraction ( http://arxiv.org/abs/2102.07432v1 )

ライセンス: CC BY 4.0
Pierre Ablin and Gabriel Peyr\'e(参考訳) 直交行列の多様体上の関数を最小化する問題を考える。 この問題のアルゴリズムの大半は、接空間内の方向を計算し、その後、引き込みを使用して多様体上にとどまりながらその方向に移動する。 残念なことに、直交多様体上の引き算の数値計算は常に、行列反転や行列平方根のような高価な線型代数演算を伴う。 これらの操作は、行列の次元が大きくなるとすぐに高価になる。 この制限を回避するために,リトラクションを含まないランディングアルゴリズムを提案する。 このアルゴリズムは多様体上に留まることに制約されないが、その進化は多様体に向かって徐々に引き寄せるポテンシャルエネルギーによって駆動される。 ランディングアルゴリズムの1つのイテレーションは行列乗算のみを含むため、リトラクションアルゴリズムに比べて安価である。 そこで本研究では,アルゴリズムの収束を解析し,レトラクション法よりも高速で数値誤差の少ない大規模問題に対する期待を示す。

We consider the problem of minimizing a function over the manifold of orthogonal matrices. The majority of algorithms for this problem compute a direction in the tangent space, and then use a retraction to move in that direction while staying on the manifold. Unfortunately, the numerical computation of retractions on the orthogonal manifold always involves some expensive linear algebra operation, such as matrix inversion or matrix square-root. These operations quickly become expensive as the dimension of the matrices grows. To bypass this limitation, we propose the landing algorithm which does not involve retractions. The algorithm is not constrained to stay on the manifold but its evolution is driven by a potential energy which progressively attracts it towards the manifold. One iteration of the landing algorithm only involves matrix multiplications, which makes it cheap compared to its retraction counterparts. We provide an analysis of the convergence of the algorithm, and demonstrate its promises on large-scale problems, where it is faster and less prone to numerical errors than retraction-based methods.
翻訳日:2021-02-17 07:20:19 公開日:2021-02-15
# (参考訳) 固定ステップサイズをもつリーマン確率近似スキームについて

On Riemannian Stochastic Approximation Schemes with Fixed Step-Size ( http://arxiv.org/abs/2102.07586v1 )

ライセンス: CC BY 4.0
Alain Durmus, Pablo Jim\'enez, \'Eric Moulines, Salem Said(参考訳) 本稿では,リーマン系における確率勾配スキームを含むステップサイズ確率近似(sa)スキームについて述べる。 ジオデシクスを明示的に計算できるいくつかのアプリケーションによって動機付けられ、それらの使用は粗いユークリッド法を加速する。 固定ステップサイズスキームは、ステップサイズによってパラメータ化された時間同質マルコフ連鎖の族を定義する。 ここでは、この定式化を使用して、Lyapunov条件下で非無症候性性能境界が導出される。 任意のステップサイズに対して、対応するマルコフ連鎖は一意的な定常分布を認め、幾何学的にエルゴード的であることが証明される。 この結果は、ステップサイズによってインデックス化された定常分布の族を生じさせ、ステップサイズが0になるにつれて、手元の問題の解に集中したディラック測度に収束することがさらに示される。 最後に、この収束の漸近速度は、バイアスの漸近展開と中心極限定理によって確立される。

This paper studies fixed step-size stochastic approximation (SA) schemes, including stochastic gradient schemes, in a Riemannian framework. It is motivated by several applications, where geodesics can be computed explicitly, and their use accelerates crude Euclidean methods. A fixed step-size scheme defines a family of time-homogeneous Markov chains, parametrized by the step-size. Here, using this formulation, non-asymptotic performance bounds are derived, under Lyapunov conditions. Then, for any step-size, the corresponding Markov chain is proved to admit a unique stationary distribution, and to be geometrically ergodic. This result gives rise to a family of stationary distributions indexed by the step-size, which is further shown to converge to a Dirac measure, concentrated at the solution of the problem at hand, as the step-size goes to 0. Finally, the asymptotic rate of this convergence is established, through an asymptotic expansion of the bias, and a central limit theorem.
翻訳日:2021-02-17 06:53:16 公開日:2021-02-15
# (参考訳) AI倫理は良いデータを必要とする [全文訳有]

AI Ethics Needs Good Data ( http://arxiv.org/abs/2102.07333v1 )

ライセンス: CC BY-SA 4.0
Angela Daly, S Kate Devitt, Monique Mann(参考訳) この章では、AIに関する議論は「倫理」の言語を超越し、「良いデータ」を構成するために権力と政治経済に従事しなければならないと論じています。 特に、AIの問題を見ることができるフレームとしての倫理の限界を考えると、現在デプロイされている'倫理'(Wagner 2018)の非政治的言語を超えて、AIが'良い'かどうかを判断する必要があります。 これらの制限を回避するために、私たちは、AIの開発と展開、および他のデジタル技術の価値、権利、関心を解明するために、より拡大した用語として、"Good Data"の言語と概念化を使用します。 データ保護・プライバシーやファット(公正、透明性、説明責任)運動の繰り返しのテーマを超えて、明確な政治経済批判を含む。 さらに多くの倫理原則(同じ、あるいは同じようなことを言う傾向がある)の代わりに、Good Data AIを構築可能な4つの"柱" – コミュニティ、権利、ユーザビリティ、政治 – を提供しています。 全体として、AIの「良さ」は、明らかに政治的(経済的な)権力の問題であり、AIが創造され、社会の幸福を高めるために使われる程度に常に関係している。 AIに対する「より良い」アプローチを実装するための推奨事項と救済策を提供します。 当社の戦略は、AIが構築および展開される広範な社会技術システムの一部として、AIの異なる(しかし補完的な)種類の評価を可能にします。

In this chapter we argue that discourses on AI must transcend the language of 'ethics' and engage with power and political economy in order to constitute 'Good Data'. In particular, we must move beyond the depoliticised language of 'ethics' currently deployed (Wagner 2018) in determining whether AI is 'good' given the limitations of ethics as a frame through which AI issues can be viewed. In order to circumvent these limits, we use instead the language and conceptualisation of 'Good Data', as a more expansive term to elucidate the values, rights and interests at stake when it comes to AI's development and deployment, as well as that of other digital technologies. Good Data considerations move beyond recurring themes of data protection/privacy and the FAT (fairness, transparency and accountability) movement to include explicit political economy critiques of power. Instead of yet more ethics principles (that tend to say the same or similar things anyway), we offer four 'pillars' on which Good Data AI can be built: community, rights, usability and politics. Overall we view AI's 'goodness' as an explicly political (economy) question of power and one which is always related to the degree which AI is created and used to increase the wellbeing of society and especially to increase the power of the most marginalized and disenfranchised. We offer recommendations and remedies towards implementing 'better' approaches towards AI. Our strategies enable a different (but complementary) kind of evaluation of AI as part of the broader socio-technical systems in which AI is built and deployed.
翻訳日:2021-02-17 05:15:30 公開日:2021-02-15
# (参考訳) OntoZSL: オントロジー強化ゼロショット学習 [全文訳有]

OntoZSL: Ontology-enhanced Zero-shot Learning ( http://arxiv.org/abs/2102.07339v1 )

ライセンス: CC BY 4.0
Yuxia Geng, Jiaoyan Chen, Zhuo Chen, Jeff Z. Pan, Zhiquan Ye, Zonggang Yuan, Yantao Jia, Huajun Chen(参考訳) ゼロショット学習(ZSL)は、トレーニングデータに登場していないクラスを予測することを目的としており、ホットな研究の関心が寄せられています。 ZSLの実装の鍵は、クラス間のセマンティックな関係を構築し、学習したモデル(機能など)をトレーニングクラス(例:見られないクラス)から見えないクラスに転送できるようにするクラスに関する以前の知識を活用することである。 しかし、既存の手法が採用する先行処理は、不完全意味論では比較的限られている。 本稿では,zslのクラス間関係をオントロジーに基づく知識表現と意味埋め込みによってモデル化するために,より豊かで競争力の高い事前知識を探索する。 一方、見知らぬクラスと見つからないクラス間のデータ不均衡に対処するため、GAN(Generative Adversarial Networks)を用いた生成ZSLフレームワークを開発した。 i)画像分類(IMGC)や知識グラフ補完(KGC)などの異なるドメインに適用可能なオントロジー強化ZSLフレームワーク。(ii)異なるドメインの複数のゼロショットデータセットによる包括的な評価。 特に、IMGCの4つの代表的ZSLベースラインにおいて、オントロジーに基づくクラスセマンティクスは、例えば、2つのサンプルデータセットにわたる標準ZSLにおける平均12.4の精度ポイントによるクラスの埋め込みよりも優れている(図4参照)。

Zero-shot Learning (ZSL), which aims to predict for those classes that have never appeared in the training data, has arisen hot research interests. The key of implementing ZSL is to leverage the prior knowledge of classes which builds the semantic relationship between classes and enables the transfer of the learned models (e.g., features) from training classes (i.e., seen classes) to unseen classes. However, the priors adopted by the existing methods are relatively limited with incomplete semantics. In this paper, we explore richer and more competitive prior knowledge to model the inter-class relationship for ZSL via ontology-based knowledge representation and semantic embedding. Meanwhile, to address the data imbalance between seen classes and unseen classes, we developed a generative ZSL framework with Generative Adversarial Networks (GANs). Our main findings include: (i) an ontology-enhanced ZSL framework that can be applied to different domains, such as image classification (IMGC) and knowledge graph completion (KGC); (ii) a comprehensive evaluation with multiple zero-shot datasets from different domains, where our method often achieves better performance than the state-of-the-art models. In particular, on four representative ZSL baselines of IMGC, the ontology-based class semantics outperform the previous priors e.g., the word embeddings of classes by an average of 12.4 accuracy points in the standard ZSL across two example datasets (see Figure 4).
翻訳日:2021-02-17 04:57:55 公開日:2021-02-15
# (参考訳) 適応のための生成:ganによる3次元領域適応インポイントクラウドのためのアプローチ [全文訳有]

Generation for adaption: a Gan-based approach for 3D Domain Adaption inPoint Cloud ( http://arxiv.org/abs/2102.07373v1 )

ライセンス: CC0 1.0
Junxuan Huang and Chunming Qiao(参考訳) 最近の深層ネットワークは、さまざまな3dポイント分類タスクで優れたパフォーマンスを達成しています。 しかし、これらのモデルはしばしば「ワイルドタスク」の課題に直面します.1つのLidarで収集されたラベル付きトレーニング/ソースデータと、別のLidarで収集された目に見えないテスト/ターゲットデータの間には大きな違いがあります。 Unsupervised domain adaptation (UDA) seeks to overcome such a problem without target domain labels.Instead of aligning features between source data and target data,we propose a method that use a Generative adversarial network to generate synthetic data from the source domain so that the output is close to the target domain.Experiments show that our approach performs better than other state-of-the-art UDA methods in three popular 3D object/scene datasets (i.e., ModelNet, ShapeNet and ScanNet) for cross-domain 3D objects classification.

Recent deep networks have achieved good performance on a variety of 3d points classification tasks. However, these models often face challenges in "wild tasks".There are considerable differences between the labeled training/source data collected by one Lidar and unseen test/target data collected by a different Lidar. Unsupervised domain adaptation (UDA) seeks to overcome such a problem without target domain labels.Instead of aligning features between source data and target data,we propose a method that use a Generative adversarial network to generate synthetic data from the source domain so that the output is close to the target domain.Experiments show that our approach performs better than other state-of-the-art UDA methods in three popular 3D object/scene datasets (i.e., ModelNet, ShapeNet and ScanNet) for cross-domain 3D objects classification.
翻訳日:2021-02-17 03:02:09 公開日:2021-02-15
# (参考訳) FAT:周波数認識変換による低ビット幅パラメトリック表現の学習 [全文訳有]

FAT: Learning Low-Bitwidth Parametric Representation via Frequency-Aware Transformation ( http://arxiv.org/abs/2102.07444v1 )

ライセンス: CC BY 4.0
Chaofan Tao, Rui Lin, Quan Chen, Zhaoyang Zhang, Ping Luo, Ngai Wong(参考訳) 量子化後にパフォーマンスが大幅に低下する可能性があるため、ビット幅の低い畳み込みニューラルネットワーク(CNN)の学習は困難である。 プリエントアートはしばしば、量子化のハイパーパラメータを慎重にチューニングすることで、ネットワークの重みを識別する。 非一様ステップサイズとレイヤーワイドビット幅は、完全精度と低精度のモデルには大きな差があるため、複雑で最適である。 本稿では,新しい量子化パイプラインである周波数認識変換(fat)を提案する。 1)既存の作品のような複雑な量子化器を設計するのではなく、FATは量子化の前に周波数領域のネットワーク重みを変換することを学びます。 2) FATでは, 退屈なハイパーパラメータチューニングを伴わずに, 単純な標準量子化器を用いて, 低精度で容易にCNNを訓練することができる。 理論解析は、FATが均一および非均一量子化器の両方を改善することを示している。 (3) FATは簡単に多くのCNNアーキテクチャに接続できる。 4ビットでResNet-18とMobileNet-V2をトレーニングする場合、FATと単純なラウンド操作は、ベルや笛を使わずにImageNetで70.5%と69.2%の精度を達成しており、54.9Xと45.7Xの計算をフル精度モデルに対して削減することで、最近の最先端技術よりも優れていた。 コードはもうすぐ入手できる。

Learning convolutional neural networks (CNNs) with low bitwidth is challenging because performance may drop significantly after quantization. Prior arts often discretize the network weights by carefully tuning hyper-parameters of quantization (e.g. non-uniform stepsize and layer-wise bitwidths), which are complicated and sub-optimal because the full-precision and low-precision models have a large discrepancy. This work presents a novel quantization pipeline, Frequency-Aware Transformation (FAT), which has several appealing benefits. (1) Rather than designing complicated quantizers like existing works, FAT learns to transform network weights in the frequency domain before quantization, making them more amenable to training in low bitwidth. (2) With FAT, CNNs can be easily trained in low precision using simple standard quantizers without tedious hyper-parameter tuning. Theoretical analysis shows that FAT improves both uniform and non-uniform quantizers. (3) FAT can be easily plugged into many CNN architectures. When training ResNet-18 and MobileNet-V2 in 4 bits, FAT plus a simple rounding operation already achieves 70.5% and 69.2% top-1 accuracy on ImageNet without bells and whistles, outperforming recent state-of-the-art by reducing 54.9X and 45.7X computations against full-precision models. Code will be available soon.
翻訳日:2021-02-17 02:54:38 公開日:2021-02-15
# (参考訳) 動的塩分濃度予測のためのGated Fusion Network [全文訳有]

A Gated Fusion Network for Dynamic Saliency Prediction ( http://arxiv.org/abs/2102.07682v1 )

ライセンス: CC BY 4.0
Aysun Kocak, Erkut Erdem and Aykut Erdem(参考訳) 映像のサリエンシーの予測は,時間的情報と空間的情報との相互作用を複雑にモデル化するため,特に映像の動的性質を考慮した場合,難しい課題である。 最近、研究者たちは深層学習を活用した大規模データセットとモデルを提案し、ビデオサリエンシーにとって何が重要なのかを理解する方法を提案しています。 しかし、これらのアプローチは、静的な方法で空間的特徴と時間的特徴を組み合わせることを学び、ビデオの内容の変化にあまり適応しない。 本稿では,ゲート融合機構を介して動的に予測を行うことのできる,最初のディープサリエンシーモデルであるGFSalNet(Gated Fusion Network for dynamic saliency)について紹介する。 さらに,マルチスケールアーキテクチャにおける空間的およびチャネル的注意を活用し,高精度な予測を可能にする。 提案手法をいくつかのデータセットで評価し,本研究では,その性能が最先端技術に匹敵する,あるいは競争力が高いことを実証した。 重要なことは、優れた一般化能力を持ち、適応融合方式により、時間情報をより効果的に活用できることである。

Predicting saliency in videos is a challenging problem due to complex modeling of interactions between spatial and temporal information, especially when ever-changing, dynamic nature of videos is considered. Recently, researchers have proposed large-scale datasets and models that take advantage of deep learning as a way to understand what's important for video saliency. These approaches, however, learn to combine spatial and temporal features in a static manner and do not adapt themselves much to the changes in the video content. In this paper, we introduce Gated Fusion Network for dynamic saliency (GFSalNet), the first deep saliency model capable of making predictions in a dynamic way via gated fusion mechanism. Moreover, our model also exploits spatial and channel-wise attention within a multi-scale architecture that further allows for highly accurate predictions. We evaluate the proposed approach on a number of datasets, and our experimental analysis demonstrates that it outperforms or is highly competitive with the state of the art. Importantly, we show that it has a good generalization ability, and moreover, exploits temporal information more effectively via its adaptive fusion scheme.
翻訳日:2021-02-17 02:32:39 公開日:2021-02-15
# (参考訳) 深層学習のためのバッチ内接続学習 [全文訳有]

Learning Intra-Batch Connections for Deep Metric Learning ( http://arxiv.org/abs/2102.07753v1 )

ライセンス: CC BY 4.0
Jenny Seidenschwarz, Ismail Elezi, Laura Leal-Taix\'e(参考訳) 計量学習の目標は、サンプルを類似したサンプルが異種よりも近い低次元空間にマッピングする関数を学習することである。 ディープメトリック学習の場合、マッピングはニューラルネットワークを訓練することによって行われます。 ほとんどのアプローチは、同じクラスまたは2つの異なるクラスに属するサンプルのペアまたはトリプルレット間の関係のみを考慮する損失に依存します。 しかし、これらのアプローチは全体の埋め込み空間を探索しない。 そこで本稿では,ミニバッチにおけるすべての関係を考慮に入れたメッセージパッシングネットワークに基づくアプローチを提案する。 与えられたバッチ内で、すべてのサンプル間でメッセージを交換することで、埋め込みベクターを洗練し、トレーニングプロセスが全体構造を認識します。 すべてのサンプルが決定境界を予測するのに等しく重要であるわけではないので、メッセージパッシング中にドット積の自己注意を使用して、サンプルがそれぞれの隣人の重要性を重み付けることができる。 CUB-200-2011, Cars196, Stanford Online Products, In-Shop Clothes のクラスタリングと画像検索の最先端の成果を得た。

The goal of metric learning is to learn a function that maps samples to a lower-dimensional space where similar samples lie closer than dissimilar ones. In the case of deep metric learning, the mapping is performed by training a neural network. Most approaches rely on losses that only take the relations between pairs or triplets of samples into account, which either belong to the same class or to two different classes. However, these approaches do not explore the embedding space in its entirety. To this end, we propose an approach based on message passing networks that takes into account all the relations in a mini-batch. We refine embedding vectors by exchanging messages among all samples in a given batch allowing the training process to be aware of the overall structure. Since not all samples are equally important to predict a decision boundary, we use dot-product self-attention during message passing to allow samples to weight the importance of each neighbor accordingly. We achieve state-of-the-art results on clustering and image retrieval on the CUB-200-2011, Cars196, Stanford Online Products, and In-Shop Clothes datasets.
翻訳日:2021-02-17 02:09:21 公開日:2021-02-15
# (参考訳) 強化学習フレームワークにおける予測器の多様性を用いた擬似アンサンブルの開発 [全文訳有]

Developing parsimonious ensembles using predictor diversity within a reinforcement learning framework ( http://arxiv.org/abs/2102.07344v1 )

ライセンス: CC BY 4.0
Ana Stanescu and Gaurav Pandey(参考訳) 制限のない数と様々なベース予測器を集約できる異種アンサンブルは、難しい予測問題に効果的に対処できます。 特に、パーシモン的である正確なアンサンブル、すなわち、できるだけ少数のベース予測器で構成され、ターゲット問題領域に関する潜在的に有用な知識を明らかにするのに役立つ。 アンサンブル選択はこれらの目標を達成するための潜在的アプローチを提供するが、現在利用可能なアルゴリズムはその能力に制限がある。 本稿では,アンサンブルの多様性を強化学習(rl)に基づくアンサンブル選択フレームワークに組み込むアルゴリズムをいくつか紹介する。 これらのアルゴリズムは、いくつかのベースラインと同様に、予測性能とアンサンブルのパシモニーの観点から、さまざまなドメインのデータセットで厳格に評価される。 この評価は,我々の多様性を組み込んだRLベースのアルゴリズムが,同時に正確かつ同義的なアンサンブルを構築する上で,他のアルゴリズムよりも優れていることを示す。 これらのアルゴリズムは、最終的に効果的なアンサンブルに同化予測モデルの解釈またはリバースエンジニアリングを支援することができる。 このような翻訳を可能にするために、これらのアルゴリズムの実装と、彼らが評価した実験的な設定がhttps://github.com/G auravPandeyLab/lens- learning-ensembles-u sing-reinforcement-l earningで利用可能になった。

Heterogeneous ensembles that can aggregate an unrestricted number and variety of base predictors can effectively address challenging prediction problems. In particular, accurate ensembles that are also parsimonious, i.e., consist of as few base predictors as possible, can help reveal potentially useful knowledge about the target problem domain. Although ensemble selection offers a potential approach to achieving these goals, the currently available algorithms are limited in their abilities. In this paper, we present several algorithms that incorporate ensemble diversity into a reinforcement learning (RL)-based ensemble selection framework to build accurate and parsimonious ensembles. These algorithms, as well as several baselines, are rigorously evaluated on datasets from diverse domains in terms of the predictive performance and parsimony of their ensembles. This evaluation demonstrates that our diversity-incorporat ed RL-based algorithms perform better than the others for constructing simultaneously accurate and parsimonious ensembles. These algorithms can eventually aid the interpretation or reverse engineering of predictive models assimilated into effective ensembles. To enable such a translation, an implementation of these algorithms, as well the experimental setup they are evaluated in, has been made available at https://github.com/G auravPandeyLab/lens- learning-ensembles-u sing-reinforcement-l earning.
翻訳日:2021-02-17 00:03:50 公開日:2021-02-15
# (参考訳) 動的オンライン学習における時間変動について [全文訳有]

A closer look at temporal variability in dynamic online learning ( http://arxiv.org/abs/2102.07666v1 )

ライセンス: CC BY 4.0
Nicol\`o Campolongo and Francesco Orabona(参考訳) この作品は、完全な情報でオンライン学習の文脈でダイナミックな後悔の設定に焦点を当てています。 特に,損失関数の時間的変動に関して,後悔の限界を分析する。 損失関数の列は時間とともに大きく変化しないと仮定することにより、既存の結果と比較して改善された後悔境界を導き出すことが可能であることを示す。 我々のアプローチの鍵は、最適化プロセス中に損失関数(その勾配ではなく)を使用することです。 暗黙的アルゴリズム解析の最近の進歩を踏まえて,オンラインミラー降下の暗黙的バージョンを動的設定に適応する手法を提案する。 提案アルゴリズムは,損失関数の時間的変動だけでなく,上界が知られている場合のコンパレータ列の経路長にも適応する。 さらに,本分析の結果は厳密であり,さらなる仮定なしでは改善できないことが明らかとなった。 次に、専門家のアドバイスによる学習の設定や複合損失関数による設定にアルゴリズムをどのように適用できるかを示します。 最後に、経路長への上限が予め固定されていない場合、既存の強適応アルゴリズムとグリード戦略を組み合わせ、異なるコンパレータ列に対して最適に競合する方法を示す。

This work focuses on the setting of dynamic regret in the context of online learning with full information. In particular, we analyze regret bounds with respect to the temporal variability of the loss functions. By assuming that the sequence of loss functions does not vary much with time, we show that it is possible to incur improved regret bounds compared to existing results. The key to our approach is to use the loss function (and not its gradient) during the optimization process. Building on recent advances in the analysis of Implicit algorithms, we propose an adaptation of the Implicit version of Online Mirror Descent to the dynamic setting. Our proposed algorithm is adaptive not only to the temporal variability of the loss functions, but also to the path length of the sequence of comparators when an upper bound is known. Furthermore, our analysis reveals that our results are tight and cannot be improved without further assumptions. Next, we show how our algorithm can be applied to the setting of learning with expert advice or to settings with composite loss functions. Finally, when an upper bound to the path-length is not fixed beforehand we show how to combine a greedy strategy with existing strongly-adaptive algorithms to compete optimally against different sequences of comparators simultaneously.
翻訳日:2021-02-16 23:45:14 公開日:2021-02-15
# (参考訳) CHARET:ストーリーにおける感情追跡へのキャラクター中心のアプローチ [全文訳有]

CHARET: Character-centered Approach to Emotion Tracking in Stories ( http://arxiv.org/abs/2102.07537v1 )

ライセンス: CC BY 4.0
Diogo S. Carvalho, Joana Campos, Manuel Guimar\~aes, Ana Antunes, Jo\~ao Dias, Pedro A. Santos(参考訳) 人間との社会的相互作用を担える自律エージェントは、無数の応用の最終的な目標である。 これらのアプリケーションの設計における重要な課題は、広範なコンテンツ作成を必要とするエージェントの社会的行動を定義することです。この研究では、現在の最先端のツールを使用して、ストーリー内のキャラクターの感情的な状態を一貫性のある方法で展開する方法を検討します。 感情のセマンティクスを算定する感情追跡に対する特徴的役割照合アプローチを提案する。 本研究では,アクタやイベントのオブジェクトを識別し,キャラクターの感情状態を考慮することで,エンド・ツー・エンドのアプローチと比較して,このタスクにおいて優れたパフォーマンスが得られることを示す。

Autonomous agents that can engage in social interactions witha human is the ultimate goal of a myriad of applications. A keychallenge in the design of these applications is to define the socialbehavior of the agent, which requires extensive content creation.In this research, we explore how we can leverage current state-of-the-art tools to make inferences about the emotional state ofa character in a story as events unfold, in a coherent way. Wepropose a character role-labelling approach to emotion tracking thataccounts for the semantics of emotions. We show that by identifyingactors and objects of events and considering the emotional stateof the characters, we can achieve better performance in this task,when compared to end-to-end approaches.
翻訳日:2021-02-16 22:47:05 公開日:2021-02-15
# (参考訳) 自動ゲームパーソナライゼーションのためのプレイヤー中心ai:オープン問題 [全文訳有]

Player-Centered AI for Automatic Game Personalization: Open Problems ( http://arxiv.org/abs/2102.07548v1 )

ライセンス: CC BY 4.0
Jichen Zhu, Santiago Onta\~n\'on(参考訳) コンピュータゲームは、次世代のパーソナライズされたデジタルアプリケーションにとって理想的な研究領域である。 本稿では,ゲームパーソナライゼーションのためのプレイヤー中心のAIフレームワークについて述べる。 アクション理論の構造に基づいて,ゲームパーソナライゼーション研究の現在の状況と,さらなる調査を必要とする8つの未解決問題を特定した。 これらの問題は、技術進歩とプレイヤー体験設計の深い協力を必要とする。

Computer games represent an ideal research domain for the next generation of personalized digital applications. This paper presents a player-centered framework of AI for game personalization, complementary to the commonly used system-centered approaches. Built on the Structure of Actions theory, the paper maps out the current landscape of game personalization research and identifies eight open problems that need further investigation. These problems require deep collaboration between technological advancement and player experience design.
翻訳日:2021-02-16 22:34:12 公開日:2021-02-15
# (参考訳) マルチクラス分類に基づくインサイダーアクティビティの異常検出 [全文訳有]

Multi-class Classification Based Anomaly Detection of Insider Activities ( http://arxiv.org/abs/2102.07277v1 )

ライセンス: CC BY 4.0
R G Gayathri, Atul Sajjanhar, Yong Xiang and Xingjun Ma(参考訳) 内部の脅威は、組織内の信頼できる組織からのサイバー攻撃である。 現実世界のデータの欠如とデータ不均衡の問題により、インサイダー脅威分析は研究不足の分野となります。 歪クラス分布の効果を緩和し,インサイダー脅威検出のための多項分類アルゴリズムの可能性を証明するために,生成モデルと教師付き学習を組み合わせて,ディープラーニングを用いた多クラス分類を行う手法を提案する。 GAN(Generative Adversarial Network)をベースとしたインサイダ検出モデルでは,少数クラスのサンプルを豊かにし,マルチクラスの異常検出のためのデータを提供するために,条件付きジェネレーティブ・ディバイザ・ネットワーク(CGAN)を導入している。 ベンチマークデータセットで実施した総合実験は、GAN由来の合成データの導入の有効性と、インサイダーアクティビティ分析におけるマルチクラス異常検出能力を示す。 さらに、他の既存手法と比較し、異なるパラメータや性能指標と比較する。

Insider threats are the cyber attacks from within the trusted entities of an organization. Lack of real-world data and issue of data imbalance leave insider threat analysis an understudied research area. To mitigate the effect of skewed class distribution and prove the potential of multinomial classification algorithms for insider threat detection, we propose an approach that combines generative model with supervised learning to perform multi-class classification using deep learning. The generative adversarial network (GAN) based insider detection model introduces Conditional Generative Adversarial Network (CGAN) to enrich minority class samples to provide data for multi-class anomaly detection. The comprehensive experiments performed on the benchmark dataset demonstrates the effectiveness of introducing GAN derived synthetic data and the capability of multi-class anomaly detection in insider activity analysis. Moreover, the method is compared with other existing methods against different parameters and performance metrics.
翻訳日:2021-02-16 21:59:55 公開日:2021-02-15
# (参考訳) AIによるアドバイスの破壊力 [全文訳有]

The corruptive force of AI-generated advice ( http://arxiv.org/abs/2102.07536v1 )

ライセンス: CC BY 4.0
Margarita Leib, Nils C. K\"obis, Rainer Michael Rilke, Marloes Hagens, Bernd Irlenbusch(参考訳) 人工知能(AI)は、人々の生活における信頼できるアドバイザーになりつつある。 新たな懸念は、AIが人々に利益のための倫理的ルールを破るよう説得した場合である。 大規模な行動実験(N = 1,572)を用いて、AIが生成するアドバイスが人を腐敗させるかどうかをテストします。 一般的に提案されるポリシーであるAIの存在に関する透明性が、AIが生み出すアドバイスの潜在的な害を軽減するかどうかをさらに検証します。 自然言語処理アルゴリズムgpt-2を用いて,正直なプロモーティングと不正なプロモーティングアドバイスを作成した。 参加者は、利益のために嘘をつくことができるタスクに従事する前に、1種類のアドバイスを読みます。 実際のAI出力と相互作用する人間の振る舞いをテストすることで、AIのアドバイザとしての役割に関する最初の行動的な洞察を提供する。 その結果、AIが生成したアドバイスは、アドバイスのソースを知っていても、人々を腐敗させます。 実際、AIの破壊力は人間と同じくらい強力です。

Artificial Intelligence (AI) is increasingly becoming a trusted advisor in people's lives. A new concern arises if AI persuades people to break ethical rules for profit. Employing a large-scale behavioural experiment (N = 1,572), we test whether AI-generated advice can corrupt people. We further test whether transparency about AI presence, a commonly proposed policy, mitigates potential harm of AI-generated advice. Using the Natural Language Processing algorithm, GPT-2, we generated honesty-promoting and dishonesty-promoting advice. Participants read one type of advice before engaging in a task in which they could lie for profit. Testing human behaviour in interaction with actual AI outputs, we provide first behavioural insights into the role of AI as an advisor. Results reveal that AI-generated advice corrupts people, even when they know the source of the advice. In fact, AI's corrupting force is as strong as humans'.
翻訳日:2021-02-16 21:47:18 公開日:2021-02-15
# (参考訳) 動く人体の詳細な変形を捉え [全文訳有]

Capturing Detailed Deformations of Moving Human Bodies ( http://arxiv.org/abs/2102.07343v1 )

ライセンス: CC BY 4.0
He Chen, Hyojoon Park, Kutay Macit, Ladislav Kavan(参考訳) 身体に1000点以上の特異点をサンプリングし,人間の詳細な動きをとらえる新しい方法を提案する。 本手法は,高精度な4d(spatio-temporal)点座標を出力し,各点に対して一意なラベルを自動的に割り当てる。 点の位置とユニークなラベルは、時間追跡や人体形状や骨格運動学モデルに依存することなく、個々の2D入力画像からのみ推定されます。 したがって, 捕獲された点軌跡には, 呼吸による運動, 筋収縮, 肉の変形など, 入力画像からのすべての詳細情報が含まれており, 人体とその運動の高度なモデルに適合する訓練データとして好適である。 システムの背後にある重要なアイデアは、チェッカーボードのようなコーナーと2文字のコードを持つ特別なパターンを含む新しいタイプのモーションキャプチャースーツである。 私たちのマルチカメラシステムからの画像は、コーナーをローカライズし、コードを認識するように訓練されたニューラルネットワークのシーケンスによって処理されます。 当社のシステムは、標準的なRGBまたはモノクロセンサーと完全に受動的な照明とパッシブスーツのみに依存しているため、複製、展開、使用が容易です。 実験では、ヨガや体操、地面転がりなどの挑戦的な動きを含む、さまざまな人間のポーズを高精度にとらえることを示しました。

We present a new method to capture detailed human motion, sampling more than 1000 unique points on the body. Our method outputs highly accurate 4D (spatio-temporal) point coordinates and, crucially, automatically assigns a unique label to each of the points. The locations and unique labels of the points are inferred from individual 2D input images only, without relying on temporal tracking or any human body shape or skeletal kinematics models. Therefore, our captured point trajectories contain all of the details from the input images, including motion due to breathing, muscle contractions and flesh deformation, and are well suited to be used as training data to fit advanced models of the human body and its motion. The key idea behind our system is a new type of motion capture suit which contains a special pattern with checkerboard-like corners and two-letter codes. The images from our multi-camera system are processed by a sequence of neural networks which are trained to localize the corners and recognize the codes, while being robust to suit stretching and self-occlusions of the body. Our system relies only on standard RGB or monochrome sensors and fully passive lighting and the passive suit, making our method easy to replicate, deploy and use. Our experiments demonstrate highly accurate captures of a wide variety of human poses, including challenging motions such as yoga, gymnastics, or rolling on the ground.
翻訳日:2021-02-16 21:19:02 公開日:2021-02-15
# (参考訳) QuickBrowser: 単純なオブジェクトをリアルタイムで検出して読み取る統一モデル [全文訳有]

QuickBrowser: A Unified Model to Detect and Read Simple Object in Real-time ( http://arxiv.org/abs/2102.07354v1 )

ライセンス: CC BY-SA 4.0
Thao Do and Daeyoung Kim(参考訳) バーコードスキャンや看板読み取りなど、オブジェクトを検出してオブジェクトの内容を読み取る必要がある実際のユースケースはたくさんあります。 一般的に既存のメソッドは、まずオブジェクト領域をローカライズし、レイアウトを決定し、最後にコンテンツ単位を分類します。 しかし、ライセンスプレートのような単純な固定構造化オブジェクトの場合、このアプローチはやり過ぎで長持ちします。 本研究では,多桁認識を1段階物体検出モデルに組み込むことにより,この検出と読み取りの問題を軽量に解決することを目的とする。 私たちの統合メソッドは、特徴抽出の重複を排除するだけでなく(ローカライズのためのもの、分類のためのもの)、分類のためのオブジェクト領域に関する有用なコンテキスト情報を提供します。 さらに、アーキテクチャ、損失関数、データ拡張、トレーニングにおけるバックボーンと修正の選択は、メソッドを堅牢で効率的かつ高速にします。 第2に,信頼性の高い評価のために,様々な実生活用1dバーコードの公開ベンチマークデータセットを作成し,それらを収集し,注釈付けし,注意深くチェックした。 最終的に,vga類似の解像度で実時間fpsによる検出・復号速度において,産業用ツールを上回ることで,バーコード問題に対する手法の有効性を実験的に証明した。 また、(AOLPデータセット上の)ライセンスプレート認識タスクにおいて、現在の最新手法を認識率と推論時間において大幅に上回るパフォーマンスで、大きな成果を挙げた。

There are many real-life use cases such as barcode scanning or billboard reading where people need to detect objects and read the object contents. Commonly existing methods are first trying to localize object regions, then determine layout and lastly classify content units. However, for simple fixed structured objects like license plates, this approach becomes overkill and lengthy to run. This work aims to solve this detect-and-read problem in a lightweight way by integrating multi-digit recognition into a one-stage object detection model. Our unified method not only eliminates the duplication in feature extraction (one for localizing, one again for classifying) but also provides useful contextual information around object regions for classification. Additionally, our choice of backbones and modifications in architecture, loss function, data augmentation and training make the method robust, efficient and speedy. Secondly, we made a public benchmark dataset of diverse real-life 1D barcodes for a reliable evaluation, which we collected, annotated and checked carefully. Eventually, experimental results prove the method's efficiency on the barcode problem by outperforming industrial tools in both detecting and decoding rates with a real-time fps at a VGA-similar resolution. It also did a great job expectedly on the license-plate recognition task (on the AOLP dataset) by outperforming the current state-of-the-art method significantly in terms of recognition rate and inference time.
翻訳日:2021-02-16 20:48:49 公開日:2021-02-15
# (参考訳) radflow: 時系列ネットワークのための再帰的,集約的,分解可能なモデル [全文訳有]

Radflow: A Recurrent, Aggregated, and Decomposable Model for Networks of Time Series ( http://arxiv.org/abs/2102.07289v1 )

ライセンス: CC BY 4.0
Alasdair Tran, Alexander Mathews, Cheng Soon Ong, Lexing Xie(参考訳) 本稿では,相互に影響を及ぼす時系列ネットワークの新しいモデルを提案する。 時系列内のグラフ構造は、ハイパーリンクの影響によるWebトラフィック、推奨による製品販売、道路ネットワークや天気の影響による都市交通量など、さまざまな領域で見られる。 グラフモデリングと時系列予測の最近の進歩はそれぞれありますが、一連のネットワークに対する表現的でスケーラブルなアプローチはまだ存在していません。 時間に依存するノード埋め込みを得るためのリカレントニューラルネットワーク,マルチヘッドで隣接するノードからの影響の流れの集約,時系列の多層分解という,3つの重要なアイデアを具現化した新しいモデルであるRadflowを紹介する。 Radflowは、ノードとエッジが時間の経過とともに変化する動的ネットワークを自然に考慮し、予測およびデータインプットタスクに使用できます。 数百から数十万のノードにまたがる実世界のデータセットでは、Radflowの変種が幅広い設定で最高のパフォーマンスモデルであることを観察しています。 Radflowの繰り返しコンポーネントは、最先端の時系列モデルであるN-BEATSよりも優れています。 radflowは異なる傾向や季節パターンを学習でき、欠落したノードやエッジに対して頑健であり、ネットワークの隣人間の時間パターンの相関は影響強度を反映している。 WikiTrafficは366Kノードと5年にわたる2200万の時間依存リンクを持つ時系列のネットワークである。 このデータセットは、この領域でモデルを開発するためのオープンベンチマークを提供し、Webのためのリソースを最適化するアプリケーションを含む。 より広くは、Radflowは、株式市場などの相関した時系列ネットワークにおける予測を改善し、自然現象の地理的分散ネットワークにおける欠落測定を誘発する可能性がある。

We propose a new model for networks of time series that influence each other. Graph structures among time series are found in diverse domains, such as web traffic influenced by hyperlinks, product sales influenced by recommendation, or urban transport volume influenced by road networks and weather. There has been recent progress in graph modeling and in time series forecasting, respectively, but an expressive and scalable approach for a network of series does not yet exist. We introduce Radflow, a novel model that embodies three key ideas: a recurrent neural network to obtain node embeddings that depend on time, the aggregation of the flow of influence from neighboring nodes with multi-head attention, and the multi-layer decomposition of time series. Radflow naturally takes into account dynamic networks where nodes and edges change over time, and it can be used for prediction and data imputation tasks. On real-world datasets ranging from a few hundred to a few hundred thousand nodes, we observe that Radflow variants are the best performing model across a wide range of settings. The recurrent component in Radflow also outperforms N-BEATS, the state-of-the-art time series model. We show that Radflow can learn different trends and seasonal patterns, that it is robust to missing nodes and edges, and that correlated temporal patterns among network neighbors reflect influence strength. We curate WikiTraffic, the largest dynamic network of time series with 366K nodes and 22M time-dependent links spanning five years. This dataset provides an open benchmark for developing models in this area, with applications that include optimizing resources for the web. More broadly, Radflow has the potential to improve forecasts in correlated time series networks such as the stock market, and impute missing measurements in geographically dispersed networks of natural phenomena.
翻訳日:2021-02-16 20:05:07 公開日:2021-02-15
# (参考訳) REST:リレーショナルイベント駆動の株価トレンド予測 [全文訳有]

REST: Relational Event-driven Stock Trend Forecasting ( http://arxiv.org/abs/2102.07372v1 )

ライセンス: CC BY 4.0
Wentao Xu, Weiqing Liu, Chang Xu, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 株価の将来トレンド予測を目指す株価動向予測は、投資家が株式市場から最大利益を求める上で極めて重要である。 近年, ニュース, ソーシャルメディア, 討論会から抽出したイベントを利用して, 株価動向を予測している。 しかし、既存のイベント駆動手法には、2つの主な欠点がある:1)ストック依存プロパティによって区別されるイベント情報の影響を無視すること、2)他の関連株式からのイベント情報の影響を無視すること。 本稿では、既存の手法の欠点に対処することができるリレーショナルイベント駆動ストックトレンド予測(REST)フレームワークを提案する。 第1の欠点を是正するため,我々は,株価の文脈をモデル化し,異なる状況下での株価に対する事象情報の影響を学ぶことを提案する。 第2の欠点に対処するために,ストックグラフを構築し,関連する株からイベント情報の影響を伝達する新しい伝播層を設計する。 実世界のデータに関する実験的研究は、RESTフレームワークの効率を実証しています。 投資シミュレーションの結果は,我々の枠組みがベースラインよりも高い投資リターンを達成できることを示唆している。

Stock trend forecasting, aiming at predicting the stock future trends, is crucial for investors to seek maximized profits from the stock market. Many event-driven methods utilized the events extracted from news, social media, and discussion board to forecast the stock trend in recent years. However, existing event-driven methods have two main shortcomings: 1) overlooking the influence of event information differentiated by the stock-dependent properties; 2) neglecting the effect of event information from other related stocks. In this paper, we propose a relational event-driven stock trend forecasting (REST) framework, which can address the shortcoming of existing methods. To remedy the first shortcoming, we propose to model the stock context and learn the effect of event information on the stocks under different contexts. To address the second shortcoming, we construct a stock graph and design a new propagation layer to propagate the effect of event information from related stocks. The experimental studies on the real-world data demonstrate the efficiency of our REST framework. The results of investment simulation show that our framework can achieve a higher return of investment than baselines.
翻訳日:2021-02-16 19:38:05 公開日:2021-02-15
# (参考訳) 無限に広い発電機を持つWGANには定常点がない [全文訳有]

WGAN with an Infinitely Wide Generator Has No Spurious Stationary Points ( http://arxiv.org/abs/2102.07541v1 )

ライセンス: CC BY 4.0
Albert No, Taeho Yoon, Se-Hyeon Kwon, Ernest K. Ryu(参考訳) generative adversarial networks (gan) は広く使われている深層生成モデルのクラスであるが、そのミニマックストレーニングダイナミクスはよく理解されていない。 本研究では, 2層無限幅発生器と2層有限幅判別器を確率勾配で訓練したGANが, 定常点を持たないことを示す。 次に、ジェネレータの幅が有限だが幅が広い場合、幅が無限に進むにつれて、半径が任意に大きい(パラメータ空間全体を覆う)ボール内にスプリアス静止点が存在しないことを示します。

Generative adversarial networks (GAN) are a widely used class of deep generative models, but their minimax training dynamics are not understood very well. In this work, we show that GANs with a 2-layer infinite-width generator and a 2-layer finite-width discriminator trained with stochastic gradient ascent-descent have no spurious stationary points. We then show that when the width of the generator is finite but wide, there are no spurious stationary points within a ball whose radius becomes arbitrarily large (to cover the entire parameter space) as the width goes to infinity.
翻訳日:2021-02-16 19:20:40 公開日:2021-02-15
# (参考訳) UserReg: レーティング予測のためのシンプルで強力なモデル [全文訳有]

UserReg: A Simple but Strong Model for Rating Prediction ( http://arxiv.org/abs/2102.07601v1 )

ライセンス: CC0 1.0
Haiyang Zhang, Ivan Ganchev, Nikola S. Nikolov, Mark Stevenson(参考訳) 協調フィルタリング(CF)は、レコメンダーシステムの分野で大きな成功を収めています。 近年,多くの新しいCFモデル,特にディープラーニングやグラフ技術に基づくモデルが,評価予測や項目ランキングなど,様々な推奨課題に対して提案されている。 新たに公開されたモデルは通常、精度向上の観点から、ベースラインや既存のモデルと比較してパフォーマンスを示す。 しかし、多くの新しく提案されたモデルは予想したほど強くはなく、非常に単純なベースラインよりも優れているという指摘もある。 本稿では, マトリックスファクタリゼーション(MF)に基づく簡易線形モデルであるUserRegを提案し, 評価予測のための明示的なフィードバック情報を用いてユーザの潜在表現を正規化する。 本研究では,ベースラインとして広く利用されている3つの線形cfモデルと,ディープラーニングやグラフ技術に基づく最近提案されている複合モデルとの比較を行った。 実験の結果,userregは,検討した基準値よりも全体的な性能が向上し,最近提案された他のモデルと比較した場合の競争力も高いことがわかった。 UserRegは将来のCF研究の強力なベースラインとして利用できると結論づける。

Collaborative filtering (CF) has achieved great success in the field of recommender systems. In recent years, many novel CF models, particularly those based on deep learning or graph techniques, have been proposed for a variety of recommendation tasks, such as rating prediction and item ranking. These newly published models usually demonstrate their performance in comparison to baselines or existing models in terms of accuracy improvements. However, others have pointed out that many newly proposed models are not as strong as expected and are outperformed by very simple baselines. This paper proposes a simple linear model based on Matrix Factorization (MF), called UserReg, which regularizes users' latent representations with explicit feedback information for rating prediction. We compare the effectiveness of UserReg with three linear CF models that are widely-used as baselines, and with a set of recently proposed complex models that are based on deep learning or graph techniques. Experimental results show that UserReg achieves overall better performance than the fine-tuned baselines considered and is highly competitive when compared with other recently proposed models. We conclude that UserReg can be used as a strong baseline for future CF research.
翻訳日:2021-02-16 18:30:28 公開日:2021-02-15
# (参考訳) 連邦学習における炭素フットプリントの考察 [全文訳有]

A first look into the carbon footprint of federated learning ( http://arxiv.org/abs/2102.07627v1 )

ライセンス: CC BY 4.0
Xinchi Qiu, Titouan Parcollet, Javier Fernandez-Marques, Pedro Porto Buarque de Gusmao, Daniel J. Beutel, Taner Topal, Akhil Mathur, Nicholas D. Lane(参考訳) 驚くべき結果にもかかわらず、ディープラーニングベースの技術は、データセンターでしばしば実行されるトレーニング手順によって引き起こされる厳しいプライバシーと環境上の懸念も引き起こす。 これに対し、フェデレートラーニング(FL)のような集中型トレーニングの代替案が登場した。 特にflは、政府やプライバシー保護のための市民社会から生まれた新しい法的要求や政策に固執しなければならない企業によって、世界的な規模で展開され始めている。 しかし、FLに関連する潜在的な環境影響は未解明のままである。 本稿では,flの炭素フットプリントを初めて体系的に研究する。 まず、炭素フットプリントを定量化する厳格なモデルを提案し、FL設計と炭素排出量の関係の調査を容易にします。 そして、FLの炭素フットプリントを従来の集中学習と比較する。 FLは, 収束が遅い場合もあり, 集中的な等価装置よりも比較的温暖な影響が生じる可能性が示唆された。 FLを用いたデータセット、設定、およびさまざまなディープラーニングモデルに関する広範な実験を実施しました。 最後に、報告された結果とFLの今後の課題とトレンドを強調して、アルゴリズム効率、ハードウェア能力、より強力な業界透明性を含む環境への影響を減らします。

Despite impressive results, deep learning-based technologies also raise severe privacy and environmental concerns induced by the training procedure often conducted in datacenters. In response, alternatives to centralized training such as Federated Learning (FL) have emerged. Perhaps unexpectedly, FL, in particular, is starting to be deployed at a global scale by companies that must adhere to new legal demands and policies originating from governments and civil society for privacy protection. However, the potential environmental impact related to FL remains unclear and unexplored. This paper offers the first-ever systematic study of the carbon footprint of FL. First, we propose a rigorous model to quantify the carbon footprint, hence facilitating the investigation of the relationship between FL design and carbon emissions. Then, we compare the carbon footprint of FL to traditional centralized learning. Our findings show that FL, despite being slower to converge in some cases, may result in a comparatively greener impact than a centralized equivalent setup. We performed extensive experiments across different types of datasets, settings, and various deep learning models with FL. Finally, we highlight and connect the reported results to the future challenges and trends in FL to reduce its environmental impact, including algorithms efficiency, hardware capabilities, and stronger industry transparency.
翻訳日:2021-02-16 18:17:49 公開日:2021-02-15
# (参考訳) 訓練中の騒音インジェクションの固有正則化効果について

On the Inherent Regularization Effects of Noise Injection During Training ( http://arxiv.org/abs/2102.07379v1 )

ライセンス: CC BY 4.0
Oussama Dhifallah and Yue M. Lu(参考訳) トレーニングプロセス中にランダムに摂動するネットワークは、一般化のパフォーマンスを改善するための一般的なアプローチです。 本稿では, トレーニングデータに人工雑音を注入することに対応する, ランダム摂動の特定の方法に関する理論的研究について述べる。 ランダムな特徴モデル上で、このようなランダムに摂動する学習問題の訓練と一般化エラーの正確な無症状性評価を提供する。 学習過程におけるガウスノイズインジェクションは,ノイズインジェクションの数が無限度になる傾向にある場合,重み付きリッジ正規化の導入と等価であることを示す。 正規化の明示的な形式も与えられる。 数値結果は漸近的な予測と相関し、中程度の問題次元でも正確であることを示した。 我々の理論予測は、ランダム特徴モデルの研究における最近の結果を一般化する新しい相関ガウス等価予想に基づいている。

Randomly perturbing networks during the training process is a commonly used approach to improving generalization performance. In this paper, we present a theoretical study of one particular way of random perturbation, which corresponds to injecting artificial noise to the training data. We provide a precise asymptotic characterization of the training and generalization errors of such randomly perturbed learning problems on a random feature model. Our analysis shows that Gaussian noise injection in the training process is equivalent to introducing a weighted ridge regularization, when the number of noise injections tends to infinity. The explicit form of the regularization is also given. Numerical results corroborate our asymptotic predictions, showing that they are accurate even in moderate problem dimensions. Our theoretical predictions are based on a new correlated Gaussian equivalence conjecture that generalizes recent results in the study of random feature models.
翻訳日:2021-02-16 16:59:11 公開日:2021-02-15
# (参考訳) 畳み込みニューラルネットワークがエイリアスを扱う方法 [全文訳有]

How Convolutional Neural Networks Deal with Aliasing ( http://arxiv.org/abs/2102.07757v1 )

ライセンス: CC BY 4.0
Ant\^onio H. Ribeiro and Thomas B. Sch\"on(参考訳) 畳み込みニューラルネットワーク(cnn)は、コンピュータビジョン問題を解決する上で不可欠なツールである。 標準的な畳み込みアーキテクチャは、画像を徐々にダウンスケールする操作の積み重ねられた層で構成される。 エイリアシングはダウンサンプリングの副作用としてよく知られており、元の信号の高周波成分が低周波成分と区別不能になる。 ダウンサンプリングは、マックスプール層またはこれらのモデルにおけるストラジド畳み込み層で行われますが、これらの層でエイリアスが発生するのを防ぐ明確なメカニズムはありません。 これらのモデルの印象的な性能のため、この歪みに暗黙的に対処していると疑うのは当然である。 この論文で私たちが目指す質問は、単に「CNNはどのようにしてどの程度エイリアスに対抗しますか? 第1に,中間チャネルの冗長性がタスクを成功させる上で重要な役割を担っていることを示すとともに,第2に,画像分類器CNNが,原則としてアンチエイリアスフィルタを実装している場合,中間層でのエイリアスの発生を防止できないことを示す。

The convolutional neural network (CNN) remains an essential tool in solving computer vision problems. Standard convolutional architectures consist of stacked layers of operations that progressively downscale the image. Aliasing is a well-known side-effect of downsampling that may take place: it causes high-frequency components of the original signal to become indistinguishable from its low-frequency components. While downsampling takes place in the max-pooling layers or in the strided-convolutions in these models, there is no explicit mechanism that prevents aliasing from taking place in these layers. Due to the impressive performance of these models, it is natural to suspect that they, somehow, implicitly deal with this distortion. The question we aim to answer in this paper is simply: "how and to what extent do CNNs counteract aliasing?" We explore the question by means of two examples: In the first, we assess the CNNs capability of distinguishing oscillations at the input, showing that the redundancies in the intermediate channels play an important role in succeeding at the task; In the second, we show that an image classifier CNN while, in principle, capable of implementing anti-aliasing filters, does not prevent aliasing from taking place in the intermediate layers.
翻訳日:2021-02-16 16:58:05 公開日:2021-02-15
# 重み付けによる簡易深度平衡モデルが世界最適に収束

A Simple Deep Equilibrium Model Converges to Global Optima with Weight Tying ( http://arxiv.org/abs/2102.07346v1 )

ライセンス: Link先を確認
Kenji Kawaguchi(参考訳) 深い平衡線形モデルは、無限列の計算の平衡点を通じて暗黙的に定義される。 これは、ルートフィンディングによって直接平衡点を見つけ、暗黙の微分を通じて勾配を計算することによって無限列の明示的な計算を避ける。 重量行列上の非線形活性化を伴う単純な深い平衡モデルである。 本稿では,回帰と分類に用いられる一般損失のクラスに対して,非凸目的関数を持つこの単純な深層平衡モデルの勾配ダイナミクスを解析する。 非凸性にもかかわらず、線形速度で最適なグローバルへの収束は、モデルの幅を前提にすることなく保証され、幅は出力寸法とデータポイントの数よりも小さくなります。 さらに,単純な深層平衡モデルの勾配ダイナミクスと浅層モデルの信頼領域ニュートン法のダイナミクスとの関係を証明した。 この数学的に証明された関係と数値的な観測は、暗黙のバイアスを理解することの重要性と、そのトピックに関するオープンな問題の重要性を示唆している。 我々の証明は非線形性と重み付けを扱っており、関連する文献のものと異なる。

A deep equilibrium linear model is implicitly defined through an equilibrium point of an infinite sequence of computation. It avoids any explicit computation of the infinite sequence by finding an equilibrium point directly via root-finding and by computing gradients via implicit differentiation. It is a simple deep equilibrium model with nonlinear activations on weight matrices. In this paper, we analyze the gradient dynamics of this simple deep equilibrium model with non-convex objective functions for a general class of losses used in regression and classification. Despite non-convexity, convergence to global optimum at a linear rate is guaranteed without any assumption on the width of the models, allowing the width to be smaller than the output dimension and the number of data points. Moreover, we prove a relation between the gradient dynamics of the simple deep equilibrium model and the dynamics of trust region Newton method of a shallow model. This mathematically proven relation along with our numerical observation suggests the importance of understanding implicit bias and a possible open problem on the topic. Our proofs deal with nonlinearity and weight tying, and differ from those in the related literature.
翻訳日:2021-02-16 16:16:38 公開日:2021-02-15
# TREC 2020深層学習トラックの概要

Overview of the TREC 2020 deep learning track ( http://arxiv.org/abs/2102.07662v1 )

ライセンス: Link先を確認
Nick Craswell, Bhaskar Mitra, Emine Yilmaz and Daniel Campos(参考訳) TREC Deep Learning Trackの2年目であり、大規模なトレーニングデータ体制におけるアドホックランキングの研究を目標としている。 また、文書検索タスクと通過検索タスクがあり、それぞれに何十万もの人手によるトレーニングクエリがあります。 我々は,シングルショットTRECスタイルの評価を用いて,大規模データを利用できる場合にどのランキング手法が最適かを示すとともに,少数のテストクエリに対してより包括的な関連付けを行う。 今年はさらに、BERTスタイルの事前トレーニングを持つランク付け者が、大規模なデータ体制における他のランク付けよりも優れているという証拠があります。

This is the second year of the TREC Deep Learning Track, with the goal of studying ad hoc ranking in the large training data regime. We again have a document retrieval task and a passage retrieval task, each with hundreds of thousands of human-labeled training queries. We evaluate using single-shot TREC-style evaluation, to give us a picture of which ranking methods work best when large data is available, with much more comprehensive relevance labeling on the small number of test queries. This year we have further evidence that rankers with BERT-style pretraining outperform other rankers in the large data regime.
翻訳日:2021-02-16 16:16:07 公開日:2021-02-15
# Secure-UCB: 限定データ検証による攻撃からの確率的帯域保護

Secure-UCB: Saving Stochastic Bandits from Poisoning Attacks via Limited Data Verification ( http://arxiv.org/abs/2102.07711v1 )

ライセンス: Link先を確認
Anshuka Rangi, Long Tran-Thanh, Haifeng Xu, Massimo Franceschetti(参考訳) 本稿では,データ中毒攻撃時のバンディットアルゴリズムについて検討する。 我々は,攻撃者が選択した行動と対応する報酬の両方を観察し,付加的な雑音で報酬を汚染できる強力な攻撃モデルを考える。 我々は、後悔 $O(\log T)$ を持つ \emph{any} bandit アルゴリズムが、期待される汚染量 $O(\log T)$ で後悔 $\Omega(T)$ に苦しむことを強制できることを示した。 この量の汚染も必要であり、後悔する$O(\log T)$ バンディットアルゴリズム、特に古典的 UCB が存在し、後悔する$Omega(\log T)$ の汚染に苦しむために$Omega(\log T)$ の汚染量を必要とすることを証明している。 このような攻撃に対抗するために、2つ目の主な貢献は、限定的な \emph{verification} を使用して汚染されていない報酬の限られた数にアクセスする新しいアルゴリズム Secure-UCB を提案することです。 Secure-UCBは,$O(\log T)$期待数の検証を行うと,攻撃者が使用する汚染量の最小値として,最適な$O(\log T)$ regret \emph{irrespectiveを復元できることを示す。 最後に、任意の帯域幅アルゴリズムに対して、この検証数$O(\log T)$は順序最適後悔を取り戻すのに必要であることを示す。 次に、Secure-UCBは期待される後悔と予想される検証数の両方の観点から順序最適であり、あらゆるデータ中毒攻撃から確率的なバンディットを救えると結論付けることができます。

This paper studies bandit algorithms under data poisoning attacks in a bounded reward setting. We consider a strong attacker model in which the attacker can observe both the selected actions and their corresponding rewards, and can contaminate the rewards with additive noise. We show that \emph{any} bandit algorithm with regret $O(\log T)$ can be forced to suffer a regret $\Omega(T)$ with an expected amount of contamination $O(\log T)$. This amount of contamination is also necessary, as we prove that there exists an $O(\log T)$ regret bandit algorithm, specifically the classical UCB, that requires $\Omega(\log T)$ amount of contamination to suffer regret $\Omega(T)$. To combat such poising attacks, our second main contribution is to propose a novel algorithm, Secure-UCB, which uses limited \emph{verification} to access a limited number of uncontaminated rewards. We show that with $O(\log T)$ expected number of verifications, Secure-UCB can restore the order optimal $O(\log T)$ regret \emph{irrespective of the amount of contamination} used by the attacker. Finally, we prove that for any bandit algorithm, this number of verifications $O(\log T)$ is necessary to recover the order-optimal regret. We can then conclude that Secure-UCB is order-optimal in terms of both the expected regret and the expected number of verifications, and can save stochastic bandits from any data poisoning attack.
翻訳日:2021-02-16 16:14:19 公開日:2021-02-15
# Frank-Wolfe 法による構造的対向攻撃の生成

Generating Structured Adversarial Attacks Using Frank-Wolfe Method ( http://arxiv.org/abs/2102.07360v1 )

ライセンス: Link先を確認
Ehsan Kazemi, Thomas Kerdreux and Liquang Wang(参考訳) ホワイトボックスの逆転摂動は、しばしば、原画像の$\ell_p$近傍における逆転損失を最小限に抑えることで、反復最適化アルゴリズムによって生成される。 逆探索を異なるノルムで制限すると、異なる構成の逆の例が得られる。 ここでは,構造エンハンシングアルゴリズムを用いた歪み集合について検討する。 これらの敵対的な例のための新しい構造は、証明可能で経験的なロバストなメカニズムの課題をもたらすかもしれない。 敵の堅牢性はまだ実証的な分野であるため、防御機構は異なる構成の攻撃に対して合理的に評価されるべきである。 さらに、これらの構造的対向摂動は、画像の自然な歪みとして知覚できないか知覚できないまま、$\ell_p$カウンタ部よりも大きな歪みを許容する。 本研究では,提案する構造的敵意例が,高い$\ell_2$歪率を示しながら,敵が訓練した分類器の分類精度を著しく低下させることを実証する。 例えば、ImagNetデータセットでは、構造化攻撃により、PGDのようなホワイトボックスアタックを使用して生成された$\ell_2$歪みのわずか50%で、敵モデルの精度がほぼゼロに低下する。 副産物として、構造化された逆転例の発見は、モデルをより堅牢にしたり、構造的に異なるデータセット上での一般化パフォーマンスを向上させるためにモデルの逆転正規化に使用することができる。

White box adversarial perturbations are generated via iterative optimization algorithms most often by minimizing an adversarial loss on a $\ell_p$ neighborhood of the original image, the so-called distortion set. Constraining the adversarial search with different norms results in disparately structured adversarial examples. Here we explore several distortion sets with structure-enhancing algorithms. These new structures for adversarial examples might provide challenges for provable and empirical robust mechanisms. Because adversarial robustness is still an empirical field, defense mechanisms should also reasonably be evaluated against differently structured attacks. Besides, these structured adversarial perturbations may allow for larger distortions size than their $\ell_p$ counter-part while remaining imperceptible or perceptible as natural distortions of the image. We will demonstrate in this work that the proposed structured adversarial examples can significantly bring down the classification accuracy of adversarialy trained classifiers while showing low $\ell_2$ distortion rate. For instance, on ImagNet dataset the structured attacks drop the accuracy of adversarial model to near zero with only 50\% of $\ell_2$ distortion generated using white-box attacks like PGD. As a byproduct, our finding on structured adversarial examples can be used for adversarial regularization of models to make models more robust or improve their generalization performance on datasets which are structurally different.
翻訳日:2021-02-16 16:13:49 公開日:2021-02-15
# Weak Adaptation Learning -- Weak Annotatorによるクロスドメインデータ不足に対処する

Weak Adaptation Learning -- Addressing Cross-domain Data Insufficiency with Weak Annotator ( http://arxiv.org/abs/2102.07358v1 )

ライセンス: Link先を確認
Shichao Xu, Lixu Wang, Yixuan Wang, Qi Zhu(参考訳) データ量と品質は、データ駆動学習方法の重要な要素である。 一部のターゲット問題ドメインでは、利用可能なデータサンプルがあまりなく、学習プロセスを大幅に妨げる可能性があります。 類似したドメインからのデータはドメイン適応に役立てることができるが、それらのソースドメイン自体の高品質なラベル付きデータを取得することは、困難またはコストがかかる可能性がある。 対象領域における分類問題に対するデータ不十分性の課題に対処するため、類似のソースドメインからのラベル付きデータを活用する弱適応学習(WAL)手法、タスク固有のヒューリスティックス、ラベル付けルール、その他の手法(不正確であるにもかかわらず)に基づいてラベルを生成する低コストの弱アノテータ、およびターゲット領域内のラベル付きデータが少ないことを提案する。 本手法は,まず,データ量と弱アノテータの性能に関して,訓練された分類器の誤差境界に関する理論的解析を行い,その後,誤差境界を下げて正確な分類器を学習する多段階弱適応学習法を導入する。 実験では,対象領域に限定されたラベル付きデータとソース領域にラベル付きデータを持つ正確な分類器を学習する手法の有効性を示す。

Data quantity and quality are crucial factors for data-driven learning methods. In some target problem domains, there are not many data samples available, which could significantly hinder the learning process. While data from similar domains may be leveraged to help through domain adaptation, obtaining high-quality labeled data for those source domains themselves could be difficult or costly. To address such challenges on data insufficiency for classification problem in a target domain, we propose a weak adaptation learning (WAL) approach that leverages unlabeled data from a similar source domain, a low-cost weak annotator that produces labels based on task-specific heuristics, labeling rules, or other methods (albeit with inaccuracy), and a small amount of labeled data in the target domain. Our approach first conducts a theoretical analysis on the error bound of the trained classifier with respect to the data quantity and the performance of the weak annotator, and then introduces a multi-stage weak adaptation learning method to learn an accurate classifier by lowering the error bound. Our experiments demonstrate the effectiveness of our approach in learning an accurate classifier with limited labeled data in the target domain and unlabeled data in the source domain.
翻訳日:2021-02-16 16:12:42 公開日:2021-02-15
# イベントシーケンスの接尾辞と残存時間予測のためのディープ・アドバーサリーモデル

A Deep Adversarial Model for Suffix and Remaining Time Prediction of Event Sequences ( http://arxiv.org/abs/2102.07298v1 )

ライセンス: Link先を確認
Farbod Taymouri, Marcello La Rosa, Sarah M. Erfani(参考訳) イベント接尾辞と残時間予測はシーケンス学習タスクにシーケンスされる。 彼らは、経済学、デジタルヘルス、ビジネスプロセス管理、ITインフラストラクチャ監視など、さまざまな分野で幅広いアプリケーションを持っています。 タイムスタンプのイベントシーケンスには、イベントラベルとタイムスタンプの2つの属性を含む順序付きイベントが含まれている。 サフィックスと残り時間の予測は、イベントラベルの最も可能性の高い継続と、シーケンスが終了するまでの残り時間を取得することである。 このような予測のための最近のディープラーニングベースの研究は、閉ループトレーニング(すなわち、次のイベントは以前のイベントの真理に基づいて調整される)とオープンループ推論(すなわち、次のイベントは以前に予測されたイベントで調整される)のために、大きな予測エラーになりやすい。 本研究では、イベントシーケンスの接尾辞と残りの時間予測を促進するために、オープンループトレーニング用のエンコーダデコーダアーキテクチャを提案する。 事象の同時時間的ダイナミクスを捉えるために,逆学習手法の力を利用して予測性能を向上させる。 実験では,4つの実生活データセットと3つのベースラインを検討する。 その結果、サフィックスにおける技術の現状と、特にビジネスプロセス実行の領域におけるイベントシーケンスの残りの時間予測と比較して、最大4倍の改善が示されている。 また, 対人訓練の改善は, 同じ実験環境下での標準訓練よりも優れていることを示した。

Event suffix and remaining time prediction are sequence to sequence learning tasks. They have wide applications in different areas such as economics, digital health, business process management and IT infrastructure monitoring. Timestamped event sequences contain ordered events which carry at least two attributes: the event's label and its timestamp. Suffix and remaining time prediction are about obtaining the most likely continuation of event labels and the remaining time until the sequence finishes, respectively. Recent deep learning-based works for such predictions are prone to potentially large prediction errors because of closed-loop training (i.e., the next event is conditioned on the ground truth of previous events) and open-loop inference (i.e., the next event is conditioned on previously predicted events). In this work, we propose an encoder-decoder architecture for open-loop training to advance the suffix and remaining time prediction of event sequences. To capture the joint temporal dynamics of events, we harness the power of adversarial learning techniques to boost prediction performance. We consider four real-life datasets and three baselines in our experiments. The results show improvements up to four times compared to the state of the art in suffix and remaining time prediction of event sequences, specifically in the realm of business process executions. We also show that the obtained improvements of adversarial training are superior compared to standard training under the same experimental setup.
翻訳日:2021-02-16 16:08:16 公開日:2021-02-15
# cross-modal adversarial reprogramming

Cross-modal Adversarial Reprogramming ( http://arxiv.org/abs/2102.07325v1 )

ライセンス: Link先を確認
Paarth Neekhara, Shehzeen Hussain, Jinglong Du, Shlomo Dubnov, Farinaz Koushanfar, Julian McAuley(参考訳) 大規模なディープラーニングモデルが多数存在することにより、トレーニング済みのネットワークを新たなタスクに再利用することが可能になった。 近年の逆転プログラミングの研究では、ネットワークアーキテクチャやパラメータを変更することなく、代替タスクのためにニューラルネットワークを再利用できることが示されている。 しかし、これらの作業は、同じデータドメイン内のオリジナルタスクとターゲットタスクのみを考慮します。 本研究では,元のタスクのデータモダリティを超えた逆転プログラミングの範囲を広げる。 自然言語処理(NLP)やその他のシーケンス分類タスクのための画像分類ニューラルネットワークを逆転的に再検討する可能性を分析します。 本研究では,画像分類モデルにより,個々のトークンのシーケンスを所望のクラスに分類可能な画像にマッピングする,効率的な逆プログラムを設計する。 高い効率の逆プログラムを用いることで、画像分類器を再プログラムして、様々なテキストおよびシーケンス分類ベンチマークの競合性能をネットワークを再トレーニングすることなく達成できることを実証する。

With the abundance of large-scale deep learning models, it has become possible to repurpose pre-trained networks for new tasks. Recent works on adversarial reprogramming have shown that it is possible to repurpose neural networks for alternate tasks without modifying the network architecture or parameters. However these works only consider original and target tasks within the same data domain. In this work, we broaden the scope of adversarial reprogramming beyond the data modality of the original task. We analyze the feasibility of adversarially repurposing image classification neural networks for Natural Language Processing (NLP) and other sequence classification tasks. We design an efficient adversarial program that maps a sequence of discrete tokens into an image which can be classified to the desired class by an image classification model. We demonstrate that by using highly efficient adversarial programs, we can reprogram image classifiers to achieve competitive performance on a variety of text and sequence classification benchmarks without retraining the network.
翻訳日:2021-02-16 16:07:52 公開日:2021-02-15
# アトリビューションマスク:dnnの入力に再帰的に注意を向けることによる無関係な特徴のフィルタリング

Attribution Mask: Filtering Out Irrelevant Features By Recursively Focusing Attention on Inputs of DNNs ( http://arxiv.org/abs/2102.07332v1 )

ライセンス: Link先を確認
Jae-Hong Lee, Joon-Hyuk Chang(参考訳) 属性法は、入力特徴の重要な部分を強調することで、ディープニューラルネットワーク(DNN)の予測を視覚的に説明する属性を計算する。 特にgba(gradient-based attribution)法は自動微分によって容易に実装できるため広く用いられている。 本研究では,入力特徴の無関係部分をフィルタリングする属性を用いて,事前学習したDNNの分類精度を測定し,本手法の有効性を検証する。 これは、入力特徴に対して \textit{attribution mask} を計算して適用し、その後、マスクがターゲットラベルに関連する入力部分に対して再帰的に注意を集中するように設計されたDNNにマスク付き特徴を導入することで達成される。 精度は、特定の条件、すなわち、DNNを単層ニューラルネットワークに圧縮する理論的な洞察に基づいて導き出すことができる「textit{no implicit bias}」の下で向上される。 また、精度をさらに向上する属性マスクを得るために、Gradient\,*\,Sign-of -Input (GxSI) も提供する。 例えば、GxSIから得られた属性マスクを用いて修正されたCIFAR-10では、追加トレーニングなしで99.8\%から99.9\%の精度が得られる。

Attribution methods calculate attributions that visually explain the predictions of deep neural networks (DNNs) by highlighting important parts of the input features. In particular, gradient-based attribution (GBA) methods are widely used because they can be easily implemented through automatic differentiation. In this study, we use the attributions that filter out irrelevant parts of the input features and then verify the effectiveness of this approach by measuring the classification accuracy of a pre-trained DNN. This is achieved by calculating and applying an \textit{attribution mask} to the input features and subsequently introducing the masked features to the DNN, for which the mask is designed to recursively focus attention on the parts of the input related to the target label. The accuracy is enhanced under a certain condition, i.e., \textit{no implicit bias}, which can be derived based on our theoretical insight into compressing the DNN into a single-layer neural network. We also provide Gradient\,*\,Sign-of -Input (GxSI) to obtain the attribution mask that further improves the accuracy. As an example, on CIFAR-10 that is modified using the attribution mask obtained from GxSI, we achieve the accuracy ranging from 99.8\% to 99.9\% without additional training.
翻訳日:2021-02-16 16:07:36 公開日:2021-02-15
# 因果マルコフ決定プロセス:良い介入を効率的に学ぶ

Causal Markov Decision Processes: Learning Good Interventions Efficiently ( http://arxiv.org/abs/2102.07663v1 )

ライセンス: Link先を確認
Yangyi Lu, Amirhossein Meisami, Ambuj Tewari(参考訳) C-MDP(Causal Markov Decision Process)は、標準的なMDPの定式化と、状態遷移と報酬関数に関する因果構造を組み合わせた、シーケンシャルな意思決定の新しい形式である。 デジタルヘルスケアやデジタルマーケティングなどの現代および新興のアプリケーション分野は、介入と状態/報酬の関係の基礎となる因果機構のために、C-MDPによるモデリングの恩恵を受けることができます。 C-MDPの因果構造を利用し、因果知識を考慮に入れない標準強化学習アルゴリズムの性能を向上させる因果的高信頼境界値反復(C-UCBVI)アルゴリズムを提案する。 我々は、C-UCBVI が $\tilde{O}(HS\sqrt{ZT})$ 後悔境界を満たすことを証明している。ここでは、$T$ は総時間ステップ、$H$ はエピソド地平線、$S$ は状態空間のカーディナリティである。 特に、我々の後悔の束縛はアクション/インターベンションのサイズ(A$)でスケールしないが、因果グラフ依存量$Z$でのみスケールし、これは指数的に$A$より小さい。 C-UCBVI をファクタリング MDP 設定に拡張することにより, 因果的ファクタリング UCBVI (CF-UCBVI) アルゴリズムを提案する。 さらに,線形MDP問題に対するRLアルゴリズムもC-MDPに組み込むことができることを示す。 我々のアルゴリズムと理論的結果を検証するための様々な設定における因果的アプローチの利点を実証的に示す。

We introduce causal Markov Decision Processes (C-MDPs), a new formalism for sequential decision making which combines the standard MDP formulation with causal structures over state transition and reward functions. Many contemporary and emerging application areas such as digital healthcare and digital marketing can benefit from modeling with C-MDPs due to the causal mechanisms underlying the relationship between interventions and states/rewards. We propose the causal upper confidence bound value iteration (C-UCBVI) algorithm that exploits the causal structure in C-MDPs and improves the performance of standard reinforcement learning algorithms that do not take causal knowledge into account. We prove that C-UCBVI satisfies an $\tilde{O}(HS\sqrt{ZT})$ regret bound, where $T$ is the the total time steps, $H$ is the episodic horizon, and $S$ is the cardinality of the state space. Notably, our regret bound does not scale with the size of actions/intervention s ($A$), but only scales with a causal graph dependent quantity $Z$ which can be exponentially smaller than $A$. By extending C-UCBVI to the factored MDP setting, we propose the causal factored UCBVI (CF-UCBVI) algorithm, which further reduces the regret exponentially in terms of $S$. Furthermore, we show that RL algorithms for linear MDP problems can also be incorporated in C-MDPs. We empirically show the benefit of our causal approaches in various settings to validate our algorithms and theoretical results.
翻訳日:2021-02-16 16:03:34 公開日:2021-02-15
# タスクアメニブルデータ選択の強化による画像品質評価の学習

Learning image quality assessment by reinforcing task amenable data selection ( http://arxiv.org/abs/2102.07615v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Yunguan Fu, Zachary M. C. Baum, Qianye Yang, Mirabela Rusu, Richard E. Fan, Geoffrey A. Sonn, Dean C. Barratt, Yipeng Hu(参考訳) 本論文では, 画像の分類やセグメンテーションなど, 対象のタスクに適応できる画像を選択するために用いることができる, 課題別測定法として, 画像品質評価手法を検討する。 画像選択のための2つのニューラルネットワークと強化学習を用いた目標タスクを同時にトレーニングすることを提案する。 コントローラネットワークは、コントローラ選択された検証セット上の目標タスク性能に基づいて累積報酬を最大化し、訓練セットを用いて目標タスク予測者が最適化された画像選択ポリシーを学習する。 したがって、訓練されたコントローラは、ターゲットタスクの精度が低下する画像を拒否します。 本研究では,人間が手動で定義したタスク固有の画像品質ラベルと,コントローラが予測した画像品質が著しく異なることを示す。 さらに、``clean'' バリデーションセットを使わずに、効果的な画像品質評価を学習できることを実証し、作業の可視性に関して、画像の人間のラベル付けの要件を回避します。 259ドル(約2万5000円)の患者から6,712ドル(約6,700円)の超音波検査画像が得られた結果,ホールドアウトデータから得られた画像品質評価の結果から,取得した画像の平均分類精度は0.94\pm0.01$,平均セグメンテーションディスが0.89\pm0.02$,それぞれ$5\%$と$15\%$であることが判明した。 それぞれのネットワークの$0.90\pm0.01$と$0.82\pm0.02$と比較して,タスクの可愛さを考慮せずに,両タスクのパフォーマンスを著しく改善した。 これにより、多くの医療画像アプリケーションにおいて、リアルタイム超音波取得時の画質フィードバックが可能になる。

In this paper, we consider a type of image quality assessment as a task-specific measurement, which can be used to select images that are more amenable to a given target task, such as image classification or segmentation. We propose to train simultaneously two neural networks for image selection and a target task using reinforcement learning. A controller network learns an image selection policy by maximising an accumulated reward based on the target task performance on the controller-selected validation set, whilst the target task predictor is optimised using the training set. The trained controller is therefore able to reject those images that lead to poor accuracy in the target task. In this work, we show that the controller-predicted image quality can be significantly different from the task-specific image quality labels that are manually defined by humans. Furthermore, we demonstrate that it is possible to learn effective image quality assessment without using a ``clean'' validation set, thereby avoiding the requirement for human labelling of images with respect to their amenability for the task. Using $6712$, labelled and segmented, clinical ultrasound images from $259$ patients, experimental results on holdout data show that the proposed image quality assessment achieved a mean classification accuracy of $0.94\pm0.01$ and a mean segmentation Dice of $0.89\pm0.02$, by discarding $5\%$ and $15\%$ of the acquired images, respectively. The significantly improved performance was observed for both tested tasks, compared with the respective $0.90\pm0.01$ and $0.82\pm0.02$ from networks without considering task amenability. This enables image quality feedback during real-time ultrasound acquisition among many other medical imaging applications.
翻訳日:2021-02-16 16:02:36 公開日:2021-02-15
# Kernelizable Attentionにおける翻訳等価性

Translational Equivariance in Kernelizable Attention ( http://arxiv.org/abs/2102.07680v1 )

ライセンス: Link先を確認
Max Horn, Kumar Shridhar, Elrich Groenewald, Philipp F. M. Baumann(参考訳) トランスフォーマーアーキテクチャは目覚ましい成功を収めているが、入力要素の全てのペアの相互作用の計算に縛られ、拡張性に制限がある。 最近の研究は、完全な注意行列の計算を避けることで成功したが、問題は解決した。 明示的な注意行列の欠如は、要素間の相対的な相互作用に依存する誘導バイアスの包含をより困難にします。 非常に強力な誘導バイアスは、画像認識タスクにおけるConvolutional Neural Networksの成功の大部分を担っていると推測されている翻訳平衡である。 本稿では,カーネル化可能な注意 - 実行者に基づく効率的なトランスフォーマにおいて,翻訳等価性をどのように実装できるかを示す。 実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。 これは畳み込みニューラルネットワークをより表現力のあるトランスフォーマーアーキテクチャに置き換える重要なステップであり、この領域におけるサンプル効率とロバスト性を改善するのに役立つ。

While Transformer architectures have show remarkable success, they are bound to the computation of all pairwise interactions of input element and thus suffer from limited scalability. Recent work has been successful by avoiding the computation of the complete attention matrix, yet leads to problems down the line. The absence of an explicit attention matrix makes the inclusion of inductive biases relying on relative interactions between elements more challenging. An extremely powerful inductive bias is translational equivariance, which has been conjectured to be responsible for much of the success of Convolutional Neural Networks on image recognition tasks. In this work we show how translational equivariance can be implemented in efficient Transformers based on kernelizable attention - Performers. Our experiments highlight that the devised approach significantly improves robustness of Performers to shifts of input images compared to their naive application. This represents an important step on the path of replacing Convolutional Neural Networks with more expressive Transformer architectures and will help to improve sample efficiency and robustness in this realm.
翻訳日:2021-02-16 16:02:04 公開日:2021-02-15
# 人工ニューロンのトレードオフ: 敵対的堅牢性への影響

And/or trade-off in artificial neurons: impact on adversarial robustness ( http://arxiv.org/abs/2102.07389v1 )

ライセンス: Link先を確認
Alessandro Fontana(参考訳) 2013年に発見されて以来、敵対的な例の現象は機械学習コミュニティから注目を集めている。 問題のより深い理解は、ニューラルネットワークで情報がどのように処理され、エンコードされるかをよりよく理解し、より一般的には、機械学習の解釈可能性の問題を解決するのに役立ちます。 敵対的回復力を高めるという私たちの考えは、人工ニューロンがAND様ニューロンとOR様ニューロンの2つの広いカテゴリーに分けられるという観察から始まります。 直感的には、前者はニューロンの活性化を引き起こす入力値の比較的少ない組み合わせによって特徴づけられるが、後者は真である。 我々の仮説は、十分な数のOR様ニューロンのネットワークの存在は、分類「脆さ」につながり、ネットワークが敵対攻撃に対する感受性を高めることができるということです。 l1ノルム重み正規化(l1 norm weight normalization)、入力フィルタの適用(input filter)、ネットワークが実際のデータセットで供給された時に得られるニューロン出力の分布と、ネットワークが前者のランダム化されたバージョンで供給された場合の分布の比較(scrambled data set)である。 MNISTデータセットで実施されたテストは、提案された措置が調査の興味深い方向を示す可能性があることを示唆している。

Since its discovery in 2013, the phenomenon of adversarial examples has attracted a growing amount of attention from the machine learning community. A deeper understanding of the problem could lead to a better comprehension of how information is processed and encoded in neural networks and, more in general, could help to solve the issue of interpretability in machine learning. Our idea to increase adversarial resilience starts with the observation that artificial neurons can be divided in two broad categories: AND-like neurons and OR-like neurons. Intuitively, the former are characterised by a relatively low number of combinations of input values which trigger neuron activation, while for the latter the opposite is true. Our hypothesis is that the presence in a network of a sufficiently high number of OR-like neurons could lead to classification "brittleness" and increase the network's susceptibility to adversarial attacks. After constructing an operational definition of a neuron AND-like behaviour, we proceed to introduce several measures to increase the proportion of AND-like neurons in the network: L1 norm weight normalisation; application of an input filter; comparison between the neuron output's distribution obtained when the network is fed with the actual data set and the distribution obtained when the network is fed with a randomised version of the former called "scrambled data set". Tests performed on the MNIST data set hint that the proposed measures could represent an interesting direction to explore.
翻訳日:2021-02-16 16:00:21 公開日:2021-02-15
# ソフトウェアエンジニアリングの視点から見た機械学習モデルの開発:システム文学のレビュー

Machine Learning Model Development from a Software Engineering Perspective: A Systematic Literature Review ( http://arxiv.org/abs/2102.07574v1 )

ライセンス: Link先を確認
Giuliano Lorenzoni and Paulo Alencar and Nathalia Nascimento and Donald Cowan(参考訳) データサイエンティストは、しばしば機械学習モデルを開発し、業界やアカデミーのさまざまな問題を解決するが、モデル開発に関していくつかの課題に直面していない。 機械学習開発に関する問題は、そのような専門家が、ソフトウェア開発ライフサイクルで提示された活動の採用によって改善できるアドホックなプラクティスを通常実行していることに気付かないという事実を含む。 もちろん、機械学習システムは従来のソフトウェアシステムとは異なるので、それぞれの開発プロセスにいくつかの違いが期待される。 本稿では,従来のソフトウェア工学プロセスを機械学習ワークフローに適用・適用することで,ソフトウェア開発者がどのようなメリットを享受できるかを理解することにより,ソフトウェア工学の観点からmlモデル開発中に生じる課題とプラクティスについて検討する。

Data scientists often develop machine learning models to solve a variety of problems in the industry and academy but not without facing several challenges in terms of Model Development. The problems regarding Machine Learning Development involves the fact that such professionals do not realize that they usually perform ad-hoc practices that could be improved by the adoption of activities presented in the Software Engineering Development Lifecycle. Of course, since machine learning systems are different from traditional Software systems, some differences in their respective development processes are to be expected. In this context, this paper is an effort to investigate the challenges and practices that emerge during the development of ML models from the software engineering perspective by focusing on understanding how software developers could benefit from applying or adapting the traditional software engineering process to the Machine Learning workflow.
翻訳日:2021-02-16 15:59:57 公開日:2021-02-15
# 信号時間論理を用いたデモンストレーションからの学習

Learning from Demonstrations using Signal Temporal Logic ( http://arxiv.org/abs/2102.07730v1 )

ライセンス: Link先を確認
Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis(参考訳) 報酬関数を明示的に設計することなく強化学習によって複雑なタスクのための効果的なロボット制御ポリシーを得るための新しいパラダイムである。 しかし、実証における欠陥の影響を受けやすく、学習された制御方針における安全性と解釈可能性の懸念も高まる。 これらの問題に対処するために,我々は信号時相論理を用いて実演の質を評価しランク付けする。 時相論理ベースの仕様により、非マルコフ的報酬を作成でき、シーケンシャルタスク仕様のようなタスク間の興味深い因果依存関係も定義できます。 離散世界およびOpenAIジム環境に関する実験を通じて、私たちのアプローチが最先端の最大因果的エントロピー逆強化学習よりも優れていることを示しています。

Learning-from-demons trations is an emerging paradigm to obtain effective robot control policies for complex tasks via reinforcement learning without the need to explicitly design reward functions. However, it is susceptible to imperfections in demonstrations and also raises concerns of safety and interpretability in the learned control policies. To address these issues, we use Signal Temporal Logic to evaluate and rank the quality of demonstrations. Temporal logic-based specifications allow us to create non-Markovian rewards, and also define interesting causal dependencies between tasks such as sequential task specifications. We validate our approach through experiments on discrete-world and OpenAI Gym environments, and show that our approach outperforms the state-of-the-art Maximum Causal Entropy Inverse Reinforcement Learning.
翻訳日:2021-02-16 15:59:17 公開日:2021-02-15
# 線形関数近似を用いた無限ホリゾン平均回帰mdp学習のための最短最適後悔

Nearly Minimax Optimal Regret for Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation ( http://arxiv.org/abs/2102.07301v1 )

ライセンス: Link先を確認
Yue Wu and Dongruo Zhou and Quanquan Gu(参考訳) 本研究では,マルコフ決定過程(MDP)の遷移確率関数が,現在の状態,動作,次の状態の特徴写像上の線形形式を認める線形関数近似を用いた無限水平平均報酬設定による強化学習について検討する。 本論文では, 線形関数近似を用いた UCRL2 アルゴリズムの拡張として見ることのできる新しいアルゴリズム UCRL2-VTR を提案する。 ベルンシュタイン型ボーナスを持つ UCRL2-VTR は $\tilde{O}(d\sqrt{DT})$ の後悔を達成できることを示した。ここで $d$ は特徴写像の次元、$T$ は地平線、$\sqrt{D}$ は MDP の直径である。 提案された UCRL2-VTR が対数因子までの最小最大値であることを示唆する、マッチングする低い有界 $\tilde{\Omega}(d\sqrt{DT})$ も証明する。 我々の知る限りでは、我々のアルゴリズムは無限ホライゾン平均回帰設定で関数近似を持つ最初の最小最大最適rlアルゴリズムである。

We study reinforcement learning in an infinite-horizon average-reward setting with linear function approximation, where the transition probability function of the underlying Markov Decision Process (MDP) admits a linear form over a feature mapping of the current state, action, and next state. We propose a new algorithm UCRL2-VTR, which can be seen as an extension of the UCRL2 algorithm with linear function approximation. We show that UCRL2-VTR with Bernstein-type bonus can achieve a regret of $\tilde{O}(d\sqrt{DT})$, where $d$ is the dimension of the feature mapping, $T$ is the horizon, and $\sqrt{D}$ is the diameter of the MDP. We also prove a matching lower bound $\tilde{\Omega}(d\sqrt{DT})$, which suggests that the proposed UCRL2-VTR is minimax optimal up to logarithmic factors. To the best of our knowledge, our algorithm is the first nearly minimax optimal RL algorithm with function approximation in the infinite-horizon average-reward setting.
翻訳日:2021-02-16 15:56:22 公開日:2021-02-15
# 2レベル最適化のためのモーメンタム支援シングルタイムスケール確率近似アルゴリズム

A Momentum-Assisted Single-Timescale Stochastic Approximation Algorithm for Bilevel Optimization ( http://arxiv.org/abs/2102.07367v1 )

ライセンス: Link先を確認
Prashant Khanduri, Siliang Zeng, Mingyi Hong, Hoi-To Wai, Zhaoran Wang and Zhuoran Yang(参考訳) 本稿では、制約のない二段階最適化問題に対処するための新しいアルゴリズム、Momentum-assisted Single-timescale Stochastic Approximation (MSTSA)を提案する。 低レベルサブプロブレムが強凸である2レベル問題に焦点を当てる。 下層サブプロブレムに対する最適解を追跡する2つの時間スケールまたは2重ループ技術に依存する先行研究とは異なり、上層サブプロブレム更新のための確率運動量補助勾配推定器を設計する。 後者は、低レベル部分問題に対する不正確な解のために確率的勾配更新の誤りを徐々に制御できる。 上目的関数が滑らかであるが,非凸(resp)であることを示す。 強凸) MSTSA は $\mathcal{O}(\epsilon^{-2})$ (resp) を必要とする。 $\mathcal{o}(\epsilon^{-1})$) 反復(それぞれ定数サンプルを使用する)は、$\epsilon$-stationar y (resp.) を見つける。 $\epsilon$-optimal) ソリューション。 これにより、確率的双レベル問題に対する最もよく知られた保証が得られる。 MSTSAアルゴリズムのハイパーパラメータ最適化およびデータハイパークリーニング問題に対する効率性を示すことにより、理論結果を検証する。

This paper proposes a new algorithm -- the Momentum-assisted Single-timescale Stochastic Approximation (MSTSA) -- for tackling unconstrained bilevel optimization problems. We focus on bilevel problems where the lower level subproblem is strongly-convex. Unlike prior works which rely on two timescale or double loop techniques that track the optimal solution to the lower level subproblem, we design a stochastic momentum assisted gradient estimator for the upper level subproblem's updates. The latter allows us to gradually control the error in stochastic gradient updates due to inaccurate solution to the lower level subproblem. We show that if the upper objective function is smooth but possibly non-convex (resp. strongly-convex), MSTSA requires $\mathcal{O}(\epsilon^{-2})$ (resp. $\mathcal{O}(\epsilon^{-1})$) iterations (each using constant samples) to find an $\epsilon$-stationar y (resp. $\epsilon$-optimal) solution. This achieves the best-known guarantees for stochastic bilevel problems. We validate our theoretical results by showing the efficiency of the MSTSA algorithm on hyperparameter optimization and data hyper-cleaning problems.
翻訳日:2021-02-16 15:55:58 公開日:2021-02-15
# 線形関数近似を用いた2プレイヤーマルコフゲームに対する近似最適アルゴリズム

Almost Optimal Algorithms for Two-player Markov Games with Linear Function Approximation ( http://arxiv.org/abs/2102.07404v1 )

ライセンス: Link先を確認
Zixiang Chen and Dongruo Zhou and Quanquan Gu(参考訳) 基本となるマルコフゲームの遷移カーネルを,現在の状態,プレイヤーの行動,次の状態の線型関数でパラメータ化することができる,有限水平設定における同時移動による2プレイヤーゼロサムマルコフゲームの強化学習について検討する。 特に、両プレイヤーを制御でき、双対性ギャップを最小化してナッシュ平衡を求めることができると仮定する。 本論文では, "Optimism-in-Face-of- Uncertainty" の原理に基づくアルゴリズム Nash-UCRL-VTR を提案する。 我々のアルゴリズムは、計算的に非常に効率的である粗相関平衡(CCE)を見つける必要がある。 具体的には,Nash-UCRL-VTR が$\tilde{O}(dH\sqrt{T})$ regret を確実に達成できることを示し,$d$ は線形関数次元,$H$ はゲームの長さ,$T$ はゲームのステップの総数である。 アルゴリズムの最適性にアクセスするために、後悔に対して$\tilde{\Omega}(dH\sqrt{T})$ローバウンドを証明した。 我々の上限は対数因子に対する下限に一致し、アルゴリズムの最適性が示唆される。

We study reinforcement learning for two-player zero-sum Markov games with simultaneous moves in the finite-horizon setting, where the transition kernel of the underlying Markov games can be parameterized by a linear function over the current state, both players' actions and the next state. In particular, we assume that we can control both players and aim to find the Nash Equilibrium by minimizing the duality gap. We propose an algorithm Nash-UCRL-VTR based on the principle "Optimism-in-Face-of- Uncertainty". Our algorithm only needs to find a Coarse Correlated Equilibrium (CCE), which is computationally very efficient. Specifically, we show that Nash-UCRL-VTR can provably achieve an $\tilde{O}(dH\sqrt{T})$ regret, where $d$ is the linear function dimension, $H$ is the length of the game and $T$ is the total number of steps in the game. To access the optimality of our algorithm, we also prove an $\tilde{\Omega}( dH\sqrt{T})$ lower bound on the regret. Our upper bound matches the lower bound up to logarithmic factors, which suggests the optimality of our algorithm.
翻訳日:2021-02-16 15:55:38 公開日:2021-02-15
# 不均一および動的速度場に対するスケーラブルな非パラメトリックベイズ学習

Scalable nonparametric Bayesian learning for heterogeneous and dynamic velocity fields ( http://arxiv.org/abs/2102.07695v1 )

ライセンス: Link先を確認
Sunrit Chakraborty, Aritra Guha, Rayleigh Lei, XuanLong Nguyen(参考訳) 複雑な時空間データにおける異種パターンの分析は、複雑な交通シナリオをナビゲートする自動運転車のトレーニングを含む、応用科学とエンジニアリングのさまざまな領域での使用法を見つけます。 本稿では,輸送領域で発生する応用を動機として,速度場データの不均一かつ動的パターンを学習するモデルを提案する。 階層的ディリクレ過程や無限隠れマルコフモデルのような基本的な非平行ベイズモデリング要素から導出し、各均質な速度場要素の滑らかさはガウス過程によって事前にキャプチャされる。 特に,提案モデルに対して,無限HMMモデルからの逐次MAP推定と,シミュレーションされたデータセットに効果的に作用する効率的な逐次GP後続計算手法を用いることにより,拡張性のある近似推定手法を実現する。 最後に、複雑なマルチ車両インタラクションのNGSIMデータセットに対する当社の技術の有効性を実証します。

Analysis of heterogeneous patterns in complex spatio-temporal data finds usage across various domains in applied science and engineering, including training autonomous vehicles to navigate in complex traffic scenarios. Motivated by applications arising in the transportation domain, in this paper we develop a model for learning heterogeneous and dynamic patterns of velocity field data. We draw from basic nonparameric Bayesian modeling elements such as hierarchical Dirichlet process and infinite hidden Markov model, while the smoothness of each homogeneous velocity field element is captured with a Gaussian process prior. Of particular focus is a scalable approximate inference method for the proposed model; this is achieved by employing sequential MAP estimates from the infinite HMM model and an efficient sequential GP posterior computation technique, which is shown to work effectively on simulated data sets. Finally, we demonstrate the effectiveness of our techniques to the NGSIM dataset of complex multi-vehicle interactions.
翻訳日:2021-02-16 15:55:14 公開日:2021-02-15
# CAP-GAN: towards_Adversarial_ Robustness_with_Cycl e-consistent_Attenti onal_Purification

CAP-GAN: Towards_Adversarial_ Robustness_with_Cycl e-consistent_Attenti onal_Purification ( http://arxiv.org/abs/2102.07304v1 )

ライセンス: Link先を確認
Mingu Kang, Trung Quang Tran, Seungju Cho, Daeyoung Kim(参考訳) 敵対攻撃は、知覚不能な摂動でターゲット分類器をだますことを目的としています。 悪意のある目的によって慎重に作られた敵の例は誤った予測につながり、破滅的な事故に繋がる。 敵攻撃の影響を軽減するため,CAP-GANと呼ばれる新しい浄化モデルを提案する。 CAP-GANは、サイクル一貫性学習の下で適切な浄化を実現するために、ピクセルレベルと特徴レベルの整合性の概念を考慮に入れている。 具体的には, 誘導注意モジュールと知識蒸留を用いて, 浄化モデルに有意義な情報を伝える。 モデルを完全に訓練すると、入力は精製モデルに投影され、クリーンな画像に変換される。 私たちは、さまざまなタイプの攻撃戦略に対する堅牢性を議論するために敵の能力を変えます。 CIFAR-10データセットでは、CAP-GANは他の前処理ベースの防御よりもブラックボックスとホワイトボックスの両方の設定で優れています。

Adversarial attack is aimed at fooling the target classifier with imperceptible perturbation. Adversarial examples, which are carefully crafted with a malicious purpose, can lead to erroneous predictions, resulting in catastrophic accidents. To mitigate the effects of adversarial attacks, we propose a novel purification model called CAP-GAN. CAP-GAN takes account of the idea of pixel-level and feature-level consistency to achieve reasonable purification under cycle-consistent learning. Specifically, we utilize the guided attention module and knowledge distillation to convey meaningful information to the purification model. Once a model is fully trained, inputs would be projected into the purification model and transformed into clean-like images. We vary the capacity of the adversary to argue the robustness against various types of attack strategies. On the CIFAR-10 dataset, CAP-GAN outperforms other pre-processing based defenses under both black-box and white-box settings.
翻訳日:2021-02-16 15:54:38 公開日:2021-02-15
# 深層学習を用いたCT画像におけるCOVID-19の検出と重症度分類

Detection and severity classification of COVID-19 in CT images using deep learning ( http://arxiv.org/abs/2102.07726v1 )

ライセンス: Link先を確認
Yazan Qiblawey, Anas Tahir, Muhammad E. H. Chowdhury, Amith Khandakar, Serkan Kiranyaz, Tawsifur Rahman, Nabil Ibtehaz, Sakib Mahmud, Somaya Al-Madeed, Farayi Musharavati(参考訳) 新型コロナウイルス(COVID-19)の流行以来、コンピュータによる診断はウイルスの拡散を防ぐために必要になっています。 患者の死亡リスクを減らすには、早期にCOVID-19を検出することが不可欠です。 本研究では,CT画像から肺の分画,局所化,定量化を行うカスケードシステムを提案するとともに,感染した肺の割合に基づいて,新型コロナウイルスの重症度を軽度,中等度,重度,重要度と分類する。 最先端の深層エンコーダ・デコーダ・畳み込みニューラルネットワーク(ED-CNN)、UNet、Feature Pyramid Network(FPN)を用いて、さまざまなバックボーン(エンコーダ)構造をDenseNetとResNetの変種を用いて、幅広い実験を行った。 実験の結果、DenseNet 161エンコーダを用いたU-Netモデルを用いて、Dice similarity Coefficient (DSC) 97.19%、Intersection over Union (IoU) 95.10%の肺領域セグメンテーションに最適な性能を示した。 さらに,dscの94.13%,iouの91.85%で,drknet201エンコーダを用いたfpnモデルを用いて,covid-19感染セグメンテーションのエレガントな性能を得た。 達成された性能は、以前のCOVID-19病変の局在化方法よりも有意に優れている。 また,本システムでは, 様々な形態や大きさの感染, 特に近年の研究ではまれな小さな感染地域を確実に局在させることができる。 さらに、99.64%の感度と98.72%の特異性で高いCOVID-19検出性能を達成した。 最後に、このシステムは、98.3%、71.2%、77.8%、および100%の感受性値を持つ1,110人の被験者のデータセット上で、軽度、中等度、重度、臨界性感染症の異なる重症度レベルを区別することができました。

Since the breakout of coronavirus disease (COVID-19), the computer-aided diagnosis has become a necessity to prevent the spread of the virus. Detecting COVID-19 at an early stage is essential to reduce the mortality risk of the patients. In this study, a cascaded system is proposed to segment the lung, detect, localize, and quantify COVID-19 infections from computed tomography (CT) images Furthermore, the system classifies the severity of COVID-19 as mild, moderate, severe, or critical based on the percentage of infected lungs. An extensive set of experiments were performed using state-of-the-art deep Encoder-Decoder Convolutional Neural Networks (ED-CNNs), UNet, and Feature Pyramid Network (FPN), with different backbone (encoder) structures using the variants of DenseNet and ResNet. The conducted experiments showed the best performance for lung region segmentation with Dice Similarity Coefficient (DSC) of 97.19% and Intersection over Union (IoU) of 95.10% using U-Net model with the DenseNet 161 encoder. Furthermore, the proposed system achieved an elegant performance for COVID-19 infection segmentation with a DSC of 94.13% and IoU of 91.85% using the FPN model with the DenseNet201 encoder. The achieved performance is significantly superior to previous methods for COVID-19 lesion localization. Besides, the proposed system can reliably localize infection of various shapes and sizes, especially small infection regions, which are rarely considered in recent studies. Moreover, the proposed system achieved high COVID-19 detection performance with 99.64% sensitivity and 98.72% specificity. Finally, the system was able to discriminate between different severity levels of COVID-19 infection over a dataset of 1,110 subjects with sensitivity values of 98.3%, 71.2%, 77.8%, and 100% for mild, moderate, severe, and critical infections, respectively.
翻訳日:2021-02-16 15:54:21 公開日:2021-02-15
# モンテカルロの焼鈍流輸送

Annealed Flow Transport Monte Carlo ( http://arxiv.org/abs/2102.07501v1 )

ライセンス: Link先を確認
Michael Arbel, Alexander G. D. G. Matthews, Arnaud Doucet(参考訳) Annealed Importance Sampling(AIS)とそのSequential Monte Carlo(SMC)拡張は、確率分布の正規化定数を推定するための最先端の方法です。 本稿では,AISとSMCを基盤としたモンテカルロの新しいアルゴリズムであるアニールドフロートランスポート(AFT)を提案し,それを正規化フロー(NF)と組み合わせ,性能向上を図る。 この方法は、重要サンプリング(IS)、マルコフチェーンモンテカルロ(MCMC)および再サンプリングステップ(SMC)だけでなく、連続アニールターゲットに向かって粒子をプッシュするために順次学習NFに依存するだけでなく、粒子のセットを輸送します。 我々は、目標分布に関する正規化定数と期待のモンテカルロ推定の極限定理を提供する。 さらに, AFT の個体数の連続的スケーリング限界は, 表現的 NF に対する制御拡散の法則を単純化する Feynman-Kac 測度によって与えられることを示した。 様々なアプリケーションにおける方法論の利点と限界を実験的に示します。

Annealed Importance Sampling (AIS) and its Sequential Monte Carlo (SMC) extensions are state-of-the-art methods for estimating normalizing constants of probability distributions. We propose here a novel Monte Carlo algorithm, Annealed Flow Transport (AFT), that builds upon AIS and SMC and combines them with normalizing flows (NF) for improved performance. This method transports a set of particles using not only importance sampling (IS), Markov chain Monte Carlo (MCMC) and resampling steps - as in SMC, but also relies on NF which are learned sequentially to push particles towards the successive annealed targets. We provide limit theorems for the resulting Monte Carlo estimates of the normalizing constant and expectations with respect to the target distribution. Additionally, we show that a continuous-time scaling limit of the population version of AFT is given by a Feynman--Kac measure which simplifies to the law of a controlled diffusion for expressive NF. We demonstrate experimentally the benefits and limitations of our methodology on a variety of applications.
翻訳日:2021-02-16 15:53:14 公開日:2021-02-15
# バッチモードアクティブ学習のための関節エントロピーの最大化

Maximizing Joint Entropy for Batch-Mode Active Learning of Perceptual Metrics ( http://arxiv.org/abs/2102.07365v1 )

ライセンス: Link先を確認
Priyadarshini Kumari, Sidhdhartha Chaudhuri, Vivek Borkar, Subhasis Chaudhuri(参考訳) アクティブメトリックラーニング(Active metric Learning)は、いくつかの入力ドメイン上のメトリクスの学習モデルを可能な限り迅速に改善するために、アノテーションするトレーニングデータ(通常、順序付きトリプレット)のバッチを段階的に選択する問題である。 バッチ内で各トリプレットを独立に選択する標準的なアプローチは、多くの冗長なトリプレットを持つ高い相関性を持つバッチに影響を受けやすいため、全体的な有用性は低い。 計量学習のためのデコリ関連バッチの選択は近年行われているが、これらの方法は同時に2つの三重項間の相関を推定するためにアドホックなヒューリスティックに依存する。 本稿では,最大エントロピー原理(Maximum Entropy Principle)を用いて,最大関節エントロピーをもつバッチをまとめて選択するバッチモードアクティブメトリック学習手法を提案する。 エントロピーは、ドロップアウトによって推定される2次統計から導かれる。 単調に増加するサブモジュラエントロピー関数を利用して、$\left(1 - \frac{1}{e} \right)$-optimalであるGram-Schmidt直交に基づく効率的な勾配アルゴリズムを構築する。 私たちのアプローチは、トリプルレット全体の情報性と多様性のバランスをとる統一されたスコアを定義する最初のバッチモードアクティブメトリック学習方法です。 いくつかの実世界のデータセットによる実験では、我々のアルゴリズムは堅牢であり、常に最先端のアルゴリズムよりも優れています。

Active metric learning is the problem of incrementally selecting batches of training data (typically, ordered triplets) to annotate, in order to progressively improve a learned model of a metric over some input domain as rapidly as possible. Standard approaches, which independently select each triplet in a batch, are susceptible to highly correlated batches with many redundant triplets and hence low overall utility. While there has been recent work on selecting decorrelated batches for metric learning \cite{kumari2020batch}, these methods rely on ad hoc heuristics to estimate the correlation between two triplets at a time. We present a novel approach for batch mode active metric learning using the Maximum Entropy Principle that seeks to collectively select batches with maximum joint entropy, which captures both the informativeness and the diversity of the triplets. The entropy is derived from the second-order statistics estimated by dropout. We take advantage of the monotonically increasing submodular entropy function to construct an efficient greedy algorithm based on Gram-Schmidt orthogonalization that is provably $\left( 1 - \frac{1}{e} \right)$-optimal. Our approach is the first batch-mode active metric learning method to define a unified score that balances informativeness and diversity for an entire batch of triplets. Experiments with several real-world datasets demonstrate that our algorithm is robust and consistently outperforms the state-of-the-art.
翻訳日:2021-02-16 15:52:55 公開日:2021-02-15
# Zero-Shot Physics-Guided Deep Learningを用いた走査型MRI再構成

Scan-Specific MRI Reconstruction using Zero-Shot Physics-Guided Deep Learning ( http://arxiv.org/abs/2102.07737v1 )

ライセンス: Link先を確認
Burhaneddin Yaman, Seyed Amir Hossein Hosseini, Mehmet Ak\c{c}akaya(参考訳) 物理学的ガイド付きディープラーニング(PG-DL)は、MRIの再構築を加速するための強力なツールとして登場しました。 最近の自己監督と教師なしの学習アプローチは、完全なサンプルデータなしでトレーニングを可能にします。 しかし、アンダーサンプル測定のデータベースは多くのシナリオでは利用できないかもしれない。特にコントラストや最近開発されたシーケンスを含むスキャンでは、スキャン固有のPG-DL再構成のための新しい手法が必要である。 スキャン固有のpg-dl法を開発する上での最大の課題はパラメータの多さである。 さらに、SNR、画像コントラスト、サンプリングパターンの点で異なる未知の測定に、データベースが学習したモデルは一般化できない。 本研究では,スキャン特異的なPG-DL再構築を行うためのゼロショット自己監督学習手法を提案する。 提案手法は、各スキャンの利用可能な測定値を3つの不一致セットに分割する。 これら2セットはデータの一貫性を強制し、トレーニング中に損失を定義するために使用され、最後のセットは早期停止基準を確立するために使用される。 データベース上で事前トレーニングされたモデルが存在する場合,提案手法はトランスファー・ラーニングによるスキャン固有の微調整に適応し,再構築の質をさらに向上できることを示す。

Physics-guided deep learning (PG-DL) has emerged as a powerful tool for accelerated MRI reconstruction, while often necessitating a database of fully-sampled measurements for training. Recent self-supervised and unsupervised learning approaches enable training without fully-sampled data. However, a database of undersampled measurements may not be available in many scenarios, especially for scans involving contrast or recently developed sequences, necessitating new methodology for scan-specific PG-DL reconstructions. A main challenge for developing scan-specific PG-DL methods is the large number of parameters, making it prone to over-fitting. Moreover, database-trained models may not generalize to unseen measurements that differ in terms of SNR, image contrast or sampling pattern. In this work, we propose a zero-shot self-supervised learning approach to perform scan-specific PG-DL reconstruction to tackle these issues. The proposed approach splits available measurements for each scan into three disjoint sets. Two of these sets are used to enforce data consistency and define loss during training, while the last set is used to establish an early stopping criterion. In the presence of models pre-trained on a database, we show that the proposed approach can be adapted as scan-specific fine-tuning via transfer learning to further improve reconstruction quality.
翻訳日:2021-02-16 15:52:27 公開日:2021-02-15
# MATCH: 大規模階層におけるメタデータ対応テキスト分類

MATCH: Metadata-Aware Text Classification in A Large Hierarchy ( http://arxiv.org/abs/2102.07349v1 )

ライセンス: Link先を確認
Yu Zhang, Zhihong Shen, Yuxiao Dong, Kuansan Wang, Jiawei Han(参考訳) マルチラベルテキスト分類は、各文書をラベルセットから最も関連性の高いラベルに割り当てる問題を指す。 一般的に、与えられた文書のメタデータとラベルの階層は現実世界のアプリケーションで利用可能である。 しかし、既存の研究のほとんどはテキスト情報のモデリングのみに焦点を当てており、メタデータや階層信号を利用する試みもいくつかあるが、どちらもそうではない。 本稿では,大規模なラベル階層(例えば,数万のラベルを持つ)におけるメタデータ対応テキスト分類の問題を形式化し,そのギャップを埋める。 この問題に対処するために、メタデータと階層情報の両方を活用するエンドツーエンドフレームワークであるMATCHソリューションを提案する。 メタデータを組み込むために、同じ空間にテキストとメタデータの埋め込みを事前学習し、また、完全に接続された注意を活用してそれらの相互関係を捉える。 ラベル階層を活用するために,親による各チャイルドラベルのパラメータと出力確率を正規化するさまざまな方法を提案する。 大規模ラベル階層を持つ2つの大規模テキストデータセットに対する大規模な実験は、最先端のディープラーニングベースラインに対するMATCHの有効性を示す。

Multi-label text classification refers to the problem of assigning each given document its most relevant labels from the label set. Commonly, the metadata of the given documents and the hierarchy of the labels are available in real-world applications. However, most existing studies focus on only modeling the text information, with a few attempts to utilize either metadata or hierarchy signals, but not both of them. In this paper, we bridge the gap by formalizing the problem of metadata-aware text classification in a large label hierarchy (e.g., with tens of thousands of labels). To address this problem, we present the MATCH solution -- an end-to-end framework that leverages both metadata and hierarchy information. To incorporate metadata, we pre-train the embeddings of text and metadata in the same space and also leverage the fully-connected attentions to capture the interrelations between them. To leverage the label hierarchy, we propose different ways to regularize the parameters and output probability of each child label by its parents. Extensive experiments on two massive text datasets with large-scale label hierarchies demonstrate the effectiveness of MATCH over state-of-the-art deep learning baselines.
翻訳日:2021-02-16 15:51:07 公開日:2021-02-15
# 意図分類のための事前学習音声および言語モデルからの音響・言語埋め込みの活用

Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and language Models for Intent Classification ( http://arxiv.org/abs/2102.07370v1 )

ライセンス: Link先を確認
Bidisha Sharma, Maulik Madhavi and Haizhou Li(参考訳) インテント分類は、言語理解におけるタスクである。 インテント分類システムは、通常パイプラインプロセスとして実装され、音声認識モジュールにインテントを分類するテキスト処理が続く。 また、音響特徴を入力として直接意図を分類するエンドツーエンドシステムの研究もある。 このようなシステムは関連する言語情報を活用せず、限られた訓練データに悩まされる。 本研究では,事前学習した音声認識システムから抽出した音響特徴と,事前学習した言語モデルから学習した言語特徴を利用する,新たな意図分類フレームワークを提案する。 我々は知識蒸留技術を用いて音響埋め込みを言語埋め込みにマッピングする。 我々は、意図を分類するクロスアテンションアプローチを通じて、音響的および言語的埋め込みの融合を行う。 提案手法では,atisと流行った音声コーパスで90.86%,99.07%の精度をそれぞれ達成した。

Intent classification is a task in spoken language understanding. An intent classification system is usually implemented as a pipeline process, with a speech recognition module followed by text processing that classifies the intents. There are also studies of end-to-end system that takes acoustic features as input and classifies the intents directly. Such systems don't take advantage of relevant linguistic information, and suffer from limited training data. In this work, we propose a novel intent classification framework that employs acoustic features extracted from a pretrained speech recognition system and linguistic features learned from a pretrained language model. We use knowledge distillation technique to map the acoustic embeddings towards linguistic embeddings. We perform fusion of both acoustic and linguistic embeddings through cross-attention approach to classify intents. With the proposed method, we achieve 90.86% and 99.07% accuracy on ATIS and Fluent speech corpus, respectively.
翻訳日:2021-02-16 15:50:49 公開日:2021-02-15
# MAPGN:MAsked Pointer-Generator Network for sequence-to-Sequence pre-training

MAPGN: MAsked Pointer-Generator network for sequence-to-sequence pre-training ( http://arxiv.org/abs/2102.07380v1 )

ライセンス: Link先を確認
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi and Ryo Masumura(参考訳) 本稿では,ポインタ生成ネットワークにおける自己教師付き学習手法を提案する。 機械翻訳や要約といったその後の処理を改善する上で,音声スタイルテキストをスタイル正規化テキストに変換する音声テキスト正規化が重要な技術になりつつある。 これまで最も成功した音声テキスト正規化手法は、入力シーケンスからコピー機構を持つポインタ生成ネットワークを用いたシーケンシャル・ツー・シーケンス(seq2seq)マッピングである。 しかし,これらのモデルには音声文と正規化文のペアデータが多く必要であり,そのような量のデータを作成することは困難である。 限られたペアリングデータから発話テキスト正規化モデルを構築するために,無対のテキストデータを利用してseq2seqモデルを改善する自己監視学習に重点を置いている。 残念なことに,従来の自己監視学習手法では,ポインタ生成ネットワークの利用は想定されていない。 そこで本研究では,MAsked Pointer-Generator Network (MAPGN) を提案する。 提案手法は,コピー機構を用いてマスクトークンを埋めることを学ぶことにより,ポインタ生成ネットワークを効果的にプリトレーニングすることができる。 実験により,MAPGNは2つの音声テキスト正規化タスクにおける従来の自己教師付き学習手法よりもポインタジェネレータネットワークに有効であることが示された。

This paper presents a self-supervised learning method for pointer-generator networks to improve spoken-text normalization. Spoken-text normalization that converts spoken-style text into style normalized text is becoming an important technology for improving subsequent processing such as machine translation and summarization. The most successful spoken-text normalization method to date is sequence-to-sequence (seq2seq) mapping using pointer-generator networks that possess a copy mechanism from an input sequence. However, these models require a large amount of paired data of spoken-style text and style normalized text, and it is difficult to prepare such a volume of data. In order to construct spoken-text normalization model from the limited paired data, we focus on self-supervised learning which can utilize unpaired text data to improve seq2seq models. Unfortunately, conventional self-supervised learning methods do not assume that pointer-generator networks are utilized. Therefore, we propose a novel self-supervised learning method, MAsked Pointer-Generator Network (MAPGN). The proposed method can effectively pre-train the pointer-generator network by learning to fill masked tokens using the copy mechanism. Our experiments demonstrate that MAPGN is more effective for pointer-generator networks than the conventional self-supervised learning methods in two spoken-text normalization tasks.
翻訳日:2021-02-16 15:50:35 公開日:2021-02-15
# Zero-Shot Cross-Lingual and Lightweight Monolingual Classification of Registers (英語)

Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight Monolingual Classification of Registers ( http://arxiv.org/abs/2102.07396v1 )

ライセンス: Link先を確認
Liina Repo, Valtteri Skantsi, Samuel R\"onnqvist, Saara Hellstr\"om, Miika Oinonen, Anna Salmela, Douglas Biber, Jesse Egbert, Sampo Pyysalo and Veronika Laippala(参考訳) Web文書のレジスタ分類のクロスリンガル転送について検討する。 登録書、すなわち、ブログやニュースなどのテキストの変種は言語変化の予測因子の1つであり、したがって言語の自動処理に影響を与える。 フランス語とスウェーデン語の2つの新しいレジスタアノテートコーポラ、FreCOREとSweCOREを紹介します。 深い学習済み言語モデルがこれらの言語で強く機能し、英語とフィンランド語の以前の最先端を上回っていることを実証します。 具体的には,1)大英語コアコーパスからのゼロショットクロスリンガルトランスファーは,先行した単一リンガルモデルと一致し,また,2)非常に少ないトレーニングデータを必要とする軽量な単言語分類では,ゼロショット性能に到達あるいは超えうることを示す。 さらに分類結果から,特定のレジスタが特に言語間移動に課題を呈し続けていることを明らかにする。

We explore cross-lingual transfer of register classification for web documents. Registers, that is, text varieties such as blogs or news are one of the primary predictors of linguistic variation and thus affect the automatic processing of language. We introduce two new register annotated corpora, FreCORE and SweCORE, for French and Swedish. We demonstrate that deep pre-trained language models perform strongly in these languages and outperform previous state-of-the-art in English and Finnish. Specifically, we show 1) that zero-shot cross-lingual transfer from the large English CORE corpus can match or surpass previously published monolingual models, and 2) that lightweight monolingual classification requiring very little training data can reach or surpass our zero-shot performance. We further analyse classification results finding that certain registers continue to pose challenges in particular for cross-lingual transfer.
翻訳日:2021-02-16 15:50:16 公開日:2021-02-15
# DOBF: プログラミング言語のための難読化プリトレーニング目標

DOBF: A Deobfuscation Pre-Training Objective for Programming Languages ( http://arxiv.org/abs/2102.07492v1 )

ライセンス: Link先を確認
Baptiste Roziere, Marie-Anne Lachaux, Marc Szafraniec and Guillaume Lample(参考訳) 自己教師付き学習の最近の進歩は、幅広いタスクにおける芸術の状態を劇的に改善した。 しかし、言語モデル事前学習の研究は主に自然言語に焦点を当てており、BERTやその変種のようなモデルが、ソースコードなどの他のモダリティに適用した場合に最適な事前学習を提供するかどうかは不明である。 本稿では,プログラミング言語の構造的側面を活用した新しい事前学習目標であるdobfを紹介し,難読化ソースコードの原版を復元するためにモデルを事前学習する。 DOBFで事前訓練されたモデルは、複数の下流タスクにおける既存のアプローチを大幅に上回り、教師なしコード翻訳では最大13%、自然言語コード検索では24%の相対的な改善をもたらす。 ちなみに、事前学習したモデルでは、完全に難読化されたソースファイルの分離や、記述型変数名の提案が可能であることがわかった。

Recent advances in self-supervised learning have dramatically improved the state of the art on a wide variety of tasks. However, research in language model pre-training has mostly focused on natural languages, and it is unclear whether models like BERT and its variants provide the best pre-training when applied to other modalities, such as source code. In this paper, we introduce a new pre-training objective, DOBF, that leverages the structural aspect of programming languages and pre-trains a model to recover the original version of obfuscated source code. We show that models pre-trained with DOBF significantly outperform existing approaches on multiple downstream tasks, providing relative improvements of up to 13% in unsupervised code translation, and 24% in natural language code search. Incidentally, we found that our pre-trained model is able to de-obfuscate fully obfuscated source files, and to suggest descriptive variable names.
翻訳日:2021-02-16 15:49:57 公開日:2021-02-15
# エンドツーエンド音声認識システムのパーソナライゼーション戦略

Personalization Strategies for End-to-End Speech Recognition Systems ( http://arxiv.org/abs/2102.07739v1 )

ライセンス: Link先を確認
Aditya Gourav, Linda Liu, Ankur Gandhe, Yile Gu, Guitang Lan, Xiangyang Huang, Shashank Kalmane, Gautam Tiwari, Denis Filimonov, Ariya Rastrow, Andreas Stolcke, Ivan Bulyko(参考訳) 連絡先名などのパーソナライズされたコンテンツの認識は、エンドツーエンドの音声認識システムでは難しい問題である。 そこで本研究では,第1と第2パスのリコーリング戦略を併用して,単語認識を改善する方法を示す。 先程の研究に続いて、第1パス復号におけるパーソナライズされたコンテンツの認識に対するバイアスに浅層融合アプローチを用いる。 このようなアプローチは,一般のユースケースにおいて最小限の分解で,最大16%のパーソナライズされたコンテンツ認識を改善できることを示す。 高速でスケーラブルなアルゴリズムを記述し、単語レベルでバイアスモデルを保ちながら、サブワードレベルでバイアスを適用できるようにする。 これは任意のサブワードシンボルテーブルに依存するバイアスモデルを必要としないという利点がある。 また、オラクルWERを最適化した第1パス浅い融合と組み合わせることで、パーソナライズされたコンテンツ認識をさらに14%改善し、一般的なユースケースの精度を最大2.5%向上させるという、新しい第2パス脱バイアスアプローチについても説明します。

The recognition of personalized content, such as contact names, remains a challenging problem for end-to-end speech recognition systems. In this work, we demonstrate how first and second-pass rescoring strategies can be leveraged together to improve the recognition of such words. Following previous work, we use a shallow fusion approach to bias towards recognition of personalized content in the first-pass decoding. We show that such an approach can improve personalized content recognition by up to 16% with minimum degradation on the general use case. We describe a fast and scalable algorithm that enables our biasing models to remain at the word-level, while applying the biasing at the subword level. This has the advantage of not requiring the biasing models to be dependent on any subword symbol table. We also describe a novel second-pass de-biasing approach: used in conjunction with a first-pass shallow fusion that optimizes on oracle WER, we can achieve an additional 14% improvement on personalized content recognition, and even improve accuracy for the general use case by up to 2.5%.
翻訳日:2021-02-16 15:49:42 公開日:2021-02-15
# Jira:クルド語音声認識システムによる音声コーパスと発音辞書の設計と構築

Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon ( http://arxiv.org/abs/2102.07412v1 )

ライセンス: Link先を確認
Hadi Veisi, Hawre Hosseini, Mohammad Mohammadamini (LIA), Wirya Fathy, Aso Mahmudi(参考訳) 本稿では,中央クルド語における最初の大規模語彙音声認識システムであるJiraについて紹介する。 クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパの言語であるが、音声やテキストリソースが不足しているため、この言語の音声認識システムは存在しない。 このギャップを埋めるために,クルド語における最初の音声コーパスと発音語彙を紹介する。 音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。 設計文は、ノイズのないマイク(AsoSoft Speech-Officeと呼ばれる)と携帯電話(AsoSoft Speech-Crowdsourcing と呼ばれる)を使用したテレグラムソーシャルネットワーク環境で576人のスピーカーによって発話され、43.68時間の音声が得られた。 さらに、11の異なるドキュメントトピックを含むテストセットが、対応する2つの音声条件(OfficeおよびCrowdsourcing)で設計および記録される。 さらに,本研究では,いくつかの課題と解決法を提案するため,60kの発音レキシコンを用意した。 クルド語にはいくつかの方言と下位方言があり、多くの語彙変化をもたらす。 本稿では,語彙変動のスクリプト標準化と語彙トークンの自動発音について詳細に述べる。 認識エンジンのセットアップには、kaldi toolkitを使用しました。 本システムでは、asosoftテキストコーパスから抽出した統計的トリグラム言語モデルを用いる。 HMMベースのモデル(Mono,tri1,tr2,tri2, tri3)、SGMM、DNNメソッドなど、いくつかの標準レシピが音響モデルを生成するために使用される。 これらの方法は、AsoSoft Speech-OfficeとAsoSoft Speech-Crowdsourcing との組み合わせで訓練される。 SGMM音響モデルによって達成された最高の性能は、平均単語誤り率(異なる文書トピック)の13.9%と一般トピックの4.9%である。

In this paper, we introduce the first large vocabulary speech recognition system (LVSR) for the Central Kurdish language, named Jira. The Kurdish language is an Indo-European language spoken by more than 30 million people in several countries, but due to the lack of speech and text resources, there is no speech recognition system for this language. To fill this gap, we introduce the first speech corpus and pronunciation lexicon for the Kurdish language. Regarding speech corpus, we designed a sentence collection in which the ratio of di-phones in the collection resembles the real data of the Central Kurdish language. The designed sentences are uttered by 576 speakers in a controlled environment with noise-free microphones (called AsoSoft Speech-Office) and in Telegram social network environment using mobile phones (denoted as AsoSoft Speech-Crowdsourcing ), resulted in 43.68 hours of speech. Besides, a test set including 11 different document topics is designed and recorded in two corresponding speech conditions (i.e., Office and Crowdsourcing). Furthermore, a 60K pronunciation lexicon is prepared in this research in which we faced several challenges and proposed solutions for them. The Kurdish language has several dialects and sub-dialects that results in many lexical variations. Our methods for script standardization of lexical variations and automatic pronunciation of the lexicon tokens are presented in detail. To setup the recognition engine, we used the Kaldi toolkit. A statistical tri-gram language model that is extracted from the AsoSoft text corpus is used in the system. Several standard recipes including HMM-based models (i.e., mono, tri1, tr2, tri2, tri3), SGMM, and DNN methods are used to generate the acoustic model. These methods are trained with AsoSoft Speech-Office and AsoSoft Speech-Crowdsourcing and a combination of them. The best performance achieved by the SGMM acoustic model which results in 13.9% of the average word error rate (on different document topics) and 4.9% for the general topic.
翻訳日:2021-02-16 15:49:19 公開日:2021-02-15
# コミュニティエンゲージメントプラットフォームを用いた英語-オロモニューラルマシン翻訳のためのクラウドソーシング並列コーパス

Crowdsourcing Parallel Corpus for English-Oromo Neural Machine Translation using Community Engagement Platform ( http://arxiv.org/abs/2102.07539v1 )

ライセンス: Link先を確認
Sisay Chala, Bekele Debisa, Amante Diriba, Silas Getachew, Chala Getu, Solomon Shiferaw(参考訳) アファアン・オロモ(Afaan Oromo)は、ホーンと東アフリカで5千万人以上の人々がカシマ語族で最も広く話されている言語ですが、技術的観点からは驚くほど資源不足です。 英語で書かれた様々な有用な文書が増加すると、これらの文書を翻訳し、地元の言語で簡単にアクセスできるようにする機械が調査される。 本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。 しかし、コーパスの量と多様性が限られているため、実装は十分に調査されていない。 しかし,40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。 このコーパスの約4分の1は、クラウドソーシング翻訳を通じて並列コーパスを強化するために実装されたコミュニティエンゲージメントプラットフォーム(CEP)を介して収集されます。

Even though Afaan Oromo is the most widely spoken language in the Cushitic family by more than fifty million people in the Horn and East Africa, it is surprisingly resource-scarce from a technological point of view. The increasing amount of various useful documents written in English language brings to investigate the machine that can translate those documents and make it easily accessible for local language. The paper deals with implementing a translation of English to Afaan Oromo and vice versa using Neural Machine Translation. But the implementation is not very well explored due to the limited amount and diversity of the corpus. However, using a bilingual corpus of just over 40k sentence pairs we have collected, this study showed a promising result. About a quarter of this corpus is collected via Community Engagement Platform (CEP) that was implemented to enrich the parallel corpus through crowdsourcing translations.
翻訳日:2021-02-16 15:48:41 公開日:2021-02-15
# チームスポーツ行動理解のためのデータ駆動分析

Data-driven Analysis for Understanding Team Sports Behaviors ( http://arxiv.org/abs/2102.07545v1 )

ライセンス: Link先を確認
Keisuke Fujii(参考訳) 現実世界の生物的マルチエージェント行動の原理を理解することは、さまざまな科学と工学の分野で現在の課題です。 チームスポーツのような実世界の生物的マルチエージェント行動に関する規則は、本質的に高次相互作用、認知、および身体力学のために、しばしばほとんど未知である。 データからのルールの推定、すなわち機械学習のようなデータ駆動アプローチは、そのような行動の分析に効果的な方法を提供する。 ほとんどのデータ駆動モデルは非線形構造と高い予測性能を持っているが、それらを解釈することは難しい。 本研究は,バスケットボールやサッカーなどの侵略チームスポーツ行動の定量的理解を目的としたデータ駆動分析に焦点をあて,(1)データから容易に解釈可能な特徴やルールを抽出し,(2)視覚的に理解可能な方法で行動を生成し,制御する2つの主要なアプローチを導入する。 最初のアプローチは、学習した表現の可視化と、行動の背後にある数学的構造の抽出である。 第2のアプローチは、将来の行動や反事実行動のシミュレーションと制御によって仮説をテストするために使用できる。 最後に, 抽出されたルール, 特徴, 生成行動の実用的応用について考察する。 これらのアプローチは、現実世界のマルチエージェント行動をよりよく理解するのに役立ちます。

Understanding the principles of real-world biological multi-agent behaviors is a current challenge in various scientific and engineering fields. The rules regarding the real-world biological multi-agent behaviors such as team sports are often largely unknown due to their inherently higher-order interactions, cognition, and body dynamics. Estimation of the rules from data, i.e., data-driven approaches such as machine learning, provides an effective way for the analysis of such behaviors. Although most data-driven models have non-linear structures and high prediction performances, it is sometimes hard to interpret them. This survey focuses on data-driven analysis for quantitative understanding of invasion team sports behaviors such as basketball and football, and introduces two main approaches for understanding such multi-agent behaviors: (1) extracting easily interpretable features or rules from data and (2) generating and controlling behaviors in visually-understanda ble ways. The first approach involves the visualization of learned representations and the extraction of mathematical structures behind the behaviors. The second approach can be used to test hypotheses by simulating and controlling future and counterfactual behaviors. Lastly, the potential practical applications of extracted rules, features, and generated behaviors are discussed. These approaches can contribute to a better understanding of multi-agent behaviors in the real world.
翻訳日:2021-02-16 15:48:22 公開日:2021-02-15
# 触覚で見る:強化学習に基づく3Dオブジェクト認識

Seeing by haptic glance: reinforcement learning-based 3D object Recognition ( http://arxiv.org/abs/2102.07599v1 )

ライセンス: Link先を確認
Kevin Riou, Suiyi Ling, Guillaume Gallot, Patrick Le Callet(参考訳) 対象物と指の間の触覚接触数に制限があり、対象物を見ることなく3D認識を行うことができる。 この能力は認知神経科学において「触覚的視線」と定義される。 既存の3D認識モデルのほとんどは、高密度な3Dデータに基づいて開発された。 それでも、ロボットが触覚探索によって3Dデータを収集する現実的なユースケースでは、限られた数の3Dポイントしか収集できない。 そこで本研究では,対象物体の認知的に代表される3dキーポイントをロボットと物体との相互作用が限定されたまま獲得する方法に関する難解な課題に焦点をあてる。 3dポイントを積極的に収集した客観的3d認識と同時に、触覚探索手順(エージェントがロボットの次の位置を反復的に予測する)を最適化した新しい強化学習ベースフレームワークを提案する。 3Dオブジェクトが正確に認識された場合にのみモデルに報酬が与えられるので、オブジェクトのスパースで効率的な触覚知覚的な3D表現を見つけるように駆動される。 実験の結果,提案モデルがアートモデルの状態を上回っていることがわかった。

Human is able to conduct 3D recognition by a limited number of haptic contacts between the target object and his/her fingers without seeing the object. This capability is defined as `haptic glance' in cognitive neuroscience. Most of the existing 3D recognition models were developed based on dense 3D data. Nonetheless, in many real-life use cases, where robots are used to collect 3D data by haptic exploration, only a limited number of 3D points could be collected. In this study, we thus focus on solving the intractable problem of how to obtain cognitively representative 3D key-points of a target object with limited interactions between the robot and the object. A novel reinforcement learning based framework is proposed, where the haptic exploration procedure (the agent iteratively predicts the next position for the robot to explore) is optimized simultaneously with the objective 3D recognition with actively collected 3D points. As the model is rewarded only when the 3D object is accurately recognized, it is driven to find the sparse yet efficient haptic-perceptual 3D representation of the object. Experimental results show that our proposed model outperforms the state of the art models.
翻訳日:2021-02-16 15:48:03 公開日:2021-02-15
# 可変性モデルの一貫性に基づくマージ

Consistency-based Merging of Variability Models ( http://arxiv.org/abs/2102.07643v1 )

ライセンス: Link先を確認
Mathias Uta and Alexander Felfernig and Gottfried Schenner and Johannes Spoecklberger(参考訳) 大規模で複雑な製品やサービスを販売しているグローバル運用企業は、地元の市場の要求を考慮に入れた変動性モデルがローカルに開発される状況に対処する必要がある。 例えば、米国市場で販売されている車は、ヨーロッパと異なるいくつかのまたは多くの側面で変動モデルで表される。 グローバル可変性管理プロセスをサポートするためには、可変性モデルと基礎となる知識ベースを統合する必要がある。 統合知識ベースは個々の知識ベースによって生成されたものと異なる結果を生成するべきではないため、これは難しい課題である。 本稿では、コンテキストモデルと競合検出の概念に基づいた可変性モデル統合のアプローチについて紹介する。 基礎となる概念と対応する性能分析の結果について述べる。

Globally operating enterprises selling large and complex products and services often have to deal with situations where variability models are locally developed to take into account the requirements of local markets. For example, cars sold on the U.S. market are represented by variability models in some or many aspects different from European ones. In order to support global variability management processes, variability models and the underlying knowledge bases often need to be integrated. This is a challenging task since an integrated knowledge base should not produce results which are different from those produced by the individual knowledge bases. In this paper, we introduce an approach to variability model integration that is based on the concepts of contextual modeling and conflict detection. We present the underlying concepts and the results of a corresponding performance analysis.
翻訳日:2021-02-16 15:47:28 公開日:2021-02-15
# RLの作用が変更されるときのRLの作用

How RL Agents Behave When Their Actions Are Modified ( http://arxiv.org/abs/2102.07716v1 )

ライセンス: Link先を確認
Eric D. Langlois (1,2, and 3) and Tom Everitt (1) ((1) DeepMind (2) University of Toronto (3) Vector Institute)(参考訳) 複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。 監督介入の結果、実行された行動は、ポリシーによって指定された行動と異なる可能性がある。 学習にどう影響するか? 本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。 この設定で一般的な強化学習アルゴリズムの漸近的な振る舞いを分析し、異なる方法で適応することを示す: 修正を完全に無視する者もいれば、報酬を減らすような行動修正を回避しようとする者もいる。 適切なアルゴリズムを選択することで、開発者はエージェントが中断や制約を回避するための学習を防ぎ、自己破壊のような他の種類のアクション修正に対するエージェントの応答をよりよく制御できます。

Reinforcement learning in complex environments may require supervision to prevent the agent from attempting dangerous actions. As a result of supervisor intervention, the executed action may differ from the action specified by the policy. How does this affect learning? We present the Modified-Action Markov Decision Process, an extension of the MDP model that allows actions to differ from the policy. We analyze the asymptotic behaviours of common reinforcement learning algorithms in this setting and show that they adapt in different ways: some completely ignore modifications while others go to various lengths in trying to avoid action modifications that decrease reward. By choosing the right algorithm, developers can prevent their agents from learning to circumvent interruptions or constraints, and better control agent responses to other kinds of action modification, like self-damage.
翻訳日:2021-02-16 15:47:18 公開日:2021-02-15
# マルチテンポラル衛星画像からのクロップマッピングのためのユニオン損失を横断した3D完全畳み込みニューラルネットワーク

3D Fully Convolutional Neural Networks with Intersection Over Union Loss for Crop Mapping from Multi-Temporal Satellite Images ( http://arxiv.org/abs/2102.07280v1 )

ライセンス: Link先を確認
Sina Mohammadi, Mariana Belgiu, Alfred Stein(参考訳) 栽培作物に関する情報は多くの食品安全保障研究に関係している。 異なる科学的な取り組みは、機械学習によってリモートセンシング画像からこの情報を生成することに費やされている。 残念ながら、これらの手法はリモートセンシング画像に固有の空間的・時間的関係を考慮しない。 本稿では,多時間画像から作物のタイプをマッピングする3次元完全畳み込みニューラルネットワーク(FCN)の能力について検討する。 さらに,予測クラスと地上真実データとの重なりを増大させるために,IOU(Intersection Over Union)損失関数を提案する。 提案手法は, 多時間ランドサット画像を用いて, アメリカトウモロコシ帯に位置する研究領域から大豆とトウモロコシの同定に応用した。 本研究は,Kappa係数が90.8%の関連手法より優れていることを示す。 IOU Loss機能を使用すると、個々の作物の種類を学ぶのに優れた選択ができると結論付けています。

Information on cultivated crops is relevant for a large number of food security studies. Different scientific efforts are dedicated to generate this information from remote sensing images by means of machine learning methods. Unfortunately, these methods do not account for the spatial-temporal relationships inherent in remote sensing images. In our paper, we explore the capability of a 3D Fully Convolutional Neural Network (FCN) to map crop types from multi-temporal images. In addition, we propose the Intersection Over Union (IOU) loss function for increasing the overlap between the predicted classes and ground truth data. The proposed method was applied to identify soybean and corn from a study area situated in the US corn belt using multi-temporal Landsat images. The study shows that our method outperforms related methods, obtaining a Kappa coefficient of 90.8%. We conclude that using the IOU Loss function provides a superior choice to learn individual crop types.
翻訳日:2021-02-16 15:44:06 公開日:2021-02-15
# 多人数ポーズ推定のためのグローバル・ローカル二重埋め込み法

A Global to Local Double Embedding Method for Multi-person Pose Estimation ( http://arxiv.org/abs/2102.07318v1 )

ライセンス: Link先を確認
Yiming Xu, Jiaxin Li, Yiheng Peng, Yan Ding and Hua-Liang Wei(参考訳) マルチパーソンポーズ推定は多くのコンピュータビジョンタスクにおいて基本的で困難な問題である。 ほとんどの既存のメソッドは、トップダウンとボトムアップの2つのクラスに広く分類できます。 どちらの方法も、人の検出と関節の検出という2つの段階を含む。 伝統的に、2つの段階はそれらの相互作用を考慮せずに別々に実装され、必然的に本質的な問題を引き起こす可能性がある。 本稿では,人物検出と関節検出を同時に行うことにより,パイプラインを簡略化する新しい手法を提案する。 マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。 DEはGlobal Embedding (GE)とLocal Embedding (LE)で構成されている。 GEは異なる人物インスタンスをエンコードし、画像全体をカバーする情報を処理し、LEは局所的な手足情報をエンコードする。 トップダウン戦略における人物検出のためのGE機能と、ボトムアップ戦略における共同グループ化および情報処理のための機能である残りの関節を順次接続するLE機能。 LEに基づいて,複雑なシナリオにおける予測困難を軽減するためにMRM(Multual Refine Machine)を設計する。 MRMは、キーポイント間の通信情報を効果的に実現し、精度をさらに向上することができる。 MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。

Multi-person pose estimation is a fundamental and challenging problem to many computer vision tasks. Most existing methods can be broadly categorized into two classes: top-down and bottom-up methods. Both of the two types of methods involve two stages, namely, person detection and joints detection. Conventionally, the two stages are implemented separately without considering their interactions between them, and this may inevitably cause some issue intrinsically. In this paper, we present a novel method to simplify the pipeline by implementing person detection and joints detection simultaneously. We propose a Double Embedding (DE) method to complete the multi-person pose estimation task in a global-to-local way. DE consists of Global Embedding (GE) and Local Embedding (LE). GE encodes different person instances and processes information covering the whole image and LE encodes the local limbs information. GE functions for the person detection in top-down strategy while LE connects the rest joints sequentially which functions for joint grouping and information processing in A bottom-up strategy. Based on LE, we design the Mutual Refine Machine (MRM) to reduce the prediction difficulty in complex scenarios. MRM can effectively realize the information communicating between keypoints and further improve the accuracy. We achieve the competitive results on benchmarks MSCOCO, MPII and CrowdPose, demonstrating the effectiveness and generalization ability of our method.
翻訳日:2021-02-16 15:43:50 公開日:2021-02-15
# IoTデバイス上のビデオ分析

Video Analytics on IoT devices ( http://arxiv.org/abs/2102.07455v1 )

ライセンス: Link先を確認
Sree Premkumar, Vimal Premkumar, and Rakesh Dhakshinamurthy(参考訳) Deep Learning (DL)とRC-NNやEdge2Trainといった高度なモデル最適化手法を組み合わせることで、IoTデバイス上で大規模なネットワークをオフラインで実行できるようになった。 本稿では,最新のDeep Learning (DL) ベースのビデオ分析アプローチと標準的なComputer Vision (CV) ベースのアプローチを比較し,最後に,IoTデバイス上でのビデオ分析に最も適したアプローチについて議論する。

Deep Learning (DL) combined with advanced model optimization methods such as RC-NN and Edge2Train has enabled offline execution of large networks on the IoT devices. In this paper, we compare the modern Deep Learning (DL) based video analytics approaches with the standard Computer Vision (CV) based approaches and finally, discuss the best-suited approach for video analytics on IoT devices.
翻訳日:2021-02-16 15:43:30 公開日:2021-02-15
# ポイントクラウド予測のための時空間グラフ-RNN

Spatio-temporal Graph-RNN for Point Cloud Prediction ( http://arxiv.org/abs/2102.07482v1 )

ライセンス: Link先を確認
Pedro Gomes, Silvia Rossi, Laura Toni(参考訳) 本稿では,ポイントベースRNNネットワークに基づく,未来のPCフレームの予測を目的としたエンドツーエンド学習ネットワークを提案する。 主新規性として、初期層は点雲の位相情報を幾何学的特徴として学習し、学習した特徴を用いて典型的な時空間近傍を形成する。 このモジュールには複数のGraph-RNN細胞が続く。 各セルは、各点を処理する点ダイナミクス(すなわちRNN状態)を時空間近傍点とともに学習する。 我々は,移動桁のMINSTデータセット,合成人体運動,JPEG動体データセットを用いてネットワーク性能を検証した。 シミュレーションの結果,本手法は幾何を無視するベースラインよりも優れていた。

In this paper, we propose an end-to-end learning network aim at predicting future PC frames, based on point-based RNN network. As main novelty, an initial layer learns topological information of point clouds as geometric features and then uses the learned features to form representative spatio-temporal neighborhoods. This module is followed by multiple Graph-RNN cells. Each cell learns points dynamics (i.e., RNN states) processing each point jointly with the spatio-temporal neighboring points. We tested the network performance with a MINST dataset of moving digits, a synthetic human bodies motions and JPEG dynamic bodies datasets. Simulation results demonstrated that our method outperforms baseline ones that neglect geometry
翻訳日:2021-02-16 15:43:24 公開日:2021-02-15
# RMS-Net: サッカーイベントスポッティングの回帰とマスキング

RMS-Net: Regression and Masking for Soccer Event Spotting ( http://arxiv.org/abs/2102.07624v1 )

ライセンス: Link先を確認
Matteo Tomei, Lorenzo Baraldi, Simone Calderara, Simone Bronzin, Rita Cucchiara(参考訳) 最近提案されたアクションスポッティングタスクは、イベントが発生する正確なタイムスタンプを見つけることである。 このタスクはサッカービデオに特に適しており、イベントはサッカールールによって厳密に定義された健全なアクションに対応する(ゴールはボールがゴールラインを越えたときに起こる)。 本稿では,アクションスポッティングのための軽量でモジュール化されたネットワークを考案し,同じ基盤機能を用いてイベントラベルとテンポラリオフセットを同時に予測する。 データバランシングと均一サンプリングのための第1、曖昧なフレームをマスキングする第2、最も差別的な視覚的手がかりを維持するための第2の2つのトレーニング戦略で、当社のモデルを充実させています。 SoccerNetデータセットでテストし、標準機能を使用して、完全な提案は3平均mAPポイントで現在の状態を超えます。 さらに、強力な2Dバックボーンと組み合わせて微調整された場合、テストセット上で平均mAPポイントが10以上に達する。

The recently proposed action spotting task consists in finding the exact timestamp in which an event occurs. This task fits particularly well for soccer videos, where events correspond to salient actions strictly defined by soccer rules (a goal occurs when the ball crosses the goal line). In this paper, we devise a lightweight and modular network for action spotting, which can simultaneously predict the event label and its temporal offset using the same underlying features. We enrich our model with two training strategies: the first one for data balancing and uniform sampling, the second for masking ambiguous frames and keeping the most discriminative visual cues. When tested on the SoccerNet dataset and using standard features, our full proposal exceeds the current state of the art by 3 Average-mAP points. Additionally, it reaches a gain of more than 10 Average-mAP points on the test set when fine-tuned in combination with a strong 2D backbone.
翻訳日:2021-02-16 15:43:13 公開日:2021-02-15
# Adaptive Polyak's Heavy-ball Methodsの最適収束におけるモーメントパラメータの役割

The Role of Momentum Parameters in the Optimal Convergence of Adaptive Polyak's Heavy-ball Methods ( http://arxiv.org/abs/2102.07314v1 )

ライセンス: Link先を確認
Wei Tao, Sheng Long, Gaowei Wu, Qing Tao(参考訳) 運動量を伴う適応確率勾配降下(SGD)は、深層学習および凸最適化において広く採用されている。 実際には、最後のイテレートは意思決定の最終ソリューションとして一般的に使用される。 しかし、利用可能な後悔解析と定数運動量パラメータの設定は、平均解の最適収束を保証するだけである。 本稿では,この理論と実践のギャップを,平均解の収束解析よりも難しいタスクである最後の反復(個別収束と呼ぶ)の収束を調べることで埋める。 具体的には、制限された凸の場合において、指数移動平均戦略を用いてステップサイズのみを更新する適応的なPolyakのヘビーボール(HB)法は、$O(\frac{\log t}{\sqrt{t}})$の最適性とは対照的に、$t$が反復数であるSGDの最適収束率を達成することを証明している。 私たちの新しい分析では、hb運動量とその時変重みが凸最適化の加速にどのように役立つかを示すだけでなく、深層学習で運動量パラメータがスケジュールされるべきかを示唆する貴重なヒントを与えています。 凸関数の最適化と深層ネットワークの学習に関する実験結果から,収束解析の正確性が検証され,適応型hb法の性能が向上した。

The adaptive stochastic gradient descent (SGD) with momentum has been widely adopted in deep learning as well as convex optimization. In practice, the last iterate is commonly used as the final solution to make decisions. However, the available regret analysis and the setting of constant momentum parameters only guarantee the optimal convergence of the averaged solution. In this paper, we fill this theory-practice gap by investigating the convergence of the last iterate (referred to as individual convergence), which is a more difficult task than convergence analysis of the averaged solution. Specifically, in the constrained convex cases, we prove that the adaptive Polyak's Heavy-ball (HB) method, in which only the step size is updated using the exponential moving average strategy, attains an optimal individual convergence rate of $O(\frac{1}{\sqrt{t}})$, as opposed to the optimality of $O(\frac{\log t}{\sqrt {t}})$ of SGD, where $t$ is the number of iterations. Our new analysis not only shows how the HB momentum and its time-varying weight help us to achieve the acceleration in convex optimization but also gives valuable hints how the momentum parameters should be scheduled in deep learning. Empirical results on optimizing convex functions and training deep networks validate the correctness of our convergence analysis and demonstrate the improved performance of the adaptive HB methods.
翻訳日:2021-02-16 15:38:24 公開日:2021-02-15
# 対人訓練のための指導補間

Guided Interpolation for Adversarial Training ( http://arxiv.org/abs/2102.07327v1 )

ライセンス: Link先を確認
Chen Chen, Jingfeng Zhang, Xilie Xu, Tianlei Hu, Gang Niu, Gang Chen, Masashi Sugiyama(参考訳) 敵対的堅牢性を高めるために、敵対的トレーニングは、自然データによって生成された敵対的変種に関するディープニューラルネットワークを学習する。 しかし、トレーニングが進むにつれて、トレーニングデータの攻撃性が低下し、ロバスト性の向上が損なわれる。 簡単な修正は、より多くのトレーニングデータを取り入れることだが、時には耐え難いコストが発生することもある。 本論文では,この問題を緩和するために,各エポックにおいて,前のエポックのメタ情報を用いてデータの補間を誘導するガイド付き補間フレームワーク(GIF)を提案する。 バニラミックスアップと比較して、GIFは攻撃可能なデータのより高い比率を提供することができ、堅牢性の強化に有益である。その一方で、線形挙動が一般化に有利であるが堅牢性には有利であるクラス間のモデルの線形挙動を緩和する。 結果として、gifは各クラスのクラスタで不変に予測することをモデルに促す。 実験では、GIFが様々な敵対的トレーニング方法やさまざまなデータセットに対する敵対的堅牢性を高めることができることが示されています。

To enhance adversarial robustness, adversarial training learns deep neural networks on the adversarial variants generated by their natural data. However, as the training progresses, the training data becomes less and less attackable, undermining the robustness enhancement. A straightforward remedy is to incorporate more training data, but sometimes incurring an unaffordable cost. In this paper, to mitigate this issue, we propose the guided interpolation framework (GIF): in each epoch, the GIF employs the previous epoch's meta information to guide the data's interpolation. Compared with the vanilla mixup, the GIF can provide a higher ratio of attackable data, which is beneficial to the robustness enhancement; it meanwhile mitigates the model's linear behavior between classes, where the linear behavior is favorable to generalization but not to the robustness. As a result, the GIF encourages the model to predict invariantly in the cluster of each class. Experiments demonstrate that the GIF can indeed enhance adversarial robustness on various adversarial training methods and various datasets.
翻訳日:2021-02-16 15:37:56 公開日:2021-02-15
# マルチエージェント強化学習に基づくインテリジェント電気自動車充電勧告

Intelligent Electric Vehicle Charging Recommendation Based on Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2102.07359v1 )

ライセンス: Link先を確認
Weijia Zhang, Hao Liu, Fan Wang, Tong Xu, Haoran Xin, Dejing Dou, Hui Xiong(参考訳) 電気自動車(EV)は、環境とエネルギーの持続可能性から、現代の輸送システムにおいて好ましい選択肢となっている。 しかし、多くの大都市では、充電インフラの制限と時空間的にバランスの取れない充電要求のため、EVドライバーは充電の適切な場所を見つけることができないことが多い。 実際、最近の深層強化学習の出現は、長期にわたって様々な側面から充電体験を改善する大きな可能性を秘めている。 本稿では,様々な長期時空間要因を共同で考慮し,公共アクセス可能な充電ステーションをインテリジェントに推薦するマルチエージェント時空間強化学習(master)の枠組みを提案する。 具体的には、各充電ステーションを個別のエージェントとして扱うことにより、この問題を多目的マルチエージェント強化学習タスクとして定式化する。 我々はまず,地理的に分散したエージェント間の推薦を調整するために,集中型注意深い批評家による多エージェントアクター批判フレームワークを開発する。 さらに、将来の充電競争の影響を定量化するために、トレーニング中に将来の充電競争の知識を利用するための遅延アクセス戦略を紹介します。 その後、複数の学習目標を効果的に最適化するために、集中的な注意的批判を多批判に拡張し、最適化方向を適応的に導く動的勾配再重み付け戦略を開発する。 最後に、2つの実世界のデータセットに関する広範な実験は、Masterが9つのベースラインアプローチと比較して最高の総合的なパフォーマンスを達成することを示した。

Electric Vehicle (EV) has become a preferable choice in the modern transportation system due to its environmental and energy sustainability. However, in many large cities, EV drivers often fail to find the proper spots for charging, because of the limited charging infrastructures and the spatiotemporally unbalanced charging demands. Indeed, the recent emergence of deep reinforcement learning provides great potential to improve the charging experience from various aspects over a long-term horizon. In this paper, we propose a framework, named Multi-Agent Spatio-Temporal Reinforcement Learning (Master), for intelligently recommending public accessible charging stations by jointly considering various long-term spatiotemporal factors. Specifically, by regarding each charging station as an individual agent, we formulate this problem as a multi-objective multi-agent reinforcement learning task. We first develop a multi-agent actor-critic framework with the centralized attentive critic to coordinate the recommendation between geo-distributed agents. Moreover, to quantify the influence of future potential charging competition, we introduce a delayed access strategy to exploit the knowledge of future charging competition during training. After that, to effectively optimize multiple learning objectives, we extend the centralized attentive critic to multi-critics and develop a dynamic gradient re-weighting strategy to adaptively guide the optimization direction. Finally, extensive experiments on two real-world datasets demonstrate that Master achieves the best comprehensive performance compared with nine baseline approaches.
翻訳日:2021-02-16 15:37:38 公開日:2021-02-15
# ディープジェネラティブモデルを用いた逆問題の中間層最適化

Intermediate Layer Optimization for Inverse Problems using Deep Generative Models ( http://arxiv.org/abs/2102.07364v1 )

ライセンス: Link先を確認
Giannis Daras, Joseph Dean, Ajil Jalal, Alexandros G. Dimakis(参考訳) 深層生成モデルを用いた逆問題を解くための新しい最適化アルゴリズムである中間層最適化(ILO)を提案する。 初期潜在コードのみを最適化するのではなく、徐々に入力層を変更し、より表現力のあるジェネレータを得る。 高次元空間を探索するために、前層によって誘導される多様体の周りの小さな$l_1$球内にある潜在符号を探索する。 理論解析により、球の半径を比較的小さく抑えることで、深層生成モデルによる圧縮センシングの既成誤差を改善できることが示された。 提案手法は, インペイント, デノナイジング, 超高分解能, 圧縮センシングなど, 幅広い逆問題に対して, StyleGAN-2 と PULSE で導入した最先端手法よりも優れていることを示す。

We propose Intermediate Layer Optimization (ILO), a novel optimization algorithm for solving inverse problems with deep generative models. Instead of optimizing only over the initial latent code, we progressively change the input layer obtaining successively more expressive generators. To explore the higher dimensional spaces, our method searches for latent codes that lie within a small $l_1$ ball around the manifold induced by the previous layer. Our theoretical analysis shows that by keeping the radius of the ball relatively small, we can improve the established error bound for compressed sensing with deep generative models. We empirically show that our approach outperforms state-of-the-art methods introduced in StyleGAN-2 and PULSE for a wide range of inverse problems including inpainting, denoising, super-resolution and compressed sensing.
翻訳日:2021-02-16 15:37:13 公開日:2021-02-15
# Pseudo-1d Bandit Convex Optimizationのための最適回帰アルゴリズム

Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization ( http://arxiv.org/abs/2102.07387v1 )

ライセンス: Link先を確認
Aadirupa Saha, Nagarajan Natarajan, Praneeth Netrapalli, Prateek Jain(参考訳) 我々は,バンディットフィードバックを用いてオンライン学習を学習する。 コスト/リワード関数 $\f_t$ は "pseudo-1d" 構造、すなわち "pseudo-1d" 構造を受け入れる。 $\f_t(\w) = \loss_t(\pred_t(\w)) $ ここで$\pred_t$の出力は1次元である。 各ラウンドで、学習者はコンテキスト $\x_t$ を観察し、予測 $\pred_t(\w_t; \x_t)$ を再生する。 $\pred_t(\cdot)=\langle \x_t, \cdot\rangle$) for some $\w_t \in \mathbb{R}^d$ and observes loss $\loss_t(\pred_t(\w_ t))$ where $\loss_t$ is a convex Lipschitz-continuous function。 目標は、標準の後悔度を最小化することです。 この擬似1dバンディット凸最適化問題(\SBCO)は、大規模システムにおけるオンライン意思決定やパラメータ調整などの領域で頻繁に発生する。 この問題に対して、まず$T$がラウンド数である任意のアルゴリズムの後悔のために、$\min(\sqrt{dT}, T^{3/4})$の下限を示す。 本稿では,擬似1d構造を効果的に活用するために,ランダム化オンライン勾配降下法とカーネル化指数重み付け法を併用した新しいアルゴリズム \sbcalgを提案する。 対照的に、最先端のオンライン凸最適化手法を適用すると、$\tilde{O}\left(\min\left(\min \left(d^{9.5}\sqrt{T},\sqrt{d}T^{3/4}\right)\right)$ regretとなる。

We study online learning with bandit feedback (i.e. learner has access to only zeroth-order oracle) where cost/reward functions $\f_t$ admit a "pseudo-1d" structure, i.e. $\f_t(\w) = \loss_t(\pred_t(\w)) $ where the output of $\pred_t$ is one-dimensional. At each round, the learner observes context $\x_t$, plays prediction $\pred_t(\w_t; \x_t)$ (e.g. $\pred_t(\cdot)=\langle \x_t, \cdot\rangle$) for some $\w_t \in \mathbb{R}^d$ and observes loss $\loss_t(\pred_t(\w_ t))$ where $\loss_t$ is a convex Lipschitz-continuous function. The goal is to minimize the standard regret metric. This pseudo-1d bandit convex optimization problem (\SBCO) arises frequently in domains such as online decision-making or parameter-tuning in large systems. For this problem, we first show a lower bound of $\min(\sqrt{dT}, T^{3/4})$ for the regret of any algorithm, where $T$ is the number of rounds. We propose a new algorithm \sbcalg that combines randomized online gradient descent with a kernelized exponential weights method to exploit the pseudo-1d structure effectively, guaranteeing the {\em optimal} regret bound mentioned above, up to additional logarithmic factors. In contrast, applying state-of-the-art online convex optimization methods leads to $\tilde{O}\left(\min\left(d^{9.5}\sqrt{T},\sqrt{d}T^{3/4}\right)\right)$ regret, that is significantly suboptimal in $d$.
翻訳日:2021-02-16 15:36:57 公開日:2021-02-15
# コンフォーマル予測器によるオブジェクト条件付き妥当性の近似

Approximation to Object Conditional Validity with Conformal Predictors ( http://arxiv.org/abs/2102.07436v1 )

ライセンス: Link先を確認
Anthony Bellotti(参考訳) 共形予測器は、最小分布仮定で有限サンプルの限界妥当性を保証する予測間隔を出力する機械学習アルゴリズムである。 これは、信頼できる予測を必要とする機械学習タスクに共形予測器を役立てる特性である。 予測区間の妥当性は、予測対象の任意の特性に対する条件付けにかかわらず有効であるという意味で、同じ設定で条件付き妥当性を達成することも望ましい。 残念ながら、そのような条件付き妥当性は有限サンプルの非自明な予測問題を保証することは不可能であることが示されている。 本稿では,条件付き妥当性の強い結果を得るのではなく,条件付き妥当性の近似を達成するという,より弱い目標を考える。 訓練データで測定した対象条件妥当性の偏差に対して適合性尺度を反復的に調整することにより,新たなアルゴリズムを導入する。 その結果,(1)実世界の機械学習タスクにおいて,条件付き妥当性の欠如は測定可能な問題であり,(2)提案手法がこの問題の軽減に有効であることを示す3つのデータセットについて実験結果が得られた。

Conformal predictors are machine learning algorithms that output prediction intervals that have a guarantee of marginal validity for finite samples with minimal distributional assumptions. This is a property that makes conformal predictors useful for machine learning tasks where we require reliable predictions. It would also be desirable to achieve conditional validity in the same setting, in the sense that validity of the prediction intervals remains valid regardless of conditioning on any property of the object of the prediction. Unfortunately, it has been shown that such conditional validity is impossible to guarantee for non-trivial prediction problems for finite samples. In this article, instead of trying to achieve a strong conditional validity result, the weaker goal of achieving an approximation to conditional validity is considered. A new algorithm is introduced to do this by iteratively adjusting a conformity measure to deviations from object conditional validity measured in the training data. Along with some theoretical results, experimental results are provided for three data sets that demonstrate (1) in real world machine learning tasks, lack of conditional validity is a measurable problem and (2) that the proposed algorithm is effective at alleviating this problem.
翻訳日:2021-02-16 15:36:13 公開日:2021-02-15
# 対人訓練のためのデータプロファイリング:問題データの残存について

Data Profiling for Adversarial Training: On the Ruin of Problematic Data ( http://arxiv.org/abs/2102.07437v1 )

ライセンス: Link先を確認
Chengyu Dong, Liyuan Liu, Jingbo Shang(参考訳) 堅牢な精度のトレードオフ、堅牢なオーバーフィッティング、グラデーションマスキングなど、複数の魅力的な問題は、信頼できる評価と実践的な展開の両方に大きな課題をもたらしています。 ここでは、これらの問題が共通の原因であるデータセットの低品質サンプルを共有していることを示します。 まず、問題スコアと呼ばれるデータの本質的な特性を特定し、その後、これらの問題との関連性を調べるために制御実験を設計する。 具体的には、問題のあるデータが削除されると、堅牢なオーバーフィットとグラデーションのマスキングが大幅に軽減され、非常に問題の多いデータを含むデータセットでは堅牢な精度のトレードオフがより顕著になります。 これらの観察は、データ品質に関する直観を検証するだけでなく、敵の訓練を進める新たな機会を開く。 驚くべきことに、問題のあるデータを敵のトレーニングから取り除き、トレーニングセットを小さくすることで、異なる敵の設定、トレーニング方法、ニューラルネットワークアーキテクチャで一貫して堅牢性が向上する。

Multiple intriguing problems hover in adversarial training, including robustness-accuracy trade-off, robust overfitting, and gradient masking, posing great challenges to both reliable evaluation and practical deployment. Here, we show that these problems share one common cause -- low quality samples in the dataset. We first identify an intrinsic property of the data called problematic score and then design controlled experiments to investigate its connections with these problems. Specifically, we find that when problematic data is removed, robust overfitting and gradient masking can be largely alleviated; and robustness-accuracy trade-off is more prominent for a dataset containing highly problematic data. These observations not only verify our intuition about data quality but also open new opportunities to advance adversarial training. Remarkably, simply removing problematic data from adversarial training, while making the training set smaller, yields better robustness consistently with different adversary settings, training methods, and neural architectures.
翻訳日:2021-02-16 15:35:52 公開日:2021-02-15
# 微分を持つ高次元ガウス過程推論

High-Dimensional Gaussian Process Inference with Derivatives ( http://arxiv.org/abs/2102.07542v1 )

ライセンス: Link先を確認
Filip de Roos, Alexandra Gessner, Philipp Hennig(参考訳) ガウス過程が勾配の観測で条件付けできることは広く知られているが、この関数はデータポイント$N$および次元$D$において$\mathcal{O}(N^3 D^3)$の禁止計算コストのために限定的に使用される。 勾配観測のジレンマは、そのうちの1つが$D$独立関数評価と同じコストで来るので、後者はしばしば好まれる。 しかし、注意深い精査の結果、微分観測は、非常に一般的なカーネルクラス(inter alia, stationary kernels)に対して高度に構造化されたカーネルグラム行列をもたらすことが明らかになった。 低データ体制の$N<D$において、グラム行列は$\mathcal{O}(N^2D + (N^2)^3)$(すなわち、次元の数で線形)と$\mathcal{O}(N^2D + N^3)$に推論のコストを削減する方法で分解できることを示した。 この複雑さの低減は、特に勾配観測の情報対コスト比が著しく増加する高次元の領域において、勾配を用いた推論の新たなユースケースを開拓する。 最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。

Although it is widely known that Gaussian processes can be conditioned on observations of the gradient, this functionality is of limited use due to the prohibitive computational cost of $\mathcal{O}(N^3 D^3)$ in data points $N$ and dimension $D$. The dilemma of gradient observations is that a single one of them comes at the same cost as $D$ independent function evaluations, so the latter are often preferred. Careful scrutiny reveals, however, that derivative observations give rise to highly structured kernel Gram matrices for very general classes of kernels (inter alia, stationary kernels). We show that in the low-data regime $N<D$, the Gram matrix can be decomposed in a manner that reduces the cost of inference to $\mathcal{O}(N^2D + (N^2)^3)$ (i.e., linear in the number of dimensions) and, in special cases, to $\mathcal{O}(N^2D + N^3)$. This reduction in complexity opens up new use-cases for inference with gradients especially in the high-dimensional regime, where the information-to-cost ratio of gradient observations significantly increases. We demonstrate this potential in a variety of tasks relevant for machine learning, such as optimization and Hamiltonian Monte Carlo with predictive gradients.
翻訳日:2021-02-16 15:35:33 公開日:2021-02-15
# 量子化勾配降下によるバンディットフィードバックを用いた高精度決定木学習

Learning Accurate Decision Trees with Bandit Feedback via Quantized Gradient Descent ( http://arxiv.org/abs/2102.07567v1 )

ライセンス: Link先を確認
Ajaykrishna Karthikeyan, Naman Jain, Nagarajan Natarajan, Prateek Jain(参考訳) 決定木は、非常に非線形だが効率的なモデルの豊かな家族を提供します。 しかし、ツリーの学習は、非常に離散的で差別化できない決定境界のために難しい問題です。 最先端の技術は、離散的な木構造を利用するが、特定の問題設定(例えば、カテゴリーと実数値の予測)に合わせて調整される、欲張りな手法を用いる。 本研究では,より条件付き勾配を提供する木学習問題の修正を提案し,オーバーパラメータ化やストレートスルー推定などの深層ネットワーク学習技術を活用している。 私たちの改革は,教師付きバッチ学習やオンラインバンディットフィードバックベースの学習といった,異なるツリー学習設定でソリューションを展開可能な,効率的かつ高精度な勾配ベースのアルゴリズムを認めています。 標準ベンチマークの広範な検証を使用して、教師付き学習設定において、私たちの一般的な方法は、監督された設定のために設計されている既存の方法よりも競争力があり、場合によってはより正確であることがわかります。 対照的に、既存の手法の大半が適用できないバンディット設定では、我々のモデルは依然として正確であり、適用可能な最先端手法よりも大幅に優れています。

Decision trees provide a rich family of highly non-linear but efficient models, due to which they continue to be the go-to family of predictive models by practitioners across domains. But learning trees is a challenging problem due to their highly discrete and non-differentiable decision boundaries. The state-of-the-art techniques use greedy methods that exploit the discrete tree structure but are tailored to specific problem settings (say, categorical vs real-valued predictions). In this work, we propose a reformulation of the tree learning problem that provides better conditioned gradients, and leverages successful deep network learning techniques like overparameterization and straight-through estimators. Our reformulation admits an efficient and {\em accurate} gradient-based algorithm that allows us to deploy our solution in disparate tree learning settings like supervised batch learning and online bandit feedback based learning. Using extensive validation on standard benchmarks, we observe that in the supervised learning setting, our general method is competitive to, and in some cases more accurate than, existing methods that are designed {\em specifically} for the supervised settings. In contrast, for bandit settings, where most of the existing techniques are not applicable, our models are still accurate and significantly outperform the applicable state-of-the-art methods.
翻訳日:2021-02-16 15:35:06 公開日:2021-02-15
# FedBN: 局所バッチ正規化による非IID機能のフェデレーション学習

FedBN: Federated Learning on Non-IID Features via Local Batch Normalization ( http://arxiv.org/abs/2102.07623v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Meirui Jiang, Xiaofei Zhang, Michael Kamp, Qi Dou(参考訳) フェデレーション学習(fl)の新たなパラダイムは、生データを集中的に集約することなく、ネットワークエッジにおける深層モデルの協調的なトレーニングを可能にすることで、データのプライバシの向上を目指している。 ほとんどの場合、ローカルクライアントにまたがる独立した同一の分散サンプルの仮定は、フェデレーション学習のセットアップには当てはまりません。 この設定の下では、ニューラルネットワークのトレーニング性能はデータ分布によって大きく異なり、トレーニング収束を損なうこともある。 以前の作業の大部分は、ラベルやクライアントシフトの分布の違いに重点を置いていました。 これらの設定とは異なり、医療画像における異なるスキャナー/センサー、自動運転における異なる風景分布(ハイウェイとシティ)、ローカルクライアントが他のクライアントと異なる分布のサンプルを格納するなど、FLの重要な問題に対処します。 本研究では,局所バッチ正規化をモデル平均化前に特徴シフトを緩和する効果的な手法を提案する。 FedBNと呼ばれるこのスキームは、従来のFedAvgと、我々の広範な実験における非IDデータ(FedProx)の最先端の両方を上回っている。 これらの実験結果は、FedBNがFedAvgよりも高速な収束速度を持つという簡易な設定で収束解析によって支持される。 コードはhttps://github.com/m ed-air/FedBNで入手できる。

The emerging paradigm of federated learning (FL) strives to enable collaborative training of deep models on the network edge without centrally aggregating raw data and hence improving data privacy. In most cases, the assumption of independent and identically distributed samples across local clients does not hold for federated learning setups. Under this setting, neural network training performance may vary significantly according to the data distribution and even hurt training convergence. Most of the previous work has focused on a difference in the distribution of labels or client shifts. Unlike those settings, we address an important problem of FL, e.g., different scanners/sensors in medical imaging, different scenery distribution in autonomous driving (highway vs. city), where local clients store examples with different distributions compared to other clients, which we denote as feature shift non-iid. In this work, we propose an effective method that uses local batch normalization to alleviate the feature shift before averaging models. The resulting scheme, called FedBN, outperforms both classical FedAvg, as well as the state-of-the-art for non-iid data (FedProx) on our extensive experiments. These empirical results are supported by a convergence analysis that shows in a simplified setting that FedBN has a faster convergence rate than FedAvg. Code is available at https://github.com/m ed-air/FedBN.
翻訳日:2021-02-16 15:34:21 公開日:2021-02-15
# ノイズストレージデバイスのためのニューラルネットワーク圧縮

Neural Network Compression for Noisy Storage Devices ( http://arxiv.org/abs/2102.07725v1 )

ライセンス: Link先を確認
Berivan Isik, Kristy Choi, Xin Zheng, Tsachy Weissman, Stefano Ermon, H.-S. Philip Wong, Armin Alaghi(参考訳) リソース制約のあるデバイスで動作するアプリケーションには、ニューラルネットワーク(NN)パラメータの圧縮と効率的な保存が不可欠である。 NNモデルの圧縮は大幅に進歩しましたが、NNパラメータの実際の物理的ストレージに関する調査はかなり少なくなっています。 従来、モデル圧縮と物理ストレージは分離され、エラー訂正コード(ECC)を備えたデジタルストレージメディアは堅牢なエラーフリーストレージを提供します。 この分離されたアプローチは、ストレージに圧縮モデルの各ビットを等しく扱い、同じ量のリソースを各ビットに割譲するように強制するため、非効率です。 i)各メモリセルの容量を最大化するためにアナログメモリを採用し、(ii)メモリユーティリティを最大化するためにモデル圧縮と物理ストレージを共同で最適化する。 位相変化メモリ(PCM)アレイにおけるモデルストレージの研究と、NNモデルストレージのための様々な堅牢なコーディング戦略の開発により、アナログストレージの課題を調査します。 本研究では,MNIST,CIFAR-10,Imag eNetデータセットを用いた既存圧縮法と新規圧縮法の有効性を実証する。 従来の誤りのないデジタルストレージと比較して,本手法は,記憶されたモデルの精度を著しく損なうことなく,メモリサイズを桁違いに小さくすることができる。

Compression and efficient storage of neural network (NN) parameters is critical for applications that run on resource-constrained devices. Although NN model compression has made significant progress, there has been considerably less investigation in the actual physical storage of NN parameters. Conventionally, model compression and physical storage are decoupled, as digital storage media with error correcting codes (ECCs) provide robust error-free storage. This decoupled approach is inefficient, as it forces the storage to treat each bit of the compressed model equally, and to dedicate the same amount of resources to each bit. We propose a radically different approach that: (i) employs analog memories to maximize the capacity of each memory cell, and (ii) jointly optimizes model compression and physical storage to maximize memory utility. We investigate the challenges of analog storage by studying model storage on phase change memory (PCM) arrays and develop a variety of robust coding strategies for NN model storage. We demonstrate the efficacy of our approach on MNIST, CIFAR-10 and ImageNet datasets for both existing and novel compression methods. Compared to conventional error-free digital storage, our method has the potential to reduce the memory size by one order of magnitude, without significantly compromising the stored model's accuracy.
翻訳日:2021-02-16 15:33:23 公開日:2021-02-15
# MLOpsのデータ品質駆動型ビュー

A Data Quality-Driven View of MLOps ( http://arxiv.org/abs/2102.07750v1 )

ライセンス: Link先を確認
Cedric Renggli, Luka Rimanic, Nezihe Merve G\"urel, Bojan Karla\v{s}, Wentao Wu, Ce Zhang(参考訳) 機械学習モデルの開発は、従来のソフトウェア開発で確立されたものと同様のプロセスと見なすことができる。 この2つの重要な違いは、マシンラーニングモデルの品質と、評価のトレーニングや実行に使用されるデータの品質との強い依存関係にある。 本研究では,データ品質の異なる側面が,機械学習開発の様々な段階にどのように伝播するかを実証する。 よく知られたデータ品質寸法と下流の機械学習プロセスの影響を共同分析することにより、典型的なMLOpsパイプラインの異なるコンポーネントを効率的に設計することができ、技術的および理論的視点の両方を提供する。

Developing machine learning models can be seen as a process similar to the one established for traditional software development. A key difference between the two lies in the strong dependency between the quality of a machine learning model and the quality of the data used to train or perform evaluations. In this work, we demonstrate how different aspects of data quality propagate through various stages of machine learning development. By performing a joint analysis of the impact of well-known data quality dimensions and the downstream machine learning process, we show that different components of a typical MLOps pipeline can be efficiently designed, providing both a technical and theoretical perspective.
翻訳日:2021-02-16 15:33:04 公開日:2021-02-15
# マルチビューサブスペース学習のためのDeep Co-Attention Network

Deep Co-Attention Network for Multi-View Subspace Learning ( http://arxiv.org/abs/2102.07751v1 )

ライセンス: Link先を確認
Lecheng Zheng, Yu Cheng, Hongxia Yang, Nan Cao and Jingrui He(参考訳) 多くの実世界のアプリケーションは、複数のモダリティからのデータを含み、ビューの不均一性を示す。 たとえば、ソーシャルメディア上のユーザーモデリングは、基礎となるソーシャルネットワークのトポロジとユーザーの投稿の内容の両方を活用する可能性があります。医療領域では、複数のビューは、異なるポーズで撮影されたX線画像である可能性があります。 これまで, 正準相関解析に基づく手法など, 期待できる結果を得るために様々な手法が提案されてきた。 一方,意思決定者は,これらの手法による予測結果を理解することが重要である。 例えば、異なるポーズの患者のX線画像に基づくモデルを提供する診断結果を考えると、医師はモデルがなぜそのような予測をしたのかを知る必要がある。 しかし、最先端技術は、通常、それぞれのビューの補完的な情報を利用し、解釈可能な方法で予測を説明することができない。 このような問題に対処するため,本稿では,共通情報と相補的情報の両方を対角的に抽出する多視点サブスペース学習のためのディープ・コアテンション・ネットワークを提案し,コアテンション・メカニズムを通じてエンドユーザに予測の背後にあるロバストな解釈を提供する。 特に,新しいクロスレコンストラクション損失を用い,ラベル情報を利用して,モデルに分類器を組み込むことで潜在表現の構築を導く。 これにより潜在表現の品質が向上し、収束速度が向上する。 最後に、最適なエンコーダと判別器を見つけるための効率的な反復アルゴリズムを開発し、合成および実世界のデータセット上で広く評価する。 また,提案手法が画像データセットの予測をいかに強固に解釈するかを示すケーススタディも実施する。

Many real-world applications involve data from multiple modalities and thus exhibit the view heterogeneity. For example, user modeling on social media might leverage both the topology of the underlying social network and the content of the users' posts; in the medical domain, multiple views could be X-ray images taken at different poses. To date, various techniques have been proposed to achieve promising results, such as canonical correlation analysis based methods, etc. In the meanwhile, it is critical for decision-makers to be able to understand the prediction results from these methods. For example, given the diagnostic result that a model provided based on the X-ray images of a patient at different poses, the doctor needs to know why the model made such a prediction. However, state-of-the-art techniques usually suffer from the inability to utilize the complementary information of each view and to explain the predictions in an interpretable manner. To address these issues, in this paper, we propose a deep co-attention network for multi-view subspace learning, which aims to extract both the common information and the complementary information in an adversarial setting and provide robust interpretations behind the prediction to the end-users via the co-attention mechanism. In particular, it uses a novel cross reconstruction loss and leverages the label information to guide the construction of the latent representation by incorporating the classifier into our model. This improves the quality of latent representation and accelerates the convergence speed. Finally, we develop an efficient iterative algorithm to find the optimal encoders and discriminator, which are evaluated extensively on synthetic and real-world data sets. We also conduct a case study to demonstrate how the proposed method robustly interprets the predictions on an image data set.
翻訳日:2021-02-16 15:32:53 公開日:2021-02-15
# 強化学習による協調と意見のダイナミクス

Cooperation and Reputation Dynamics with Reinforcement Learning ( http://arxiv.org/abs/2102.07523v1 )

ライセンス: Link先を確認
Nicolas Anastassacos, Julian Garc\'ia, Stephen Hailes, Mirco Musolesi(参考訳) 協力のためのインセンティブを作成することは、自然および人工システムにおける課題です。 一つの潜在的な答えは評判であり、エージェントは評判の良い将来の利益のためにすぐに協力するコストを取引する。 ゲーム理論モデルでは、特定の社会規範が協力を安定させることが示されていますが、エージェントが単独で効果的な評判メカニズムを確立するために独立して学ぶ方法はあまり理解されていません。 エージェントは既存の評判の意味をコーディネートする方法を学び、その行動に基づいて他の人に評判を割り当てるために社会的規範に集合的に合意する必要があります。 これらのコーディネーション問題は複数の平衡を示し、その一部は効果的に協調を確立する。 評価機構が存在する環境において,標準q学習アルゴリズムを用いてエージェントを訓練する場合,望ましくない平衡への収束が広く行われる。 これを緩和するための2つのメカニズムを提案する: (i) 他者を良い平衡に向かって誘導する固定エージェントとシステムの割合を播種すること; (ii) 内省の考え方に基づく本質的な報酬、すなわち、自分自身に対する自身の戦略の実行に比例する量でエージェントの報酬を高めること。 これらの単純なメカニズムの組み合わせは、エージェントが同時に使用し、評価を割り当てることを学ぶ問題の完全な分散バージョンであっても、協力の安定化に成功している。 この結果が進化ゲーム理論の文献とどのように関連しているかを示し,信頼と協力を確立する方法として評価を活用できる人工的,人間的,ハイブリッドシステムへの示唆について論じる。

Creating incentives for cooperation is a challenge in natural and artificial systems. One potential answer is reputation, whereby agents trade the immediate cost of cooperation for the future benefits of having a good reputation. Game theoretical models have shown that specific social norms can make cooperation stable, but how agents can independently learn to establish effective reputation mechanisms on their own is less understood. We use a simple model of reinforcement learning to show that reputation mechanisms generate two coordination problems: agents need to learn how to coordinate on the meaning of existing reputations and collectively agree on a social norm to assign reputations to others based on their behavior. These coordination problems exhibit multiple equilibria, some of which effectively establish cooperation. When we train agents with a standard Q-learning algorithm in an environment with the presence of reputation mechanisms, convergence to undesirable equilibria is widespread. We propose two mechanisms to alleviate this: (i) seeding a proportion of the system with fixed agents that steer others towards good equilibria; and (ii), intrinsic rewards based on the idea of introspection, i.e., augmenting agents' rewards by an amount proportionate to the performance of their own strategy against themselves. A combination of these simple mechanisms is successful in stabilizing cooperation, even in a fully decentralized version of the problem where agents learn to use and assign reputations simultaneously. We show how our results relate to the literature in Evolutionary Game Theory, and discuss implications for artificial, human and hybrid systems, where reputations can be used as a way to establish trust and cooperation.
翻訳日:2021-02-16 15:29:54 公開日:2021-02-15
# 実世界のマルチエージェント学習システムにおける多種多様な自己帰結の重要性

Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems ( http://arxiv.org/abs/2102.07659v1 )

ライセンス: Link先を確認
Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor(参考訳) マルチエージェント強化学習(MARL)は,様々なタイプのビデオゲームを解く上で,極めて大きな成功を収めている。 この成功の基盤はオートカリキュラムフレームワークであり、エージェントが適応するための新しい困難なタスクを継続的に作成し、新たなスキルの獲得を促進することによって学習プロセスを形作る。 MARLの手法をゲーム以外の現実世界のドメインに拡張するためには、ダイバーシティを意識したオートカリキュラムの維持がMARLアプリケーションの成功に不可欠である、という青空の論文を構想する。 具体的には、 \emph{behavioural diversity} は実世界のマルチエージェント学習システムにおける重要かつ未知のコンポーネントであり、多様性を意識した自動カリキュラムの設計方法を理解する上で重要な作業が残っていると論じています。 私たちは、auto-curriculumテクニックに対する4つのオープンチャレンジを挙げています。 ビジョンを検証するために、自動運転における現実的なインタラクティブな行動を重要なテストベッドとしてモデル化することを推奨し、SMARTSベンチマークを推奨します。

Multiagent reinforcement learning (MARL) has achieved a remarkable amount of success in solving various types of video games. A cornerstone of this success is the auto-curriculum framework, which shapes the learning process by continually creating new challenging tasks for agents to adapt to, thereby facilitating the acquisition of new skills. In order to extend MARL methods to real-world domains outside of video games, we envision in this blue sky paper that maintaining a diversity-aware auto-curriculum is critical for successful MARL applications. Specifically, we argue that \emph{behavioural diversity} is a pivotal, yet under-explored, component for real-world multiagent learning systems, and that significant work remains in understanding how to design a diversity-aware auto-curriculum. We list four open challenges for auto-curriculum techniques, which we believe deserve more attention from this community. Towards validating our vision, we recommend modelling realistic interactive behaviours in autonomous driving as an important test bed, and recommend the SMARTS benchmark.
翻訳日:2021-02-16 15:29:30 公開日:2021-02-15
# 厳密な凸関数による最適輸送問題の緩和

Relaxation of optimal transport problem via strictly convex functions ( http://arxiv.org/abs/2102.07336v1 )

ライセンス: Link先を確認
Asuka Takatsu(参考訳) 有限空間上の最適輸送問題は線形プログラムである。 近年,厳密な凸関数による最適輸送問題の緩和,特にKulback-Leiblerの発散により,データ科学に新たな光を当てている。 本稿では,ブレグマン発散による緩和された最適輸送問題に対する勾配勾配に基づく数学的基礎と反復過程について述べる。

An optimal transport problem on finite spaces is a linear program. Recently, a relaxation of the optimal transport problem via strictly convex functions, especially via the Kullback--Leibler divergence, sheds new light on data sciences. This paper provides the mathematical foundations and an iterative process based on a gradient descent for the relaxed optimal transport problem via Bregman divergences.
翻訳日:2021-02-16 15:28:48 公開日:2021-02-15
# ScrofaZero:深層強化学習によるトリックテイクポーカーゲームGongzhuを習得する

ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep Reinforcement Learning ( http://arxiv.org/abs/2102.07495v1 )

ライセンス: Link先を確認
Naichen Shi and Ruichen Li and Sun Youran(参考訳) 人々は、特に完璧な情報ゲームの分野で、ゲームAIで驚くべき進歩を遂げました。 しかし、不完全な情報ゲームの人気のある形態としてのトリックテイクポーカーゲームは、長い間チャレンジと見なされてきた。 トリックテイクゲームは推論だけでなく推論も高いレベルを必要とするため、不完全な情報ゲームAIの新たなマイルストーンとなる可能性があります。 gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。 それでも、Gongzhuの戦略は人間とコンピュータのプレイヤーにとって十分複雑である。 深層強化学習により、強固なgongzhu ai scrofazero を \textit{tabula rasa} から訓練する一方で、ニューラルネットワークの表現力を利用したトリックテイクポーカーゲームに対する以前の取り組みはほとんどない。 また,階層化サンプリング,重要度重み付け,等価クラスへの積分,ベイズ推論などを含む不完全情報ゲームのための新しい手法を提案する。 当社のAIは、人間のエキスパートレベルのパフォーマンスを達成できます。 プログラム構築の方法論は,様々なトリックテイクゲームに容易に移行することができる。

People have made remarkable progress in game AIs, especially in domain of perfect information game. However, trick-taking poker game, as a popular form of imperfect information game, has been regarded as a challenge for a long time. Since trick-taking game requires high level of not only reasoning, but also inference to excel, it can be a new milestone for imperfect information game AI. We study Gongzhu, a trick-taking game analogous to, but slightly simpler than contract bridge. Nonetheless, the strategies of Gongzhu are complex enough for both human and computer players. We train a strong Gongzhu AI ScrofaZero from \textit{tabula rasa} by deep reinforcement learning, while few previous efforts on solving trick-taking poker game utilize the representation power of neural networks. Also, we introduce new techniques for imperfect information game including stratified sampling, importance weighting, integral over equivalent class, Bayesian inference, etc. Our AI can achieve human expert level performance. The methodologies in building our program can be easily transferred into a wide range of trick-taking games.
翻訳日:2021-02-16 15:27:54 公開日:2021-02-15
# CQNet:MIMO CSIフィードバックのための複雑な入力量子化ニューラルネットワーク

CQNet: Complex Input Quantized Neural Network designed for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2102.07507v1 )

ライセンス: Link先を確認
Sijie Ji, Weiping Sun, Mo Li(参考訳) 大規模複数入力多重出力(MIMO)システムは、次世代通信の中核技術です。 大規模mimoシステムにおけるcsiの複雑化に伴い、従来の圧縮センシングに基づくcsiフィードバックは、ピラティカルに制限されたボトルネック問題となっている。 近年,深層学習に基づくcsiフィードバック手法が多数登場し,その効率と可能性を示している。 しかし,既存の手法では深層学習モデルの合理的な解釈が欠如しており,CSI圧縮率の増加に伴ってモデルの精度が大幅に低下する。 本稿では,CSIデータ自体の本質的な特性から,新しいニューラルネットワークCQNetを構成するためのディープラーニングビルディングブロックを考案し,その実験結果から,CQNetが,屋外シナリオと屋内シナリオの両方で平均8.07%の性能向上を達成することにより,計算オーバーヘッドの少ない最先端手法より優れていることを示す。 また, 圧縮率が大きい場合にモデル精度が低下する理由を調査し, 有効圧縮を達成するために量子化層を埋め込む手法を提案し, 平均67.19%の原精度損失を平均21.96%に低減し, 原ベンチマークで8倍の圧縮率を増加させる。

The Massive Multiple Input Multiple Output (MIMO) system is a core technology of the next generation communication. With the growing complexity of CSI in massive MIMO system, traditional compressive sensing based CSI feedback has become a bottleneck problem that is limited in piratical. Recently, numerous deep learning based CSI feedback approaches demonstrate the efficiency and potential. However, the existing methods lack a reasonable interpretation of the deep learning model and the accuracy of the model decreases significantly as the CSI compression rate increases. In this paper, from the intrinsic properties of CSI data itself, we devised the corresponding deep learning building blocks to compose a novel neural network CQNet and experiment result shows CQNet outperform the state-of-the-art method with less computational overhead by achieving an average performance improvement of 8.07% in both outdoor and indoor scenarios. In addition, this paper also investigates the reasons for the decrease in model accuracy at large compression rates and proposes a strategy to embed a quantization layer to achieve effective compression, by which the original accuracy loss of 67.19% on average is reduced to 21.96% on average, and the compression rate is increased by 8 times on the original benchmark.
翻訳日:2021-02-16 15:27:36 公開日:2021-02-15
# ニューラルネットワークによるIoT具体化エージェントの参照モデル

A Reference Model for IoT Embodied Agents Controlled by Neural Networks ( http://arxiv.org/abs/2102.07589v1 )

ライセンス: Link先を確認
Nathalia Nascimento and Paulo Alencar and Donald Cowan and Carlos Lucena(参考訳) 具体化されたエージェントは、IoT(Internet of Things)ドメインに属するデバイスのコンポーネントであるインテリジェントエージェントを表すために使用される用語です。 各エージェントは、環境と相互作用するためのセンサーとアクチュエータ、および通常人工ニューラルネットワーク(ANN)を含む「コントローラ」を備えています。 前回の出版物では、IoT具体化エージェントの設計、実装、テストの3つのソフトウェアアプローチを紹介しました。 本稿では,IoTアプリケーションの開発に適した抽象化を提供するステートチャートに基づく参照モデルを提案する。 このモデルは、ニューラルネットワークによって制御される具体化エージェントを表す。 我々のモデルは、エージェント機能の変更やニューラルネット接続などの再構成ステップとして表現されるANNトレーニングプロセスを含んでいる。 当社の貢献には、IoT具体化エージェントの主な特徴の特定、状態チャートに基づく参照モデル仕様、自律的な街路灯をサポートするモデルの図示的な適用が含まれます。 この提案は、高レベルの設計抽象化とモデルを提供することで、IoTアプリケーションの設計と実装をサポートすることを目的としている。

Embodied agents is a term used to denote intelligent agents, which are a component of devices belonging to the Internet of Things (IoT) domain. Each agent is provided with sensors and actuators to interact with the environment, and with a 'controller' that usually contains an artificial neural network (ANN). In previous publications, we introduced three software approaches to design, implement and test IoT embodied agents. In this paper, we propose a reference model based on statecharts that offers abstractions tailored to the development of IoT applications. The model represents embodied agents that are controlled by neural networks. Our model includes the ANN training process, represented as a reconfiguration step such as changing agent features or neural net connections. Our contributions include the identification of the main characteristics of IoT embodied agents, a reference model specification based on statecharts, and an illustrative application of the model to support autonomous street lights. The proposal aims to support the design and implementation of IoT applications by providing high-level design abstractions and models, thus enabling the designer to have a uniform approach to conceiving, designing and explaining such applications.
翻訳日:2021-02-16 15:27:16 公開日:2021-02-15
# omnidet: サラウンドビューカメラを用いた自律運転のためのマルチタスク視覚知覚ネットワーク

OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving ( http://arxiv.org/abs/2102.07448v1 )

ライセンス: Link先を確認
Varun Ravi Kumar, Senthil Yogamani, Hazem Rashed, Ganesh Sitsu, Christian Witt, Isabelle Leang, Stefan Milz and Patrick M\"ader(参考訳) 周囲の魚眼カメラは360\deg{}の近接場検知のための自動走行に一般的に配備される。 本研究は、未修正魚眼画像にマルチタスクの視覚知覚ネットワークを導入し、車両が周囲の環境を感知できるようにする。 自律走行システムに必要な6つの主要なタスクで構成されており、深度推定、視覚計測、セマンティックセグメンテーション、モーションセグメンテーション、物体検出、レンズ土壌検出である。 共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。 我々のマルチタスクモデルは共有エンコーダを備えており、タスクが互いにサポートする相乗化デコーダを備えている。 訓練時と推論時の魚眼歪みモデルをエンコードする,新しいカメラ形状に基づく適応機構を提案する。 これは3台の異なる車に搭載された12台の異なるカメラによって収集された世界のさまざまな場所のデータからなるウッドスケープデータセットのトレーニングを可能にするために重要だった。 拘束箱が歪んだ魚眼画像の表現に適さないことを考えると、物体検出も一様でないサンプルの頂点を持つポリゴンを使用するように拡張する。 さらに、標準的な自動車データセット、すなわちKITTIとCityscapesのモデルを評価します。 深度推定とポーズ推定のタスクと他のタスクの競争パフォーマンスのためのKITTIの最新の結果を取得します。 我々は様々なアーキテクチャの選択とタスク重み付け手法に関する広範囲なアブレーション研究を行う。 https://youtu.be/xbS jZ5OfPesの短いビデオは定性的な結果を提供します。

Surround View fisheye cameras are commonly deployed in automated driving for 360\deg{} near-field sensing around the vehicle. This work presents a multi-task visual perception network on unrectified fisheye images to enable the vehicle to sense its surrounding environment. It consists of six primary tasks necessary for an autonomous driving system: depth estimation, visual odometry, semantic segmentation, motion segmentation, object detection, and lens soiling detection. We demonstrate that the jointly trained model performs better than the respective single task versions. Our multi-task model has a shared encoder providing a significant computational advantage and has synergized decoders where tasks support each other. We propose a novel camera geometry based adaptation mechanism to encode the fisheye distortion model both at training and inference. This was crucial to enable training on the WoodScape dataset, comprised of data from different parts of the world collected by 12 different cameras mounted on three different cars with different intrinsics and viewpoints. Given that bounding boxes is not a good representation for distorted fisheye images, we also extend object detection to use a polygon with non-uniformly sampled vertices. We additionally evaluate our model on standard automotive datasets, namely KITTI and Cityscapes. We obtain the state-of-the-art results on KITTI for depth estimation and pose estimation tasks and competitive performance on the other tasks. We perform extensive ablation studies on various architecture choices and task weighting methodologies. A short video at https://youtu.be/xbS jZ5OfPes provides qualitative results.
翻訳日:2021-02-16 15:25:12 公開日:2021-02-15
# Colored Kimia Path24 Dataset:Deep Embeddingsによる構成とベンチマーク

Colored Kimia Path24 Dataset: Configurations and Benchmarks with Deep Embeddings ( http://arxiv.org/abs/2102.07611v1 )

ライセンス: Link先を確認
Sobhan Shafiei, Morteza Babaie, Shivam Kalra, H.R.Tizhoosh(参考訳) Kimia Path24データセットは、デジタル病理学の分類および検索データセットとして導入された。 マルチクラスデータを提供するが、パッチ抽出の過程で色情報は無視されている。 染色情報は組織パターンの認識において重要な役割を果たす。 この欠点に対処するため、24スキャンのサンプルパッチを再作成してKimia Path24Cを提案することで、Kimia Path24の色バージョンを紹介します。 選択したパッチの最適な設定を決定するために、広範な実験を行います。 新しいデータセットのベンチマークを設定するための予備的な結果を提供するために、VGG16、InceptionV3およびDenseNet-121モデルを機能抽出器として使用する。 そして、これらの特徴ベクトルを使ってテストパッチを検索します。 DenseNetを用いた画像検索の精度は95.92%であり、InceptionV3とVGG16を用いた最高精度は92.45%、92%であった。 また、"ディープバーコード"を実験し、精度の低下(例えば、95.92%ではなく、密度ネットの2値化特徴の93.43%)により、検索操作を著しく高速化できることを確認した。

The Kimia Path24 dataset has been introduced as a classification and retrieval dataset for digital pathology. Although it provides multi-class data, the color information has been neglected in the process of extracting patches. The staining information plays a major role in the recognition of tissue patterns. To address this drawback, we introduce the color version of Kimia Path24 by recreating sample patches from all 24 scans to propose Kimia Path24C. We run extensive experiments to determine the best configuration for selected patches. To provide preliminary results for setting a benchmark for the new dataset, we utilize VGG16, InceptionV3 and DenseNet-121 model as feature extractors. Then, we use these feature vectors to retrieve test patches. The accuracy of image retrieval using DenseNet was 95.92% while the highest accuracy using InceptionV3 and VGG16 reached 92.45% and 92%, respectively. We also experimented with "deep barcodes" and established that with a small loss in accuracy (e.g., 93.43% for binarized features for DenseNet instead of 95.92% when the features themselves are used), the search operations can be significantly accelerated.
翻訳日:2021-02-16 15:24:50 公開日:2021-02-15
# 隠れマルコフモデルと正規化流れの混合によるロバスト分類

Robust Classification using Hidden Markov Models and Mixtures of Normalizing Flows ( http://arxiv.org/abs/2102.07284v1 )

ライセンス: Link先を確認
Anubhab Ghosh, Antoine Honor\'e, Dong Liu, Gustav Eje Henter, Saikat Chatterjee(参考訳) 観測データとしてのシーケンシャルデータがノイズによって破損する最大親和性(ML)に基づく分類器の堅牢性をテストする。 この仮説は、隠れマルコフモデル(HMM)の状態遷移と、隠れたHMMの状態に対するニューラルネットワークベースの確率分布を組み合わせた生成モデルが、堅牢な分類性能を提供することができるというものである。 混合モデルは正規化フロー混合モデルベースHMM(NMM-HMM)と呼ばれる。 予測最大化(EM)とバックプロパゲーションを組み合わせてトレーニングすることができる。 音声認識への応用におけるNMM-HMM分類器の堅牢性の改善を検証する。

We test the robustness of a maximum-likelihood (ML) based classifier where sequential data as observation is corrupted by noise. The hypothesis is that a generative model, that combines the state transitions of a hidden Markov model (HMM) and the neural network based probability distributions for the hidden states of the HMM, can provide a robust classification performance. The combined model is called normalizing-flow mixture model based HMM (NMM-HMM). It can be trained using a combination of expectation-maximiza tion (EM) and backpropagation. We verify the improved robustness of NMM-HMM classifiers in an application to speech recognition.
翻訳日:2021-02-16 15:20:42 公開日:2021-02-15
# vehicle to vehicle (v2v) communication protocol: components, benefit, challenges, safety and machine learning applications

Vehicle to Vehicle (V2V) Communication Protocol: Components, Benefits, Challenges, Safety and Machine Learning Applications ( http://arxiv.org/abs/2102.07306v1 )

ライセンス: Link先を確認
Ramya Daddanala, Vekata Mannava, Lo'ai Tawlbeh, Mohammad Al-Ramahi(参考訳) 車両と車両の通信は、道路上の車両が交通、事故を減らし、人々の安全を確保するために互いに通信できるようにする新しい技術です。 車両間通信プロトコルの主な目的は、インテリジェントトランスポートシステムのための効果的な通信システムを作ることである。 技術の進歩により、自動車産業はリアルタイム情報を共有し、事故からお互いを保護できる自動車両を開発するようになった。 本稿では,車両間通信のプロセス,メリット,車両間通信を可能にする上での課題,安全性と機械学習の応用について解説する。

Vehicle to vehicle communication is a new technology that enables vehicles on roads to communicate with each other to reduce traffic, accidents and ensure the safety of people. The main objective of vehicle-to-vehicle communication protocol is to create an effective communication system for intelligent transport systems. The advancement in technology made vehicle industries to develop automatic vehicles that can share real-time information and protect each other from accidents. This research paper gives an explanation about the vehicle-to-vehicle communication process, benefits, and the challenges in enabling vehicle-to-vehicle communication as well as safety and machine learning applications.
翻訳日:2021-02-16 15:20:34 公開日:2021-02-15
# 自信認識学習アシスタント

Confidence-Aware Learning Assistant ( http://arxiv.org/abs/2102.07312v1 )

ライセンス: Link先を確認
Shoya Ishimaru, Takanori Maruichi, Andreas Dengel and Koichi Kise(参考訳) 正しいだけでなく、自信も知識の質を向上させる上で重要な役割を果たす。 自信のない不正確で自信のない正しい知識のような望ましくない状況は、学習者が自分の知識を改定することを妨げる。 そこで本研究では,アイトラッキングによる複数選択質問を解きながら,自信を推定し,どの質問を慎重に検討すべきかをフィードバックするシステムを提案する。 有効性を測定する3つの研究結果について報告する。 1) 参加者10名を対象に, 信頼度と信頼度を81%, 平均精度79%で検出した。 2)20名の被験者の協力を得て,質問の正答率を14%,正答率を17%向上させた。 3) 私立学校における大規模データ記録(72人の高校生が14,302の質問を解いた)を行い,有効特徴と必要なトレーニングサンプル数について検討した。

Not only correctness but also self-confidence play an important role in improving the quality of knowledge. Undesirable situations such as confident incorrect and unconfident correct knowledge prevent learners from revising their knowledge because it is not always easy for them to perceive the situations. To solve this problem, we propose a system that estimates self-confidence while solving multiple-choice questions by eye tracking and gives feedback about which question should be reviewed carefully. We report the results of three studies measuring its effectiveness. (1) On a well-controlled dataset with 10 participants, our approach detected confidence and unconfidence with 81% and 79% average precision. (2) With the help of 20 participants, we observed that correct answer rates of questions were increased by 14% and 17% by giving feedback about correct answers without confidence and incorrect answers with confidence, respectively. (3) We conducted a large-scale data recording in a private school (72 high school students solved 14,302 questions) to investigate effective features and the number of required training samples.
翻訳日:2021-02-16 15:20:23 公開日:2021-02-15
# 高速ミリ波ビームフォーミングのためのカメラ画像の機械学習

Machine Learning on Camera Images for Fast mmWave Beamforming ( http://arxiv.org/abs/2102.07337v1 )

ライセンス: Link先を確認
Batool Salehi, Mauro Belgiovine, Sara Garcia Sanchez, Jennifer Dy, Stratis Ioannidis, Kaushik Chowdhury(参考訳) mmWaveバンドでのビームフォーミングには、送信ノードと受信ノードの両方で選択されたビームセクタの完璧なアライメントが必要です。 現在の802.11ad WiFiと新しい5Gセルラー規格は、最も高いSNRとビームペアを特定するために、数ミリ秒間異なるセクターの組み合わせを探索している。 本論文では,2つの連続畳み込みニューラルネットワーク(CNN)を用いた機械学習(ML)手法を提案する。この手法は,帯域外情報をカメラ画像の形で利用し,(i)送信機と受信機のノードの位置を迅速に識別し,(ii)最適なビームペアを返す。 NI 60GHz mm波トランシーバを用いた屋内設定のこの興味深いコンセプトを実験的に検証します。 その結果,我々のML手法は,現在の基準で定義されている時間集中決定法と比較して,環境照明条件下でのビームフォーミング関連探査時間を93%削減し,誤差が1%未満であることが判明した。

Perfect alignment in chosen beam sectors at both transmit- and receive-nodes is required for beamforming in mmWave bands. Current 802.11ad WiFi and emerging 5G cellular standards spend up to several milliseconds exploring different sector combinations to identify the beam pair with the highest SNR. In this paper, we propose a machine learning (ML) approach with two sequential convolutional neural networks (CNN) that uses out-of-band information, in the form of camera images, to (i) rapidly identify the locations of the transmitter and receiver nodes, and then (ii) return the optimal beam pair. We experimentally validate this intriguing concept for indoor settings using the NI 60GHz mmwave transceiver. Our results reveal that our ML approach reduces beamforming related exploration time by 93% under different ambient lighting conditions, with an error of less than 1% compared to the time-intensive deterministic method defined by the current standards.
翻訳日:2021-02-16 15:20:06 公開日:2021-02-15
# DiffCo:安全認識軌道最適化のためのマルチクラスラベルによる自動微分プロキシ衝突検出

DiffCo: Auto-Differentiable Proxy Collision Detection with Multi-class Labels for Safety-Aware Trajectory Optimization ( http://arxiv.org/abs/2102.07413v1 )

ライセンス: Link先を確認
Yuheng Zhi, Nikhil Das, Michael Yip(参考訳) 軌道最適化アルゴリズムの目的は、開始状態と目標状態の間の最適な衝突のない経路を達成することである。 環境が複雑で非均質な現実のシナリオでは、ロボットは、いくつかの安全基準を満たすために、状態が様々な物体と衝突するかどうかを測定する必要がある。 衝突検知器は計算効率が高く、理想的には、最適化中に安定かつ迅速な勾配降下を容易にするために分析的に微分可能であるべきである。 しかし、今日の手法は、不安定な数値勾配に頼るのではなく、衝突を異なる方法で検出するエレガントなアプローチを欠いている。 DiffCoは、衝突検出のための最初の完全自動微分可能非パラメトリックモデルである。 非パラメトリックな振る舞いにより、衝突境界をオンザフライで計算し、それらを更新し、事前トレーニングを必要とせず、動的環境で継続的に更新することができる。 バックプロパゲーションによる軌道最適化のための頑健な勾配を提供し、幾何学的手法よりも計算が10-100倍高速であることが多い。 DiffCoはまた、意味的に情報化された軌道最適化のために異なるオブジェクト衝突クラスをモデリングすることにも自明に拡張する。

The objective of trajectory optimization algorithms is to achieve an optimal collision-free path between a start and goal state. In real-world scenarios where environments can be complex and non-homogeneous, a robot needs to be able to gauge whether a state will be in collision with various objects in order to meet some safety metrics. The collision detector should be computationally efficient and, ideally, analytically differentiable to facilitate stable and rapid gradient descent during optimization. However, methods today lack an elegant approach to detect collision differentiably, relying rather on numerical gradients that can be unstable. We present DiffCo, the first, fully auto-differentiable, non-parametric model for collision detection. Its non-parametric behavior allows one to compute collision boundaries on-the-fly and update them, requiring no pre-training and allowing it to update continuously in dynamic environments. It provides robust gradients for trajectory optimization via backpropagation and is often 10-100x faster to compute than its geometric counterparts. DiffCo also extends trivially to modeling different object collision classes for semantically informed trajectory optimization.
翻訳日:2021-02-16 15:19:49 公開日:2021-02-15
# 選択パラメータ共有によるマルチエージェント強化学習のスケーリング

Scaling Multi-Agent Reinforcement Learning with Selective Parameter Sharing ( http://arxiv.org/abs/2102.07475v1 )

ライセンス: Link先を確認
Filippos Christianos, Georgios Papoudakis, Arrasy Rahman, Stefano V. Albrecht(参考訳) 多エージェント深部強化学習におけるパラメータの共有は,アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。 エージェント間のパラメータ共有は、トレーニング可能なパラメータの数を大幅に減少させ、トレーニング時間をトラクタブルレベルに短縮し、より効率的な学習に結びついている。 しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。 パラメータ共有手法が学習速度と収束リターンに与える影響を実証し,無差別に適用した場合,その効果は環境に大きく依存することを示した。 そこで本研究では,その能力と目標に基づいてパラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。 提案手法は,パラメータ共有のサンプル効率の向上と,複数の独立ネットワークの表現能力の併用により,トレーニング時間を短縮し,最終的なリターンを増大させる。

Sharing parameters in multi-agent deep reinforcement learning has played an essential role in allowing algorithms to scale to a large number of agents. Parameter sharing between agents significantly decreases the number of trainable parameters, shortening training times to tractable levels, and has been linked to more efficient learning. However, having all agents share the same parameters can also have a detrimental effect on learning. We demonstrate the impact of parameter sharing methods on training speed and converged returns, establishing that when applied indiscriminately, their effectiveness is highly dependent on the environment. Therefore, we propose a novel method to automatically identify agents which may benefit from sharing parameters by partitioning them based on their abilities and goals. Our approach combines the increased sample efficiency of parameter sharing with the representational capacity of multiple independent networks to reduce training time and increase final returns.
翻訳日:2021-02-16 15:19:30 公開日:2021-02-15
# 将来の無線ネットワークにおける転送学習:包括的調査

Transfer Learning for Future Wireless Networks: A Comprehensive Survey ( http://arxiv.org/abs/2102.07572v1 )

ライセンス: Link先を確認
Cong T. Nguyen, Nguyen Van Huynh, Nam H. Chu, Yuris Mulya Saputra, Dinh Thai Hoang, Diep N. Nguyen, Quoc-Viet Pham, Dusit Niyato, Eryk Dutkiewicz and Won-Joo Hwang(参考訳) 優れた機能を持つ機械学習(ML)は、無線ネットワークにおける多くのアプリケーションのバックボーンとなっている。 しかし、従来のMLアプローチは、ラベル付きデータの欠如、絶えず変化する無線環境、長いトレーニングプロセス、無線機器の限られた容量など、実践的な実装において多くの課題に直面している。 これらの課題は、対処されなければ、将来の無線ネットワークにおけるMLの有効性と適用可能性を妨げることになる。 これらの問題に対処するため、Transfer Learning (TL) は、最近非常に有望なソリューションとして現れました。 TLのコアとなるアイデアは、過去に蓄積された貴重な経験だけでなく、同様のタスクから蒸留した知識を活用・合成し、新しい問題の学習を容易にすることです。 これにより、TL技術はラベル付きデータへの依存を減らし、学習速度を改善し、異なる無線環境に対するMLメソッドの堅牢性を高めることができる。 本稿では,無線ネットワークにおけるTLの適用に関する総合的な調査を行う。 特に, 形式定義, 分類, 各種TL技術など, TLの概要について概説する。 次に,無線ネットワークにおける新たな課題に対処するために,多様なTLアプローチを提案する。 問題となるのは、スペクトル管理、ローカライゼーション、信号認識、セキュリティ、人間のアクティビティ認識、キャッシングなどだ。 最後に,今後の無線ネットワークにおけるTLの課題,オープンな課題,今後の研究方向性について述べる。

With outstanding features, Machine Learning (ML) has been the backbone of numerous applications in wireless networks. However, the conventional ML approaches have been facing many challenges in practical implementation, such as the lack of labeled data, the constantly changing wireless environments, the long training process, and the limited capacity of wireless devices. These challenges, if not addressed, will impede the effectiveness and applicability of ML in future wireless networks. To address these problems, Transfer Learning (TL) has recently emerged to be a very promising solution. The core idea of TL is to leverage and synthesize distilled knowledge from similar tasks as well as from valuable experiences accumulated from the past to facilitate the learning of new problems. Doing so, TL techniques can reduce the dependence on labeled data, improve the learning speed, and enhance the ML methods' robustness to different wireless environments. This article aims to provide a comprehensive survey on applications of TL in wireless networks. Particularly, we first provide an overview of TL including formal definitions, classification, and various types of TL techniques. We then discuss diverse TL approaches proposed to address emerging issues in wireless networks. The issues include spectrum management, localization, signal recognition, security, human activity recognition and caching, which are all important to next-generation networks such as 5G and beyond. Finally, we highlight important challenges, open issues, and future research directions of TL in future wireless networks.
翻訳日:2021-02-16 15:19:15 公開日:2021-02-15
# インダクティブレコメンデーションのためのユーザ埋め込みに基づく近隣アグリゲーション手法

User Embedding based Neighborhood Aggregation Method for Inductive Recommendation ( http://arxiv.org/abs/2102.07575v1 )

ライセンス: Link先を確認
Rahul Ragesh, Sundararajan Sellamanickam, Vijay Lingam, Arun Iyer and Ramakrishna Bairi(参考訳) 我々は,ユーザとアイテムの潜在機能(組込み)を推薦設定で学習する問題を考える。 ユーザとアイテムの相互作用グラフだけを考えると、目標は各ユーザにアイテムを推薦することです。 伝統的なアプローチは行列分解に基づく協調フィルタリング法を用いる。 グラフ畳み込みネットワーク(例:LightGCN)を用いた最近の手法は最先端の性能を達成する。 ユーザーとアイテムの埋め込みの両方を学びます。 既存のほとんどの方法の大きな欠点は、それらは誘導的ではなく、訓練中に見えないユーザやアイテムを一般化しないことである。 さらに、既存のネットワークモデルは非常に複雑で、トレーニングやスケールが難しい。 光GCNをモチベーションとして,協調フィルタCF-GCNのためのグラフ畳み込みネットワークモデリング手法を提案する。 本研究は,軽量なCF-LGCN-Uを用いたユーザ埋め込みとアイテム埋め込みのみを学習し,モデル複雑性の低減による拡張性を実現する。 CF-LGCN-Uモデルには自然に新しいアイテムの帰納的能力があり,新しいユーザを一般化するための簡単な解法を提案する。 提案モデルがLightGCNとどのように関連しているかを示す。 副産物として、LightGCNを誘導する簡単なソリューションを提案します。 複数のベンチマークデータセットについて包括的な実験を行い,提案手法の能力を実証する。 実験の結果,トランスダクティブとインダクティブの両方において,アートメソッドの状態よりも類似あるいは優れた一般化性能が達成可能であることがわかった。

We consider the problem of learning latent features (aka embedding) for users and items in a recommendation setting. Given only a user-item interaction graph, the goal is to recommend items for each user. Traditional approaches employ matrix factorization-based collaborative filtering methods. Recent methods using graph convolutional networks (e.g., LightGCN) achieve state-of-the-art performance. They learn both user and item embedding. One major drawback of most existing methods is that they are not inductive; they do not generalize for users and items unseen during training. Besides, existing network models are quite complex, difficult to train and scale. Motivated by LightGCN, we propose a graph convolutional network modeling approach for collaborative filtering CF-GCN. We solely learn user embedding and derive item embedding using light variant CF-LGCN-U performing neighborhood aggregation, making it scalable due to reduced model complexity. CF-LGCN-U models naturally possess the inductive capability for new items, and we propose a simple solution to generalize for new users. We show how the proposed models are related to LightGCN. As a by-product, we suggest a simple solution to make LightGCN inductive. We perform comprehensive experiments on several benchmark datasets and demonstrate the capabilities of the proposed approach. Experimental results show that similar or better generalization performance is achievable than the state of the art methods in both transductive and inductive settings.
翻訳日:2021-02-16 15:18:54 公開日:2021-02-15
# EEG分類タスクのダウンサンプリングにおける幾何学的特徴性能

Geometric feature performance under downsampling for EEG classification tasks ( http://arxiv.org/abs/2102.07669v1 )

ライセンス: Link先を確認
Bryan Bischof, Eric Bunch(参考訳) 我々は,Bonデータセットから脳波(EEG)時系列から眼開眼または眼閉眼を分類するためのCNNを用いた機能工学パイプラインのコレクションを実験的に検討した。 Takensの埋め込み--時系列の幾何学的表現--を用いて、脳波データから単純複体を構築する。 次に、ベッチ数の$\epsilon$-seriesと$\epsilon$-series of graph spectra(新しい構成)を比較する。 これらの手法はトポロジカルデータ分析に触発され、時系列の局所幾何学をキャプチャするために特徴工学に用いられる。 さらに、これらの機能パイプラインのダウンサンプリングとデータ削減に対する堅牢性をテストする。 本稿では,幾何学的特徴による時系列分類と,劣化した解像度のデータに対する時系列のcnnの対応について明らかにすることを目的とした。

We experimentally investigate a collection of feature engineering pipelines for use with a CNN for classifying eyes-open or eyes-closed from electroencephalogram (EEG) time-series from the Bonn dataset. Using the Takens' embedding--a geometric representation of time-series--we construct simplicial complexes from EEG data. We then compare $\epsilon$-series of Betti-numbers and $\epsilon$-series of graph spectra (a novel construction)--two topological invariants of the latent geometry from these complexes--to raw time series of the EEG to fill in a gap in the literature for benchmarking. These methods, inspired by Topological Data Analysis, are used for feature engineering to capture local geometry of the time-series. Additionally, we test these feature pipelines' robustness to downsampling and data reduction. This paper seeks to establish clearer expectations for both time-series classification via geometric features, and how CNNs for time-series respond to data of degraded resolution.
翻訳日:2021-02-16 15:18:04 公開日:2021-02-15
# 線形ユーティリティのための公平かつ最適コホート選択

Fair and Optimal Cohort Selection for Linear Utilities ( http://arxiv.org/abs/2102.07684v1 )

ライセンス: Link先を確認
Konstantina Bairaktari, Huy Le Nguyen, Jonathan Ullman(参考訳) アルゴリズム的意思決定の台頭は、それらのアルゴリズムの公平性に関する研究の爆発を生み出した。 個々の公平性には多くの説得力のある概念があるが、Dworkらの作品から始まるが、これらの概念は通常、望ましい組成特性を満たしていない。 この目的のために、Dwork と Ilvento はフェアコホート選択問題を導入し、これは単一のフェア分類器がそれ自身で構成され、ちょうど$k$の候補群を選択する特定のアプリケーションを取得する。 本研究では、線形実用関数を最大化するコホートを選択することを目標とするコホート選択の特定の例を紹介する。 この問題に対して,公平分類器が一斉に与えられるオフライン設定と,候補が一斉に到着して到着するオンライン設定のいずれにおいても,ほぼ最適な多項式時間アルゴリズムを提示する。

The rise of algorithmic decision-making has created an explosion of research around the fairness of those algorithms. While there are many compelling notions of individual fairness, beginning with the work of Dwork et al., these notions typically do not satisfy desirable composition properties. To this end, Dwork and Ilvento introduced the fair cohort selection problem, which captures a specific application where a single fair classifier is composed with itself to pick a group of candidates of size exactly $k$. In this work we introduce a specific instance of cohort selection where the goal is to choose a cohort maximizing a linear utility function. We give approximately optimal polynomial-time algorithms for this problem in both an offline setting where the entire fair classifier is given at once, or an online setting where candidates arrive one at a time and are classified as they arrive.
翻訳日:2021-02-16 15:17:43 公開日:2021-02-15
# 難易度問題に対する再構成型メンバーシップ推論攻撃の有用性

Reconstruction-Based Membership Inference Attacks are Easier on Difficult Problems ( http://arxiv.org/abs/2102.07762v1 )

ライセンス: Link先を確認
Avital Shafran, Shmuel Peleg, Yedid Hoshen(参考訳) メンバーシップ推論攻撃(MIA)は、データサンプルがニューラルネットワークモデルのトレーニングに使用されたかどうかを検出する。 著作権侵害を検知します 高次元の入力と出力を持つモデルはMIAに対してより脆弱であり、画像翻訳とセマンティックセグメンテーションのためのより詳細なモデルに対処できることを示した。 我々は,再建エラーが,記憶の指標として非常に効果的なMIA攻撃につながることを示した。 残念ながら、復元エラーだけでは、トレーニングに使用される予測不可能な画像の識別が難しく、これまでに見たことのない画像の予測が容易です。 そこで本研究では,各試料に対して計算可能な新たな予測可能性スコアを用いて,トレーニングセットを必要としない計算を提案する。 再構成誤差から予測可能性スコアを減算して得られた会員誤差は,多数のベンチマークにおいて高いMIA精度が得られることを示す。

Membership inference attacks (MIA) try to detect if data samples were used to train a neural network model, e.g. to detect copyright abuses. We show that models with higher dimensional input and output are more vulnerable to MIA, and address in more detail models for image translation and semantic segmentation. We show that reconstruction-error s can lead to very effective MIA attacks as they are indicative of memorization. Unfortunately, reconstruction error alone is less effective at discriminating between non-predictable images used in training and easy to predict images that were never seen before. To overcome this, we propose using a novel predictability score that can be computed for each sample, and its computation does not require a training set. Our membership error, obtained by subtracting the predictability score from the reconstruction error, is shown to achieve high MIA accuracy on an extensive number of benchmarks.
翻訳日:2021-02-16 15:17:27 公開日:2021-02-15
# 音響刺激を用いたホログラフィック細胞剛性マッピング

Holographic Cell Stiffness Mapping Using Acoustic Stimulation ( http://arxiv.org/abs/2102.07480v1 )

ライセンス: Link先を確認
Rahmetullah Varol, Sevde Omeroglu, Zeynep Karavelioglu, Gizem Aydemir, Aslihan Karadag, Hanife Ecenur Meco, Gizem Calibasi Kocal, Muhammed Enes Oruc, Gokhan Bora Esmer, Yasemin Basbinar, Huseyin Uvet(参考訳) 増殖、接着、移動、運動などの多くの重要な細胞プロセスの調節における単細胞力学の重要な役割のために、剛性分布の正確な評価が不可欠です。 細胞硬度は細胞の基本的な機械的性質の1つであり、細胞内張力、細胞骨格プレストレス、細胞骨格構造に大きく影響を受ける。 本論文では,高分解能かつリアルタイムに細胞膜上の剛性分布を得ることができるホログラフィック単細胞剛性測定手法を提案する。 音響信号と結合した撮像法により, 誤差マージンが低く, ラベルフリー方式で細胞剛性分布を評価することができる。 HCT116(Human Colorectal Carcinoma)細胞とCTCによるHCT116細胞に対して,TGF-\b{eta}(Transforming Growth factor-beta)による誘導法を提案する。 提案手法の検証研究は, 既知剛性を有するポリスチレン系マイクロビーズを用いて行った。 その性能は, 関連細胞に対して得られたAFM結果と比較して評価した。 実験結果を検討したところ,HCT116の平均細胞剛性値に対して最大性能を示し,CTCによるHCT116細胞は1.08kPa,0.88kPaであった。 その結果、CTCによるHCT116細胞は、血管循環に入り転移する接着能力を失います。 彼らはまた、がん細胞の付着形態と比較してより柔らかい剛性プロファイルを示す。 したがって,本手法は生体内細胞剛性評価ツールの重要かつ信頼性が高く,より高速な代替手段である。 病気のモデリング、薬物検査、診断など、単細胞分析が必要な様々な用途に利用することができる。

Accurate assessment of stiffness distribution is essential due to the critical role of single cell mechanobiology in the regulation of many vital cellular processes such as proliferation, adhesion, migration, and motility. Cell stiffness is one of the fundamental mechanical properties of the cell and is greatly affected by the intracellular tensional forces, cytoskeletal prestress, and cytoskeleton structure. Herein, we propose a novel holographic single-cell stiffness measurement technique that can obtain the stiffness distribution over a cell membrane at high resolution and in real-time. The proposed imaging method coupled with acoustic signals allows us to assess the cell stiffness distribution with a low error margin and label-free manner. We demonstrate the proposed technique on HCT116 (Human Colorectal Carcinoma) cells and CTC-mimicked HCT116 cells by induction with transforming growth factor-beta (TGF-\b{eta}). Validation studies of the proposed approach were carried out on certified polystyrene microbeads with known stiffness levels. Its performance was evaluated in comparison with the AFM results obtained for the relevant cells. When the experimental results were examined, the proposed methodology shows utmost performance over average cell stiffness values for HCT116, and CTC-mimicked HCT116 cells were found as 1.08 kPa, and 0.88 kPa, respectively. The results confirm that CTC-mimicked HCT116 cells lose their adhesion ability to enter the vascular circulation and metastasize. They also exhibit a softer stiffness profile compared to adherent forms of the cancer cells. Hence, the proposed technique is a significant, reliable, and faster alternative for in-vitro cell stiffness characterization tools. It can be utilized for various applications where single-cell analysis is required, such as disease modeling, drug testing, diagnostics, and many more.
翻訳日:2021-02-16 15:17:11 公開日:2021-02-15
# 画像復元のためのプラグ・アンド・プレイ外部および内部先行

Plug-and-Play external and internal priors for image restoration ( http://arxiv.org/abs/2102.07510v1 )

ライセンス: Link先を確認
Pasquale Cascarano, Elena Loli Piccolomini, Elena Morotti, Andrea Sebastiani(参考訳) 画像復元問題は、データ忠実度や正規化項を含む変動モデルの最小化として、よく確立された収束特性を持つ最適化手法によって伝統的に定式化された。 近年,画像復元のためのプラグ・アンド・プレイ (pnp) 法が,先行する既定デノイザーを反復的近位アルゴリズムで導入することにより,非常に良好な結果と人気を得ている。 Deep Convolutional Neural Network (CNN) Denoisersは、画像統計をうまく反映する外部優先度(外部トレーニングセットに関連する)を指定します。 逆に、いわゆる内部デノイザーは、所望の画像に特定の特徴を強制することによって、観察されたデータに予期される内部優先を誘導する。 外部優先度と内部優先度を組み合わせた半二次分割アルゴリズムに基づく新しいPnPスキームを提案する。 さらに,既存のpnp法とは異なり,画像勾配領域に作用する深いデノイザーを提案する。 最後に,不動点収束が適切な条件下で提案されたスキームに対して保証されることを示す。 実験部では、CNNデノイサーと、外部と内部の優先度をそれぞれ指定するTotal Variation関数を使用します。 提案手法は, シミュレーションと実医療の両方において, ぼやけたノイズ画像の復元に有効であることを実証する。

Image restoration problems were traditionally formulated as the minimization of variational models, including data-fidelity and regularization terms, performed by optimization methods with well-established convergence properties. Recently, Plug-and-Play (PnP) methods for image restoration have obtained very good results and popularity by introducing, in iterative proximal algorithms, any off-the-shelf denoiser as priors. Deep Convolutional Neural Network (CNN) denoisers specify external priors (related to an outer training set) which well reflect image statistics; however they fail when dealing with unseen noise variance and image patterns in the given image. Conversely, the so-called internal denoisers induce internal priorsta ilored on the observed data, by forcing specific features on the desired image. We propose a new PnP scheme, based on the Half-Quadratic Splitting proximal algorithm, combining external and internal priors. Moreover, differently from other existing PnP methods, we propose a deep denoiser acting on the image gradient domain. Finally, we prove that a fixed point convergence is guaranteed for the proposed scheme under suitable conditions. In the experimental part, we use CNN denoisers and the Total Variation functional specifying external and internal priors, respectively. We prove the effectiveness of the proposed method in restoring blurred noisy images, both in simulated and real medical settings.
翻訳日:2021-02-16 15:16:44 公開日:2021-02-15
# 応答確率分布のランダム場モデリングによる目標指向適応サンプリング

Goal-oriented adaptive sampling under random field modelling of response probability distributions ( http://arxiv.org/abs/2102.07612v1 )

ライセンス: Link先を確認
Ath\'ena\"is Gautier, David Ginsbourger, Guillaume Pirot(参考訳) 自然および人工複雑系の研究において、考慮された決定変数によって完全に決定されない応答は確率論的にモデル化され、結果として決定空間間で応答分布が変化する。 これらの応答分布の空間的変動が、それらの平均および/または分散だけでなく、例えば、形状や一様性、多様性といった他の特徴も考慮する。 私たちの貢献は、誘起される確率分布の分野、特にロジスティックガウスモデルの空間拡張をモデル化する非パラメトリックベイズ的アプローチに基づいています。 検討されたモデルは、候補点における応答分布の確率的予測を提供し、例えば確率密度関数の(近似)後方シミュレーションを実行し、ターゲット分布の複数のモーメントやその他の関数を共同で予測し、関心のある分布分野の知識の状態に対する新しいサンプルの収集の影響を定量化する。 特に,非線形(確率的)逆転や大域的最適化からキャリブレーションや関連する問題にパーシミュニケートに対処する上で,ランダム分布モデルのポテンシャルを活用して,システム評価を目標指向的に導く適応型サンプリング戦略を導入する。

In the study of natural and artificial complex systems, responses that are not completely determined by the considered decision variables are commonly modelled probabilistically, resulting in response distributions varying across decision space. We consider cases where the spatial variation of these response distributions does not only concern their mean and/or variance but also other features including for instance shape or uni-modality versus multi-modality. Our contributions build upon a non-parametric Bayesian approach to modelling the thereby induced fields of probability distributions, and in particular to a spatial extension of the logistic Gaussian model. The considered models deliver probabilistic predictions of response distributions at candidate points, allowing for instance to perform (approximate) posterior simulations of probability density functions, to jointly predict multiple moments and other functionals of target distributions, as well as to quantify the impact of collecting new samples on the state of knowledge of the distribution field of interest. In particular, we introduce adaptive sampling strategies leveraging the potential of the considered random distribution field models to guide system evaluations in a goal-oriented way, with a view towards parsimoniously addressing calibration and related problems from non-linear (stochastic) inversion and global optimisation.
翻訳日:2021-02-16 15:16:22 公開日:2021-02-15
# 接続音声における話者声質識別に基づくi-vector

I-vector Based Within Speaker Voice Quality Identification on connected speech ( http://arxiv.org/abs/2102.07307v1 )

ライセンス: Link先を確認
Chuyao Feng, Eva van Leer, Mackenzie Lee Curtis, David V. Anderson(参考訳) 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。 ほとんどの音声障害は行動療法によって効果的に治療できるため、患者は問題のある、習慣化した音声生成機構を最適な音声生成技術に置き換えることを教え、声質の向上をもたらす。 しかし、患者が治療セッション間で臨床のフィードバックが得られない場合に、患者がターゲット技術と異なる習慣的声を区別することが困難であるため、治療は失敗することが多い。 そこで, 長期にわたって臨床のフィードバックをクリニカルな設定に拡張することを目的として, 同一個人が生成する様々な声質を自動的に区別する2つのシステムを構築した。 我々は,(1)iベクターに基づくシステムでは,その品質を,(2)従来の音声信号処理アルゴリズムをベースとしたシステムよりも優れている,という仮説を立てた。 訓練録音は13人のアマチュア俳優によって提供され、それぞれが接続された音声で5つの知覚的に異なる音声品質を作り出しました。 仮説通り、i-vectorシステムは音響測定システムを分類精度(すなわち)で上回った。 97.5\%, 77.2\%) であった。 i-vectorシステムは、ベースラインシステムの22機能スペースよりも各音声品質をよりよく表現する統合スペースに特徴をマップするため、発見が期待されます。 したがって、i-vectorベースのシステムは、音声療法および音声訓練における臨床応用の可能性を有する。

Voice disorders affect a large portion of the population, especially heavy voice users such as teachers or call-center workers. Most voice disorders can be treated effectively with behavioral voice therapy, which teaches patients to replace problematic, habituated voice production mechanics with optimal voice production technique(s), yielding improved voice quality. However, treatment often fails because patients have difficulty differentiating their habitual voice from the target technique independently, when clinician feedback is unavailable between therapy sessions. Therefore, with the long term aim to extend clinician feedback to extra-clinical settings, we built two systems that automatically differentiate various voice qualities produced by the same individual. We hypothesized that 1) a system based on i-vectors could classify these qualities as if they represent different speakers and 2) such a system would outperform one based on traditional voice signal processing algorithms. Training recordings were provided by thirteen amateur actors, each producing 5 perceptually different voice qualities in connected speech: normal, breathy, fry, twang, and hyponasal. As hypothesized, the i-vector system outperformed the acoustic measure system in classification accuracy (i.e. 97.5\% compared to 77.2\%, respectively). Findings are expected because the i-vector system maps features to an integrated space which better represents each voice quality than the 22-feature space of the baseline system. Therefore, an i-vector based system has potential for clinical application in voice therapy and voice training.
翻訳日:2021-02-16 15:14:33 公開日:2021-02-15
# 表現学習の一般化には圧縮位相は不要である

Compression phase is not necessary for generalization in representation learning ( http://arxiv.org/abs/2102.07402v1 )

ライセンス: Link先を確認
Sungyeop Lee and Junghyo Jo(参考訳) 様々な分野における深層学習の卓越した性能は、学習過程を情報の伝達と圧縮として解釈する情報理論を用いて潜在的に検討できる基本的クエリである。 入力隠れ出力層間の相互情報の情報平面解析により、適合と圧縮の2つの異なる学習段階が示された。 訓練データから抽出した入出力関係を一般化するために圧縮位相が必要かどうかは議論の余地がある。 そこで本研究では, 各種オートエンコーダを用いた実験を行い, その情報処理過程について, 正確なカーネルベースの相互情報推定器を用いて評価した。 十分なトレーニングデータを得たバニラオートエンコーダは、隠れた活動に対して空間正規化を課した後、圧縮フェーズを増幅した。 しかし,ネットワーク重みや隠れ空間の多様体に特別な制約を持つ変分オートエンコーダを含む,異なる種類のオートエンコーダでは圧縮相が普遍的に観察されないことがわかった。 これらのタイプのオートエンコーダは、圧縮フェーズを必要とせず、テストデータの完全な一般化能力を示した。 したがって,表現学習の一般化には圧縮位相は必要ないと結論づける。

The outstanding performance of deep learning in various fields has been a fundamental query, which can be potentially examined using information theory that interprets the learning process as the transmission and compression of information. Information plane analyses of the mutual information between the input-hidden-output layers demonstrated two distinct learning phases of fitting and compression. It is debatable if the compression phase is necessary to generalize the input-output relations extracted from training data. In this study, we investigated this through experiments with various species of autoencoders and evaluated their information processing phase with an accurate kernel-based estimator of mutual information. Given sufficient training data, vanilla autoencoders demonstrated the compression phase, which was amplified after imposing sparsity regularization for hidden activities. However, we found that the compression phase is not universally observed in different species of autoencoders, including variational autoencoders, that have special constraints on network weights or manifold of hidden space. These types of autoencoders exhibited perfect generalization ability for test data without requiring the compression phase. Thus, we conclude that the compression phase is not necessary for generalization in representation learning.
翻訳日:2021-02-16 15:14:07 公開日:2021-02-15
# マルチユーザmmWave-MIMOシステムにおける空間パスインデックス変調によるハイブリッドビーム形成のためのフェデレーションドリップアウト学習

Federated Dropout Learning for Hybrid Beamforming With Spatial Path Index Modulation In Multi-User mmWave-MIMO Systems ( http://arxiv.org/abs/2102.07450v1 )

ライセンス: Link先を確認
Ahmet M. Elbir, Sinem Coleri, Kumar Vijay Mishra(参考訳) 無線周波数(RF)の少ないミリ波多重出力多重出力(mmWave-MIMO)系では多重利得が制限されている。 空間経路指数変調(SPIM)は、空間経路の指標によって変調された付加信号ビットを利用することにより、この利得を改善するのに有用である。 本稿では,マルチユーザSPIM-MIMOシステムにおけるビームフォーマ設計のためのモデルベースおよびモデルフリーフレームワークを提案する。 まず,モデルに基づく多様体最適化アルゴリズムを用いてビームフォーマを設計する。 そこで我々は、FL(Federated Learning)とDL(Dropout Learning)を併用して、ユーザのローカルデータセット上で学習モデルをトレーニングし、そのモデルにチャネルデータを与えることでビームフォーマを推定する。 dlはトレーニング中に異なるモデルパラメータ群をランダムに選択し、従来のflに比べて伝送オーバーヘッドを更に低減する。 数値実験により,提案手法は,最強伝播経路に依存するSPIM-MIMO法やmmWave-MIMO法よりも高いスペクトル効率を示すことが示された。 さらに,提案するflアプローチは,集中型学習手法よりも送信オーバーヘッドを少なくとも10倍低減する。

Millimeter wave multiple-input multiple-output (mmWave-MIMO) systems with small number of radio-frequency (RF) chains have limited multiplexing gain. Spatial path index modulation (SPIM) is helpful in improving this gain by utilizing additional signal bits modulated by the indices of spatial paths. In this paper, we introduce model-based and model-free frameworks for beamformer design in multi-user SPIM-MIMO systems. We first design the beamformers via model-based manifold optimization algorithm. Then, we leverage federated learning (FL) with dropout learning (DL) to train a learning model on the local dataset of users, who estimate the beamformers by feeding the model with their channel data. The DL randomly selects different set of model parameters during training, thereby further reducing the transmission overhead compared to conventional FL. Numerical experiments show that the proposed framework exhibits higher spectral efficiency than the state-of-the-art SPIM-MIMO methods and mmWave-MIMO, which relies on the strongest propagation path. Furthermore, the proposed FL approach provides at least 10 times lower transmission overhead than the centralized learning techniques.
翻訳日:2021-02-16 15:13:49 公開日:2021-02-15
# フェデレーション学習におけるデバイスと行動不均一性の影響について

On the Impact of Device and Behavioral Heterogeneity in Federated Learning ( http://arxiv.org/abs/2102.07500v1 )

ライセンス: Link先を確認
Ahmed M. Abdelmoniem and Chen-Yu Ho and Pantelis Papageorgiou and Muhammad Bilal and Marco Canini(参考訳) フェデレーション学習(fl)は、非信頼エンティティが所有する分散プライベートデータセット上での協調学習のための一般的なパラダイムになりつつある。 FLは実運用環境での展開に成功しており、仮想キーボード、自動補完、アイテムレコメンデーション、いくつかのIoTアプリケーションなどのサービスで採用されています。 しかし、FL は集中型 FL サーバーの制御外にある、主に不均一なデータセット、デバイス、ネットワーク上でトレーニングを実行するという課題に直面しています。 この固有の設定に動機づけられて、我々は訓練されたモデルに対するデバイスおよび行動不均一性の影響を特徴付けるための第一歩を踏み出します。 5つのFLベンチマークで1.5Kのユニークな構成にまたがる広範な実証的研究を行った。 これらの不均質性源はモデル性能と公平性の両方に大きく影響し、FLシステム設計における不均質性を考慮することの重要性に光を当てている。

Federated learning (FL) is becoming a popular paradigm for collaborative learning over distributed, private datasets owned by non-trusting entities. FL has seen successful deployment in production environments, and it has been adopted in services such as virtual keyboards, auto-completion, item recommendation, and several IoT applications. However, FL comes with the challenge of performing training over largely heterogeneous datasets, devices, and networks that are out of the control of the centralized FL server. Motivated by this inherent setting, we make a first step towards characterizing the impact of device and behavioral heterogeneity on the trained model. We conduct an extensive empirical study spanning close to 1.5K unique configurations on five popular FL benchmarks. Our analysis shows that these sources of heterogeneity have a major impact on both model performance and fairness, thus sheds light on the importance of considering heterogeneity in FL system design.
翻訳日:2021-02-16 15:13:29 公開日:2021-02-15
# GradPIM: グラディエントDescentのための実用的なDRAMアーキテクチャ

GradPIM: A Practical Processing-in-DRAM Architecture for Gradient Descent ( http://arxiv.org/abs/2102.07511v1 )

ライセンス: Link先を確認
Heesu Kim, Hanmin Park, Taehyun Kim, Kwanheum Cho, Eojin Lee, Soojung Ryu, Hyuk-Jae Lee, Kiyoung Choi, Jinho Lee(参考訳) 本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化する処理インメモリアーキテクチャであるgradpimを提案する。 近い将来に実現可能なメモリ処理技術の1つとして、既存のメモリプロトコルに侵入しないインクリメンタルでシンプルなアーキテクチャ設計を提案します。 DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。 実験の結果,提案アーキテクチャはDNNトレーニングの性能を向上し,プロトコルやDRAM領域へのオーバーヘッドを最小限に抑えながら,メモリ帯域幅の要求を大幅に削減できることがわかった。

In this paper, we present GradPIM, a processing-in-memory architecture which accelerates parameter updates of deep neural networks training. As one of processing-in-memory techniques that could be realized in the near future, we propose an incremental, simple architectural design that does not invade the existing memory protocol. Extending DDR4 SDRAM to utilize bank-group parallelism makes our operation designs in processing-in-memory (PIM) module efficient in terms of hardware cost and performance. Our experimental results show that the proposed architecture can improve the performance of DNN training and greatly reduce memory bandwidth requirement while posing only a minimal amount of overhead to the protocol and DRAM area.
翻訳日:2021-02-16 15:13:14 公開日:2021-02-15
# カオス流れの短期・長期予測:物理制約型貯水池計算手法

Short- and long-term prediction of a chaotic flow: A physics-constrained reservoir computing approach ( http://arxiv.org/abs/2102.07514v1 )

ライセンス: Link先を確認
Nguyen Anh Khoa Doan, Wolfgang Polifke and Luca Magri(参考訳) 乱流せん断流モデルにおける極端な事象や長期速度統計を時間精度で予測する,貯留層計算に基づく物理制約型機械学習手法を提案する。 この手法は,データのみからカオス力学を学習する貯水池計算に基づく経験的モデリングと,トレーニングデータが利用できない場合に動的を外挿する保存法に基づく物理モデリングという,2つの異なるアプローチの強みを利用する。 両手法の組み合わせは, 乱流の自己持続過程モデルにおいて, 速度統計を正確に再現し, 極端な事象の発生と振幅を予測することができることを示す。 この流れでは、極端な事象は乱流から準ラミナー状態への突然の遷移であり、カオスのため伝統的に予測できない決定論的現象である。 さらに, 物理制約付き機械学習手法は, 雑音に対して頑健であることを示す。 この研究は、カオスの流れの正確な予測のための物理的知識とデータ駆動手法を相乗的に強化する新しい可能性を開く。

We propose a physics-constrained machine learning method-based on reservoir computing- to time-accurately predict extreme events and long-term velocity statistics in a model of turbulent shear flow. The method leverages the strengths of two different approaches: empirical modelling based on reservoir computing, which it learns the chaotic dynamics from data only, and physical modelling based on conservation laws, which extrapolates the dynamics when training data becomes unavailable. We show that the combination of the two approaches is able to accurately reproduce the velocity statistics and to predict the occurrence and amplitude of extreme events in a model of self-sustaining process in turbulence. In this flow, the extreme events are abrupt transitions from turbulent to quasi-laminar states, which are deterministic phenomena that cannot be traditionally predicted because of chaos. Furthermore, the physics-constrained machine learning method is shown to be robust with respect to noise. This work opens up new possibilities for synergistically enhancing data-driven methods with physical knowledge for the time-accurate prediction of chaotic flows.
翻訳日:2021-02-16 15:13:02 公開日:2021-02-15
# スケーラブルベクトルガウス情報ボトルネック

Scalable Vector Gaussian Information Bottleneck ( http://arxiv.org/abs/2102.07525v1 )

ライセンス: Link先を確認
Mohammad Mahdi Mahvari and Mari Kobayashi and Abdellatif Zaidi(参考訳) 統計的学習の文脈において、Information Bottleneck法は、最小記述長で測定された圧縮複雑性と対数損失測定で評価された歪みの間の適切なトレードオフを通じて、精度と一般化能力の適切なバランスを求める。 本稿では,エンコーダがよりリッチな特徴を持つ観測の複数の記述を出力する,スケーラブルな情報ボトルネックと呼ばれる問題のバリエーションについて検討する。 モデルはデコーダのサイドインフォメーションストリームが劣化した連続的なリファインメント型であり、許容される(あるいは対象とする)複雑さのレベルに応じて様々なレベルの精度を必要とするアプリケーションシナリオによって動機付けられます。 ベクトルガウス源に対する最適相対性複素領域の解析的特徴づけを確立する。 そこで,未知分布の一般ソースに対する変分推論型アルゴリズムを導出し,ニューラルネットワークを用いてパラメータ化する方法を示す。 最後に,MNISTデータセットに実験結果を提供し,提案手法がトレーニング期間中にデータを見落とさないように一般化することを示す。

In the context of statistical learning, the Information Bottleneck method seeks a right balance between accuracy and generalization capability through a suitable tradeoff between compression complexity, measured by minimum description length, and distortion evaluated under logarithmic loss measure. In this paper, we study a variation of the problem, called scalable information bottleneck, in which the encoder outputs multiple descriptions of the observation with increasingly richer features. The model, which is of successive-refinemen t type with degraded side information streams at the decoders, is motivated by some application scenarios that require varying levels of accuracy depending on the allowed (or targeted) level of complexity. We establish an analytic characterization of the optimal relevance-complexity region for vector Gaussian sources. Then, we derive a variational inference type algorithm for general sources with unknown distribution; and show means of parametrizing it using neural networks. Finally, we provide experimental results on the MNIST dataset which illustrate that the proposed method generalizes better to unseen data during the training phase.
翻訳日:2021-02-16 15:12:45 公開日:2021-02-15
# VPS/Pamcrashによる自動車事故問題の非侵入的不確実性定量化

Nonintrusive Uncertainty Quantification for automotive crash problems with VPS/Pamcrash ( http://arxiv.org/abs/2102.07673v1 )

ライセンス: Link先を確認
Marc Rocas, Alberto Garc\'ia-Gonz\'alez, Sergio Zlotnik, Xabier Larr\'ayoz and Pedro D\'iez(参考訳) UQ(Uncertainty Quantification)は、複雑なシステムの計算モデリングのための重要な分野であり、エンジニアリングシミュレーションの信頼性を高めます。 衝突耐性においては、モデルの不確実性の挙動を正確に評価することで、プロトタイプの数と関連するコストを削減できる。 このフレームワークでUQを取り出すのは、非常に高価なシミュレーションを必要とするため、特に難しい。 この文脈では、サーロゲートモデル(メタモデル)はモンテカルロプロセスの計算コストを大幅に削減することができます。 メタモデルを記述するための異なる手法として, 通常のクラギング, ポリノミアル反応面, および分離反応面 (SRS) で表される新しい戦略 (Proper Generalized Decomposition) が検討されている。 多数の不確実な入力パラメータがメタモデルの効率を損なう可能性がある。 したがって、メタモデルを定義する前に、カーネル主成分分析(kPCA)がモデル結果記述の簡略化に有効であることが判明した。 ベンチマーククラッシュテストは、メタモデルとkPCAを組み合わせる効率を示すために使用される。

Uncertainty Quantification (UQ) is a key discipline for computational modeling of complex systems, enhancing reliability of engineering simulations. In crashworthiness, having an accurate assessment of the behavior of the model uncertainty allows reducing the number of prototypes and associated costs. Carrying out UQ in this framework is especially challenging because it requires highly expensive simulations. In this context, surrogate models (metamodels) allow drastically reducing the computational cost of Monte Carlo process. Different techniques to describe the metamodel are considered, Ordinary Kriging, Polynomial Response Surfaces and a novel strategy (based on Proper Generalized Decomposition) denoted by Separated Response Surface (SRS). A large number of uncertain input parameters may jeopardize the efficiency of the metamodels. Thus, previous to define a metamodel, kernel Principal Component Analysis (kPCA) is found to be effective to simplify the model outcome description. A benchmark crash test is used to show the efficiency of combining metamodels with kPCA.
翻訳日:2021-02-16 15:12:27 公開日:2021-02-15
# (参考訳) 言語モデルに関する多元的視点 [全文訳有]

Multiversal views on language models ( http://arxiv.org/abs/2102.06391v2 )

ライセンス: CC BY 4.0
Laria Reynolds and Kyle McDonell(参考訳) GPT-3のような言語モデルの好意性は、執筆における人間とAIのコラボレーションの可能性の新しい世界を開く。 本稿では,生成言語モデルがマルチバースジェネレータとして概念化される枠組みを提案する。 このフレームワークは、人間の想像力にも適用され、フィクションの読み書き方法の中心となります。 私たちは、人間の想像力とAIを組み合わせ、非線形フィクションを書き、探求し、理解することを可能にする新しい形のインターフェースを通じて、この共通点を探求することを求めます。 我々は,新しい多言語GPT-3支援書込みインタフェースを開発し,テストすることによって,このアプローチを積極的に進めることから得られた早期知見について論じる。

The virtuosity of language models like GPT-3 opens a new world of possibility for human-AI collaboration in writing. In this paper, we present a framework in which generative language models are conceptualized as multiverse generators. This framework also applies to human imagination and is core to how we read and write fiction. We call for exploration into this commonality through new forms of interfaces which allow humans to couple their imagination to AI to write, explore, and understand non-linear fiction. We discuss the early insights we have gained from actively pursuing this approach by developing and testing a novel multiversal GPT-3-assisted writing interface.
翻訳日:2021-02-16 13:00:24 公開日:2021-02-15
# 高次元ベイズ推論のためのWasserstein勾配下降予測

Projected Wasserstein gradient descent for high-dimensional Bayesian inference ( http://arxiv.org/abs/2102.06350v2 )

ライセンス: Link先を確認
Yifei Wang, Peng Chen and Wuchen Li(参考訳) 本稿では,高次元ベイズ推論問題に対するWasserstein勾配降下法 (pWGD) を提案する。 WGDの粒子系の基底密度関数は、次元性の長年の呪いに直面するカーネル密度推定(KDE)によって近似される。 後方分布と先行分布の差における本質的な低ランク構造を生かして,この課題を克服する。 パラメータは、高次元のkdeの近似誤差を軽減するために低次元部分空間に投影される。 予測されたWasserstein勾配流を定式化し、その収束特性を軽度の仮定の下で解析する。 いくつかの数値実験では、パラメータ次元、サンプルサイズ、プロセッサコアに関するpWGDの精度、収束性、複雑さのスケーラビリティが示されている。

We propose a projected Wasserstein gradient descent method (pWGD) for high-dimensional Bayesian inference problems. The underlying density function of a particle system of WGD is approximated by kernel density estimation (KDE), which faces the long-standing curse of dimensionality. We overcome this challenge by exploiting the intrinsic low-rank structure in the difference between the posterior and prior distributions. The parameters are projected into a low-dimensional subspace to alleviate the approximation error of KDE in high dimensions. We formulate a projected Wasserstein gradient flow and analyze its convergence property under mild assumptions. Several numerical experiments illustrate the accuracy, convergence, and complexity scalability of pWGD with respect to parameter dimension, sample size, and processor cores.
翻訳日:2021-02-16 12:28:21 公開日:2021-02-15
# DeepGLEAM:COVID-19予測のためのハイブリッドメカニカルとディープラーニングモデル

DeepGLEAM: a hybrid mechanistic and deep learning model for COVID-19 forecasting ( http://arxiv.org/abs/2102.06684v2 )

ライセンス: Link先を確認
Dongxia Wu, Liyao Gao, Xinyue Xiong, Matteo Chinazzi, Alessandro Vespignani, Yian Ma, Rose Yu(参考訳) 我々は、COVID-19予測のハイブリッドモデルであるDeepGLEAMを紹介する。 DeepGLEAMは、機械的確率シミュレーションモデルGLEAMとディープラーニングを組み合わせる。 ディープラーニングを使用して、GLEAMから修正項を学習することで、パフォーマンスが向上する。 さらに,様々な不確実性定量化手法を統合し,信頼区間を生成する。 私たちは、DeepGLEAMを現実世界のCOVID-19死亡予測タスクで実証します。

We introduce DeepGLEAM, a hybrid model for COVID-19 forecasting. DeepGLEAM combines a mechanistic stochastic simulation model GLEAM with deep learning. It uses deep learning to learn the correction terms from GLEAM, which leads to improved performance. We further integrate various uncertainty quantification methods to generate confidence intervals. We demonstrate DeepGLEAM on real-world COVID-19 mortality forecasting tasks.
翻訳日:2021-02-16 12:27:42 公開日:2021-02-15