このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200707となっている論文です。

PDF登録状況(公開日: 20200707)

TitleAuthorsAbstract論文公表日・翻訳日
# 潜時深度強化学習による終末都市自律走行の解釈

Interpretable End-to-end Urban Autonomous Driving with Latent Deep Reinforcement Learning ( http://arxiv.org/abs/2001.08726v3 )

ライセンス: Link先を確認
Jianyu Chen, Shengbo Eben Li, Masayoshi Tomizuka(参考訳) 一般的なモジュール化フレームワークとは異なり、エンドツーエンドの自律運転は、新しいシナリオに適応し、大規模に一般化しやすい、統合された方法で認識、決定、制御の問題を解決する。 しかし、既存のエンドツーエンドアプローチは解釈可能性に欠けることが多く、車線維持のような単純な運転タスクにしか対処できない。 本稿では,複雑な都市シナリオを処理可能なエンドツーエンド自動運転のための解釈可能な深部強化学習手法を提案する。 逐次潜在環境モデルを導入し、強化学習プロセスと共同で学習する。 この潜在モデルでは、セマンティックバードアイマスクが生成され、学習されたポリシーの振る舞いを説明する目的で、今日のモジュール化フレームワークの特定の中間プロパティと接続するように強制される。 潜在空間は強化学習のサンプル複雑性を大幅に減少させる。 carlaのシミュレートされた自動運転車との比較テストでは,dqn,ddpg,td3,sacなど,周辺車両の混み合った都市シナリオにおいて,提案手法の性能が多数を占めることが示された。 さらに、マスクされたアウトプットによって、学習されたポリシーは、運転環境に対する自動車の理由をよりよく説明することができる。 この作業のコードとビデオは、githubリポジトリおよびプロジェクトのwebサイトから入手できます。

Unlike popular modularized framework, end-to-end autonomous driving seeks to solve the perception, decision and control problems in an integrated way, which can be more adapting to new scenarios and easier to generalize at scale. However, existing end-to-end approaches are often lack of interpretability, and can only deal with simple driving tasks like lane keeping. In this paper, we propose an interpretable deep reinforcement learning method for end-to-end autonomous driving, which is able to handle complex urban scenarios. A sequential latent environment model is introduced and learned jointly with the reinforcement learning process. With this latent model, a semantic birdeye mask can be generated, which is enforced to connect with a certain intermediate property in today's modularized framework for the purpose of explaining the behaviors of learned policy. The latent space also significantly reduces the sample complexity of reinforcement learning. Comparison tests with a simulated autonomous car in CARLA show that the performance of our method in urban scenarios with crowded surrounding vehicles dominates many baselines including DQN, DDPG, TD3 and SAC. Moreover, through masked outputs, the learned policy is able to provide a better explanation of how the car reasons about the driving environment. The codes and videos of this work are available at our github repo and project website.
翻訳日:2023-01-07 12:56:04 公開日:2020-07-07
# Smooth Convex-Concave Saddle問題における最終イテレーションは平均イテレーションよりも遅い

Last Iterate is Slower than Averaged Iterate in Smooth Convex-Concave Saddle Point Problems ( http://arxiv.org/abs/2002.00057v2 )

ライセンス: Link先を確認
Noah Golowich, Sarath Pattathil, Constantinos Daskalakis, Asuman Ozdaglar(参考訳) 本稿では,滑らかな凸凹サドル点問題について検討する。 具体的には,Extragradient (EG)アルゴリズムの最後の反復収束特性を解析する。 EG のエルゴード的(平均化された)反復が$O(1/T)$ (Nemirovski, 2004) の速度で収束することが知られている。 本稿では、EG の最後の反復が$O(1/\sqrt{T})$で収束することを示す。 我々の知る限りでは、この論文は滑らかな凸凸対鞍点問題に対するegの最終反復に対する収束率保証を提供する最初の論文である。 さらに、この値は、最後の反復に対して$\Omega(1/\sqrt{T})$の低い境界を証明することによって、厳密であることを示す。 したがって、この下限は滑らかな凸凸対鞍点問題におけるエルゴードと最後のイテレートの収束率の二次分離を示す。

In this paper we study the smooth convex-concave saddle point problem. Specifically, we analyze the last iterate convergence properties of the Extragradient (EG) algorithm. It is well known that the ergodic (averaged) iterates of EG converge at a rate of $O(1/T)$ (Nemirovski, 2004). In this paper, we show that the last iterate of EG converges at a rate of $O(1/\sqrt{T})$. To the best of our knowledge, this is the first paper to provide a convergence rate guarantee for the last iterate of EG for the smooth convex-concave saddle point problem. Moreover, we show that this rate is tight by proving a lower bound of $\Omega(1/\sqrt{T})$ for the last iterate. This lower bound therefore shows a quadratic separation of the convergence rates of ergodic and last iterates in smooth convex-concave saddle point problems.
翻訳日:2023-01-05 06:02:02 公開日:2020-07-07
# ニューラルネットワーク内における直接および転置高速ハフ変換によるベニシング点検出

Vanishing Point Detection with Direct and Transposed Fast Hough Transform inside the neural network ( http://arxiv.org/abs/2002.01176v3 )

ライセンス: Link先を確認
A. Sheshkus (4 and 6), A. Chirvonaya (2 and 6), D. Matveev (5 and 6), D. Nikolaev (1 and 6), V.L. Arlazarov (3 and 4) ((1) Institute for Information Transmission Problems (Kharkevich Institute) RAS, Moscow, Russia, (2) National University of Science and Technology "MISIS", (3) Moscow Institute for Physics and Technology, Moscow, Russia, (4) Institute for Systems Analysis, Federal Research Center "Computer Science and Control" of Russian Academy of Sciences, Moscow, Russia, (5) Lomonosov Moscow State University, Moscow, Russia, (6) Smart Engines Service LLC, Moscow, Russia)(参考訳) 本稿では,画像中の点検出を解消するニューラルネットワークアーキテクチャを提案する。 鍵となる要素は、標準の活性化関数を持つ畳み込み層ブロックによって分離された直接および変換された高速ハフ変換である。 これにより、ネットワークの出力における入力画像の座標における解を得ることができ、したがって、最大値を選択するだけで消滅点の座標を計算することができる。 さらに,変換した高速ハフ変換の計算を直接的に行うことができることを示した。 積分演算子を用いることで、ニューラルネットワークは画像内のグローバルな直線的特徴を頼りにすることができるため、消滅点を検出するのが理想的である。 提案手法の有効性を実証するため,DVR画像の集合を用いて既存手法よりも優れていることを示す。 さらに、提案したニューラルネットワークアーキテクチャは、例えば計算トモグラフィーで使用される直接および逆投影の過程を本質的に繰り返すことに注意されたい。

In this paper, we suggest a new neural network architecture for vanishing point detection in images. The key element is the use of the direct and transposed Fast Hough Transforms separated by convolutional layer blocks with standard activation functions. It allows us to get the answer in the coordinates of the input image at the output of the network and thus to calculate the coordinates of the vanishing point by simply selecting the maximum. Besides, it was proved that calculation of the transposed Fast Hough Transform can be performed using the direct one. The use of integral operators enables the neural network to rely on global rectilinear features in the image, and so it is ideal for detecting vanishing points. To demonstrate the effectiveness of the proposed architecture, we use a set of images from a DVR and show its superiority over existing methods. Note, in addition, that the proposed neural network architecture essentially repeats the process of direct and back projection used, for example, in computed tomography.
翻訳日:2023-01-04 03:18:29 公開日:2020-07-07
# LightGCN:レコメンデーションのためのグラフ畳み込みネットワークの簡素化と強化

LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation ( http://arxiv.org/abs/2002.02126v4 )

ライセンス: Link先を確認
Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang and Meng Wang(参考訳) グラフ畳み込みネットワーク(gcn)は協調フィルタリングの新しい最先端技術となった。 しかし、その効果の理由はよく理解されていない。 GCNをレコメンデーションに適応する既存の作業は、もともとグラフ分類タスク用に設計され、多くのニューラルネットワーク操作を備えたGCNの徹底的なアブレーション分析を欠いている。 しかし、GCNの最も一般的な2つの設計(特徴変換と非線形活性化)は、協調フィルタリングの性能にはほとんど寄与しない。 さらに悪いことに、トレーニングの難しさが加わり、レコメンデーションパフォーマンスが低下します。 本稿では,GCNの設計を簡略化し,より簡潔かつ適切なレコメンデーションを実現することを目的とする。 我々は,協調フィルタリングのためのgcnの最も不可欠なコンポーネントのみを含む,lightgcnという新しいモデルを提案する。 具体的には、lightgcnはユーザとアイテムの埋め込みを線形に伝搬して学習し、すべてのレイヤで学んだ埋め込みの重み付け和を最終埋め込みとして使用する。 このような単純で線形で適切なモデルは、実装とトレーニングがずっと簡単で、まったく同じ実験環境下で、最新のGCNベースのレコメンデータモデルであるNeural Graph Collaborative Filtering(NGCF)よりも大幅に改善(平均で16.0倍の相対的な改善)されている。 分析的および経験的視点から、単純な lightgcn の合理性についてさらに分析を行う。

Graph Convolution Network (GCN) has become new state-of-the-art for collaborative filtering. Nevertheless, the reasons of its effectiveness for recommendation are not well understood. Existing work that adapts GCN to recommendation lacks thorough ablation analyses on GCN, which is originally designed for graph classification tasks and equipped with many neural network operations. However, we empirically find that the two most common designs in GCNs -- feature transformation and nonlinear activation -- contribute little to the performance of collaborative filtering. Even worse, including them adds to the difficulty of training and degrades recommendation performance. In this work, we aim to simplify the design of GCN to make it more concise and appropriate for recommendation. We propose a new model named LightGCN, including only the most essential component in GCN -- neighborhood aggregation -- for collaborative filtering. Specifically, LightGCN learns user and item embeddings by linearly propagating them on the user-item interaction graph, and uses the weighted sum of the embeddings learned at all layers as the final embedding. Such simple, linear, and neat model is much easier to implement and train, exhibiting substantial improvements (about 16.0\% relative improvement on average) over Neural Graph Collaborative Filtering (NGCF) -- a state-of-the-art GCN-based recommender model -- under exactly the same experimental setting. Further analyses are provided towards the rationality of the simple LightGCN from both analytical and empirical perspectives.
翻訳日:2023-01-03 13:15:00 公開日:2020-07-07
# 一様境界変数を用いたQ-ラーニング:大規模ディスカウントは高速学習の障壁ではない

Q-learning with Uniformly Bounded Variance: Large Discounting is Not a Barrier to Fast Learning ( http://arxiv.org/abs/2002.10301v2 )

ライセンス: Link先を確認
Adithya M. Devraj and Sean P. Meyn(参考訳) サンプル複雑性境界は強化学習文献における一般的なパフォーマンス指標である。 ディスカウントコスト、無限地平線設定において、既知のすべての境界は1/(1-\gamma)$の多項式である係数を持ち、ここで$\gamma < 1$がディスカウント係数である。 大きな割引係数の場合、これらの境界は、非常に多くのサンプルが$\varepsilon$-optimal Policyを達成するために必要であることを示している。 本研究の目的は、すべての$\gamma < 1$に対して一様有界なサンプル複雑性を持つ新しいアルゴリズムのクラスを導入することである。 最近のmin-max下限のため、これは不可能であると主張する人もいる。 この説明では、この前の下限は、$\varepsilon$-optimalポリシーを得る究極の目的を妥協することなく修正する特定の問題に対するものである。 具体的には、Q-ラーニングアルゴリズムと最適化されたステップサイズシーケンスの漸近共分散が、1/(1-\gamma)$の二次関数であることを示す。 ここで提案する新しい相対的q-ラーニングアルゴリズムは、1/(1- \rho^* \gamma)$ の二次である漸近共分散を持ち、1 - \rho^* > 0$ は最適遷移行列のスペクトルギャップの上界である。

Sample complexity bounds are a common performance metric in the Reinforcement Learning literature. In the discounted cost, infinite horizon setting, all of the known bounds have a factor that is a polynomial in $1/(1-\gamma)$, where $\gamma < 1$ is the discount factor. For a large discount factor, these bounds seem to imply that a very large number of samples is required to achieve an $\varepsilon$-optimal policy. The objective of the present work is to introduce a new class of algorithms that have sample complexity uniformly bounded for all $\gamma < 1$. One may argue that this is impossible, due to a recent min-max lower bound. The explanation is that this previous lower bound is for a specific problem, which we modify, without compromising the ultimate objective of obtaining an $\varepsilon$-optimal policy. Specifically, we show that the asymptotic covariance of the Q-learning algorithm with an optimized step-size sequence is a quadratic function of $1/(1-\gamma)$; an expected, and essentially known result. The new relative Q-learning algorithm proposed here is shown to have asymptotic covariance that is a quadratic in $1/(1- \rho^* \gamma)$, where $1 - \rho^* > 0$ is an upper bound on the spectral gap of an optimal transition matrix.
翻訳日:2022-12-29 03:28:29 公開日:2020-07-07
# 計量学習を用いた計算効率良く一般化された人物再同定モデルの構築

Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning ( http://arxiv.org/abs/2003.07618v2 )

ライセンス: Link先を確認
Vladislav Sovrasov and Dmitry Sidnev(参考訳) 本研究は、個人再識別におけるドメインシフトの問題を考える。1つのデータセットでトレーニングされた場合、再識別モデルは、通常、見当たらないデータに対してはるかに悪い結果をもたらす。 部分的にはこのギャップは、人物再識別データセット(例えば顔認識データセット)の比較的小さなスケールによって引き起こされるが、トレーニング目的にも関係している。 我々は、AM-Softmax損失というメトリック学習の目的と、より汎用的で効率的なモデルを構築するための追加の訓練手法を提案する。 最近提案されたOmni-Scale Network (OSNet) アーキテクチャといくつかのトレーニングトリックとアーキテクチャ調整を組み合わせて,MSMT17-all->DukeMTMC,MSMT17-train->Market1501,MSMT17-all->Market1501の3つの構成で,大規模MSMT17データセット上でのクロスドメイン一般化問題を実現する。

This work considers the problem of domain shift in person re-identification.Being trained on one dataset, a re-identification model usually performs much worse on unseen data. Partially this gap is caused by the relatively small scale of person re-identification datasets (compared to face recognition ones, for instance), but it is also related to training objectives. We propose to use the metric learning objective, namely AM-Softmax loss, and some additional training practices to build well-generalizing, yet, computationally efficient models. We use recently proposed Omni-Scale Network (OSNet) architecture combined with several training tricks and architecture adjustments to obtain state-of-the art results in cross-domain generalization problem on a large-scale MSMT17 dataset in three setups: MSMT17-all->DukeMTMC, MSMT17-train->Market1501 and MSMT17-all->Market1501.
翻訳日:2022-12-22 21:32:59 公開日:2020-07-07
# 大規模データのカーネルベース解析

Kernel based analysis of massive data ( http://arxiv.org/abs/2003.13226v2 )

ライセンス: Link先を確認
Hrushikesh N Mhaskar(参考訳) 大量のデータを扱うことは、機械学習にとって難しい課題だ。 機械学習の重要な側面は関数近似である。 大規模データのコンテキストにおいて、この目的のために一般的に使用されるツールは、疎性、分割・分散学習である。 本稿では,局所的に階層化された近似を実現するために,ネットワークによる近似の非常に一般的な理論を開発する。 データの非常に大きな性質は、データを管理する確率法則の適切な近似を見つけることや、領域内の異なる点付近で対象関数の局所的滑らかさを見つけることなどの逆問題にこれらのイグネットを使うことができる。 実際,固有文字を用いたウェーブレット型表現を開発した。 我々の理論は、一般局所コンパクト計量測度空間上の近似に適用できる。 特別な例として、トーラス上の周期基底関数による近似、ユークリッド球面上のゾナル関数ネットワーク(滑らかなルルネットワークを含む)、ガウスネットワーク、多様体上の近似などがある。 近似値にデータベーストレーニングを必要とせず,事前構築したネットワークを構築する。

Dealing with massive data is a challenging task for machine learning. An important aspect of machine learning is function approximation. In the context of massive data, some of the commonly used tools for this purpose are sparsity, divide-and-conquer, and distributed learning. In this paper, we develop a very general theory of approximation by networks, which we have called eignets, to achieve local, stratified approximation. The very massive nature of the data allows us to use these eignets to solve inverse problems such as finding a good approximation to the probability law that governs the data, and finding the local smoothness of the target function near different points in the domain. In fact, we develop a wavelet-like representation using our eignets. Our theory is applicable to approximation on a general locally compact metric measure space. Special examples include approximation by periodic basis functions on the torus, zonal function networks on a Euclidean sphere (including smooth ReLU networks), Gaussian networks, and approximation on manifolds. We construct pre-fabricated networks so that no data-based training is required for the approximation.
翻訳日:2022-12-18 06:42:01 公開日:2020-07-07
# FACT:グループフェアネストレードオフの診断

FACT: A Diagnostic for Group Fairness Trade-offs ( http://arxiv.org/abs/2004.03424v3 )

ライセンス: Link先を確認
Joon Sik Kim, Jiahao Chen, Ameet Talwalkar(参考訳) 集団フェアネス(group fairness)は、異なる個人集団が保護された属性によってどのように異なる扱いを受けるかを測定するフェアネス概念のクラスであり、しばしばモデルの予測性能を失うために必要なコストと相反することが示されている。 グループフェアネスにおけるこれらのトレードオフを体系的に評価できる一般的な診断法を提案する。 群フェアネスの概念の大多数は、保護属性値に従って分割された混乱行列であるフェアネス・コンフュージョンテンソルによって表現できる。 このテンソルの要素に対して精度と公平性の両方を直接最適化する最適化問題をいくつか検討し、グループフェアネスの不整合を含む複数のトレードオフを理解するための一般的な視点を得た。 また、公正な分類器を設計するための別の後処理法を提案する。 合成データと実データについて,特に正確性と公平性のトレードオフの理解において,我々の診断のユースケースを実証する。

Group fairness, a class of fairness notions that measure how different groups of individuals are treated differently according to their protected attributes, has been shown to conflict with one another, often with a necessary cost in loss of model's predictive performance. We propose a general diagnostic that enables systematic characterization of these trade-offs in group fairness. We observe that the majority of group fairness notions can be expressed via the fairness-confusion tensor, which is the confusion matrix split according to the protected attribute values. We frame several optimization problems that directly optimize both accuracy and fairness objectives over the elements of this tensor, which yield a general perspective for understanding multiple trade-offs including group fairness incompatibilities. It also suggests an alternate post-processing method for designing fair classifiers. On synthetic and real datasets, we demonstrate the use cases of our diagnostic, particularly on understanding the trade-off landscape between accuracy and fairness.
翻訳日:2022-12-15 23:21:12 公開日:2020-07-07
# MedDialog:2つの大規模医療対話データセット

MedDialog: Two Large-scale Medical Dialogue Datasets ( http://arxiv.org/abs/2004.03329v2 )

ライセンス: Link先を確認
Xuehai He, Shu Chen, Zeqian Ju, Xiangyu Dong, Hongchao Fang, Sicheng Wang, Yue Yang, Jiaqi Zeng, Ruisi Zhang, Ruoyu Zhang, Meng Zhou, Penghui Zhu, Pengtao Xie(参考訳) 医療対話システムは、遠隔医療の支援、医療サービスへのアクセスの強化、患者のケアの質の向上、医療コストの削減を約束している。 医療対話システムの研究開発を容易にするため,MedDialog-ENとMedDialog-CNという2つの大規模医療対話データセットを構築した。 MedDialog-ENは、患者と医師間の0.3万の会話と0.5万の発話を含む、英国のデータセットである。 MedDialog-CNは、1100万の会話と400万の発話を含む中国のデータセットである。 私たちの知る限り、MedDialog-(EN,CN)は、これまでで最大の医療対話データセットです。 データセットはhttps://github.com/UCSD-AI4H/Medical-Dialogue-Systemで公開されている。

Medical dialogue systems are promising in assisting in telemedicine to increase access to healthcare services, improve the quality of patient care, and reduce medical costs. To facilitate the research and development of medical dialogue systems, we build two large-scale medical dialogue datasets: MedDialog-EN and MedDialog-CN. MedDialog-EN is an English dataset containing 0.3 million conversations between patients and doctors and 0.5 million utterances. MedDialog-CN is an Chinese dataset containing 1.1 million conversations and 4 million utterances. To our best knowledge, MedDialog-(EN,CN) are the largest medical dialogue datasets to date. The dataset is available at https://github.com/UCSD-AI4H/Medical-Dialogue-System
翻訳日:2022-12-15 22:28:13 公開日:2020-07-07
# イントラ間の主題構成に基づくランドマークの教師なし学習

Unsupervised Learning of Landmarks based on Inter-Intra Subject Consistencies ( http://arxiv.org/abs/2004.07936v2 )

ライセンス: Link先を確認
Weijian Li, Haofu Liao, Shun Miao, Le Lu, and Jiebo Luo(参考訳) 物体間ランドマークを顔画像に組み込むことにより、画像ランドマーク発見のための教師なし学習手法を提案する。 これはサブジェクト間のマッピングモジュールによって実現され、補助的な主題関連構造に基づいて元の主題のランドマークが変換される。 変換された画像から元の主題に戻すために、ランドマーク検出器は、対のオブジェクト内画像と対のオブジェクト間画像の両方に一貫した意味を含む空間的位置を学習せざるを得ない。 提案手法は2つの公開顔画像データセット(MAFL, AFLW)に対して,様々な設定で広範に評価する。 実験の結果,両データセットの一貫したランドマークを抽出でき,従来の最先端手法と比較して定量的・質的に優れた性能が得られることがわかった。

We present a novel unsupervised learning approach to image landmark discovery by incorporating the inter-subject landmark consistencies on facial images. This is achieved via an inter-subject mapping module that transforms original subject landmarks based on an auxiliary subject-related structure. To recover from the transformed images back to the original subject, the landmark detector is forced to learn spatial locations that contain the consistent semantic meanings both for the paired intra-subject images and between the paired inter-subject images. Our proposed method is extensively evaluated on two public facial image datasets (MAFL, AFLW) with various settings. Experimental results indicate that our method can extract the consistent landmarks for both datasets and achieve better performances compared to the previous state-of-the-art methods quantitatively and qualitatively.
翻訳日:2022-12-12 21:55:19 公開日:2020-07-07
# TriggerNER: 名前付きエンティティ認識のための説明としてエンティティトリガーで学ぶ

TriggerNER: Learning with Entity Triggers as Explanations for Named Entity Recognition ( http://arxiv.org/abs/2004.07493v4 )

ライセンス: Link先を確認
Bill Yuchen Lin, Dong-Ho Lee, Ming Shen, Ryan Moreno, Xiao Huang, Prashant Shiralkar, Xiang Ren(参考訳) 新しいドメインで名前付きエンティティ認識(NER)のためのニューラルネットワークのトレーニングには、通常高価で収集に時間がかかる追加のヒューマンアノテーション(例えば、数万のラベル付きインスタンス)が必要となることが多い。 したがって、重要な研究課題は、コスト効率の良い方法で監督を得る方法である。 本稿では,NERモデルのラベル効率学習を容易にするために,人間による説明の効果的なプロキシである「エンタリティトリガー」を紹介する。 エンティティトリガーは、人間が文中のエンティティを認識する理由を説明するのに役立つ文中の単語のグループとして定義される。 2つのnerデータセットの14kエンティティトリガーをクラウドソースしました。 提案するモデルである Trigger Matching Network は,タグ付けの容易な未確認文に一般化可能な自己注意型トリガー表現とソフトマッチングモジュールを共同で学習する。 我々のフレームワークは従来のニューラルNERフレームワークよりもはるかに費用対効果が高い。 実験により、トリガー注釈文の20%しか使用せず、従来の注釈文の70%と同等の性能が得られることが分かった。

Training neural models for named entity recognition (NER) in a new domain often requires additional human annotations (e.g., tens of thousands of labeled instances) that are usually expensive and time-consuming to collect. Thus, a crucial research question is how to obtain supervision in a cost-effective way. In this paper, we introduce "entity triggers," an effective proxy of human explanations for facilitating label-efficient learning of NER models. An entity trigger is defined as a group of words in a sentence that helps to explain why humans would recognize an entity in the sentence. We crowd-sourced 14k entity triggers for two well-studied NER datasets. Our proposed model, Trigger Matching Network, jointly learns trigger representations and soft matching module with self-attention such that can generalize to unseen sentences easily for tagging. Our framework is significantly more cost-effective than the traditional neural NER frameworks. Experiments show that using only 20% of the trigger-annotated sentences results in a comparable performance as using 70% of conventional annotated sentences.
翻訳日:2022-12-12 21:10:21 公開日:2020-07-07
# 反復トリミングによる学習絡み合った単一サンプル分布

Learning Entangled Single-Sample Distributions via Iterative Trimming ( http://arxiv.org/abs/2004.09563v2 )

ライセンス: Link先を確認
Hui Yuan, Yingyu Liang(参考訳) 絡み合った単一サンプル分布の設定では、各分布から 1 個の \emph{single} サンプルを与えられた分布の族によって共有されるいくつかの共通パラメータを推定することが目的である。 一般条件下での平均推定と線形回帰について検討し,反復的トリミングとトリミングされたサンプル集合のパラメータの再推定に基づいて,単純で計算効率の良い手法を解析した。 対数反復法では,$\lceil \alpha n \rceil$-th nois most data point, $\alpha$ is a constant and $n$ is the sample size のノイズレベルのみに依存する誤差を推定する。 これは、高ノイズ点の一定分数を許容できることを意味する。 これらの結果は,本手法の一般条件下での最初のものである。 また、実践における反復的トリミングの幅広い適用と経験的成功を正当化する。 我々の理論結果は合成データの実験によって補完される。

In the setting of entangled single-sample distributions, the goal is to estimate some common parameter shared by a family of distributions, given one \emph{single} sample from each distribution. We study mean estimation and linear regression under general conditions, and analyze a simple and computationally efficient method based on iteratively trimming samples and re-estimating the parameter on the trimmed sample set. We show that the method in logarithmic iterations outputs an estimation whose error only depends on the noise level of the $\lceil \alpha n \rceil$-th noisiest data point where $\alpha$ is a constant and $n$ is the sample size. This means it can tolerate a constant fraction of high-noise points. These are the first such results for the method under our general conditions. It also justifies the wide application and empirical success of iterative trimming in practice. Our theoretical results are complemented by experiments on synthetic data.
翻訳日:2022-12-11 17:52:22 公開日:2020-07-07
# データ拡張における線形変換の一般化効果について

On the Generalization Effects of Linear Transformations in Data Augmentation ( http://arxiv.org/abs/2005.00695v2 )

ライセンス: Link先を確認
Sen Wu, Hongyang R. Zhang, Gregory Valiant, Christopher R\'e(参考訳) データ拡張は、画像やテキストの分類タスクのようなアプリケーションのパフォーマンスを改善する強力な技術である。 しかし、なぜ、どのように様々な拡張が機能するのかについての厳密な理解はほとんどない。 本研究では,線形変換の族を考察し,過パラメータ線形回帰設定におけるリッジ推定器への影響について検討する。 まず,データのラベルを保存する変換は,トレーニングデータのスパンを広げることで,推定を向上できることを示す。 第二に、データを混合する変換は正規化効果を奏でることで推定を改善できることを示す。 最後に,MNISTに関する理論的知見を検証した。 そこで本研究では,モデルが変換データに対してどの程度不確実かによって,変換空間を探索する拡張手法を提案する。 提案手法を画像およびテキストデータセット上で検証する。 例えば、Wide-ResNet-28-10を用いて、CIFAR-100上でRandAugmentを1.24%上回ります。 さらに、CIFARデータセット上のSoTA Adversarial AutoAugmentに匹敵する精度を実現する。

Data augmentation is a powerful technique to improve performance in applications such as image and text classification tasks. Yet, there is little rigorous understanding of why and how various augmentations work. In this work, we consider a family of linear transformations and study their effects on the ridge estimator in an over-parametrized linear regression setting. First, we show that transformations which preserve the labels of the data can improve estimation by enlarging the span of the training data. Second, we show that transformations which mix data can improve estimation by playing a regularization effect. Finally, we validate our theoretical insights on MNIST. Based on the insights, we propose an augmentation scheme that searches over the space of transformations by how uncertain the model is about the transformed data. We validate our proposed scheme on image and text datasets. For example, our method outperforms RandAugment by 1.24% on CIFAR-100 using Wide-ResNet-28-10. Furthermore, we achieve comparable accuracy to the SoTA Adversarial AutoAugment on CIFAR datasets.
翻訳日:2022-12-07 11:32:26 公開日:2020-07-07
# 寄生ギャップに対するフロベニウス代数的解析

A Frobenius Algebraic Analysis for Parasitic Gaps ( http://arxiv.org/abs/2005.05639v2 )

ライセンス: Link先を確認
Michael Moortgat, Mehrnoosh Sadrzadeh, Gijs Wijnholds(参考訳) 寄生ギャップの解釈は、自然言語合成における非線形性の目に見える場合である。 既存の分類分析は、型的・結合的伝統の両方において、明示的な構文的複写形式に依存している。 本研究は,意味内容の重複を語彙に限定できる寄生ギャップを2種類同定する。 随伴句の先頭の多形型スキーマとの一般化コーディネーションの形式として、随伴句の寄生ギャップを解析する。 同じ述語論に影響を及ぼす寄生的ギャップに対して、多型は一次ギャップを導入する語彙的項目と関連付けられる。 解析は構造制御モードで拡張されたランベック計算で定式化される。 合成翻訳は、有限次元ベクトル空間のコンパクト閉圏とその上のフロベニウス代数を持つ線型写像に対する構文的タイプと導出に関するものである。 必要意味空間上で解釈されるとき、フロベニウス代数は、提案された語彙多型をモデル化するツールを提供する。

The interpretation of parasitic gaps is an ostensible case of non-linearity in natural language composition. Existing categorial analyses, both in the typelogical and in the combinatory traditions, rely on explicit forms of syntactic copying. We identify two types of parasitic gapping where the duplication of semantic content can be confined to the lexicon. Parasitic gaps in adjuncts are analysed as forms of generalized coordination with a polymorphic type schema for the head of the adjunct phrase. For parasitic gaps affecting arguments of the same predicate, the polymorphism is associated with the lexical item that introduces the primary gap. Our analysis is formulated in terms of Lambek calculus extended with structural control modalities. A compositional translation relates syntactic types and derivations to the interpreting compact closed category of finite dimensional vector spaces and linear maps with Frobenius algebras over it. When interpreted over the necessary semantic spaces, the Frobenius algebras provide the tools to model the proposed instances of lexical polymorphism.
翻訳日:2022-12-03 18:59:25 公開日:2020-07-07
# 変異データインプットを用いた胸部X線からの肺分画

Lung Segmentation from Chest X-rays using Variational Data Imputation ( http://arxiv.org/abs/2005.10052v2 )

ライセンス: Link先を確認
Raghavendra Selvan, Erik B. Dam, Nicki S. Detlefsen, Sofus Rischel, Kaining Sheng, Mads Nielsen, Akshay Pai(参考訳) 肺の閉塞は、新型コロナウイルス(COVID-19)を含む多くの呼吸器疾患によって引き起こされる肺の炎症である。 このような不透明度を持つ胸部X線(CXR)は肺の領域を認識できないため、自動画像解析を困難にしている。 本研究は、CXRからCOVID-19の自動診断を目的としたパイプラインの一環として、そのような異常なCXRから肺を分画することに焦点を当てる。 我々は、高不透明領域を欠落データとして扱い、データ計算に深い生成モデルを利用する修正CNNベースの画像分割ネットワークを提案する。 我々は、このモデルを通常のcxrでトレーニングし、このモデルが極めて異常な症例に拡張できることを示す。

Pulmonary opacification is the inflammation in the lungs caused by many respiratory ailments, including the novel corona virus disease 2019 (COVID-19). Chest X-rays (CXRs) with such opacifications render regions of lungs imperceptible, making it difficult to perform automated image analysis on them. In this work, we focus on segmenting lungs from such abnormal CXRs as part of a pipeline aimed at automated risk scoring of COVID-19 from CXRs. We treat the high opacity regions as missing data and present a modified CNN-based image segmentation network that utilizes a deep generative model for data imputation. We train this model on normal CXRs with extensive data augmentation and demonstrate the usefulness of this model to extend to cases with extreme abnormalities.
翻訳日:2022-12-01 04:29:00 公開日:2020-07-07
# FedPD: 最適なレートと非IIDデータへの適応性を備えたフェデレーション学習フレームワーク

FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data ( http://arxiv.org/abs/2005.11418v3 )

ライセンス: Link先を確認
Xinwei Zhang, Mingyi Hong, Sairaj Dhople, Wotao Yin and Yang Liu(参考訳) フェデレーション学習(fl)は、分散データから学ぶための一般的なパラダイムになっています。 異なるデバイスのデータをクラウドに移動せずに効果的に活用するために、フェデレーション平均化(federated averaging, fedavg)のようなアルゴリズムは、ローカルデータを使用して複数のローカル更新を行い、その前にローカルモデルをクラウドにアグリゲーションする"computation then aggregate"(cta)モデルを採用している。 しかし、これらのスキームは一般に強い仮定を必要とする。例えば、局所データは同一独立分散(d)、あるいは局所勾配のサイズは有界である。 本稿では,fedavgアルゴリズムの振る舞いを明示的に特徴付け,問題構造に対する強固かつ非現実的な仮定がなければ,非凸問題(例えば無限性)に対して不規則に振る舞うことができることを示す。 そこで本研究では, 高速で, 可能な限り少ない仮定を必要とするflアルゴリズムの設計を目標とし, 基本最適化の観点から新しいアルゴリズム設計戦略を提案する。 我々の戦略は、既存のアルゴリズムと同じCTAモデルを採用するアルゴリズム群を出力するが、非凸目的に対処し、全バッチとミニバッチの局所計算モデルの両方を処理しながら、最適な最適化と通信の複雑さを達成することができる。 最も重要なことは、通信パターンが局所データ間の不均一性レベルに適応できるという意味で、提案されたアルゴリズムは {\it communication efficient} である。 私たちの知る限りでは、このフレームワークは上記のすべての特性を達成する最初のflのアルゴリズムフレームワークです。

Federated Learning (FL) has become a popular paradigm for learning from distributed data. To effectively utilize data at different devices without moving them to the cloud, algorithms such as the Federated Averaging (FedAvg) have adopted a "computation then aggregation" (CTA) model, in which multiple local updates are performed using local data, before sending the local models to the cloud for aggregation. However, these schemes typically require strong assumptions, such as the local data are identically independent distributed (i.i.d), or the size of the local gradients are bounded. In this paper, we first explicitly characterize the behavior of the FedAvg algorithm, and show that without strong and unrealistic assumptions on the problem structure, the algorithm can behave erratically for non-convex problems (e.g., diverge to infinity). Aiming at designing FL algorithms that are provably fast and require as few assumptions as possible, we propose a new algorithm design strategy from the primal-dual optimization perspective. Our strategy yields a family of algorithms that take the same CTA model as existing algorithms, but they can deal with the non-convex objective, achieve the best possible optimization and communication complexity while being able to deal with both the full batch and mini-batch local computation models. Most importantly, the proposed algorithms are {\it communication efficient}, in the sense that the communication pattern can be adaptive to the level of heterogeneity among the local data. To the best of our knowledge, this is the first algorithmic framework for FL that achieves all the above properties.
翻訳日:2022-11-30 08:42:31 公開日:2020-07-07
# NuClick:顕微鏡画像のインタラクティブセグメンテーションのためのディープラーニングフレームワーク

NuClick: A Deep Learning Framework for Interactive Segmentation of Microscopy Images ( http://arxiv.org/abs/2005.14511v2 )

ライセンス: Link先を確認
Navid Alemi Koohbanani, Mostafa Jahanifar, Neda Zamani Tajadin, and Nasir Rajpoot(参考訳) オブジェクトセグメンテーションは、計算病理学のワークフローにおける重要なステップである。 ディープラーニングベースのモデルは一般的に、正確で信頼性の高い予測のために大量のラベル付きデータを必要とする。 しかし、ラベル付きデータの収集は、特に1人または複数の人間の専門家による時間のかかる分析の結果である医療画像領域において、専門家の知識を必要とすることが多いため、高価である。 本稿では, 核, 細胞, 腺が, 計算病理・細胞学における下流解析の基本的な対象であるとして, アノテーションの収集を高速化するためのCNNベースの簡単なアプローチを提案する。 組織学および細胞学画像における核と細胞について,各オブジェクト内のワンクリックでnuclickが正確なアノテーションを得られることを示す。 腺などの多細胞構造に対して, ニュークリックを誘導信号として提供し, 腺境界の分割を可能にする新しいアプローチを提案する。 これらの監視信号は、RGBチャネルと共に補助入力としてネットワークに送られる。 詳細な実験により、NuClickはオブジェクトスケールに適応し、ユーザ入力の変動に対して堅牢であり、新しいドメインに適応し、信頼できるアノテーションを提供することを示す。 NuClickによって生成されたマスクで訓練されたインスタンスセグメンテーションモデルは、LYON19チャレンジで1位を獲得した。 私たちのフレームワークの例示として、私たちは2つのデータセットをリリースします。 1)IHC画像内のリンパ球アノテーションのデータセット、及び 2) 血液スミア画像における分画WBCのデータセット。

Object segmentation is an important step in the workflow of computational pathology. Deep learning based models generally require large amount of labeled data for precise and reliable prediction. However, collecting labeled data is expensive because it often requires expert knowledge, particularly in medical imaging domain where labels are the result of a time-consuming analysis made by one or more human experts. As nuclei, cells and glands are fundamental objects for downstream analysis in computational pathology/cytology, in this paper we propose a simple CNN-based approach to speed up collecting annotations for these objects which requires minimum interaction from the annotator. We show that for nuclei and cells in histology and cytology images, one click inside each object is enough for NuClick to yield a precise annotation. For multicellular structures such as glands, we propose a novel approach to provide the NuClick with a squiggle as a guiding signal, enabling it to segment the glandular boundaries. These supervisory signals are fed to the network as auxiliary inputs along with RGB channels. With detailed experiments, we show that NuClick is adaptable to the object scale, robust against variations in the user input, adaptable to new domains, and delivers reliable annotations. An instance segmentation model trained on masks generated by NuClick achieved the first rank in LYON19 challenge. As exemplar outputs of our framework, we are releasing two datasets: 1) a dataset of lymphocyte annotations within IHC images, and 2) a dataset of segmented WBCs in blood smear images.
翻訳日:2022-11-26 23:59:40 公開日:2020-07-07
# 教師なし微分可能マルチアスペクトネットワーク埋め込み

Unsupervised Differentiable Multi-aspect Network Embedding ( http://arxiv.org/abs/2006.04239v3 )

ライセンス: Link先を確認
Chanyoung Park, Carl Yang, Qi Zhu, Donghyun Kim, Hwanjo Yu, Jiawei Han(参考訳) ネットワーク埋め込みは、グラフ内のノードを分散ベクトルとして表現するための影響のあるグラフマイニング手法である。 しかし、ネットワーク埋め込み手法の大部分は、ノード毎に単一のベクトル表現を学習することに集中しており、ノードの複数の側面をモデル化できないと批判されている。 各ノードの複数の側面をキャプチャするために、既存の研究は主に実際の埋め込みに先立って行われたオフライングラフクラスタリングに依存しており、埋め込みモデルのトレーニングを通して固定された各ノード(すなわちノードのアスペクト分布)のクラスタメンバシップをもたらす。 これは各ノードが動的コンテキストに関わらず常に同じアスペクト分布を持つだけでなく、最終的な埋め込み品質をクラスタリングに大きく依存させるようなモデルのエンドツーエンドのトレーニングを妨げている、と我々は主張する。 本稿では,各ノードのアスペクトを局所的コンテキストに基づいて動的に割り当てる,asp2vecと呼ばれる,マルチアスペクトネットワーク埋め込みのための新しいエンドツーエンドフレームワークを提案する。 より正確には、複数の側面のうち、1つのアスペクトを現在のコンテキストに基づいて動的に各ノードに割り当て、アスペクト選択モジュールはgumbel-softmaxトリックによってエンドツーエンドで微分可能である。 また、複数の側面間の相互作用を関連性や多様性の観点から捉えるためのアスペクト正規化フレームワークも導入する。 さらに,提案するフレームワークが異種ネットワークに容易に拡張可能であることを示す。 各種均質ネットワークおよび異質ネットワークにおける各種下流タスクに対する広範囲な実験は、asp2vecの優位性を示している。

Network embedding is an influential graph mining technique for representing nodes in a graph as distributed vectors. However, the majority of network embedding methods focus on learning a single vector representation for each node, which has been recently criticized for not being capable of modeling multiple aspects of a node. To capture the multiple aspects of each node, existing studies mainly rely on offline graph clustering performed prior to the actual embedding, which results in the cluster membership of each node (i.e., node aspect distribution) fixed throughout training of the embedding model. We argue that this not only makes each node always have the same aspect distribution regardless of its dynamic context, but also hinders the end-to-end training of the model that eventually leads to the final embedding quality largely dependent on the clustering. In this paper, we propose a novel end-to-end framework for multi-aspect network embedding, called asp2vec, in which the aspects of each node are dynamically assigned based on its local context. More precisely, among multiple aspects, we dynamically assign a single aspect to each node based on its current context, and our aspect selection module is end-to-end differentiable via the Gumbel-Softmax trick. We also introduce the aspect regularization framework to capture the interactions among the multiple aspects in terms of relatedness and diversity. We further demonstrate that our proposed framework can be readily extended to heterogeneous networks. Extensive experiments towards various downstream tasks on various types of homogeneous networks and a heterogeneous network demonstrate the superiority of asp2vec.
翻訳日:2022-11-24 07:55:24 公開日:2020-07-07
# 量子回路と制御のための量子幾何機械学習

Quantum Geometric Machine Learning for Quantum Circuits and Control ( http://arxiv.org/abs/2006.11332v2 )

ライセンス: Link先を確認
Elija Perrier, Christopher Ferrie, Dacheng Tao(参考訳) 量子制御における問題を解く機械学習技術と、最適化問題を解決するための確立された幾何学的手法の応用は、量子情報処理における問題解決への幾何学的アプローチを強化するために機械学習アプローチをどのように利用できるのかを自然に探究する。 本稿では,量子幾何学的制御問題に対する深層学習の適用をレビューし,拡張する。 具体的には,SU(2), SU(4), SU(8) などの低次元多ビット系に関連するリー群多様体に沿って,測地学(および最小回路)を近似するために,新しい深層学習アルゴリズムを適用することにより,量子回路合成問題の文脈における時間最適制御の強化を示す。 我々は、従来のブラックボックスアルゴリズムと量子力学の以前の領域知識を組み合わせたグレイボックスモデルの優れた性能を、基礎となる量子回路分布を学習する方法として示す。 以上の結果から,幾何制御技術が両立できることを示す。 a) 幾何学的に合成された量子回路が測地線に沿っている範囲を検証すること。 b) それらの回路を合成する。 量子制御と量子情報理論の研究者たちは,機械学習と幾何学的手法を組み合わせることで,時間最適制御問題に対して関心を寄せている。

The application of machine learning techniques to solve problems in quantum control together with established geometric methods for solving optimisation problems leads naturally to an exploration of how machine learning approaches can be used to enhance geometric approaches to solving problems in quantum information processing. In this work, we review and extend the application of deep learning to quantum geometric control problems. Specifically, we demonstrate enhancements in time-optimal control in the context of quantum circuit synthesis problems by applying novel deep learning algorithms in order to approximate geodesics (and thus minimal circuits) along Lie group manifolds relevant to low-dimensional multi-qubit systems, such as SU(2), SU(4) and SU(8). We demonstrate the superior performance of greybox models, which combine traditional blackbox algorithms with prior domain knowledge of quantum mechanics, as means of learning underlying quantum circuit distributions of interest. Our results demonstrate how geometric control techniques can be used to both (a) verify the extent to which geometrically synthesised quantum circuits lie along geodesic, and thus time-optimal, routes and (b) synthesise those circuits. Our results are of interest to researchers in quantum control and quantum information theory seeking to combine machine learning and geometric techniques for time-optimal control problems.
翻訳日:2022-11-19 05:22:54 公開日:2020-07-07
# Pix2Vox++: 複数画像からのマルチスケールコンテキスト対応3Dオブジェクト再構成

Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from Single and Multiple Images ( http://arxiv.org/abs/2006.12250v2 )

ライセンス: Link先を確認
Haozhe Xie, Hongxun Yao, Shengping Zhang, Shangchen Zhou, Wenxiu Sun(参考訳) ディープニューラルネットワークを用いた単一または複数の画像から物体の3次元形状を復元することは、ここ数年で注目を集めている。 メインストリームワーク(例:3D-R2N2)は、リカレントニューラルネットワーク(RNN)を使用して入力画像の特徴マップを逐次融合する。 しかし、RNNベースのアプローチでは、異なる順序で同じ入力画像が与えられると、一貫した再構成結果が得られない。 さらに、RNNは、長期記憶喪失による初期入力画像から重要な特徴を忘れる可能性がある。 これらの問題に対処するため,Pix2Vox++という単一ビューと多視点3Dオブジェクト再構成のための新しいフレームワークを提案する。 良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。 次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。 融合3dボリュームの誤回収部をさらに補正するため、精錬器を採用して最終出力を生成する。 ShapeNet, Pix3D, Things3Dベンチマークの実験結果から、Pix2Vox++は精度と効率の両面で最先端のメソッドに対して好適に動作することが示された。

Recovering the 3D shape of an object from single or multiple images with deep neural networks has been attracting increasing attention in the past few years. Mainstream works (e.g. 3D-R2N2) use recurrent neural networks (RNNs) to sequentially fuse feature maps of input images. However, RNN-based approaches are unable to produce consistent reconstruction results when given the same input images with different orders. Moreover, RNNs may forget important features from early input images due to long-term memory loss. To address these issues, we propose a novel framework for single-view and multi-view 3D object reconstruction, named Pix2Vox++. By using a well-designed encoder-decoder, it generates a coarse 3D volume from each input image. A multi-scale context-aware fusion module is then introduced to adaptively select high-quality reconstructions for different parts from all coarse 3D volumes to obtain a fused 3D volume. To further correct the wrongly recovered parts in the fused 3D volume, a refiner is adopted to generate the final output. Experimental results on the ShapeNet, Pix3D, and Things3D benchmarks show that Pix2Vox++ performs favorably against state-of-the-art methods in terms of both accuracy and efficiency.
翻訳日:2022-11-18 06:22:18 公開日:2020-07-07
# 解釈可能な著者確認への歩み

A Step Towards Interpretable Authorship Verification ( http://arxiv.org/abs/2006.12418v2 )

ライセンス: Link先を確認
Oren Halvani, Lukas Graner, Roey Regev(参考訳) デジタルテキスト鑑定学の分野で長年研究されてきた中心的な問題は、2つの文書が同一著者によって書かれたかどうかである。 authorship verification (av) はこの分野の研究部門であり、この問題を扱う。 長年にわたり、AVの文脈における研究活動は着実に増加しており、様々なアプローチがこの問題を解決しようとしている。 しかし、これらのアプローチの多くは、文書の話題に関連するものや影響のあるものを利用している。 したがって、それらの検証結果は、書式(実際のAVの焦点)ではなく、文書の話題に基づくものであることが誤って起こる可能性がある。 この問題に対処するために,分類決定においてトピックに依存しない特徴のみを考慮した代替av手法を提案する。 また,提案手法の予測にどのような特徴が寄与したかを理解することができるポストホック解釈法を提案する。 AV法の性能を評価するため、4つの挑戦的データセット上で10の競合するベースライン(最先端技術を含む)と比較した。 その結果、本手法は2つのケース(最大精度84%)において全てのベースラインを上回っており、他の2つのケースでは最強ベースラインと同等の性能を示している。

A central problem that has been researched for many years in the field of digital text forensics is the question whether two documents were written by the same author. Authorship verification (AV) is a research branch in this field that deals with this question. Over the years, research activities in the context of AV have steadily increased, which has led to a variety of approaches trying to solve this problem. Many of these approaches, however, make use of features that are related to or influenced by the topic of the documents. Therefore, it may accidentally happen that their verification results are based not on the writing style (the actual focus of AV), but on the topic of the documents. To address this problem, we propose an alternative AV approach that considers only topic-agnostic features in its classification decision. In addition, we present a post-hoc interpretation method that allows to understand which particular features have contributed to the prediction of the proposed AV method. To evaluate the performance of our AV method, we compared it with ten competing baselines (including the current state of the art) on four challenging data sets. The results show that our approach outperforms all baselines in two cases (with a maximum accuracy of 84%), while in the other two cases it performs as well as the strongest baseline.
翻訳日:2022-11-18 06:14:57 公開日:2020-07-07
# 正しい正規化:クリックスルー率予測のためのディープニューラルネットワークモデルに対する正規化の影響を理解する

Correct Normalization Matters: Understanding the Effect of Normalization On Deep Neural Network Models For Click-Through Rate Prediction ( http://arxiv.org/abs/2006.12753v2 )

ライセンス: Link先を確認
Zhiqiang Wang, Qingyun She, PengTao Zhang, Junlin Zhang(参考訳) 正規化は、機械学習タスクのための多くのディープニューラルネットワークの最も基本的なコンポーネントの1つとなり、ディープニューラルネットワークはctr推定の分野でも広く使われている。 提案されているディープニューラルネットワークモデルのうち、正規化アプローチを利用するモデルはほとんどない。 ディープ・アンド・クロス・ネットワーク(DCN)やニューラルファクトリゼーション・マシン(NFM)といったいくつかの研究では、MLP部分でバッチ正規化が使用されているが、DNNランキングシステムに対する正規化の影響を徹底的に調べる作業は行われていない。 本稿では,dnnモデルにおける特徴埋め込み部分とmlp部分の両方に様々な正規化アプローチを適用し,広範に使用される正規化スキーマの効果を体系的に研究する。 大規模な実験は3つの実世界のデータセット上で行われ、実験結果は正しい正規化がモデルの性能を大幅に向上させることを示した。 また、本研究において、分散のみのLayerNorm(VO-LN)に基づく新しい効果的な正規化手法を提案する。 NormDNNと呼ばれる正規化強化DNNモデルも上記の観測結果に基づいて提案されている。 ctr推定におけるdnnモデルに正規化が作用する理由について,正規化の分散が主要な役割を果たすことを見出し,本研究で解説する。

Normalization has become one of the most fundamental components in many deep neural networks for machine learning tasks while deep neural network has also been widely used in CTR estimation field. Among most of the proposed deep neural network models, few model utilize normalization approaches. Though some works such as Deep & Cross Network (DCN) and Neural Factorization Machine (NFM) use Batch Normalization in MLP part of the structure, there isn't work to thoroughly explore the effect of the normalization on the DNN ranking systems. In this paper, we conduct a systematic study on the effect of widely used normalization schemas by applying the various normalization approaches to both feature embedding and MLP part in DNN model. Extensive experiments are conduct on three real-world datasets and the experiment results demonstrate that the correct normalization significantly enhances model's performance. We also propose a new and effective normalization approaches based on LayerNorm named variance only LayerNorm(VO-LN) in this work. A normalization enhanced DNN model named NormDNN is also proposed based on the above-mentioned observation. As for the reason why normalization works for DNN models in CTR estimation, we find that the variance of normalization plays the main role and give an explanation in this work.
翻訳日:2022-11-17 21:59:56 公開日:2020-07-07
# 回転型屋内シーン計画の逆モデル

Adversarial Model for Rotated Indoor Scenes Planning ( http://arxiv.org/abs/2006.13527v2 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu, Hong Zhu, Lei Cai, Qiuyan Sheng, Changyu Sun(参考訳) 本稿では,室内室内を回転させた場合の室内シーン合成のための家具レイアウト生成の逆モデルを提案する。 提案モデルは,条件付き逆ネットワーク,回転モジュール,モードモジュール,回転判別モジュールを組み合わせたものである。 シーン合成に関する先行研究と比較して,提案する3つのモジュールは,室内室回転時のモード崩壊を低減し,自動レイアウト生成能力を向上させる。 プロのデザイナーによる14400の設計を含む,現実世界のレイアウトデータセットの提案について実験を行った。 その結果,提案手法は寝室,浴室,学習室,畳室の4種類の部屋において,高品質なレイアウトが得られることがわかった。

In this paper, we propose an adversarial model for producing furniture layout for interior scene synthesis when the interior room is rotated. The proposed model combines a conditional adversarial network, a rotation module, a mode module, and a rotation discriminator module. As compared with the prior work on scene synthesis, our proposed three modules enhance the ability of auto-layout generation and reduce the mode collapse during the rotation of the interior room. We conduct our experiments on a proposed real-world interior layout dataset that contains 14400 designs from the professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts for four types of rooms, including the bedroom, the bathroom, the study room, and the tatami room.
翻訳日:2022-11-17 12:49:09 公開日:2020-07-07
# アンサンブル・カーネル法、暗黙的正則化と行列式点過程

Ensemble Kernel Methods, Implicit Regularization and Determinantal Point Processes ( http://arxiv.org/abs/2006.13701v3 )

ライセンス: Link先を確認
Joachim Schreurs, Micha\"el Fanuel and Johan A. K. Suykens(参考訳) 決定点過程(DPP)の枠組みを用いることで,多様性と正規化の相互作用に関する理論的結果が得られる。 本稿では,kDPPsのサンプリング部分集合がリッジレスカーネル回帰の文脈で暗黙の正規化をもたらすことを示す。 さらに、最先端のDPPアルゴリズムの共通設定を利用して、複数の小さなサブセットをサンプリングし、リッジレス回帰のアンサンブルで使用する。 最初の実験結果から、リッジレス回帰器のアンサンブルが冗長な情報を含むデータセットに利用できることが示唆された。

By using the framework of Determinantal Point Processes (DPPs), some theoretical results concerning the interplay between diversity and regularization can be obtained. In this paper we show that sampling subsets with kDPPs results in implicit regularization in the context of ridgeless Kernel Regression. Furthermore, we leverage the common setup of state-of-the-art DPP algorithms to sample multiple small subsets and use them in an ensemble of ridgeless regressions. Our first empirical results indicate that ensemble of ridgeless regressors can be interesting to use for datasets including redundant information.
翻訳日:2022-11-17 09:23:02 公開日:2020-07-07
# それで計画は? 戦略計画文書の採掘

So What's the Plan? Mining Strategic Planning Documents ( http://arxiv.org/abs/2007.00257v2 )

ライセンス: Link先を確認
Ekaterina Artemova, Tatiana Batura, Anna Golenkovskaya, Vitaly Ivanin, Vladimir Ivanov, Veronika Sarkisyan, Ivan Smurov, Elena Tutubalina(参考訳) 本稿では,ロシア戦略計画文書のコーパスであるrurebusについて述べる。 このプロジェクトは言語技術とe政府の観点からいる。 新しい言語ソースやツールが開発されているだけでなく、e-goverment研究に応用されている。 テキストコーパスをスクラッチから作成するためのパイプラインを実演する。 まず、アノテーションスキーマが設計されます。 次のテキストはHuman-in-the-loop戦略を使ってマークアップされるので、事前アノテーションは機械学習モデルから派生し、手動で修正される。 注釈付きテキストの量は、RuREBusから得られる洞察を示すのに十分な量である。

In this paper we present a corpus of Russian strategic planning documents, RuREBus. This project is grounded both from language technology and e-government perspectives. Not only new language sources and tools are being developed, but also their applications to e-goverment research. We demonstrate the pipeline for creating a text corpus from scratch. First, the annotation schema is designed. Next texts are marked up using human-in-the-loop strategy, so that preliminary annotations are derived from a machine learning model and are manually corrected. The amount of annotated texts is large enough to showcase what insights can be gained from RuREBus.
翻訳日:2022-11-14 23:01:09 公開日:2020-07-07
# 混成モダリティの分布内解釈可能性

In-Distribution Interpretability for Challenging Modalities ( http://arxiv.org/abs/2007.00758v2 )

ライセンス: Link先を確認
Cosmas Hei{\ss}, Ron Levie, Cinjon Resnick, Gitta Kutyniok, Joan Bruna(参考訳) ディープニューラルネットワークの予測は、単純なアプローチと比較して解析が難しいことが広く認識されている。 しかし、こうしたモデルの動作モードを調査する手法の開発は、ここ数年で急速に進展している。 近年,このような説明の有意義性を改善するために,生成モデルを用いた直感的フレームワークが導入された。 本研究は,都市環境の音楽と物理シミュレーションという,多様かつ困難なモダリティを解釈するための手法の柔軟性を示す。

It is widely recognized that the predictions of deep neural networks are difficult to parse relative to simpler approaches. However, the development of methods to investigate the mode of operation of such models has advanced rapidly in the past few years. Recent work introduced an intuitive framework which utilizes generative models to improve on the meaningfulness of such explanations. In this work, we display the flexibility of this method to interpret diverse and challenging modalities: music and physical simulations of urban environments.
翻訳日:2022-11-14 22:17:50 公開日:2020-07-07
# 敵攻撃検出のための画像処理技術(IPT)のシーケンス決定

Determining Sequence of Image Processing Technique (IPT) to Detect Adversarial Attacks ( http://arxiv.org/abs/2007.00337v2 )

ライセンス: Link先を確認
Kishor Datta Gupta, Zahid Akhtar, Dipankar Dasgupta(参考訳) 敵の攻撃を生成するための様々な手法が継続的に開発されているため、敵の例からセキュアな機械学習モデルを開発することは困難である。 本研究では,悪意のある入力を検出するために,画像処理技術シーケンス(IPTS)を自動的に決定する進化的手法を提案する。 そこで,我々はまず,アダプティブアタック法(防御上)を含む多様なアタック手法を用いて,クリーンデータセットから敵のサンプルを生成する。 遺伝的アルゴリズム (ga) に基づく検出フレームワークを開発し, ユークリッド距離, エントロピー損失, 平均ヒストグラム, 局所二分パターン, 損失関数などの異なる適合度測定により最適度を推定する最適iptを求める。 元の画像と処理された画像の間の「画像の差」は特徴を抽出するために使われ、入力されたサンプルが逆境かクリーンかを決定するために分類スキームに送られます。 本稿では,本手法を概説し,複数の逆攻撃を用いた複数データセットを用いた実験を行った。 各攻撃タイプとデータセットに対して、独自のIPTSを生成する。 テスト時に動的に選択されるIPTSのセットは、敵攻撃のフィルタとして機能する。 実験により,任意のAIモデルの処理に効果的に利用できることを示す有望な結果が得られた。

Developing secure machine learning models from adversarial examples is challenging as various methods are continually being developed to generate adversarial attacks. In this work, we propose an evolutionary approach to automatically determine Image Processing Techniques Sequence (IPTS) for detecting malicious inputs. Accordingly, we first used a diverse set of attack methods including adaptive attack methods (on our defense) to generate adversarial samples from the clean dataset. A detection framework based on a genetic algorithm (GA) is developed to find the optimal IPTS, where the optimality is estimated by different fitness measures such as Euclidean distance, entropy loss, average histogram, local binary pattern and loss functions. The "image difference" between the original and processed images is used to extract the features, which are then fed to a classification scheme in order to determine whether the input sample is adversarial or clean. This paper described our methodology and performed experiments using multiple data-sets tested with several adversarial attacks. For each attack-type and dataset, it generates unique IPTS. A set of IPTS selected dynamically in testing time which works as a filter for the adversarial attack. Our empirical experiments exhibited promising results indicating the approach can efficiently be used as processing for any AI model.
翻訳日:2022-11-14 21:50:12 公開日:2020-07-07
# オブジェクトカウントのための数発逐次アプローチ

A Few-Shot Sequential Approach for Object Counting ( http://arxiv.org/abs/2007.01899v2 )

ライセンス: Link先を確認
Negin Sokhandan, Pegah Kamousi, Alejandro Posada, Eniola Alese, Negar Rostamzadeh(参考訳) そこで本研究では,ポイントレベルのアノテーションを用いたマルチクラスオブジェクトカウントの問題に対処する。 提案手法は,画像中のオブジェクトに逐次出席し,関連する特徴を抽出する,クラス非依存の注意機構を利用する。 このプロセスは、抽出された特徴を用いてそれぞれを、サポートセットイメージに存在するクラスまたは背景として分類する、プロトティピカルベースのマイノショットアプローチに適応されている。 提案手法はポイントレベルのアノテーションに基づいて訓練され,クラスに依存しない,クラスに依存しない新しい損失関数を用いて,少数ショットオブジェクトのカウント作業を支援する。 本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。 さらに, 弱教師付きマルチクラスオブジェクトのカウント/検出用に特別に設計された新しいデータセットを導入し, 既存のデータセットと比較して, 画像毎にかなり異なるクラスとクラス/インスタンス数の分布を含む。 トレーニング対象とは全く異なるクラス分布上で,システムをテストすることで,我々のアプローチの堅牢性を示す。

In this work, we address the problem of few-shot multi-class object counting with point-level annotations. The proposed technique leverages a class agnostic attention mechanism that sequentially attends to objects in the image and extracts their relevant features. This process is employed on an adapted prototypical-based few-shot approach that uses the extracted features to classify each one either as one of the classes present in the support set images or as background. The proposed technique is trained on point-level annotations and uses a novel loss function that disentangles class-dependent and class-agnostic aspects of the model to help with the task of few-shot object counting. We present our results on a variety of object-counting/detection datasets, including FSOD and MS COCO. In addition, we introduce a new dataset that is specifically designed for weakly supervised multi-class object counting/detection and contains considerably different classes and distribution of number of classes/instances per image compared to the existing datasets. We demonstrate the robustness of our approach by testing our system on a totally different distribution of classes from what it has been trained on.
翻訳日:2022-11-14 04:54:02 公開日:2020-07-07
# ct画像におけるcovid-19セグメンテーションのための弱教師付き一貫性に基づく学習法

A Weakly Supervised Consistency-based Learning Method for COVID-19 Segmentation in CT Images ( http://arxiv.org/abs/2007.02180v2 )

ライセンス: Link先を確認
Issam Laradji, Pau Rodriguez, Oscar Ma\~nas, Keegan Lensink, Marco Law, Lironne Kurzman, William Parker, David Vazquez, and Derek Nowrouzezahrai(参考訳) コロナウイルス病2019(COVID-19)は世界中で活発に広がり、現実的な健康危機を引き起こしている。 したがって、トモグラフィ(CT)画像中のCOVID-19を自動的に検出するシステムを持つことで、病気の重症度を定量化することができる。 残念ながら、胸部CTのラベル付けには、かなりの専門知識、時間、努力が必要である。 我々は、CT画像上の各感染領域に1ピクセルのポイントアノテーションを要求することで、これらのラベル付け課題に対処する。 このラベル付け方式により、アノテータは感染する可能性のある領域のピクセルにラベルを付けることができ、領域を分割するのに10~15秒かかるのに対して、1~3秒しかかからない。 従来、セグメンテーションモデルはこれらのラベルのクロスエントロピー損失関数を使ってポイントレベルのアノテーションを訓練する。 しかし、これらのモデルはしばしば精度が低い。 そこで本稿では,出力予測を入力画像の空間変換に整合させるための整合性に基づく(CB)損失関数を提案する。 オープンソースの3つのCOVID-19データセットの実験によると、この損失関数は従来のポイントレベルの損失関数よりも大幅に改善され、完全な監視でトレーニングされたモデルのパフォーマンスとほぼ一致している。 コードは \url{https://github.com/issamlaradji/covid19_weak_supervision} で入手できる。

Coronavirus Disease 2019 (COVID-19) has spread aggressively across the world causing an existential health crisis. Thus, having a system that automatically detects COVID-19 in tomography (CT) images can assist in quantifying the severity of the illness. Unfortunately, labelling chest CT scans requires significant domain expertise, time, and effort. We address these labelling challenges by only requiring point annotations, a single pixel for each infected region on a CT image. This labeling scheme allows annotators to label a pixel in a likely infected region, only taking 1-3 seconds, as opposed to 10-15 seconds to segment a region. Conventionally, segmentation models train on point-level annotations using the cross-entropy loss function on these labels. However, these models often suffer from low precision. Thus, we propose a consistency-based (CB) loss function that encourages the output predictions to be consistent with spatial transformations of the input images. The experiments on 3 open-source COVID-19 datasets show that this loss function yields significant improvement over conventional point-level loss functions and almost matches the performance of models trained with full supervision with much less human effort. Code is available at: \url{https://github.com/IssamLaradji/covid19_weak_supervision}.
翻訳日:2022-11-13 13:57:33 公開日:2020-07-07
# インクリメンタル学習のための授業順序付けについて

On Class Orderings for Incremental Learning ( http://arxiv.org/abs/2007.02145v2 )

ライセンス: Link先を確認
Marc Masana, Bart{\l}omiej Twardowski, Joost van de Weijer(参考訳) 授業順序がインクリメンタル学習の評価に及ぼす影響は,ほとんど注目されていない。 本稿では,インクリメンタルに学習される分類器に対するクラス順序の影響について検討する。 本稿では,データセットの様々な順序を計算する手法を提案する。 順序付けは、混乱行列からシミュレーションアニール最適化を導き、最大および最小の混乱タスクを含む様々な漸進学習シナリオを反映する。 提案した注文に対して,最先端の逐次学習手法を幅広く評価する。 その結果、順序付けはパフォーマンスとメソッドのランク付けに大きな影響を与える可能性がある。

The influence of class orderings in the evaluation of incremental learning has received very little attention. In this paper, we investigate the impact of class orderings for incrementally learned classifiers. We propose a method to compute various orderings for a dataset. The orderings are derived by simulated annealing optimization from the confusion matrix and reflect different incremental learning scenarios, including maximally and minimally confusing tasks. We evaluate a wide range of state-of-the-art incremental learning methods on the proposed orderings. Results show that orderings can have a significant impact on performance and the ranking of the methods.
翻訳日:2022-11-13 13:36:50 公開日:2020-07-07
# 深層畳み込みニューラルネットワークによるseam-carving forgeryの同定

Deep Convolutional Neural Network for Identifying Seam-Carving Forgery ( http://arxiv.org/abs/2007.02393v2 )

ライセンス: Link先を確認
Seung-Hun Nam, Wonhyuk Ahn, In-Jae Yu, Myung-Joon Kwon, Minseok Son, Heung-Kyu Lee(参考訳) seam sculptureは、視覚的に目立たないコンテンツを維持しながら画像のサイズを調整するための、代表的なコンテンツ認識画像再ターゲティングアプローチである。 視覚的に重要な内容を維持するために、シーム彫刻アルゴリズムは、定義されたコスト関数に従って、最初にシームと呼ばれる画素の連結経路を算出し、繰り返し計算されたシームを除去して複製することにより画像のサイズを調整する。 シーム彫りは、アプリケーションとデバイス間の画像の解像度の多様性を克服するために積極的に活用されており、シーム彫りによる歪みの検出は画像鑑識において重要になっている。 本稿では,畳み込み型ニューラルネットワーク(CNN)を用いたシーム彫刻に基づく画像再ターゲティングの削減と拡張のための分類手法を提案する。 低レベルの特徴を学習する能力を得るために、微妙な信号を捕捉する5種類のネットワークブロックからなるCNNアーキテクチャを設計した。 アンサンブルモジュールは、性能の向上と、与えられた画像の局所領域の特徴を包括的に分析するためにさらに採用される。 本研究の有効性を検証するため, 各種CNNベースラインに基づく広範囲な実験を行った。 ベースラインと比較して,本研究は3クラス分類(オリジナル,シーム挿入,シーム除去)で最先端のパフォーマンスを示す。 さらに,アンサンブルモジュールを用いたモデルでは,様々な未確認ケースに対して堅牢である。 また, シーム除去地域とシーム挿入地域の両方のローカライズに本手法を適用した。

Seam carving is a representative content-aware image retargeting approach to adjust the size of an image while preserving its visually prominent content. To maintain visually important content, seam-carving algorithms first calculate the connected path of pixels, referred to as the seam, according to a defined cost function and then adjust the size of an image by removing and duplicating repeatedly calculated seams. Seam carving is actively exploited to overcome diversity in the resolution of images between applications and devices; hence, detecting the distortion caused by seam carving has become important in image forensics. In this paper, we propose a convolutional neural network (CNN)-based approach to classifying seam-carving-based image retargeting for reduction and expansion. To attain the ability to learn low-level features, we designed a CNN architecture comprising five types of network blocks specialized for capturing subtle signals. An ensemble module is further adopted to both enhance performance and comprehensively analyze the features in the local areas of the given image. To validate the effectiveness of our work, extensive experiments based on various CNN-based baselines were conducted. Compared to the baselines, our work exhibits state-of-the-art performance in terms of three-class classification (original, seam inserted, and seam removed). In addition, our model with the ensemble module is robust for various unseen cases. The experimental results also demonstrate that our method can be applied to localize both seam-removed and seam-inserted areas.
翻訳日:2022-11-13 08:45:31 公開日:2020-07-07
# モンテカルロサンプリングに基づくB\"uchi Automataの非包摂性証明

Proving Non-Inclusion of B\"uchi Automata based on Monte Carlo Sampling ( http://arxiv.org/abs/2007.02282v2 )

ライセンス: Link先を確認
Yong Li, Andrea Turrini, Xuechao Sun, Lijun Zhang(参考訳) 正しさの証明の探索と反例の探索(バグ)は検証の相補的な側面である。 検証ツールの実用性を最大化するためには、それらを同時に追求する方がよい。 これはプログラムの終了解析でよく理解されているが、b\"uchi automataの言語包含分析では、主に言語包含性を証明するアルゴリズムの改善に焦点が当てられている。 本稿では,Grosu と Smolka のアルゴリズムである $\mathsf{IMC}^2$ を,モンテカルロモデルで LTL 式に対するチェックを行うために開発された,B\"uchiautoa non-inclusion $\mathcal{L}(\mathcal{A}) \not\subseteq \mathcal{L}(\mathcal{B})$ を証明するための特定のアルゴリズムである $\mathsf{IMC}^2$ を提案する。 我々が提案するアルゴリズムは、$m = \lceil \ln \delta / \ln (1-\epsilon) \rceil$ ランダムラッソ型標本を$\mathcal{a}$ から取り出して、与えられたエラー確率 $\epsilon$ と信頼レベル $1 - \delta$ に対して$\mathcal{l}(\mathcal{a}) \not\subseteq \mathcal{l}(\mathcal{b})$ を拒絶するかどうかを決定する。 そのようなサンプルでは、$\mathsf{IMC}^2$は、ラッソ反例を見つける確率が$\epsilon$より大きいという仮定の下で、$\mathcal{L}(\mathcal{A}) \not\subseteq \mathcal{L}(\mathcal{B})$が$\delta$より小さいことを保証している。 広範な実験により、$\mathsf{imc}^2$ は b\"uchi automata への反例を見つけるための高速で信頼性の高い方法であることが示されている。

The search for a proof of correctness and the search for counterexamples (bugs) are complementary aspects of verification. In order to maximize the practical use of verification tools it is better to pursue them at the same time. While this is well-understood in the termination analysis of programs, this is not the case for the language inclusion analysis of B\"uchi automata, where research mainly focused on improving algorithms for proving language inclusion, with the search for counterexamples left to the expensive complementation operation. In this paper, we present $\mathsf{IMC}^2$, a specific algorithm for proving B\"uchi automata non-inclusion $\mathcal{L}(\mathcal{A}) \not\subseteq \mathcal{L}(\mathcal{B})$, based on Grosu and Smolka's algorithm $\mathsf{MC}^2$ developed for Monte Carlo model checking against LTL formulas. The algorithm we propose takes $M = \lceil \ln \delta / \ln (1-\epsilon) \rceil$ random lasso-shaped samples from $\mathcal{A}$ to decide whether to reject the hypothesis $\mathcal{L}(\mathcal{A}) \not\subseteq \mathcal{L}(\mathcal{B})$, for given error probability $\epsilon$ and confidence level $1 - \delta$. With such a number of samples, $\mathsf{IMC}^2$ ensures that the probability of witnessing $\mathcal{L}(\mathcal{A}) \not\subseteq \mathcal{L}(\mathcal{B})$ via further sampling is less than $\delta$, under the assumption that the probability of finding a lasso counterexample is larger than $\epsilon$. Extensive experimental evaluation shows that $\mathsf{IMC}^2$ is a fast and reliable way to find counterexamples to B\"uchi automata inclusion.
翻訳日:2022-11-13 08:32:08 公開日:2020-07-07
# Intelligent Reflecting Surface Aided Wireless Communications: チュートリアル

Intelligent Reflecting Surface Aided Wireless Communications: A Tutorial ( http://arxiv.org/abs/2007.02759v2 )

ライセンス: Link先を確認
Qingqing Wu and Shuowen Zhang and Beixiong Zheng and Changsheng You and Rui Zhang(参考訳) インテリジェント反射面(Intelligent Reflecting Surface、IRS)は、無線ネットワークにおける電波伝搬を工学する技術である。 多数の低コストの受動反射素子を介して信号反射を巧みに調整することにより、IRSは無線チャネルを動的に変更して通信性能を向上させることができる。 今後,アクティブコンポーネントとパッシブコンポーネントの両方からなるIRS支援ハイブリッド無線ネットワークが,持続可能なキャパシティ成長を効果的に実現すると期待されている。 その大きな可能性にもかかわらず、IRSはリフレクション最適化、チャネル推定、通信設計の観点からのデプロイメントなど、無線ネットワークに効率的に統合する新たな課題に直面している。 本稿では,これらの問題を解決するために,irs支援無線通信のチュートリアル概要を提供し,そのリフレクションとチャネルモデル,ハードウェアアーキテクチャと実用上の制約,および無線ネットワークにおける様々な魅力的なアプリケーションについて詳述する。 さらに,今後の研究にふさわしい重要な方向性を強調した。

Intelligent reflecting surface (IRS) is an enabling technology to engineer the radio signal prorogation in wireless networks. By smartly tuning the signal reflection via a large number of low-cost passive reflecting elements, IRS is capable of dynamically altering wireless channels to enhance the communication performance. It is thus expected that the new IRS-aided hybrid wireless network comprising both active and passive components will be highly promising to achieve a sustainable capacity growth cost-effectively in the future. Despite its great potential, IRS faces new challenges to be efficiently integrated into wireless networks, such as reflection optimization, channel estimation, and deployment from communication design perspectives. In this paper, we provide a tutorial overview of IRS-aided wireless communication to address the above issues, and elaborate its reflection and channel models, hardware architecture and practical constraints, as well as various appealing applications in wireless networks. Moreover, we highlight important directions worthy of further investigation in future work.
翻訳日:2022-11-13 03:28:45 公開日:2020-07-07
# 15世紀のイタリア戦争に基づく地域社会の検知と社会ネットワーク分析

Community detection and Social Network analysis based on the Italian wars of the 15th century ( http://arxiv.org/abs/2007.02641v2 )

ライセンス: Link先を確認
J. Fumanal-Idocin, A. Alonso-Betanzos, O. Cord\'on, H. Bustince, M.Min\'arov\'a(参考訳) 本稿では,人的インタラクションを基盤として,ソーシャルネットワークのモデリングについて考察する。 そこで本研究では,ネットワーク内のアクター同士の局所的相互作用の性質を捉えるために,親和性という新たな関数セットを提案する。 これらの機能を利用することで,ネットワーク内のマルチエージェントインタラクションからコミュニティが自然に発生する,新たなコミュニティ検出アルゴリズムであるBorgia Clusteringを開発する。 また,この事例に関する地域社会の規模と規模の影響についても論じるとともに,大規模コミュニティの出現に伴う複雑さへの対処についても論じる。 最後に、コミュニティ検出ソリューションを他の代表アルゴリズムと比較し、好ましい結果を得る。

In this contribution we study social network modelling by using human interaction as a basis. To do so, we propose a new set of functions, affinities, designed to capture the nature of the local interactions among each pair of actors in a network. By using these functions, we develop a new community detection algorithm, the Borgia Clustering, where communities naturally arise from the multi-agent interaction in the network. We also discuss the effects of size and scale for communities regarding this case, as well as how we cope with the additional complexity present when big communities arise. Finally, we compare our community detection solution with other representative algorithms, finding favourable results.
翻訳日:2022-11-13 02:52:50 公開日:2020-07-07
# 反射に基づく単語属性伝達

Reflection-based Word Attribute Transfer ( http://arxiv.org/abs/2007.02598v2 )

ライセンス: Link先を確認
Yoichi Ishibashi, Katsuhito Sudoh, Koichiro Yoshino, Satoshi Nakamura(参考訳) 単語の埋め込みは、男性+女性=クイーンのような類似関係を表すことが多いが、単語の属性を変えるために使われる。 この類推に基づく方法で王を女王に移すには、王が男性であるという知識に基づいて差分ベクトルの男性(女性)を差し引く。 しかし、そのような知識の開発は言葉や属性にとって非常にコストがかかる。 本研究では,そのような類似操作を伴わないリフレクションマッピングに基づく単語属性変換手法を提案する。 実験の結果,提案手法では,対象属性を持たない単語を変更することなく,与えられた単語の属性を転送できることがわかった。

Word embeddings, which often represent such analogic relations as king - man + woman = queen, can be used to change a word's attribute, including its gender. For transferring king into queen in this analogy-based manner, we subtract a difference vector man - woman based on the knowledge that king is male. However, developing such knowledge is very costly for words and attributes. In this work, we propose a novel method for word attribute transfer based on reflection mappings without such an analogy operation. Experimental results show that our proposed method can transfer the word attributes of the given words without changing the words that do not have the target attributes.
翻訳日:2022-11-13 02:28:16 公開日:2020-07-07
# 連続学習環境における破滅的忘れを緩和する動的記憶

Dynamic memory to alleviate catastrophic forgetting in continuous learning settings ( http://arxiv.org/abs/2007.02639v2 )

ライセンス: Link先を確認
Johannes Hofmanninger, Matthias Perkonigg, James A. Brink, Oleg Pianykh, Christian Herold, Georg Langs(参考訳) 医療画像では、診断手順の技術的進歩や変化は、画像の出現の連続的な変化をもたらす。 スキャナメーカー、レコンストラクションカーネル、線量、その他のプロトコル固有の設定、コントラストエージェントの管理は、スキャンされた生物学に依存しない画像コンテンツに影響を与える例である。 このようなドメインとタスクシフトは、時間とともに古いモデルをレンダリングすることによって、臨床ルーチンにおける機械学習アルゴリズムの適用性を制限する。 本稿では,モデルを適用してソース領域のばらつきを検知し,壊滅的な影響を相殺することで,連続学習シナリオにおけるデータシフトの問題に対処する。 本手法は動的メモリを用いて多種多様なトレーニングデータサブセットのリハーサルを行い,リハーサルを緩和する。 2つの異なるスキャナープロトコルと合成分類タスクで得られた臨床用ctデータに対するアプローチを評価した。 実験により、動的メモリは、複数のデータシフトのある環境で破滅的な忘れを防ぎ、これらのシフトがいつ起こるかを明確に知る必要がなくなる。

In medical imaging, technical progress or changes in diagnostic procedures lead to a continuous change in image appearance. Scanner manufacturer, reconstruction kernel, dose, other protocol specific settings or administering of contrast agents are examples that influence image content independent of the scanned biology. Such domain and task shifts limit the applicability of machine learning algorithms in the clinical routine by rendering models obsolete over time. Here, we address the problem of data shifts in a continuous learning scenario by adapting a model to unseen variations in the source domain while counteracting catastrophic forgetting effects. Our method uses a dynamic memory to facilitate rehearsal of a diverse training data subset to mitigate forgetting. We evaluated our approach on routine clinical CT data obtained with two different scanner protocols and synthetic classification tasks. Experiments show that dynamic memory counters catastrophic forgetting in a setting with multiple data shifts without the necessity for explicit knowledge about when these shifts occur.
翻訳日:2022-11-13 01:16:42 公開日:2020-07-07
# アルミホ状態における学習率の漸近的行動

Asymptotic behaviour of learning rates in Armijo's condition ( http://arxiv.org/abs/2007.03618v1 )

ライセンス: Link先を確認
Tuyen Trung Truong, Tuan Hang Nguyen(参考訳) 定数 $0<\alpha <1$ を固定する。 a $c^1$ function $f:\mathbb{r}^k\rightarrow \mathbb{r}$, a point $x$ and a positive number $\delta >0$ に対し、armijoの条件は$f(x-\delta \nabla f(x))-f(x)\leq -\alpha \delta ||\nabla f(x)||^2$ で満たされる。 これはよく知られたBacktracking Gradient Descent (Backtracking GD)アルゴリズムの基礎である。 x_n+1}=x_n-\delta _n\nabla f(x_n)$ で定義される列 $\{x_n\}$ を考える。 ここでは、$\{x_n\}$ が非退化臨界点に収束すると、$\{\delta _n\}$ は有界でなければならないことを示す。 さらに、この有界性は Hessian $\nabla ^2f$ のノルムと極限点におけるその逆のノルムで定量化することができる。 これは、Unbounded Backtracking GD に関する最初の著者の結果を補完し、非退化臨界点への収束の場合、Unbounded Backtracking GD の挙動が通常の Backtracking GD とそれほど変わらないことを示す。 一方、縮退した臨界点に収束する場合、挙動は大きく異なる場合がある。 私たちは、両方のスケンリオが本当に起こりうることを示すためにいくつかの実験を行います。 論文の別の部分では、バックトラッキングgdが正しい単位を持つと主張する(彼の adadelta の論文で zeiler の定義によれば)。 主なポイントは、バックトラックgdにおける学習レートがarmijoの条件に結びついているため、ユニットレスではないことである。

Fix a constant $0<\alpha <1$. For a $C^1$ function $f:\mathbb{R}^k\rightarrow \mathbb{R}$, a point $x$ and a positive number $\delta >0$, we say that Armijo's condition is satisfied if $f(x-\delta \nabla f(x))-f(x)\leq -\alpha \delta ||\nabla f(x)||^2$. It is a basis for the well known Backtracking Gradient Descent (Backtracking GD) algorithm. Consider a sequence $\{x_n\}$ defined by $x_{n+1}=x_n-\delta _n\nabla f(x_n)$, for positive numbers $\delta _n$ for which Armijo's condition is satisfied. We show that if $\{x_n\}$ converges to a non-degenerate critical point, then $\{\delta _n\}$ must be bounded. Moreover this boundedness can be quantified in terms of the norms of the Hessian $\nabla ^2f$ and its inverse at the limit point. This complements the first author's results on Unbounded Backtracking GD, and shows that in case of convergence to a non-degenerate critical point the behaviour of Unbounded Backtracking GD is not too different from that of usual Backtracking GD. On the other hand, in case of convergence to a degenerate critical point the behaviours can be very much different. We run some experiments to illustrate that both scenrios can really happen. In another part of the paper, we argue that Backtracking GD has the correct unit (according to a definition by Zeiler in his Adadelta's paper). The main point is that since learning rate in Backtracking GD is bound by Armijo's condition, it is not unitless.
翻訳日:2022-11-12 20:49:52 公開日:2020-07-07
# プライバシーとロバスト性に配慮した学習 : 分布不確かさと敵対データ

Learning while Respecting Privacy and Robustness to Distributional Uncertainties and Adversarial Data ( http://arxiv.org/abs/2007.03724v1 )

ライセンス: Link先を確認
Alireza Sadeghi, Gang Wang, Meng Ma, Georgios B. Giannakis(参考訳) 機械学習モデルをトレーニングするために使用されるデータは、敵対者によって構築され、モデルを騙すことができる。 プライバシや機密性,あるいは地理的に収集されたデータが複数の学習者にわたって格納された場合の法的制約などによっても発生する。 この文脈では、分散的に堅牢な最適化フレームワークは、集中学習とフェデレーション学習の両方においてパラメトリックモデルを訓練するために考慮される。 目的は、逆向きに操作された入力データや、トレーニングとデータ分散のテストのミスマッチや、異なるワーカーに格納されたデータセットなど、分散の不確実性に対して堅牢なトレーニングモデルを提供することである。 この目的のために、データ分布が未知であると仮定し、経験的データ分布を中心にしたwasserstein球内に位置する。 この頑健な学習課題には無限次元最適化の問題が伴う。 強い双対性結果を活用することで、3つの確率的原始双対アルゴリズムが開発されるサロゲートが得られる。 一 凸部分問題を解くためにオラクルを呼び出す、$\epsilon$-accurate oracleによる確率的近位勾配降下 二 単一の勾配上昇段階を経て凸部分確率の解を近似する確率的近位勾配降下上昇段階及び 三 データが格納されている異なる労働者において、局所的にサブ問題を解く分布的ロバストな連合学習アルゴリズム 実験的なリスク最小化とフェデレーション学習手法と比較して,提案アルゴリズムは計算オーバーヘッドが少なく,堅牢性を提供する。 画像データセットを用いた数値実験では、いくつかの既存敵攻撃と分布不確実性の下で提案アルゴリズムの利点を示す。

Data used to train machine learning models can be adversarial--maliciously constructed by adversaries to fool the model. Challenge also arises by privacy, confidentiality, or due to legal constraints when data are geographically gathered and stored across multiple learners, some of which may hold even an "anonymized" or unreliable dataset. In this context, the distributionally robust optimization framework is considered for training a parametric model, both in centralized and federated learning settings. The objective is to endow the trained model with robustness against adversarially manipulated input data, or, distributional uncertainties, such as mismatches between training and testing data distributions, or among datasets stored at different workers. To this aim, the data distribution is assumed unknown, and lies within a Wasserstein ball centered around the empirical data distribution. This robust learning task entails an infinite-dimensional optimization problem, which is challenging. Leveraging a strong duality result, a surrogate is obtained, for which three stochastic primal-dual algorithms are developed: i) stochastic proximal gradient descent with an $\epsilon$-accurate oracle, which invokes an oracle to solve the convex sub-problems; ii) stochastic proximal gradient descent-ascent, which approximates the solution of the convex sub-problems via a single gradient ascent step; and, iii) a distributionally robust federated learning algorithm, which solves the sub-problems locally at different workers where data are stored. Compared to the empirical risk minimization and federated learning methods, the proposed algorithms offer robustness with little computation overhead. Numerical tests using image datasets showcase the merits of the proposed algorithms under several existing adversarial attacks and distributional uncertainties.
翻訳日:2022-11-12 20:49:11 公開日:2020-07-07
# リアルタイム奥行き処理のためのsingle storage semi-global matching

Single Storage Semi-Global Matching for Real Time Depth Processing ( http://arxiv.org/abs/2007.03269v1 )

ライセンス: Link先を確認
Prathmesh Sawant, Yashwant Temburu, Mandar Datar, Imran Ahmed, Vinayak Shriniwas and Sachin Patkar(参考訳) 深度マップはコンピュータビジョンとロボット工学における重要な計算である。 最も一般的なアプローチの1つは、ステレオカメラから得られた画像の差分マップの計算である。 半大域マッチング (sgm) 法は、適度な計算時間を持つ精度のよい選択である。 gpuを用いた自律飛行車やブラインドエイドエイドアクセラレーションなど、リアルタイムアプリケーションのための計算集約型アルゴリズムを使用するには、fpgaが必要である。 本稿では,MGM(More Global Matching)のFPGA実装に基づくステレオビジョンシステムの設計と実装について述べる。 MGMはSGMの派生型である。 4つのパスを使用するが、対応するピクセルに対して1つの累積コスト値を格納する。 我々のステレオビジョンプロトタイプは、ARMベースのZynq-SoC、ZED-stereo-camera / ELPステレオカメラ/Intel RealSense D435i、可視化用のVGAを含むZedboardを使っている。 深度マップに必要な差分マップ計算のFPGAによるカスタムアクセラレーションによる消費電力はわずか0.72ワットである。 格差マップの更新レートは10.5fpsである。

Depth-map is the key computation in computer vision and robotics. One of the most popular approach is via computation of disparity-map of images obtained from Stereo Camera. Semi Global Matching (SGM) method is a popular choice for good accuracy with reasonable computation time. To use such compute-intensive algorithms for real-time applications such as for autonomous aerial vehicles, blind Aid, etc. acceleration using GPU, FPGA is necessary. In this paper, we show the design and implementation of a stereo-vision system, which is based on FPGA-implementation of More Global Matching(MGM). MGM is a variant of SGM. We use 4 paths but store a single cumulative cost value for a corresponding pixel. Our stereo-vision prototype uses Zedboard containing an ARM-based Zynq-SoC, ZED-stereo-camera / ELP stereo-camera / Intel RealSense D435i, and VGA for visualization. The power consumption attributed to the custom FPGA-based acceleration of disparity map computation required for depth-map is just 0.72 watt. The update rate of the disparity map is realistic 10.5 fps.
翻訳日:2022-11-12 20:46:18 公開日:2020-07-07
# GANはランドマークベースの形態と同等の顔認識システムを生成することができるか? --脆弱性と検出

Can GAN Generated Morphs Threaten Face Recognition Systems Equally as Landmark Based Morphs? -- Vulnerability and Detection ( http://arxiv.org/abs/2007.03621v1 )

ライセンス: Link先を確認
Sushma Venkatesh, Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Naser Damer, Christoph Busch(参考訳) フェイスモーフィングの主な目的は、異なるデータ主題(例えば、悪意のあるアクターと共犯者)の顔画像を組み合わせて、貢献するデータ主題の両方に対して等しく検証可能な顔画像を生成することである。 本稿では,新たなgan(generative adversarial network)-styleganを用いた顔形態生成のための新しいフレームワークを提案する。 従来の作品とは対照的に、1024$\times$1024ピクセルの高画質と高画質の両方の現実的な形態を生成する。 2500種類の顔画像から新たに作成されたモーフィングデータセットは,本研究において重要な疑問を呈する。 \textit{(i) GAN 生成形態はランドマークベース形態と等しく顔認識システム(FRS)を脅かすことができるか? } 回答を見てみると,Commercial-Off-The-Shelf FRS (COTS) とディープラーニングベースの FRS (ArcFace) の脆弱性をベンチマークする。 この研究は、確立されたモルフィング攻撃検出(MAD)スキームを用いて、ランドマークに基づく形態に対して、両方のGAN生成形態に対する検出アプローチをベンチマークする。

The primary objective of face morphing is to combine face images of different data subjects (e.g. a malicious actor and an accomplice) to generate a face image that can be equally verified for both contributing data subjects. In this paper, we propose a new framework for generating face morphs using a newer Generative Adversarial Network (GAN) - StyleGAN. In contrast to earlier works, we generate realistic morphs of both high-quality and high resolution of 1024$\times$1024 pixels. With the newly created morphing dataset of 2500 morphed face images, we pose a critical question in this work. \textit{(i) Can GAN generated morphs threaten Face Recognition Systems (FRS) equally as Landmark based morphs?} Seeking an answer, we benchmark the vulnerability of a Commercial-Off-The-Shelf FRS (COTS) and a deep learning-based FRS (ArcFace). This work also benchmarks the detection approaches for both GAN generated morphs against the landmark based morphs using established Morphing Attack Detection (MAD) schemes.
翻訳日:2022-11-12 20:46:01 公開日:2020-07-07
# wifiを用いたデバイスフリー人間計数のためのディープラーニングシステムcrosscount

CrossCount: A Deep Learning System for Device-free Human Counting using WiFi ( http://arxiv.org/abs/2007.03175v1 )

ライセンス: Link先を確認
Osama T. Ibrahim, Walid Gomaa, and Moustafa Youssef(参考訳) 人間を数えることは、多くの人中心のアプリケーションに欠かせない部分である。 本稿では,1つのwi-fiリンクを用いて興味のある領域における人間の数を推定する,正確なディープラーニングに基づく人間数推定器crosscountを提案する。 主な考え方は、信号強度よりも無線チャネルノイズに強い識別特性として時間的リンク遮断パターンに依存し、ユビキタスで正確な人間のカウントシステムを提供することである。 その設計の一環として、CrossCountはモデルの一般化性を高めるためのクラス不均衡やトレーニングデータ拡張など、多くのディープラーニングの課題に対処している。 複数のテストベッドにおけるクロスカウントの実装と評価により、人間の計数精度を最大2人以内で100%達成できることが示されている。 これはCrossCountが、市販のデバイスからの非労働集約的なデータ収集を備えた、ユビキタスなクラウド推定ツールであることを示すものだ。

Counting humans is an essential part of many people-centric applications. In this paper, we propose CrossCount: an accurate deep-learning-based human count estimator that uses a single WiFi link to estimate the human count in an area of interest. The main idea is to depend on the temporal link-blockage pattern as a discriminant feature that is more robust to wireless channel noise than the signal strength, hence delivering a ubiquitous and accurate human counting system. As part of its design, CrossCount addresses a number of deep learning challenges such as class imbalance and training data augmentation for enhancing the model generalizability. Implementation and evaluation of CrossCount in multiple testbeds show that it can achieve a human counting accuracy to within a maximum of 2 persons 100% of the time. This highlights the promise of CrossCount as a ubiquitous crowd estimator with non-labour-intensive data collection from off-the-shelf devices.
翻訳日:2022-11-12 20:45:05 公開日:2020-07-07
# 性能予測のための縦型システム監視データの解析

Analytics of Longitudinal System Monitoring Data for Performance Prediction ( http://arxiv.org/abs/2007.03451v1 )

ライセンス: Link先を確認
Ian J. Costello, Abhinav Bhatele(参考訳) 近年、いくつかのHPC施設が、パフォーマンスと運用効率を理解するためにパフォーマンス関連データを収集するために、システムとジョブの継続的な監視を開始している。 このようなデータは、保留中のジョブのパフォーマンスを予測するデータ駆動モデルを作成することによって、個々のジョブとシステム全体のパフォーマンスを最適化するために使用できる。 本稿では,縦型監視データを用いた代表制御ジョブの性能をモデル化し,性能変動の原因について検討する。 機械学習を用いて、現在のシステム状態に基づいて実行される前に、見知らぬジョブのパフォーマンスを予測することができる。 我々はこれらの予測モデルを詳細に分析し、主要な性能予測因子である特徴を特定する。 このようなモデルがアプリケーション非依存であり、トレーニングに含まれないアプリケーションのパフォーマンスを予測するのに使用できることを実証する。

In recent years, several HPC facilities have started continuous monitoring of their systems and jobs to collect performance-related data for understanding performance and operational efficiency. Such data can be used to optimize the performance of individual jobs and the overall system by creating data-driven models that can predict the performance of pending jobs. In this paper, we model the performance of representative control jobs using longitudinal system-wide monitoring data to explore the causes of performance variability. Using machine learning, we are able to predict the performance of unseen jobs before they are executed based on the current system state. We analyze these prediction models in great detail to identify the features that are dominant predictors of performance. We demonstrate that such models can be application-agnostic and can be used for predicting performance of applications that are not included in training.
翻訳日:2022-11-12 20:44:16 公開日:2020-07-07
# SVMのストリーミング複雑性

Streaming Complexity of SVMs ( http://arxiv.org/abs/2007.03633v1 )

ライセンス: Link先を確認
Alexandr Andoni, Collin Burns, Yi Li, Sepideh Mahabadi, David P. Woodruff(参考訳) ストリーミングモデルにおけるバイアス正規化svm問題を解決するための空間複雑性について検討する。 これは古典的な教師付き学習問題であり、この問題を解くための高速アルゴリズムの開発など、多くの注目を集めている。 SVMの目的をほぼ最適化するための最も広く使われているアルゴリズムの1つは、Stochastic Gradient Descent (SGD)であり、これは、$O(\frac{1}{\lambda\epsilon})$ランダムサンプルのみを必要とし、$O(\frac{d}{\lambda\epsilon})$スペースを使用するストリーミングアルゴリズムを直ちに得る。 関連する問題に関しては、より優れたストリーミングアルゴリズムは、我々がこの作業に集中しているsvmの目的とは違って、滑らかな関数でしか知られていない。 我々は、この目的の近似最適性を見つけるための空間複雑性と、任意のクエリ$(\theta, b)$上で関数値$F_\lambda$を評価するためにデータセットをスケッチする ``point Estimation''' 問題の両方について調査を開始する。 両方の問題に対して、$d=1,2$の場合、空間多項式が$\frac{1}{\lambda\epsilon}$より小さいストリーミングアルゴリズムを得ることができ、これはバイアス正規化SVMのような強い凸関数に対するSGDの複雑さであり、一般には$d=1$であっても厳密であることが知られている。 また、点推定と最適化の両方において多項式下限を証明できる。 特に、点推定には、$d=1$ に対して $\theta(1/\sqrt{\epsilon})$ と$d = \omega( \log(1/\epsilon))$ に対して$\widetilde{\omega}(d/{\epsilon}^2)$ という厳密な下限が得られる。 最後に、最適化のために$\Omega(1/\sqrt{\epsilon})$ lower bound for $d = \Omega( \log(1/\epsilon))$を証明する。

We study the space complexity of solving the bias-regularized SVM problem in the streaming model. This is a classic supervised learning problem that has drawn lots of attention, including for developing fast algorithms for solving the problem approximately. One of the most widely used algorithms for approximately optimizing the SVM objective is Stochastic Gradient Descent (SGD), which requires only $O(\frac{1}{\lambda\epsilon})$ random samples, and which immediately yields a streaming algorithm that uses $O(\frac{d}{\lambda\epsilon})$ space. For related problems, better streaming algorithms are only known for smooth functions, unlike the SVM objective that we focus on in this work. We initiate an investigation of the space complexity for both finding an approximate optimum of this objective, and for the related ``point estimation'' problem of sketching the data set to evaluate the function value $F_\lambda$ on any query $(\theta, b)$. We show that, for both problems, for dimensions $d=1,2$, one can obtain streaming algorithms with space polynomially smaller than $\frac{1}{\lambda\epsilon}$, which is the complexity of SGD for strongly convex functions like the bias-regularized SVM, and which is known to be tight in general, even for $d=1$. We also prove polynomial lower bounds for both point estimation and optimization. In particular, for point estimation we obtain a tight bound of $\Theta(1/\sqrt{\epsilon})$ for $d=1$ and a nearly tight lower bound of $\widetilde{\Omega}(d/{\epsilon}^2)$ for $d = \Omega( \log(1/\epsilon))$. Finally, for optimization, we prove a $\Omega(1/\sqrt{\epsilon})$ lower bound for $d = \Omega( \log(1/\epsilon))$, and show similar bounds when $d$ is constant.
翻訳日:2022-11-12 20:44:04 公開日:2020-07-07
# 凸センシングデータの固有次元推定のためのトポロジ的アプローチ

A Topological Approach to Inferring the Intrinsic Dimension of Convex Sensing Data ( http://arxiv.org/abs/2007.03208v1 )

ライセンス: Link先を確認
Min-Chun Wu, Vladimir Itskov(参考訳) 我々は、アフィン空間の未知の部分集合が未知の連続準凸関数によって測定される共通の測度パラダイムを考える。 測定データを考えると、この空間の次元を決定できるだろうか? 本稿では, 疑似凸関数による測定から, データの内在次元を自然な仮定の下で推定する手法を開発した。 次元推定問題は、センサ関数によって誘導される空間の測定点の順序付けの離散データにのみ依存する。 本稿では,準凸関数による測定に関連したドーカー錯体の濾過について述べる。 これらの錯体の位相的特徴は、内在次元を推測するために使われる。 我々は,自然汎用的仮定の下で,大容量データの極限における正しい内在次元の獲得を保証する収束定理を証明した。 また,本手法のユーザビリティをシミュレーションで示す。

We consider a common measurement paradigm, where an unknown subset of an affine space is measured by unknown continuous quasi-convex functions. Given the measurement data, can one determine the dimension of this space? In this paper, we develop a method for inferring the intrinsic dimension of the data from measurements by quasi-convex functions, under natural generic assumptions. The dimension inference problem depends only on discrete data of the ordering of the measured points of space, induced by the sensor functions. We introduce a construction of a filtration of Dowker complexes, associated to measurements by quasi-convex functions. Topological features of these complexes are then used to infer the intrinsic dimension. We prove convergence theorems that guarantee obtaining the correct intrinsic dimension in the limit of large data, under natural generic assumptions. We also illustrate the usability of this method in simulations.
翻訳日:2022-11-12 20:38:00 公開日:2020-07-07
# ロバストなパーティクルフィルタを用いた革新的かつ付加的な外れ値ロバストカルマンフィルタ

Innovative And Additive Outlier Robust Kalman Filtering With A Robust Particle Filter ( http://arxiv.org/abs/2007.03238v1 )

ライセンス: Link先を確認
Alexander T. M. Fisch, Idris A. Eckley, P. Fearnhead(参考訳) 本稿では, CE-BASSを提案する。CE-BASSは, 粒子混合カルマンフィルタであり, 革新性と付加性の両方に頑健であり, 隠蔽状態の分布における多モード性を完全に捉えることができる。 さらに、CE-BASSは過去の状態を再サンプリングすることで、トレンドの変化のような観測ですぐには見えない革新的な外れ値を扱うことができる。 このフィルタは, 粒子の最適分布に対する新しい高精度な近似を導出するので, 計算効率がよい。 提案手法は,既存の手法と比較し,マシン温度とサーバデータの両方に適用できることを示す。

In this paper, we propose CE-BASS, a particle mixture Kalman filter which is robust to both innovative and additive outliers, and able to fully capture multi-modality in the distribution of the hidden state. Furthermore, the particle sampling approach re-samples past states, which enables CE-BASS to handle innovative outliers which are not immediately visible in the observations, such as trend changes. The filter is computationally efficient as we derive new, accurate approximations to the optimal proposal distributions for the particles. The proposed algorithm is shown to compare well with existing approaches and is applied to both machine temperature and server data.
翻訳日:2022-11-12 20:37:08 公開日:2020-07-07
# Sapphire: 分散ストレージシステムのための自動構成推奨

Sapphire: Automatic Configuration Recommendation for Distributed Storage Systems ( http://arxiv.org/abs/2007.03220v1 )

ライセンス: Link先を確認
Wenhao Lyu, Youyou Lu, Jiwu Shu, Wei Zhao(参考訳) 現代の分散ストレージシステムには、モジュールの振る舞いを制御し、システムパフォーマンスに影響する多くの設定可能なパラメータが備わっている。 開発者が提供するデフォルト設定は、特定のユーザケースに最適化されることが多い。 チューニングパラメータは大きなパフォーマンス向上をもたらすが、構成可能なパラメータや複雑な内部依存性、非線形システムの振る舞いなど、非常に多くの経験と専門知識を必要とする。 これらの課題を克服するために,機械学習とブラックボックス最適化を活用し,最適構成を推奨するサファイア手法を提案する。 我々はSapphire on Cephを評価する。 その結果、sapphireはデフォルト設定に比べてcephの性能を2.2倍に向上させた。

Modern distributed storage systems come with aplethora of configurable parameters that controlmodule behavior and affect system performance. Default settings provided by developers are often suboptimal for specific user cases. Tuning parameters can provide significant performance gains but is a difficult task requiring profound experience and expertise, due to the immense number of configurable parameters, complex inner dependencies and non-linearsystem behaviors. To overcome these difficulties, we propose an automatic simulation-based approach, Sapphire, to recommend optimal configurations by leveraging machine learning and black-box optimization techniques. We evaluate Sapphire on Ceph. Results show that Sapphire significantly boosts Ceph performance to 2.2x compared to the default configuration.
翻訳日:2022-11-12 20:36:56 公開日:2020-07-07
# ランダムリシャッフルインクリメンタルSGDの収束性に及ぼすモデル不整合の影響の理解

Understanding the Impact of Model Incoherence on Convergence of Incremental SGD with Random Reshuffle ( http://arxiv.org/abs/2007.03509v1 )

ライセンス: Link先を確認
Shaocong Ma, Yi Zhou(参考訳) ランダムリシャッフルのSGDは機械学習アプリケーションで広く使われているが、モデル特性がアルゴリズムの収束にどう影響するかは限定的に理解されている。 本研究では, モデル特性の多様性を特徴付けるモデル不整合を導入し, 弱い凸下でのランダムリシャッフルによるSGDの収束への影響について検討する。 具体的には, サンプル損失の最小値と全損失の最小値との差を測定し, ランダムリシャッフルによるSGDの収束誤差に影響を与える。 特に,ランダム再シャッフルを伴うsgdによって生成される変数列は,完全最小コヒーレンスの下で全損失の一定の大域的最小値に収束することを示す。 他の曲率不整合は、サンプル損失の条件数の品質を測定し、SGDの収束率を決定する。 モデルアンコヒーレンスにより,SGDはランダム再シャッフルにおいてより高速な収束率と,ランダム再シャッフル下での収束誤差を小さくし,ランダム再シャッフルによるSGDの性能向上を正当化することを示した。

Although SGD with random reshuffle has been widely-used in machine learning applications, there is a limited understanding of how model characteristics affect the convergence of the algorithm. In this work, we introduce model incoherence to characterize the diversity of model characteristics and study its impact on convergence of SGD with random reshuffle under weak strong convexity. Specifically, minimizer incoherence measures the discrepancy between the global minimizers of a sample loss and those of the total loss and affects the convergence error of SGD with random reshuffle. In particular, we show that the variable sequence generated by SGD with random reshuffle converges to a certain global minimizer of the total loss under full minimizer coherence. The other curvature incoherence measures the quality of condition numbers of the sample losses and determines the convergence rate of SGD. With model incoherence, our results show that SGD has a faster convergence rate and smaller convergence error under random reshuffle than those under random sampling, and hence provide justifications to the superior practical performance of SGD with random reshuffle.
翻訳日:2022-11-12 20:36:01 公開日:2020-07-07
# カイパーベルト人口の機械学習分類

Machine Learning Classification of Kuiper Belt Populations ( http://arxiv.org/abs/2007.03720v1 )

ライセンス: Link先を確認
Rachel A. Smullen and Kathryn Volk(参考訳) 太陽系外惑星では、カイパーベルトは惑星の形成と移動と現在の巨大惑星構成からの重力摂動の組み合わせによって彫刻された動的サブ集団を含んでいる。 観測されたカイパーベルト天体(kbos)の異なる力学クラスへの細分化は、それらの軌道の数値積分における現在の軌道進化に基づいている。 本稿では、機械学習アルゴリズムが、この分類に必要な計算時間と人的労力を削減する有望なツールであることを実証する。 短時間の数値シミュレーションから得られた特徴に基づいて訓練された機械学習回帰木分類器であるgradient boosting classifierを用いて,kboを古典的,共鳴的,分離的,散乱的4つの異なる集団に分類した。 これらのオブジェクトの80%以上がクラスメンバーシップの$>3\sigma$確率を持ち、機械学習の手法がそれぞれの集団の基本的な力学特性に基づいて分類されていることを示している。 また,従来の手法よりも計算的貯蓄を用いて,観察誤差から引き出されたオブジェクトクローンの集合を調べることで,クラスメンバーシップの分布を迅速に導出できることを示す。 誤分類の主な理由は2つある: 物体の軌道における内在的曖昧性(例えば共鳴の縁にある物体)と、訓練セットにおける代表例の欠如である。 この研究は、今後10年間の調査で見つかるであろう何千もの新しいkboの迅速かつ正確な分類を探求するための有望な道筋を提供する。

In the outer solar system, the Kuiper Belt contains dynamical sub-populations sculpted by a combination of planet formation and migration and gravitational perturbations from the present-day giant planet configuration. The subdivision of observed Kuiper Belt objects (KBOs) into different dynamical classes is based on their current orbital evolution in numerical integrations of their orbits. Here we demonstrate that machine learning algorithms are a promising tool for reducing both the computational time and human effort required for this classification. Using a Gradient Boosting Classifier, a type of machine learning regression tree classifier trained on features derived from short numerical simulations, we sort observed KBOs into four broad, dynamically distinct populations - classical, resonant, detached, and scattering - with a >97 per cent accuracy for the testing set of 542 securely classified KBOs. Over 80 per cent of these objects have a $>3\sigma$ probability of class membership, indicating that the machine learning method is classifying based on the fundamental dynamical features of each population. We also demonstrate how, by using computational savings over traditional methods, we can quickly derive a distribution of class membership by examining an ensemble of object clones drawn from the observational errors. We find two major reasons for misclassification: inherent ambiguity in the orbit of the object - for instance, an object that is on the edge of resonance - and a lack of representative examples in the training set. This work provides a promising avenue to explore for fast and accurate classification of the thousands of new KBOs expected to be found by surveys in the coming decade.
翻訳日:2022-11-12 20:35:31 公開日:2020-07-07
# リアルタイムソーシャルベース交通検知の実態調査

A Survey of Real-Time Social-Based Traffic Detection ( http://arxiv.org/abs/2007.04100v1 )

ライセンス: Link先を確認
Hashim Abu-gellban(参考訳) オンライン交通ニュースサイトは、常にリアルタイムで交通イベントを発表するわけではない。 リアルタイム交通検知システムを開発するために,Twitterストリーム上でテキストマイニングと機械学習技術を用いてイベント検出を行う機能がある。 本稿では,5つの論文 [1, 2, 3, 4, 5] に着目し,交通事象をリアルタイムに検出する技術の現状について検討する。 最後に、紙[2]にテキストマイニング技術とSVM分類器を適用すると、最良の結果が得られる(95.75%の精度と95.8%のF1スコア)。

Online traffic news web sites do not always announce traffic events in areas in real-time. There is a capability to employ text mining and machine learning techniques on the twitter stream to perform event detection, in order to develop a real-time traffic detection system. In this present survey paper, we will deliberate the current state-of-art techniques in detecting traffic events in real-time focusing on five papers [1, 2, 3, 4, 5]. Lastly, applying text mining techniques and SVM classifiers in paper [2] gave the best results (i.e. 95.75% accuracy and 95.8% F1-score).
翻訳日:2022-11-12 20:34:28 公開日:2020-07-07
# 非構造動的鉄道環境における光ナビゲーション

Optical Navigation in Unstructured Dynamic Railroad Environments ( http://arxiv.org/abs/2007.03409v1 )

ライセンス: Link先を確認
Darius Burschka and Christian Robl and Sebastian Ohrendorf-Weiss(参考訳) 非構造動的鉄道環境における光ナビゲーションのアプローチを提案する。 本研究では,平面軌道床の単独観測から列車動作の推定に対処する方法を提案する。 列車の運転中にしばしば著しい閉塞が生じたため、この追跡が難しい反復的な区間での観測が制限された。 このアプローチは、高価な列車管理インフラをSmartRail 4.0の列車のローカルインテリジェンスに置き換えるためのステップである。 我々は,この困難な環境での翻訳と回転のロバストな推定のためのアプローチを導出し,実際のレールシナリオにおけるアプローチの実験的検証を提供する。

We present an approach for optical navigation in unstructured, dynamic railroad environments. We propose a way how to cope with the estimation of the train motion from sole observations of the planar track bed. The occasional significant occlusions during the operation of the train limit the available observation to this difficult to track, repetitive area. This approach is a step towards replacement of the expensive train management infrastructure with local intelligence on the train for SmartRail 4.0. We derive our approach for robust estimation of translation and rotation in this difficult environments and provide experimental validation of the approach on real rail scenarios.
翻訳日:2022-11-12 20:29:14 公開日:2020-07-07
# 全スライド画像のインスタンス分割:End-to-End または Detect-then-Segment

Instance Segmentation for Whole Slide Imaging: End-to-End or Detect-Then-Segment ( http://arxiv.org/abs/2007.03593v1 )

ライセンス: Link先を確認
Aadarsh Jha, Haichun Yang, Ruining Deng, Meghan E. Kapp, Agnes B. Fogo, Yuankai Huo(参考訳) 腎疾患の臨床的研究において、腎全スライド画像(WSI)における糸球体の自動インスタンス分割が不可欠である。 コンピュータビジョンにおいて、エンドツーエンドのインスタンスセグメンテーション手法(例えば、Mask-RCNN)は、相補的な検出とセグメンテーションタスクを同時に実行することによって、検出-テーマ-セグメンテーションアプローチに対する利点を示した。 その結果、エンド・ツー・エンドのマスク-rcnnアプローチは、近年の糸球体セグメンテーション研究におけるデファクト標準法であり、ダウンサンプリングとパッチベースの技術を用いてwsiの高解像度画像を適切に評価している(例えば40xの10000x10,000ピクセル)。 しかし、高分解能WSIでは、単一のグロメラス自体が1000×1000ピクセル以上で、Mask-RCNNパイプラインを介して対応する特徴マップがダウンサンプリングされると、大きな情報損失をもたらす。 本稿では,Mask-RCNN と本提案した検出-then-segment フレームワークを比較し,エンドツーエンドのインスタンスセグメンテーションフレームワークが高分解能 WSI オブジェクトに対して最適かどうかを評価する。 このような比較の他に、検出列分割パイプラインの性能も包括的に評価する。 1)最も普及しているセグメンテーションバックボーン(u-netとdeeplab_v3)の2つ 2)6種類の画像解像度(512×512〜28×28) 3)2つの異なる色空間(RGBとLAB)。 従来検出されていた512x512分解能の球状体上でのDeepLab_v3セグメンテーション・フレームワークを用いて, 終端のMask-RCNNパイプラインの0.902DSCと比較して, 0.953ダイス類似係数(DSC)を達成した。 さらに,rgbとラボカラースペースは,検出セグメンテーションフレームワークの文脈で比較した場合,優れた性能を得られないことがわかった。 Detect-then-segment パイプラインは End-to-end 法と比較してセグメンテーション性能が向上した。

Automatic instance segmentation of glomeruli within kidney Whole Slide Imaging (WSI) is essential for clinical research in renal pathology. In computer vision, the end-to-end instance segmentation methods (e.g., Mask-RCNN) have shown their advantages relative to detect-then-segment approaches by performing complementary detection and segmentation tasks simultaneously. As a result, the end-to-end Mask-RCNN approach has been the de facto standard method in recent glomerular segmentation studies, where downsampling and patch-based techniques are used to properly evaluate the high resolution images from WSI (e.g., >10,000x10,000 pixels on 40x). However, in high resolution WSI, a single glomerulus itself can be more than 1,000x1,000 pixels in original resolution which yields significant information loss when the corresponding features maps are downsampled via the Mask-RCNN pipeline. In this paper, we assess if the end-to-end instance segmentation framework is optimal for high-resolution WSI objects by comparing Mask-RCNN with our proposed detect-then-segment framework. Beyond such a comparison, we also comprehensively evaluate the performance of our detect-then-segment pipeline through: 1) two of the most prevalent segmentation backbones (U-Net and DeepLab_v3); 2) six different image resolutions (from 512x512 to 28x28); and 3) two different color spaces (RGB and LAB). Our detect-then-segment pipeline, with the DeepLab_v3 segmentation framework operating on previously detected glomeruli of 512x512 resolution, achieved a 0.953 dice similarity coefficient (DSC), compared with a 0.902 DSC from the end-to-end Mask-RCNN pipeline. Further, we found that neither RGB nor LAB color spaces yield better performance when compared against each other in the context of a detect-then-segment framework. Detect-then-segment pipeline achieved better segmentation performance compared with End-to-end method.
翻訳日:2022-11-12 20:28:21 公開日:2020-07-07
# CT画像におけるCOVID-19セグメンテーションのための地域別アクティブラーニング法

A Weakly Supervised Region-Based Active Learning Method for COVID-19 Segmentation in CT Images ( http://arxiv.org/abs/2007.07012v1 )

ライセンス: Link先を確認
Issam Laradji, Pau Rodriguez, Frederic Branchaud-Charron, Keegan Lensink, Parmida Atighehchian, William Parker, David Vazquez, and Derek Nowrouzezahrai(参考訳) 新型コロナウイルス(COVID-19)パンデミックとの戦いにおける重要な課題の1つは、病気の重症度をタイムリーに検出し、定量化することである。 肺のCTは感染状況を評価するのに有効である。 残念なことに、CTスキャンのラベル付けには時間と労力がかかり、スキャンに最大150分かかる。 本稿では,ctスキャン画像のラベリングを高速化するスケーラブルで高速,高精度なアクティブ学習システムを提案する。 従来、アクティブな学習手法では、ラベラーは画像全体を完全な監督の下で注釈付けする必要があるが、多くのアノテーションが冗長になりうるため、無駄な労力につながる可能性がある。 そこで本システムは,高情報コンテンツと低アノテーションコストを約束する未ラベル領域のアノテータを提示する。 さらに、アノテータがポイントレベルの監視を使用してリージョンをラベル付けできるので、ピクセル単位のアノテーションよりもはるかに安価に取得できる。 オープンソースのCOVID-19データセットを用いた実験では、エントロピー法を用いてラベルのない領域をランク付けすると、これらの領域のランダムなラベル付けよりもはるかに良い結果が得られます。 また,画像の小さな領域のラベル付けは,画像全体のラベル付けよりも効率的であることを示す。 最後に,学習セット全体のラベル付けに要するラベリング労力のわずか7\%で,完全に注釈付きトレーニングセット上でモデルをトレーニングして得られるパフォーマンスの約90\%が得られることを示す。 コードは \url{https://github.com/issamlaradji/covid19_active_learning} で入手できる。

One of the key challenges in the battle against the Coronavirus (COVID-19) pandemic is to detect and quantify the severity of the disease in a timely manner. Computed tomographies (CT) of the lungs are effective for assessing the state of the infection. Unfortunately, labeling CT scans can take a lot of time and effort, with up to 150 minutes per scan. We address this challenge introducing a scalable, fast, and accurate active learning system that accelerates the labeling of CT scan images. Conventionally, active learning methods require the labelers to annotate whole images with full supervision, but that can lead to wasted efforts as many of the annotations could be redundant. Thus, our system presents the annotator with unlabeled regions that promise high information content and low annotation cost. Further, the system allows annotators to label regions using point-level supervision, which is much cheaper to acquire than per-pixel annotations. Our experiments on open-source COVID-19 datasets show that using an entropy-based method to rank unlabeled regions yields to significantly better results than random labeling of these regions. Also, we show that labeling small regions of images is more efficient than labeling whole images. Finally, we show that with only 7\% of the labeling effort required to label the whole training set gives us around 90\% of the performance obtained by training the model on the fully annotated training set. Code is available at: \url{https://github.com/IssamLaradji/covid19_active_learning}.
翻訳日:2022-11-12 20:26:12 公開日:2020-07-07
# 競合に基づく探索によるマルチエージェントパス探索のためのヘッドオンコンフリクトの解決

Resolving Head-On Conflicts for Multi-Agent Path Finding with Conflict-Based Search ( http://arxiv.org/abs/2007.03575v1 )

ライセンス: Link先を確認
Lun Yang(参考訳) 競合ベースの検索(CBS)は、マルチエージェントパス探索問題を解決するための一般的なフレームワークである。 一部の紛争は、子ノードを分割する際に、子ノードの一方または両方で予見可能な衝突を引き起こす。 本報告では,新たな手法,すなわち,これらの競合を発見できるヘッドオン技術を導入し,競合の可能性のある競合を1分割で解決することで,より効率的に処理できることを示す。 提案手法はCBSベースの全解法に適用できる。 実験の結果,ヘッドオン技術は最先端のMAPFソルバCBSHを改善した。

Conflict-Based Search (CBS) is a popular framework for solving the Multi-Agent Path Finding problem. Some of the conflicts incur a foreseeable conflict in one or both of the children nodes when splitting on them. This paper introduces a new technique, namely the head-on technique that finds out such conflicts, so they can be processed more efficiently by resolving the conflict with the potential conflict all together in one split. The proposed technique applies to all CBS-based solvers. Experimental results show that the head-on technique improves the state-of-the-art MAPF solver CBSH.
翻訳日:2022-11-12 20:19:31 公開日:2020-07-07
# AIベースの産業研究におけるセマンティックWebサービスの利用 4.0

Using Semantic Web Services for AI-Based Research in Industry 4.0 ( http://arxiv.org/abs/2007.03580v1 )

ライセンス: Link先を確認
Lukas Malburg and Patrick Klein and Ralph Bergmann(参考訳) 産業4.0への移行は、構成が容易で、大量カスタマイズやクラウド製造をサポートするために製造中に高い柔軟性を提供するスマート製造システムを必要とする。 これを実現するために、CPS(Cyber-Physical Systems)とAI(Artificial Intelligence)メソッドを組み合わせることで、店舗のフロアに進出する。 産業4.0の文脈でAIメソッドを使用するためには、セマンティックWebサービスは、基礎となる製造能力を合理的に抽象化するために必須である。 本稿では,産業4.0におけるAI研究のためのセマンティックWebサービスについて述べる。 そこで我々はWeb Ontology Language for Web Services (OWL-S) と Web Service Modeling Ontology (WSMO) に基づく物理シミュレーションファクトリのための300以上のセマンティックWebサービスを開発し、それらをインテリジェントな製造制御のための既存のドメインオントロジーにリンクした。 CPS環境の要件に適合し、知識ベース内の複雑な推論とは対照的に、他のセマンティックWebサービスを呼び出すことで、事前条件と事後条件をほぼリアルタイムで検証する。 最後に、ワークフロー管理システムを用いてセマンティックWebサービスからなるサイバー物理ワークフローを実行することにより、実装を評価する。

The transition to Industry 4.0 requires smart manufacturing systems that are easily configurable and provide a high level of flexibility during manufacturing in order to achieve mass customization or to support cloud manufacturing. To realize this, Cyber-Physical Systems (CPSs) combined with Artificial Intelligence (AI) methods find their way into manufacturing shop floors. For using AI methods in the context of Industry 4.0, semantic web services are indispensable to provide a reasonable abstraction of the underlying manufacturing capabilities. In this paper, we present semantic web services for AI-based research in Industry 4.0. Therefore, we developed more than 300 semantic web services for a physical simulation factory based on Web Ontology Language for Web Services (OWL-S) and Web Service Modeling Ontology (WSMO) and linked them to an already existing domain ontology for intelligent manufacturing control. Suitable for the requirements of CPS environments, our pre- and postconditions are verified in near real-time by invoking other semantic web services in contrast to complex reasoning within the knowledge base. Finally, we evaluate our implementation by executing a cyber-physical workflow composed of semantic web services using a workflow management system.
翻訳日:2022-11-12 20:19:23 公開日:2020-07-07
# KubeEdge.AI:エッジデバイスのためのAIプラットフォーム

KubeEdge.AI: AI Platform for Edge Devices ( http://arxiv.org/abs/2007.09227v1 )

ライセンス: Link先を確認
Sean Wang, Yuxiao Hu, Jason Wu(参考訳) 組込みシステムにおけるスマートさの需要は、ここ数年で劇的に増加している。 今日の組み込みシステムは、クラウドコンピューティングと人工知能によってもたらされる根本的な課題に対処する必要がある。 KubeEdge [1]は、Kubernetes [2]上に構築されたエッジコンピューティングフレームワークである。 クラウドから、地理的に配置されたエッジコンピューティングリソースの計算リソース管理、デプロイメント、ランタイム、オペレーション機能を提供する。 ここでは、KubeEdge上にエッジAIフレームワークであるKubeEdge.AIを提案する。 データ処理と処理エンジン、簡潔なAIランタイム、決定エンジン、分散データクエリインターフェースなど、主要なモジュールとインターフェースのセットを提供する。 KubeEdge.AIは、特定のエッジ/組み込みAIシステムの開発の負担を軽減するとともに、エッジクラウドのコーディネーションとシナジーを促進する。

The demand for smartness in embedded systems has been mounting up drastically in the past few years. Embedded system today must address the fundamental challenges introduced by cloud computing and artificial intelligence. KubeEdge [1] is an edge computing framework build on top of Kubernetes [2]. It provides compute resource management, deployment, runtime and operation capabilities on geo-located edge computing resources, from the cloud, which is a natural fit for embedded systems. Here we propose KubeEdge.AI, an edge AI framework on top of KubeEdge. It provides a set of key modules and interfaces: a data handling and processing engine, a concise AI runtime, a decision engine, and a distributed data query interface. KubeEdge.AI will help reduce the burdens for developing specific edge/embedded AI systems and promote edge-cloud coordination and synergy.
翻訳日:2022-11-12 20:19:00 公開日:2020-07-07
# 文化収束:Twitterにおける誤情報ネットワークの行動に関する考察

Cultural Convergence: Insights into the behavior of misinformation networks on Twitter ( http://arxiv.org/abs/2007.03443v1 )

ライセンス: Link先を確認
Liz McQuillan, Erin McAweeney, Alicia Bargar, Alex Ruch(参考訳) ネットワークにおけるアイデアとコミュニティの誕生と進化は、どのようにして研究されるのか? 新型コロナウイルスのパンデミックを取り巻くTwitterデータを解析するために、ネットワークマッピング、トピックモデリング、ブリッジング中央性、分散からなるマルチモーダルパイプラインを使用します。 我々は、ネットワークマッピングを用いて、新型コロナウイルスを取り巻くコンテンツを作成したアカウントを検出し、その後、ディリクレ・アロケーション(Dirichlet Allocation)でトピックを抽出し、中央をブリッジしてトピックや非トピックのブリッジを識別し、各トピックやブリッジの分布を時間とともに調べ、トピックの分布のジェンセン=シャノン分散を適用し、トピックの物語に収束しているコミュニティを示す。

How can the birth and evolution of ideas and communities in a network be studied over time? We use a multimodal pipeline, consisting of network mapping, topic modeling, bridging centrality, and divergence to analyze Twitter data surrounding the COVID-19 pandemic. We use network mapping to detect accounts creating content surrounding COVID-19, then Latent Dirichlet Allocation to extract topics, and bridging centrality to identify topical and non-topical bridges, before examining the distribution of each topic and bridge over time and applying Jensen-Shannon divergence of topic distributions to show communities that are converging in their topical narratives.
翻訳日:2022-11-12 20:18:49 公開日:2020-07-07
# Expressive Interviewing: 新型コロナウイルスとの会話システム

Expressive Interviewing: A Conversational System for Coping with COVID-19 ( http://arxiv.org/abs/2007.03819v1 )

ライセンス: Link先を確認
Charles Welch, Allison Lahnala, Ver\'onica P\'erez-Rosas, Siqi Shen, Sarah Seraj, Larry An, Kenneth Resnicow, James Pennebaker, Rada Mihalcea(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、個人や公衆衛生、金融安全、経済の安定に懸念を抱いている。 多くの前例のない課題に加えて、社会的孤立と精神健康に対する懸念が高まっている。 モチベーション的なインタビューや表現力のある文章からアイデアを引き出す,対話型対話システムである \textit{expressive interviewing} を紹介する。 Expressive Interviewingは、新型コロナウイルスが自分の生活に与える影響について質問することで、ユーザーが自分の考えや感情を表現できるようにすることを目指している。 本稿では,システムの設計と実装に関連する側面と,システムとのユーザインタラクションの定量的・質的分析について述べる。 また,精神保健のための汎用対話システムを用いた比較評価を行い,ユーザが新型コロナウイルスに対処する上でのシステムの可能性を示した。

The ongoing COVID-19 pandemic has raised concerns for many regarding personal and public health implications, financial security and economic stability. Alongside many other unprecedented challenges, there are increasing concerns over social isolation and mental health. We introduce \textit{Expressive Interviewing}--an interview-style conversational system that draws on ideas from motivational interviewing and expressive writing. Expressive Interviewing seeks to encourage users to express their thoughts and feelings through writing by asking them questions about how COVID-19 has impacted their lives. We present relevant aspects of the system's design and implementation as well as quantitative and qualitative analyses of user interactions with the system. In addition, we conduct a comparative evaluation with a general purpose dialogue system for mental health that shows our system potential in helping users to cope with COVID-19 issues.
翻訳日:2022-11-12 20:18:35 公開日:2020-07-07
# 乳房MRIにおける3次元マルチスケール形態変化による病変の自動検出・分節・特徴評価

Automatic lesion detection, segmentation and characterization via 3D multiscale morphological sifting in breast MRI ( http://arxiv.org/abs/2007.03199v1 )

ライセンス: Link先を確認
Hang Min, Darryl McClymont, Shekhar S. Chandra, Stuart Crozier and Andrew P. Bradley(参考訳) 4次元乳房MRI(MRI)におけるコンピュータ支援型診断/診断(CAD)に関する研究は、病変の検出、分節化、特徴付けを個別のタスクとして扱い、通常、ユーザーは入力として2次元MRIスライスまたは関心領域を手動で選択する必要がある。 本研究では,4次元マルチモーダル乳房MRIデータを処理し,病変検出,セグメンテーション,キャラクタリゼーションをユーザの介入なしに統合する乳房MRI CADシステムを提案する。 提案するCADシステムは,領域候補生成,特徴抽出,領域候補分類の3段階からなる。 乳腺病変は,新しい3次元マルチスケールモルフォロジー・シフティング(MMS)を用いて,まず領域候補として抽出される。 線状構造要素を用いて病変様パターンを抽出した3dmmsは,乳房画像から病変を高精度かつ効率的に区切ることができる。 その後、T1-、T2-weighted、DCE配列を含む利用可能な4D乳房MRIのすべての配列から解析的特徴を抽出し、領域候補の信号強度、テクスチャ、形態学的および拡張運動特性を表現する。 領域候補はランダムアンダーサンプリングブースト(RUSboost)により病変または正常組織と最終分類され、ランダム森林によって悪性または良性病変として分類される。 悪性腫瘍95例,良性病変46例の計117例を胸部MRIで評価し, 病変検出には1例あたり3.19偽陽性 (FPP) で0.90の正率 (TPR) , ユーザによる介入なしに悪性病変を同定するための2.95のTPR (TPR) が得られた。 平均dice類似度指数 (dsi) は、病変の分画で 0.72 である。 同じ乳房MRIデータセットで評価したシステムと比較して,本システムは乳房病変の検出と評価において良好な性能を発揮する。

Previous studies on computer aided detection/diagnosis (CAD) in 4D breast magnetic resonance imaging (MRI) regard lesion detection, segmentation and characterization as separate tasks, and typically require users to manually select 2D MRI slices or regions of interest as the input. In this work, we present a breast MRI CAD system that can handle 4D multimodal breast MRI data, and integrate lesion detection, segmentation and characterization with no user intervention. The proposed CAD system consists of three major stages: region candidate generation, feature extraction and region candidate classification. Breast lesions are firstly extracted as region candidates using the novel 3D multiscale morphological sifting (MMS). The 3D MMS, which uses linear structuring elements to extract lesion-like patterns, can segment lesions from breast images accurately and efficiently. Analytical features are then extracted from all available 4D multimodal breast MRI sequences, including T1-, T2-weighted and DCE sequences, to represent the signal intensity, texture, morphological and enhancement kinetic characteristics of the region candidates. The region candidates are lastly classified as lesion or normal tissue by the random under-sampling boost (RUSboost), and as malignant or benign lesion by the random forest. Evaluated on a breast MRI dataset which contains a total of 117 cases with 95 malignant and 46 benign lesions, the proposed system achieves a true positive rate (TPR) of 0.90 at 3.19 false positives per patient (FPP) for lesion detection and a TPR of 0.91 at a FPP of 2.95 for identifying malignant lesions without any user intervention. The average dice similarity index (DSI) is 0.72 for lesion segmentation. Compared with previously proposed systems evaluated on the same breast MRI dataset, the proposed CAD system achieves a favourable performance in breast lesion detection and characterization.
翻訳日:2022-11-12 20:18:21 公開日:2020-07-07
# Divide-and-Rule:大腸癌の生存分析のための自己監督型学習

Divide-and-Rule: Self-Supervised Learning for Survival Analysis in Colorectal Cancer ( http://arxiv.org/abs/2007.03292v1 )

ライセンス: Link先を確認
Christian Abbet, and Inti Zlobec, and Behzad Bozorgtabar, and Jean-Philippe Thiran(参考訳) 大腸癌発症率(crc)の長期的増加に伴い,リスク階層化の改善が急務である。 従来の病理所見は,病理組織学的特徴に限られることが多い。 しかし、攻撃的腫瘍行動のパターンを記述するために用いられる腫瘍の微小環境のほとんどは無視されている。 本研究は,大腸癌の予後診断に有用である癌組織領域の病理組織学的パターンを学習することを目的としている。 そこで本研究では,組織領域の表現とクラスタリングのメトリクスを共同で学習し,その基盤となるパターンを学習する自己教師型学習手法を提案する。 これらの病理組織学的パターンは、複雑な組織間の相互作用を表現し、臨床結果を直接予測するために用いられる。 さらに, 提案手法は, 患者結果予測の過度な適合を避けるために, 線形予測器の恩恵を受けることができることを示す。 そこで本研究では, 374人の患者を振り返り, 生存時間と治療情報を含む, 良好な臨床病理学的データセットを提案する。 本手法により得られた組織学的クラスターを,訓練生存モデルにより評価した。 実験の結果,統計的に有意な階層化を示し,そのアプローチは最先端の深層クラスタリング法を上回った。

With the long-term rapid increase in incidences of colorectal cancer (CRC), there is an urgent clinical need to improve risk stratification. The conventional pathology report is usually limited to only a few histopathological features. However, most of the tumor microenvironments used to describe patterns of aggressive tumor behavior are ignored. In this work, we aim to learn histopathological patterns within cancerous tissue regions that can be used to improve prognostic stratification for colorectal cancer. To do so, we propose a self-supervised learning method that jointly learns a representation of tissue regions as well as a metric of the clustering to obtain their underlying patterns. These histopathological patterns are then used to represent the interaction between complex tissues and predict clinical outcomes directly. We furthermore show that the proposed approach can benefit from linear predictors to avoid overfitting in patient outcomes predictions. To this end, we introduce a new well-characterized clinicopathological dataset, including a retrospective collective of 374 patients, with their survival time and treatment information. Histomorphological clusters obtained by our method are evaluated by training survival models. The experimental results demonstrate statistically significant patient stratification, and our approach outperformed the state-of-the-art deep clustering methods.
翻訳日:2022-11-12 20:17:30 公開日:2020-07-07
# 画像合成と注意に基づくディープニューラルネットワークによるct灌流画像からの脳梗塞病変の自動分割

Automatic Ischemic Stroke Lesion Segmentation from Computed Tomography Perfusion Images by Image Synthesis and Attention-Based Deep Neural Networks ( http://arxiv.org/abs/2007.03294v1 )

ライセンス: Link先を確認
Guotai Wang, Tao Song, Qiang Dong, Mei Cui, Ning Huang, Shaoting Zhang(参考訳) Computed Tomography Perfusion (CTP) 画像からの虚血性脳梗塞の分画は急性期脳梗塞の正確な診断に重要である。 しかし,画像の低コントラストと灌流パラメータマップの分解能に加えて,病変の複雑な出現も問題視されている。 この問題に対処するために,拡散パラメータマップから合成擬似拡散強調画像(DWI)をベースとした新しいフレームワークを提案し,より正確なセグメンテーションを実現する。 我々のフレームワークは、畳み込みニューラルネットワーク(CNN)に基づく3つのコンポーネントで構成され、エンドツーエンドで訓練されている。 まず、特徴抽出器を用いて、生時空間ct血管造影(cta)画像の低レベルおよび高レベルなコンパクト表現を得る。 第2に、擬似DWI生成器は、CTP灌流パラメータマップと抽出された特徴の連結を入力として、合成された擬似DWIを得る。 より優れた合成品質を実現するために,病変領域に注意を払い,高レベルの文脈整合性を促進するハイブリッド損失関数を提案する。 最後に, 合成擬似DWIから病変領域を分割し, セグメンテーションネットワークはスイッチ可能な正規化とチャネルキャリブレーションに基づいて, より良い性能を実現する。 実験の結果,当社のフレームワークは,isles 2018 challengeでトップパフォーマンスを達成した。 1) 灌流パラメータマップから直接病変を分別する合成擬似DWI法を用いた方法。 2)追加の時空間CTA画像を利用した特徴抽出器は、より優れた合成擬似DWI品質と高いセグメンテーション精度を実現した。 3)提案した損失関数とネットワーク構造は擬似DWI合成と病変分割性能を改善した。

Ischemic stroke lesion segmentation from Computed Tomography Perfusion (CTP) images is important for accurate diagnosis of stroke in acute care units. However, it is challenged by low image contrast and resolution of the perfusion parameter maps, in addition to the complex appearance of the lesion. To deal with this problem, we propose a novel framework based on synthesized pseudo Diffusion-Weighted Imaging (DWI) from perfusion parameter maps to obtain better image quality for more accurate segmentation. Our framework consists of three components based on Convolutional Neural Networks (CNNs) and is trained end-to-end. First, a feature extractor is used to obtain both a low-level and high-level compact representation of the raw spatiotemporal Computed Tomography Angiography (CTA) images. Second, a pseudo DWI generator takes as input the concatenation of CTP perfusion parameter maps and our extracted features to obtain the synthesized pseudo DWI. To achieve better synthesis quality, we propose a hybrid loss function that pays more attention to lesion regions and encourages high-level contextual consistency. Finally, we segment the lesion region from the synthesized pseudo DWI, where the segmentation network is based on switchable normalization and channel calibration for better performance. Experimental results showed that our framework achieved the top performance on ISLES 2018 challenge and: 1) our method using synthesized pseudo DWI outperformed methods segmenting the lesion from perfusion parameter maps directly; 2) the feature extractor exploiting additional spatiotemporal CTA images led to better synthesized pseudo DWI quality and higher segmentation accuracy; and 3) the proposed loss functions and network structure improved the pseudo DWI synthesis and lesion segmentation performance.
翻訳日:2022-11-12 20:17:09 公開日:2020-07-07
# 医用画像分割のためのメタ崩壊画素マイニング

Meta Corrupted Pixels Mining for Medical Image Segmentation ( http://arxiv.org/abs/2007.03538v1 )

ライセンス: Link先を確認
Jixin Wang, Sanping Zhou, Chaowei Fang, Le Wang, Jinjun Wang(参考訳) 深層ニューラルネットワークは、医療画像解析タスクの山で十分な性能を達成している。 しかし、ディープニューラルネットワークのトレーニングには、高品質なアノテーションを備えた大量のサンプルが必要である。 医用画像のセグメンテーションでは、正確なピクセルレベルのアノテーションを取得するのは非常に困難で費用がかかる。 そこで本研究では, 単純なメタマスクネットワークに基づくMeta Corrupted Pixels Mining (MCPM) 手法を提案する。 本手法は,分割ネットワーク学習における各画素の重要性を評価するために,重み付けマップを自動的に推定することを目的としている。 予測されたセグメンテーション結果の損失値マップを入力とみなすメタマスクネットワークは、破損した層を識別し、小さな重みを割り当てることができる。 セグメンテーションネットワークとメタマスクネットワークを同時に訓練する別のアルゴリズムが採用されている。 LIDC-IDRIとLiTSデータセットの大規模な実験結果から,この手法は劣化したアノテーションに対処するために考案された最先端の手法よりも優れていることが示された。

Deep neural networks have achieved satisfactory performance in piles of medical image analysis tasks. However the training of deep neural network requires a large amount of samples with high-quality annotations. In medical image segmentation, it is very laborious and expensive to acquire precise pixel-level annotations. Aiming at training deep segmentation models on datasets with probably corrupted annotations, we propose a novel Meta Corrupted Pixels Mining (MCPM) method based on a simple meta mask network. Our method is targeted at automatically estimate a weighting map to evaluate the importance of every pixel in the learning of segmentation network. The meta mask network which regards the loss value map of the predicted segmentation results as input, is capable of identifying out corrupted layers and allocating small weights to them. An alternative algorithm is adopted to train the segmentation network and the meta mask network, simultaneously. Extensive experimental results on LIDC-IDRI and LiTS datasets show that our method outperforms state-of-the-art approaches which are devised for coping with corrupted annotations.
翻訳日:2022-11-12 20:10:24 公開日:2020-07-07
# シングルショットビデオオブジェクト検出器

Single Shot Video Object Detector ( http://arxiv.org/abs/2007.03560v1 )

ライセンス: Link先を確認
Jiajun Deng and Yingwei Pan and Ting Yao and Wengang Zhou and Houqiang Li and Tao Mei(参考訳) 単発検出器は2段検出器よりも高速でシンプルであり、ビデオの物体検出にも適用しやすい傾向にある。 それでも、画像からビデオへの対象検出器の拡張は、特にビデオの外観劣化である「emph{e.g.}」、動きのぼやけや閉塞が存在する場合、簡単ではない。 有効な疑問は、検出を促進するためにフレーム間で時間的コヒーレンスを探索する方法である。 本稿では,隣接するフレームの集約によるフレーム単位の特徴の強化により,この問題に対処することを提案する。 具体的には、single shot video object detector (ssvd) -- 機能集約を、ビデオ中のオブジェクト検出のためのワンステージ検出器に新規に統合する、新しいアーキテクチャーです。 技術的には、SSVDはFPN(Feature Pyramid Network)をバックボーンネットワークとして、マルチスケールの機能を生成する。 既存の特徴集約法とは異なり、ssvdは動きを推定し、運動経路に沿って周辺特徴を集約し、他方では隣接するフレームから2つのストリーム構造で特徴を直接サンプリングすることで特徴を幻視する。 ImageNet VIDデータセット上で大規模な実験を行い、最先端のアプローチと比較して競争結果が報告される。 さらに驚くべきことに、SSVDは448 \times 448$の入力でImageNet VID上で79.2%のmAPを達成し、Nvidia Titan X Pascal GPUで85msで1フレームを処理している。 コードは \url{https://github.com/ddjiajun/ssvd} で入手できる。

Single shot detectors that are potentially faster and simpler than two-stage detectors tend to be more applicable to object detection in videos. Nevertheless, the extension of such object detectors from image to video is not trivial especially when appearance deterioration exists in videos, \emph{e.g.}, motion blur or occlusion. A valid question is how to explore temporal coherence across frames for boosting detection. In this paper, we propose to address the problem by enhancing per-frame features through aggregation of neighboring frames. Specifically, we present Single Shot Video Object Detector (SSVD) -- a new architecture that novelly integrates feature aggregation into a one-stage detector for object detection in videos. Technically, SSVD takes Feature Pyramid Network (FPN) as backbone network to produce multi-scale features. Unlike the existing feature aggregation methods, SSVD, on one hand, estimates the motion and aggregates the nearby features along the motion path, and on the other, hallucinates features by directly sampling features from the adjacent frames in a two-stream structure. Extensive experiments are conducted on ImageNet VID dataset, and competitive results are reported when comparing to state-of-the-art approaches. More remarkably, for $448 \times 448$ input, SSVD achieves 79.2% mAP on ImageNet VID, by processing one frame in 85 ms on an Nvidia Titan X Pascal GPU. The code is available at \url{https://github.com/ddjiajun/SSVD}.
翻訳日:2022-11-12 20:10:05 公開日:2020-07-07
# 数百万のフリーハンドスケッチに対する意味表現の学習について

On Learning Semantic Representations for Million-Scale Free-Hand Sketches ( http://arxiv.org/abs/2007.04101v1 )

ライセンス: Link先を確認
Peng Xu, Yongye Huang, Tongtong Yuan, Tao Xiang, Timothy M. Hospedales, Yi-Zhe Song, Liang Wang(参考訳) 本稿では,百万規模のフリーハンドスケッチにおける意味表現の学習について検討する。 これは、例えば、多様、疎外、抽象的、騒々しいスケッチのドメイン・ユニクティックな特性のため、非常に困難である。 本稿では,スケッチストロークの静的パターンと時間的パターンの両方を同時に符号化する2分岐CNNRNNネットワークアーキテクチャを提案する。 このアーキテクチャに基づいて,スケッチ指向のセマンティック表現を,ハッシング検索とゼロショット認識という,現実的かつ困難な2つの設定で学習する。 具体的には、2重ブランチアーキテクチャを普遍的な表現フレームワークとして使用し、2つのスケッチ固有のディープモデルを設計する。 i) スケッチの抽象的特徴と乱雑な特徴の両方に対応するために, 新たなハッシュ損失を特別に設計した, スケッチ検索のための深層ハッシュモデルを提案する。 (II)大規模エッジマップデータセットを収集して,ゼロショットドメインアライメントをスケッチするための意味知識として,エッジマップから意味ベクトルの集合を抽出する,ゼロショット認識の深層埋め込みモデルを提案する。 どちらの深層モデルも、百万規模のスケッチに関する包括的な実験によって評価され、最先端の競合相手よりも優れています。

In this paper, we study learning semantic representations for million-scale free-hand sketches. This is highly challenging due to the domain-unique traits of sketches, e.g., diverse, sparse, abstract, noisy. We propose a dual-branch CNNRNN network architecture to represent sketches, which simultaneously encodes both the static and temporal patterns of sketch strokes. Based on this architecture, we further explore learning the sketch-oriented semantic representations in two challenging yet practical settings, i.e., hashing retrieval and zero-shot recognition on million-scale sketches. Specifically, we use our dual-branch architecture as a universal representation framework to design two sketch-specific deep models: (i) We propose a deep hashing model for sketch retrieval, where a novel hashing loss is specifically designed to accommodate both the abstract and messy traits of sketches. (ii) We propose a deep embedding model for sketch zero-shot recognition, via collecting a large-scale edge-map dataset and proposing to extract a set of semantic vectors from edge-maps as the semantic knowledge for sketch zero-shot domain alignment. Both deep models are evaluated by comprehensive experiments on million-scale sketches and outperform the state-of-the-art competitors.
翻訳日:2022-11-12 20:08:20 公開日:2020-07-07
# 攻撃言語検出のための言語間インダクティブトランスファー

Cross-lingual Inductive Transfer to Detect Offensive Language ( http://arxiv.org/abs/2007.03771v1 )

ライセンス: Link先を確認
Kartikey Pant and Tanvi Dadu(参考訳) ソーシャルメディアの利用の増加と利用状況により、攻撃的言語の使用は複数の言語やドメインで観測されている。 この現象は、ソーシャルメディアで使われる攻撃的言語を言語横断的に検出する必要性が高まっている。 offenseval 2020で、主催者は攻撃言語を検出するために、5つの異なる言語によるツイートを含む \textit{multilingual offensive language identification dataset} (molid)をリリースした。 本研究では, ツイート中の攻撃的言語を特定するための言語間帰納的手法として, 文脈語埋め込み \textit{XLM-RoBERTa} (XLM-R) を提案する。 我々のモデルは5つの言語すべてで競争力があり、f1-score ($0.919$) と8-score ($0.781$) で英語タスクの4番目の位置を得る。 さらなる実験により、我々のモデルはゼロショット学習環境で競争力があり、他の言語にも拡張可能であることが証明された。

With the growing use of social media and its availability, many instances of the use of offensive language have been observed across multiple languages and domains. This phenomenon has given rise to the growing need to detect the offensive language used in social media cross-lingually. In OffensEval 2020, the organizers have released the \textit{multilingual Offensive Language Identification Dataset} (mOLID), which contains tweets in five different languages, to detect offensive language. In this work, we introduce a cross-lingual inductive approach to identify the offensive language in tweets using the contextual word embedding \textit{XLM-RoBERTa} (XLM-R). We show that our model performs competitively on all five languages, obtaining the fourth position in the English task with an F1-score of $0.919$ and eighth position in the Turkish task with an F1-score of $0.781$. Further experimentation proves that our model works competitively in a zero-shot learning environment, and is extensible to other languages.
翻訳日:2022-11-12 20:07:44 公開日:2020-07-07
# スケルトンに基づく行動認識のための分離時空間注意ネットワーク

Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2007.03263v1 )

ライセンス: Link先を確認
Lei Shi, Yifan Zhang, Jian Cheng and Hanqing Lu(参考訳) ヒト関節の2D/3D座標として表される動的骨格データは、その高レベルな意味情報と環境の堅牢性により、人間の行動認識のために広く研究されている。 しかし、従来の手法は手作りのトラバーサルルールやグラフトポロジの設計に大きく依存しており、性能と一般化性に制限がある。 本稿では,スケルトンベース行動認識のための空間時空間注意ネットワーク(dsta-net)を提案する。 注意ブロックのみを伴い、位置や相互接続を知る必要なしに関節間の空間的時間的依存関係をモデル化することができる。 具体的には、骨格データの特定の要件を満たすために、空間的時間的注意分離、非結合位置符号化、空間的大域正規化の3つの手法が提案されている。 Besides, from the data aspect, we introduce a skeletal data decoupling technique to emphasize the specific characteristics of space/time and different motion scales, resulting in a more comprehensive understanding of the human actions.To test the effectiveness of the proposed method, extensive experiments are conducted on four challenging datasets for skeleton-based gesture and action recognition, namely, SHREC, DHG, NTU-60 and NTU-120, where DSTA-Net achieves state-of-the-art performance on all of them.

Dynamic skeletal data, represented as the 2D/3D coordinates of human joints, has been widely studied for human action recognition due to its high-level semantic information and environmental robustness. However, previous methods heavily rely on designing hand-crafted traversal rules or graph topologies to draw dependencies between the joints, which are limited in performance and generalizability. In this work, we present a novel decoupled spatial-temporal attention network(DSTA-Net) for skeleton-based action recognition. It involves solely the attention blocks, allowing for modeling spatial-temporal dependencies between joints without the requirement of knowing their positions or mutual connections. Specifically, to meet the specific requirements of the skeletal data, three techniques are proposed for building attention blocks, namely, spatial-temporal attention decoupling, decoupled position encoding and spatial global regularization. Besides, from the data aspect, we introduce a skeletal data decoupling technique to emphasize the specific characteristics of space/time and different motion scales, resulting in a more comprehensive understanding of the human actions.To test the effectiveness of the proposed method, extensive experiments are conducted on four challenging datasets for skeleton-based gesture and action recognition, namely, SHREC, DHG, NTU-60 and NTU-120, where DSTA-Net achieves state-of-the-art performance on all of them.
翻訳日:2022-11-12 20:00:30 公開日:2020-07-07
# 位置感性画像検索とタグ付け

Location Sensitive Image Retrieval and Tagging ( http://arxiv.org/abs/2007.03375v1 )

ライセンス: Link先を確認
Raul Gomez, Jaume Gibert, Lluis Gomez, Dimosthenis Karatzas(参考訳) 世界の異なる部分の人々は、異なる方法でオブジェクトや概念を記述します。 これにより、視覚的外見は異なる地理的な場所によって変化し、視覚的データを分析する際に、位置が関連するコンテキスト情報となる。 本研究では,地球上の特定の位置で条件付けされたタグに関する画像検索の課題に対処する。 我々は,画像,タグ,座標の三重項のランク付けを再現性によって学習するモデルlocsensと,最終ランキングにおける位置の影響のバランスをとるための2つのトレーニング戦略を提案する。 LocSensは、マルチモーダルクエリのテキスト情報と位置情報を融合して、さまざまなレベルの位置の粒度で関連画像を検索し、ロケーション情報を利用して画像タグ付けを改善する。

People from different parts of the globe describe objects and concepts in distinct manners. Visual appearance can thus vary across different geographic locations, which makes location a relevant contextual information when analysing visual data. In this work, we address the task of image retrieval related to a given tag conditioned on a certain location on Earth. We present LocSens, a model that learns to rank triplets of images, tags and coordinates by plausibility, and two training strategies to balance the location influence in the final ranking. LocSens learns to fuse textual and location information of multimodal queries to retrieve related images at different levels of location granularity, and successfully utilizes location information to improve image tagging.
翻訳日:2022-11-12 19:59:33 公開日:2020-07-07
# スパイクニューラルネットワークによる音節間時間差のマルチトーン位相符号化(MTPC)

Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by Spiking Neural Network ( http://arxiv.org/abs/2007.03274v1 )

ライセンス: Link先を確認
Zihan Pan, Malu Zhang, Jibin Wu, Haizhou Li(参考訳) 哺乳類の聴覚的局所化経路にインスパイアされた本論文では、雑音の多い実環境における正確な音像定位のための純粋スパイキングニューラルネットワーク(SNN)に基づく計算モデルを提案し、マイクロホンアレイを用いたリアルタイムロボットシステムにこのアルゴリズムを実装した。 このモデルの鍵は、音間時間差(ITD)キューをスパイクパターンに符号化するMTPC方式に依存している。 このスキームは、到着の時間差を人為的に計算するのではなく、自然に人間の聴覚定位システムの機能構造に従う。 さらに、イベント駆動や電力効率といったSNNの利点を強調している。 MTPCは2つの異なるSNNアーキテクチャ、すなわち畳み込みSNNと繰り返しSNNでパイプラインされ、様々なSNNに適用可能であることを示す。 本提案は, 雑音, 妨害, 反射, その他の影響のある実環境において, マイクロホンが収集した位置依存音響データを用いて評価する。 実験の結果, 平均誤差方位は1~3度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回ることがわかった。

Inspired by the mammal's auditory localization pathway, in this paper we propose a pure spiking neural network (SNN) based computational model for precise sound localization in the noisy real-world environment, and implement this algorithm in a real-time robotic system with a microphone array. The key of this model relies on the MTPC scheme, which encodes the interaural time difference (ITD) cues into spike patterns. This scheme naturally follows the functional structures of the human auditory localization system, rather than artificially computing of time difference of arrival. Besides, it highlights the advantages of SNN, such as event-driven and power efficiency. The MTPC is pipelined with two different SNN architectures, the convolutional SNN and recurrent SNN, by which it shows the applicability to various SNNs. This proposal is evaluated by the microphone collected location-dependent acoustic data, in a real-world environment with noise, obstruction, reflection, or other affects. The experiment results show a mean error azimuth of 1~3 degrees, which surpasses the accuracy of the other biologically plausible neuromorphic approach for sound source localization.
翻訳日:2022-11-12 19:51:59 公開日:2020-07-07
# 荷電粒子加速器におけるビームダイナミクスのための物理ベースディープニューラルネットワーク

Physics-Based Deep Neural Networks for Beam Dynamics in Charged Particle Accelerators ( http://arxiv.org/abs/2007.03555v1 )

ライセンス: Link先を確認
Andrei Ivanov, Ilya Agapov(参考訳) 本稿では,荷電粒子線力学をモデル化したニューラルネットワーク構築手法を提案する。 このアプローチでは、ダイナミクスの表現で生じるテイラー写像は多項式ニューラルネットワークの重みにマッピングされる。 得られたネットワークは、トレーニング前に完全な精度で力学系を近似し、追加の実験データにネットワーク重みをチューニングする可能性を提供する。 このような多項式ニューラルネットワークに対するシンプレクティック正規化手法を提案し、トレーニングされたモデルをハミルトン系に常に制限し、トレーニング手順を大幅に改善する。 提案したネットワークは、ビーム力学シミュレーションや実験データを用いたビーム光学モデルの微調整に利用できる。 ネットワークの構造は、多数の磁石を持つ大型加速器のモデリングを可能にする。 本稿では,既存のPETRA IIIと,DESYにおけるPETRA IVストレージリングの例を紹介する。

This paper presents a novel approach for constructing neural networks which model charged particle beam dynamics. In our approach, the Taylor maps arising in the representation of dynamics are mapped onto the weights of a polynomial neural network. The resulting network approximates the dynamical system with perfect accuracy prior to training and provides a possibility to tune the network weights on additional experimental data. We propose a symplectic regularization approach for such polynomial neural networks that always restricts the trained model to Hamiltonian systems and significantly improves the training procedure. The proposed networks can be used for beam dynamics simulations or for fine-tuning of beam optics models with experimental data. The structure of the network allows for the modeling of large accelerators with a large number of magnets. We demonstrate our approach on the examples of the existing PETRA III and the planned PETRA IV storage rings at DESY.
翻訳日:2022-11-12 19:51:25 公開日:2020-07-07
# 遺伝的アルゴリズムモデルを用いた風力発電プラントにおける発電拡大計画

Generation expansion planning in the presence of wind power plants using a genetic algorithm model ( http://arxiv.org/abs/2008.04703v1 )

ライセンス: Link先を確認
Ali Sahragard, Hamid Falaghi, Mahdi Farhadi, Amir Mosavi, Abouzar Estebsari(参考訳) 電力系統計画の重要な側面の1つはジェネレーション拡張計画(gep)である。 GEPの目的は、建設計画を強化し、異なるタイプの発電所を設置するコストを削減することである。 本稿では,風力発電プラントにおけるGEPの遺伝的アルゴリズム(GA)に基づく手法を提案する。 GEPに最大風力発電を統合することが望まれており、発電に異なるレベルの風力エネルギーを組み込むことの制約を包括的に検討している。 これにより、ネットワーク内の最大風力浸透量の取得が可能になる。 また,異なる風系が存在することから,gepに強い風や弱い風が浸透することを評価する。 その結果, 風力発電容量の最大利用は, より強固な風力発電システムの活用を増加させる可能性が示唆された。 風力発電産業の成長と建設用風力発電プラントのコスト削減を考慮して, GEPの感度とコストの変動について検討した。 さらに, 風力発電所の初期投資コストを10%削減するためには, 全体のコストを最小化すると推定した。

One of the essential aspects of power system planning is generation expansion planning (GEP). The purpose of GEP is to enhance construction planning and reduce the costs of installing different types of power plants. This paper proposes a method based on Genetic Algorithm (GA) for GEP in the presence of wind power plants. Since it is desired to integrate the maximum possible wind power production in GEP, the constraints for incorporating different levels of wind energy in power generation are investigated comprehensively. This will allow obtaining the maximum reasonable amount of wind penetration in the network. Besides, due to the existence of different wind regimes, the penetration of strong and weak wind on GEP is assessed. The results show that the maximum utilization of wind power generation capacity could increase the exploitation of more robust wind regimes. Considering the growth of the wind farm industry and the cost reduction for building wind power plants, the sensitivity of GEP to the variations of this cost is investigated. The results further indicate that for a 10% reduction in the initial investment cost of wind power plants, the proposed model estimates that the overall cost will be minimized.
翻訳日:2022-11-12 19:51:12 公開日:2020-07-07
# 空間意味埋め込みネットワーク:Deep Metric Learningを用いた高速3次元インスタンス分割

Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning ( http://arxiv.org/abs/2007.03169v1 )

ライセンス: Link先を確認
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim(参考訳) 深層学習を用いた3次元インスタンスセグメンテーションのための簡易かつ効率的なアルゴリズムである空間意味埋め込みネットワーク(SSEN)を提案する。 室内環境の生の3次元再構築は、閉塞や騒音に苦しめられ、個々の実体間で意味のある区別をすることなく生成される。 大規模シーンからの高度なインテリジェントタスクの場合、3dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。 オブジェクトの個々のインスタンスを、空間情報と意味情報の両方を反映した異なるクラスタにマッピングする、正しい埋め込み空間を単に学習することで、インスタンスセグメンテーションにアプローチする。 複雑な前処理や後処理を必要とする従来のアプローチとは異なり、我々の実装はコンパクトで高速で競合する性能を備え、高解像度のボクセルを備えた大規模シーンでのスケーラビリティを維持しています。 我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能を示す。

We propose spatial semantic embedding network (SSEN), a simple, yet efficient algorithm for 3D instance segmentation using deep metric learning. The raw 3D reconstruction of an indoor environment suffers from occlusions, noise, and is produced without any meaningful distinction between individual entities. For high-level intelligent tasks from a large scale scene, 3D instance segmentation recognizes individual instances of objects. We approach the instance segmentation by simply learning the correct embedding space that maps individual instances of objects into distinct clusters that reflect both spatial and semantic information. Unlike previous approaches that require complex pre-processing or post-processing, our implementation is compact and fast with competitive performance, maintaining scalability on large scenes with high resolution voxels. We demonstrate the state-of-the-art performance of our algorithm in the ScanNet 3D instance segmentation benchmark on AP score.
翻訳日:2022-11-12 19:50:57 公開日:2020-07-07
# フレーズウィンドウに基づくアノテーション規則と認識アルゴリズムに関する研究

Research on Annotation Rules and Recognition Algorithm Based on Phrase Window ( http://arxiv.org/abs/2007.03140v1 )

ライセンス: Link先を確認
Guang Liu, Gang Tu, Zheng Li, Yi-Jian Liu(参考訳) 現在、ほとんどの自然言語処理技術は、主に教師付き学習に基づくエンドツーエンドの手法であるWord Segmentation for Dependency Parsingの結果に基づいている。 この手法には2つの大きな問題がある: まず、ラベリング規則は複雑で、ラベル付けが困難であり、その作業負荷が大きい; 第二に、アルゴリズムは言語成分の多粒度と多様性を認識することができない。 これら2つの問題を解決するために,フレーズウィンドウに基づくラベル規則を提案し,対応するフレーズ認識アルゴリズムを設計した。 ラベル付けルールでは、フレーズを最小単位とし、文を7種類のネスト可能なフレーズタイプに分割し、フレーズ間の文法的依存関係を示す。 対応するアルゴリズムは、画像フィールド内の対象領域を識別するアイデアに基づいて、文中の様々な句の開始位置と終了位置を見つけ出し、ネストされた句と文法的依存関係の同期認識を実現する。 実験の結果、ラベリングルールは便利で使いやすく、曖昧さはなく、アルゴリズムは文法的に多粒質であり、エンドツーエンドのアルゴリズムよりも多様であることがわかった。 CPWDデータセットの実験により、エンドツーエンド法の精度が約1ポイント向上した。 対応する手法はCCL2018コンペティションに適用され、中国のメタファー知覚分析タスクでは第1位となった。

At present, most Natural Language Processing technology is based on the results of Word Segmentation for Dependency Parsing, which mainly uses an end-to-end method based on supervised learning. There are two main problems with this method: firstly, the la-beling rules are complex and the data is too difficult to label, the workload of which is large; secondly, the algorithm cannot recognize the multi-granularity and diversity of language components. In order to solve these two problems, we propose labeling rules based on phrase windows, and designed corresponding phrase recognition algorithms. The labeling rule uses phrases as the minimum unit, di-vides sentences into 7 types of nestable phrase types, and marks the grammatical dependencies between phrases. The corresponding algorithm, drawing on the idea of identifying the target area in the image field, can find the start and end positions of various phrases in the sentence, and realize the synchronous recognition of nested phrases and grammatical dependencies. The results of the experiment shows that the labeling rule is convenient and easy to use, and there is no ambiguity; the algorithm is more grammatically multi-granular and diverse than the end-to-end algorithm. Experiments on the CPWD dataset improve the accuracy of the end-to-end method by about 1 point. The corresponding method was applied to the CCL2018 competition, and the first place in the Chinese Metaphor Sentiment Analysis Task.
翻訳日:2022-11-12 19:42:32 公開日:2020-07-07
# scb-mt-en-th-2020:大英タイパラレルコーパス

scb-mt-en-th-2020: A Large English-Thai Parallel Corpus ( http://arxiv.org/abs/2007.03541v1 )

ライセンス: Link先を確認
Lalita Lowphansirikul, Charin Polpanumas, Attapol T. Rutherford and Sarana Nutanong(参考訳) 我々の研究の主な目的は、機械翻訳のための大規模な英タイデータセットを構築することである。 我々は,ニュース,ウィキペディア記事,SMSメッセージ,タスクベースダイアログ,Webクロールデータ,政府文書など,さまざまなソースからキュレートされた100万以上のセグメントペアによる英タイ機械翻訳データセットを構築した。 データの収集、並列テキストの作成、ノイズ文ペアの除去のための方法論を再現可能な方法で提示する。 このデータセットに基づいて機械翻訳モデルを訓練する。 私たちのモデルのパフォーマンスは、タイ語と英語の両方の翻訳のトレーニングデータにOpen Parallel Corpus(OPUS)が含まれている場合、Google翻訳API(2020年5月現在)に匹敵する。 データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。

The primary objective of our work is to build a large-scale English-Thai dataset for machine translation. We construct an English-Thai machine translation dataset with over 1 million segment pairs, curated from various sources, namely news, Wikipedia articles, SMS messages, task-based dialogs, web-crawled data and government documents. Methodology for gathering data, building parallel texts and removing noisy sentence pairs are presented in a reproducible manner. We train machine translation models based on this dataset. Our models' performance are comparable to that of Google Translation API (as of May 2020) for Thai-English and outperform Google when the Open Parallel Corpus (OPUS) is included in the training data for both Thai-English and English-Thai translation. The dataset, pre-trained models, and source code to reproduce our work are available for public use.
翻訳日:2022-11-12 19:42:08 公開日:2020-07-07
# 構文一致テストによるドイツ語変換言語モデルの評価

Evaluating German Transformer Language Models with Syntactic Agreement Tests ( http://arxiv.org/abs/2007.03765v1 )

ライセンス: Link先を確認
Karolina Zaczynska, Nils Feldhus, Robert Schwarzenberg, Aleksandra Gabryszak, Sebastian M\"oller(参考訳) 事前訓練されたトランスフォーマー言語モデル(TLM)は、最近、自然言語処理(NLP: Refashioned Natural Language Processing)を改訂した。 その成功を説明するために、科学界は数多くの分析を行った。 他の方法の他に、TLMの分析に統語的合意試験が用いられた。 しかし、ほとんどの研究は英語のために行われた。 この研究では、ドイツのTLMを分析します。 この目的のために、我々は多くの合意タスクをデザインし、そのいくつかはドイツ語の特異性を考慮している。 実験結果から,現在最先端のドイツTLMは一般的に合意作業でよく機能するが,その限界に迫る構文構造を特定し,議論する。

Pre-trained transformer language models (TLMs) have recently refashioned natural language processing (NLP): Most state-of-the-art NLP models now operate on top of TLMs to benefit from contextualization and knowledge induction. To explain their success, the scientific community conducted numerous analyses. Besides other methods, syntactic agreement tests were utilized to analyse TLMs. Most of the studies were conducted for the English language, however. In this work, we analyse German TLMs. To this end, we design numerous agreement tasks, some of which consider peculiarities of the German language. Our experimental results show that state-of-the-art German TLMs generally perform well on agreement tasks, but we also identify and discuss syntactic structures that push them to their limits.
翻訳日:2022-11-12 19:41:50 公開日:2020-07-07
# ベンチマークのターゲット:最近の自然言語処理研究の方法論について

Targeting the Benchmark: On Methodology in Current Natural Language Processing Research ( http://arxiv.org/abs/2007.04792v1 )

ライセンス: Link先を確認
David Schlangen(参考訳) あるグループは、データセットによって例示される言語タスクを導入しました。 ベースラインモデルも提供されており、その後すぐに他のグループによって改善される。 しばしば研究努力が進み、そのパターンが繰り返される。 一般的に暗黙に残されているのは、これがなぜ進歩を構成し、何に向かって進むのかという議論である。 本稿では,このパターンから少し離れて,可能な議論とそれらの部分について検討する。

It has become a common pattern in our field: One group introduces a language task, exemplified by a dataset, which they argue is challenging enough to serve as a benchmark. They also provide a baseline model for it, which then soon is improved upon by other groups. Often, research efforts then move on, and the pattern repeats itself. What is typically left implicit is the argumentation for why this constitutes progress, and progress towards what. In this paper, we try to step back for a moment from this pattern and work out possible argumentations and their parts.
翻訳日:2022-11-12 19:41:38 公開日:2020-07-07
# 直感的進化教育のためのゲームモッドにおける人工生命

Artificial Life in Game Mods for Intuitive Evolution Education ( http://arxiv.org/abs/2007.03787v1 )

ライセンス: Link先を確認
Anya E. Vostinar, Barbara Z. Johnson, and Kevin Connors(参考訳) 自然選択による進化の理解と受容は、世界中の多くの地域で、特にアメリカ合衆国において難しい問題となっている。 自然選択による進化に関する直観を改善するゲームの利用は有望だが、難しい。 そこで本研究では,人工生命技術を用いた商業ゲームにおける自然選択による進化の「スティールト・ティーチング」への修正の利用,stardew valleyの概念実証版の提供,およびその最初のレセプションについて報告する。

The understanding and acceptance of evolution by natural selection has become a difficult issue in many parts of the world, particularly the United States of America. The use of games to improve intuition about evolution via natural selection is promising but can be challenging. We propose the use of modifications to commercial games using artificial life techniques to 'stealth teach' about evolution via natural selection, provide a proof-of-concept mod of the game Stardew Valley, and report on its initial reception.
翻訳日:2022-11-12 19:41:30 公開日:2020-07-07
# 不均質なエッジ存在の不確かさを伴う腎臓交換

Kidney Exchange with Inhomogeneous Edge Existence Uncertainty ( http://arxiv.org/abs/2007.03191v1 )

ライセンス: Link先を確認
Hoda Bidkhori, John P Dickerson, Duncan C McElfresh, Ke Ren(参考訳) 腎臓交換に動機づけられ, 有向グラフの構造を同定し, マッチしたエッジウェイトの期待値を最大化することを目的として, 確率サイクルとチェーンパッキングの問題を検討した。 すべてのエッジは失敗し、失敗は識別できない確率を持つ。 私たちの知る限りでは、最先端のアプローチは障害の確率が同じである場合にのみ適用可能です。 関連する非凸最適化問題を定式化し、それを解決するために扱いやすい混合整数線形計画再構成を提案する。 さらに,目的関数にcvar(conditional value at risk)を組み込むことにより,リスクとマッチングの期待効用の両方を統合するモデルを提案し,この問題に対する強固な定式化を提供する。 この問題を解決するために,サンプル平均近似(SAA)に基づく手法を提案する。 我々は、UNOS(United Network for Organ Sharing)のデータに対する我々のアプローチを検証し、最先端のアプローチと比較する。 我々のモデルは、主要な決定論的アプローチ(PICEF)と同じ実行時間でより良いパフォーマンスを提供する。 SAA法によるCVaR拡張は、既存のモデルと比較して100\%$$(0<\alpha\leqslant 1$)最悪のケースのパフォーマンスを大幅に改善します。

Motivated by kidney exchange, we study a stochastic cycle and chain packing problem, where we aim to identify structures in a directed graph to maximize the expectation of matched edge weights. All edges are subject to failure, and the failures can have nonidentical probabilities. To the best of our knowledge, the state-of-the-art approaches are only tractable when failure probabilities are identical. We formulate a relevant non-convex optimization problem and propose a tractable mixed-integer linear programming reformulation to solve it. In addition, we propose a model that integrates both risks and the expected utilities of the matching by incorporating conditional value at risk (CVaR) into the objective function, providing a robust formulation for this problem. Subsequently, we propose a sample-average-approximation (SAA) based approach to solve this problem. We test our approaches on data from the United Network for Organ Sharing (UNOS) and compare against state-of-the-art approaches. Our model provides better performance with the same running time as a leading deterministic approach (PICEF). Our CVaR extensions with an SAA-based method improves the $\alpha \times 100\%$ ($0<\alpha\leqslant 1$) worst-case performance substantially compared to existing models.
翻訳日:2022-11-12 19:41:20 公開日:2020-07-07
# 3値セマンティックスにおけるSETAFとサポートフリーAFFの表現性

Expressiveness of SETAFs and Support-Free ADFs under 3-valued Semantics ( http://arxiv.org/abs/2007.03581v1 )

ライセンス: Link先を確認
Wolfgang Dvo\v{r}\'ak and Atefeh Keshavarzi Zafarghandi and Stefan Woltran(参考訳) 議論フレームワーク(AF)における攻撃構造の一般化は,様々な方法で研究されている。 特に、Dungフレームワークのバイナリ攻撃関係は、集団攻撃の概念にまで拡張されている。 結果として得られる形式主義はしばしばSETAFと呼ばれる。 もう一つのアプローチは抽象弁証法フレームワーク(ADF)を通じて提供され、受け入れ条件は引数間の関係を規定する。 この論文の目的は、これら2つのアプローチの関係を明らかにすることである。 そこで本研究では,3値セマンティクスのレンズを用いて,SETAFとサポートフリーAFFの表現性を検討した。 以上の結果から,両アプローチを判別するサポートフリーadfsにおいて,不満足な受理条件が存在することのみを示唆する。

Generalizing the attack structure in argumentation frameworks (AFs) has been studied in different ways. Most prominently, the binary attack relation of Dung frameworks has been extended to the notion of collective attacks. The resulting formalism is often termed SETAFs. Another approach is provided via abstract dialectical frameworks (ADFs), where acceptance conditions specify the relation between arguments; restricting these conditions naturally allows for so-called support-free ADFs. The aim of the paper is to shed light on the relation between these two different approaches. To this end, we investigate and compare the expressiveness of SETAFs and support-free ADFs under the lens of 3-valued semantics. Our results show that it is only the presence of unsatisfiable acceptance conditions in support-free ADFs that discriminate the two approaches.
翻訳日:2022-11-12 19:40:44 公開日:2020-07-07
# 精密農業におけるデータからの学習と制御の最適化

Learning from Data to Optimize Control in Precision Farming ( http://arxiv.org/abs/2007.05493v1 )

ライセンス: Link先を確認
Alexander Kocian and Luca Incrocci(参考訳) 精密農業は、2050年までに現在の農地における農作物の世界の需要を70%増加させ、肥料や水資源の効率的な利用を減らした。 精密農業の出現の触媒は、衛星測位と航法、続いてインターネット・オブ・シングであり、農業プロセスをリアルタイムで最適化するために使用できる膨大な情報を生み出している。 データマイニング、予測モデリング、機械学習といった統計ツールは、過去のデータにおけるパターンを分析し、将来の出来事とインテリジェントなアクションに関する予測を行う。 本特集は, 統計的推論, 機械学習, 精密農業における最適制御の最新の展開を示すものである。

Precision farming is one way of many to meet a 70 percent increase in global demand for agricultural products on current agricultural land by 2050 at reduced need of fertilizers and efficient use of water resources. The catalyst for the emergence of precision farming has been satellite positioning and navigation followed by Internet-of-Things, generating vast information that can be used to optimize farming processes in real-time. Statistical tools from data mining, predictive modeling, and machine learning analyze pattern in historical data, to make predictions about future events as well as intelligent actions. This special issue presents the latest development in statistical inference, machine learning and optimum control for precision farming.
翻訳日:2022-11-12 19:33:38 公開日:2020-07-07
# 自己ドメイン適応型ネットワーク

Self domain adapted network ( http://arxiv.org/abs/2007.03162v1 )

ライセンス: Link先を確認
Yufan He, Aaron Carass, Lianrui Zuo, Blake E. Dewey and Jerry L. Prince(参考訳) ドメインシフトは、臨床におけるディープネットワークの展開において大きな問題である。 ネットワーク性能は、(ソース)トレーニングデータとは異なる(ターゲット)イメージで著しく低下する。 ターゲットラベルデータがないため、ほとんどの研究は教師なしドメイン適応(UDA)に焦点を当てている。 現在のUDA法は、画像翻訳(ハーモナイゼーション)を行うモデルやドメイン不変の機能を学ぶために、ソースデータとターゲットデータの両方を必要とする。 しかし、ターゲットドメインのデータが少ない場合や、データプライバシのためソースデータが利用できない場合であっても、ターゲットドメイン毎のモデルのトレーニングには時間がかかり、計算コストがかかる。 本稿では,新たな自己ドメイン適応型ネットワーク(SDA-Net)を提案する。 SDA-Netは、アダプタ、タスクモデル、自動エンコーダの3つの部分で構成される。 後者の2つはラベル付きソースイメージでオフラインでトレーニングされている。 タスクモデルは、ドメインシフト問題に悩む可能性のある、合成、セグメンテーション、分類といったタスクを実行する。 テストステージでは、入力されたテストイメージと特徴を変換して、オートエンコーダで測定した領域シフトを低減し、ドメイン適応を行うように、アダプタを訓練する。 我々は、異なるOCTスキャナーからの網膜層セグメンテーションと異なるMRIスキャナーからのT1からT2合成および異なる画像パラメーターを用いたT1からT2合成の検証を行った。 その結果,SDA-Netは単体テスト対象であり,テスト段階での自己適応時間が少ないため,大幅な改善が達成できた。

Domain shift is a major problem for deploying deep networks in clinical practice. Network performance drops significantly with (target) images obtained differently than its (source) training data. Due to a lack of target label data, most work has focused on unsupervised domain adaptation (UDA). Current UDA methods need both source and target data to train models which perform image translation (harmonization) or learn domain-invariant features. However, training a model for each target domain is time consuming and computationally expensive, even infeasible when target domain data are scarce or source data are unavailable due to data privacy. In this paper, we propose a novel self domain adapted network (SDA-Net) that can rapidly adapt itself to a single test subject at the testing stage, without using extra data or training a UDA model. The SDA-Net consists of three parts: adaptors, task model, and auto-encoders. The latter two are pre-trained offline on labeled source images. The task model performs tasks like synthesis, segmentation, or classification, which may suffer from the domain shift problem. At the testing stage, the adaptors are trained to transform the input test image and features to reduce the domain shift as measured by the auto-encoders, and thus perform domain adaptation. We validated our method on retinal layer segmentation from different OCT scanners and T1 to T2 synthesis with T1 from different MRI scanners and with different imaging parameters. Results show that our SDA-Net, with a single test subject and a short amount of time for self adaptation at the testing stage, can achieve significant improvements.
翻訳日:2022-11-12 19:33:27 公開日:2020-07-07
# 生成逆ネットワークを用いた3次元トポロジー変換

3D Topology Transformation with Generative Adversarial Networks ( http://arxiv.org/abs/2007.03532v1 )

ライセンス: Link先を確認
Luca Stornaiuolo, Nima Dehmamy, Albert-L\'aszl\'o Barab\'asi, Mauro Martino(参考訳) 人工知能による画像やビデオの生成と変換は、ここ数年で栄えている。 しかし、彫刻などの創造的な3D形状の制作を目指す作品はごくわずかである。 本稿では,GAN(Generative Adversarial Networks)を用いた新しい3D-to-3Dトポロジー変換法を示す。 我々は、Vox2Voxと呼ばれる改良されたピクセルGANを使用して、元のオブジェクト形状を保持しながら、3Dオブジェクトのボリュームスタイルを変換する。 特に、3dモデルを2つの新しいボリュームトポロジー(3dネットワークとghirigoro)に変換する方法を示す。 カスタマイズされた3D表現を構築するために、我々のアプローチをどう使うかを説明します。 生成された3D形状は、斬新でインスピレーションを受けたものだと考えています。 最後に,GANを使わずに3次元形状を直接変換するベースラインアルゴリズムとの比較を行った。

Generation and transformation of images and videos using artificial intelligence have flourished over the past few years. Yet, there are only a few works aiming to produce creative 3D shapes, such as sculptures. Here we show a novel 3D-to-3D topology transformation method using Generative Adversarial Networks (GAN). We use a modified pix2pix GAN, which we call Vox2Vox, to transform the volumetric style of a 3D object while retaining the original object shape. In particular, we show how to transform 3D models into two new volumetric topologies - the 3D Network and the Ghirigoro. We describe how to use our approach to construct customized 3D representations. We believe that the generated 3D shapes are novel and inspirational. Finally, we compare the results between our approach and a baseline algorithm that directly convert the 3D shapes, without using our GAN.
翻訳日:2022-11-12 19:33:02 公開日:2020-07-07
# RFIDイメージングによる小売店舗における客の閲覧行動のモニタリング

Monitoring Browsing Behavior of Customers in Retail Stores via RFID Imaging ( http://arxiv.org/abs/2007.03600v1 )

ライセンス: Link先を確認
Kamran Ali, Alex X. Liu, Eugene Chai, Karthik Sundaresan(参考訳) 本稿では,市販のオフザ・棚(cots)モノスタティックrfidデバイス(タグへのrfid信号の送受信と送受信の両方に一度に1つのアンテナを使用する)を用いて,店舗等の展示物の前での顧客の閲覧状況を監視することを提案する。 そこで本研究では,モノスタティックRFIDイメージングに基づく多人数イメージングシステムTagSeeを提案する。 TagSeeは、顧客が棚上のアイテムを閲覧するとき、棚とリーダの境界に沿って配置されたタグの間に立ち、RFID信号が移動するマルチパスと、リーダが受信するRFID信号のRSSとフェーズ値の両方を変更する、という洞察に基づいています。 読者が観察したこれらのバリエーションに基づいて、TagSeeは顧客の粗いきめ細かいイメージを構築する。 その後、TagSeeは構築された画像を分析して、顧客が閲覧しているアイテムを特定する。 本稿では,ロバストで解析モデル駆動型深層学習に基づくrfidイメージングを用いて,粗粒画像を構築し,ディスプレイ項目前の複数の顧客のブラウジング行動監視を実現することを目的とする。 そこで我々はまず,静電RFIDデバイスを用いた人体イメージングの問題を数学的に定式化し,RFID信号の人体障害に起因する変化を相関づける近似解析画像モデルを導出する。 このモデルに基づいて,顧客を高精度に画像化するためのディープラーニングフレームワークを開発した。 我々は,Impinj Speedway R420リーダとSMARTRAC DogBone RFIDタグを用いたTagSee方式を実装した。 TagSeeは、たった3~4人のユーザーのトレーニングデータを使用して、90%以上のTPRと10%未満のFPRを達成することができる。

In this paper, we propose to use commercial off-the-shelf (COTS) monostatic RFID devices (i.e. which use a single antenna at a time for both transmitting and receiving RFID signals to and from the tags) to monitor browsing activity of customers in front of display items in places such as retail stores. To this end, we propose TagSee, a multi-person imaging system based on monostatic RFID imaging. TagSee is based on the insight that when customers are browsing the items on a shelf, they stand between the tags deployed along the boundaries of the shelf and the reader, which changes the multi-paths that the RFID signals travel along, and both the RSS and phase values of the RFID signals that the reader receives change. Based on these variations observed by the reader, TagSee constructs a coarse grained image of the customers. Afterwards, TagSee identifies the items that are being browsed by the customers by analyzing the constructed images. The key novelty of this paper is on achieving browsing behavior monitoring of multiple customers in front of display items by constructing coarse grained images via robust, analytical model-driven deep learning based, RFID imaging. To achieve this, we first mathematically formulate the problem of imaging humans using monostatic RFID devices and derive an approximate analytical imaging model that correlates the variations caused by human obstructions in the RFID signals. Based on this model, we then develop a deep learning framework to robustly image customers with high accuracy. We implement TagSee scheme using a Impinj Speedway R420 reader and SMARTRAC DogBone RFID tags. TagSee can achieve a TPR of more than ~90% and a FPR of less than ~10% in multi-person scenarios using training data from just 3-4 users.
翻訳日:2022-11-12 19:32:49 公開日:2020-07-07
# ニューラルネットワーク階層(NTH)を用いた残留ネットワークの理解に向けて

Towards an Understanding of Residual Networks Using Neural Tangent Hierarchy (NTH) ( http://arxiv.org/abs/2007.03714v1 )

ライセンス: Link先を確認
Yuqing Li, Tao Luo, Nung Kwan Yip(参考訳) 勾配降下は、目的関数の凸性に拘わらず、深層ニューラルネットワークの多項式時間のトレーニング損失をゼロにする。 勾配降下によって訓練された無限幅極限におけるネットワークの挙動は、 \cite{jacot2018neural} で導入された神経接核 (ntk) によって説明できる。 本稿では,有限幅Deep Residual Network (ResNet) におけるNTKのダイナミクスを, \cite{Huang2019Dynamics} で提案されたニューラルタンジェント階層 (NTH) を用いて検討する。 スムーズかつリプシッツの活性化関数を持つResNetの場合、準位から立方体へのトレーニングサンプル$n$の個数に関して、層幅$m$の要求を小さくする。 解析結果から,resnetの特定のスキップ接続構造が,完全接続ネットワークに対する勝利の主な理由であることが示唆された。

Gradient descent yields zero training loss in polynomial time for deep neural networks despite non-convex nature of the objective function. The behavior of network in the infinite width limit trained by gradient descent can be described by the Neural Tangent Kernel (NTK) introduced in \cite{Jacot2018Neural}. In this paper, we study dynamics of the NTK for finite width Deep Residual Network (ResNet) using the neural tangent hierarchy (NTH) proposed in \cite{Huang2019Dynamics}. For a ResNet with smooth and Lipschitz activation function, we reduce the requirement on the layer width $m$ with respect to the number of training samples $n$ from quartic to cubic. Our analysis suggests strongly that the particular skip-connection structure of ResNet is the main reason for its triumph over fully-connected network.
翻訳日:2022-11-12 19:31:55 公開日:2020-07-07
# ネットワーク上の平滑凸最適化のための分散立方体規則化ニュートン法

A Distributed Cubic-Regularized Newton Method for Smooth Convex Optimization over Networks ( http://arxiv.org/abs/2007.03562v1 )

ライセンス: Link先を確認
C\'esar A. Uribe and Ali Jadbabaie(参考訳) ネットワーク上の大規模凸最適化のための分散3次正規化ニュートン法を提案する。 提案手法は局所的な計算と通信のみを必要とし,任意のネットワークトポロジ上でのフェデレーション学習に適している。 コスト関数がリプシッツ勾配とヘシアンと凸であるときに、$O(k^{{-}3})$収束率を示し、$k$は反復数である。 さらに,アルゴリズムの各ステップに必要な通信にネットワーク依存境界を提供する。 理論的結果を検証する数値実験を行う。

We propose a distributed, cubic-regularized Newton method for large-scale convex optimization over networks. The proposed method requires only local computations and communications and is suitable for federated learning applications over arbitrary network topologies. We show a $O(k^{{-}3})$ convergence rate when the cost function is convex with Lipschitz gradient and Hessian, with $k$ being the number of iterations. We further provide network-dependent bounds for the communication required in each step of the algorithm. We provide numerical experiments that validate our theoretical results.
翻訳日:2022-11-12 19:26:24 公開日:2020-07-07
# シンプルさの優位性:ネットワークデバイス負荷予測のための軽量モデル

Superiority of Simplicity: A Lightweight Model for Network Device Workload Prediction ( http://arxiv.org/abs/2007.03568v1 )

ライセンス: Link先を確認
Alexander Acker, Thorsten Wittkopp, Sasho Nedelkoski, Jasmin Bogatinovski, Odej Kao(参考訳) ITシステムの急速な成長と流通は、その複雑さを増し、運用とメンテナンスを増大させます。 多数のホストと接続ネットワークの制御を維持するため、監視ソリューションが採用され、常に強化されている。 様々なキーパフォーマンス指標(KPI)を収集し(CPU利用、メモリ割り当てなど)、システム状態に関する詳細な情報を提供する。 このような指標を一定期間保存することは、過去の観測に基づいて将来のKPI進捗を予測する動機を自然に引き起こす。 様々な時系列予測手法が存在するが、ITシステムのKPIの進捗予測は非常に難しい。 第一に、CPU利用やメモリ割り当てのようなKPIタイプは非常に異なり、同じモデルで表現することが難しい。 第2に、ソフトウェアやファームウェアのアップデートとハードウェアの近代化により、システムコンポーネントは相互接続され、常に変更される。 したがって、頻繁なモデル再訓練や微調整が期待できる。 そこで,歴史的観測に基づくkpi系列予測のための軽量解を提案する。 ニューラルネットワークと平均予測器という2つのモデルからなる重み付きヘテロジニアスアンサンブル法で構成されている。 アンサンブル法として重み付き和を用い、重み付けにヒューリスティックを用いる。 モデリングアプローチは、利用可能なFedCSIS 2020チャレンジデータセットに基づいて評価され、予備10%のテストデータでは総合で0.10ドル、完全テストデータでは0.15ドルとなる。 私たちは以下のgithubリポジトリにコードを公開しています。

The rapid growth and distribution of IT systems increases their complexity and aggravates operation and maintenance. To sustain control over large sets of hosts and the connecting networks, monitoring solutions are employed and constantly enhanced. They collect diverse key performance indicators (KPIs) (e.g. CPU utilization, allocated memory, etc.) and provide detailed information about the system state. Storing such metrics over a period of time naturally raises the motivation of predicting future KPI progress based on past observations. Although, a variety of time series forecasting methods exist, forecasting the progress of IT system KPIs is very hard. First, KPI types like CPU utilization or allocated memory are very different and hard to be expressed by the same model. Second, system components are interconnected and constantly changing due to soft- or firmware updates and hardware modernization. Thus a frequent model retraining or fine-tuning must be expected. Therefore, we propose a lightweight solution for KPI series prediction based on historic observations. It consists of a weighted heterogeneous ensemble method composed of two models - a neural network and a mean predictor. As ensemble method a weighted summation is used, whereby a heuristic is employed to set the weights. The modelling approach is evaluated on the available FedCSIS 2020 challenge dataset and achieves an overall $R^2$ score of 0.10 on the preliminary 10% test data and 0.15 on the complete test data. We publish our code on the following github repository: https://github.com/citlab/fed_challenge
翻訳日:2022-11-12 19:26:15 公開日:2020-07-07
# 条件勾配型法によるロバスト構造統計的推定

Robust Structured Statistical Estimation via Conditional Gradient Type Methods ( http://arxiv.org/abs/2007.03572v1 )

ライセンス: Link先を確認
Jiacheng Zhuo, Liu Liu, Constantine Caramanis(参考訳) 構造化統計推定問題は、計算コストの高い投影操作を避けるために条件勾配(cg)型手法によってしばしば解決される。 しかし、既存のCG型メソッドはデータの破損に対して堅牢ではない。 そこで本研究では,ハマーの汚職モデルと重み付きデータに対するCG型手法の堅牢化を提案する。 まず,2つのPairwise CG法が安定であること,すなわちエラーを蓄積しないことを示す。 したがって、ロバストな平均勾配推定手法と組み合わせることで、幅広い種類の問題に対してロバスト性を保証することができるが、現在はプロジェクションフリーなアルゴリズムフレームワークである。 次に,高次元問題を考える。 ロバスト平均推定に基づくアプローチは、許容できないほど高いサンプル複雑性を持つ。 制約集合が$\ell_0$ノルム球であるとき、イテレーティブ・ハード・スレッショルド法が最近開発された。 しかし、o(d)$極点を持つ一般集合でも拡張は自明ではない。 実現可能な集合が$O(\text{poly}(d))$極端な点を持つように設定するために、ロバスト原子選択条件(RASC)と呼ばれる新しい条件に基づいて、新しい堅牢性法を開発する。 RASCが満たされた場合,本手法は,ロバスト平均推定に基づく任意のアプローチで要求されるような環境次元ではなく,問題の範囲内で正確にスケールするサンプル複雑度で,対応する統計的誤差と線形に収束する。

Structured statistical estimation problems are often solved by Conditional Gradient (CG) type methods to avoid the computationally expensive projection operation. However, the existing CG type methods are not robust to data corruption. To address this, we propose to robustify CG type methods against Huber's corruption model and heavy-tailed data. First, we show that the two Pairwise CG methods are stable, i.e., do not accumulate error. Combined with robust mean gradient estimation techniques, we can therefore guarantee robustness to a wide class of problems, but now in a projection-free algorithmic framework. Next, we consider high dimensional problems. Robust mean estimation based approaches may have an unacceptably high sample complexity. When the constraint set is a $\ell_0$ norm ball, Iterative-Hard-Thresholding-based methods have been developed recently. Yet extension is non-trivial even for general sets with $O(d)$ extreme points. For setting where the feasible set has $O(\text{poly}(d))$ extreme points, we develop a novel robustness method, based on a new condition we call the Robust Atom Selection Condition (RASC). When RASC is satisfied, our method converges linearly with a corresponding statistical error, with sample complexity that scales correctly in the sparsity of the problem, rather than the ambient dimension as would be required by any approach based on robust mean estimation.
翻訳日:2022-11-12 19:25:51 公開日:2020-07-07
# PinnerSage:Pinterestのレコメンデーションのためのマルチモーダルユーザ埋め込みフレームワーク

PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest ( http://arxiv.org/abs/2007.03634v1 )

ライセンス: Link先を確認
Aditya Pal, Chantat Eksombatchai, Yitong Zhou, Bo Zhao, Charles Rosenberg, Jure Leskovec(参考訳) 潜在ユーザ表現は、パーソナライズされたレコメンデーションシステムを動かすために、テクノロジ業界で広く採用されている。 ほとんどの先行作業は、ユーザを表現するために単一の高次元埋め込みを推測するが、これは良い出発点であるが、ユーザの興味を完全に理解するには不足している。 本稿では,エンド・ツー・エンドのレコメンデーションシステムであるpinnersageを紹介し,マルチモーダル埋め込みによって各ユーザを表現するとともに,このリッチなユーザ表現を活用して,高品質なパーソナライズドレコメンデーションを提供する。 pinnersageは、階層的クラスタリング(ward)の助けを借りて、ユーザのアクションを概念的に一貫性のあるクラスタにクラスタリングし、効率と解釈性のために代表ピン(medoids)を介してクラスタをまとめる。 pinnersageはpinterestのプロダクションにデプロイされ、私たちは、非常に大規模なシームレスに実行するいくつかの設計決定を概説します。 オフラインおよびオンラインのa/b実験を複数実施し,本手法が単一組込みメソッドを大幅に上回ることを示す。

Latent user representations are widely adopted in the tech industry for powering personalized recommender systems. Most prior work infers a single high dimensional embedding to represent a user, which is a good starting point but falls short in delivering a full understanding of the user's interests. In this work, we introduce PinnerSage, an end-to-end recommender system that represents each user via multi-modal embeddings and leverages this rich representation of users to provides high quality personalized recommendations. PinnerSage achieves this by clustering users' actions into conceptually coherent clusters with the help of a hierarchical clustering method (Ward) and summarizes the clusters via representative pins (Medoids) for efficiency and interpretability. PinnerSage is deployed in production at Pinterest and we outline the several design decisions that makes it run seamlessly at a very large scale. We conduct several offline and online A/B experiments to show that our method significantly outperforms single embedding methods.
翻訳日:2022-11-12 19:25:26 公開日:2020-07-07
# リトルストーンおよびしきい値次元の近位閉包境界

Near-tight closure bounds for Littlestone and threshold dimensions ( http://arxiv.org/abs/2007.03668v1 )

ライセンス: Link先を確認
Badih Ghazi, Noah Golowich, Ravi Kumar, Pasin Manurangsi(参考訳) 二つの仮説クラスのリトルストーンおよびしきい値次元の閉包特性について検討する。 有界なリトルストーン次元を持つブール関数のクラス $\mathcal{h}_1, \ldots, \mathcal{h}_k$ が与えられたとき、任意の二元集計規則を$\mathcal{h}_1, \ldots, \mathcal{h}_k$ に適用して定義されるクラスのリトルストーン(respectiveively, threshold)次元の上界を確立する。 また、上界はほぼきつくなっていることも示している。 我々の上限は、alon et al. (colt 2020) によって示された類似の限界に対して指数関数的に(k$ で)改善される。

We study closure properties for the Littlestone and threshold dimensions of binary hypothesis classes. Given classes $\mathcal{H}_1, \ldots, \mathcal{H}_k$ of Boolean functions with bounded Littlestone (respectively, threshold) dimension, we establish an upper bound on the Littlestone (respectively, threshold) dimension of the class defined by applying an arbitrary binary aggregation rule to $\mathcal{H}_1, \ldots, \mathcal{H}_k$. We also show that our upper bounds are nearly tight. Our upper bounds give an exponential (in $k$) improvement upon analogous bounds shown by Alon et al. (COLT 2020), thus answering a question posed by their work.
翻訳日:2022-11-12 19:24:47 公開日:2020-07-07
# 確率制約付き凸最小化の条件勾配法

Conditional gradient methods for stochastically constrained convex minimization ( http://arxiv.org/abs/2007.03795v1 )

ライセンス: Link先を確認
Maria-Luiza Vladarean, Ahmet Alacaoglu, Ya-Ping Hsieh, Volkan Cevher(参考訳) 線形制約を多数有する構造付き確率凸最適化問題に対する条件勾配に基づく2つの新しい解法を提案する。 このテンプレートの例は、問題次元の多項式である多くの制約を含む組合せ問題のSDP緩和から自然に生じる。 私たちのフレームワークの最も重要な特徴は、制約のサブセットが各イテレーションでのみ処理されるため、完全なパスを必要とする以前の作業よりも計算上の優位性を得るということです。 本アルゴリズムは,条件付き勾配ステップと併用した分散低減と平滑化に依拠し,厳密な収束保証を伴っている。 本手法の実用性を示すための予備的な数値実験を行う。

We propose two novel conditional gradient-based methods for solving structured stochastic convex optimization problems with a large number of linear constraints. Instances of this template naturally arise from SDP-relaxations of combinatorial problems, which involve a number of constraints that is polynomial in the problem dimension. The most important feature of our framework is that only a subset of the constraints is processed at each iteration, thus gaining a computational advantage over prior works that require full passes. Our algorithms rely on variance reduction and smoothing used in conjunction with conditional gradient steps, and are accompanied by rigorous convergence guarantees. Preliminary numerical experiments are provided for illustrating the practical performance of the methods.
翻訳日:2022-11-12 19:22:57 公開日:2020-07-07
# 多人数モデリングのための部分的観測と機械的制約によるポリシー学習

Policy learning with partial observation and mechanical constraints for multi-person modeling ( http://arxiv.org/abs/2007.03155v1 )

ライセンス: Link先を確認
Keisuke Fujii, Naoya Takeishi, Yoshinobu Kawahara, Kazuya Takeda(参考訳) 実世界の生物学的マルチエージェント行動の規則の抽出は、様々な科学・工学分野における現在の課題である。 生物学的エージェントは一般に観察と機械的制約に制限があるが、従来のデータ駆動モデルはそのような仮定を無視し、生物学的な妥当性が欠如し、生物学的および認知科学における行動分析のモデル解釈可能性が欠如している。 本稿では, エージェントがどの情報を利用するのかを可視化し, 生物学的に妥当な動作を生成できる連続生成モデルを提案する。 これを分散マルチエージェント模倣学習問題として定式化し、ガムベル・ソフトマックス再パラメータ化による二元部分観測モデルと、物理的および生体力学的制約を伴う階層的変動リカレントニューラルネットワークに基づく政策モデルを活用する。 バスケットボールやサッカーの試合における実世界のマルチパーソンモーションデータセットを用いた経験的パフォーマンスについて検討する。

Extracting the rules of real-world biological multi-agent behaviors is a current challenge in various scientific and engineering fields. Biological agents generally have limited observation and mechanical constraints; however, most of the conventional data-driven models ignore such assumptions, resulting in lack of biological plausibility and model interpretability for behavioral analyses in biological and cognitive science. Here we propose sequential generative models with partial observation and mechanical constraints, which can visualize whose information the agents utilize and can generate biologically plausible actions. We formulate this as a decentralized multi-agent imitation learning problem, leveraging binary partial observation models with a Gumbel-Softmax reparameterization and policy models based on hierarchical variational recurrent neural networks with physical and biomechanical constraints. We investigate the empirical performances using real-world multi-person motion datasets from basketball and soccer games.
翻訳日:2022-11-12 19:17:22 公開日:2020-07-07
# 深層強化学習によるコグニティブ無線ネットワークスループット最大化

Cognitive Radio Network Throughput Maximization with Deep Reinforcement Learning ( http://arxiv.org/abs/2007.03165v1 )

ライセンス: Link先を確認
Kevin Shen Hoong Ong, Yang Zhang, Dusit Niyato(参考訳) RF-CRN(Radio Frequency powered Cognitive Radio Networks)は、IoT(Internet of Things)などの近未来のネットワークの目と耳であり、分散化と自律的な運用を必要とする。 自律的と考えるには、RF駆動のネットワークエンティティは、ネットワーク環境の不確実性の下でネットワークスループットを最大化するために、ローカルで決定する必要がある。 しかし、複雑で大規模なネットワークでは、状態空間と行動空間は通常大きく、既存のTabular Reinforcement Learning技術は最適な状態行動ポリシーを素早く見つけることができない。 本稿では、上記の欠点を克服し、無線ゲートウェイがネットワークスループットを最大化するための最適なポリシーを導出できるように、深層強化学習を提案する。 高度なDQN技術に対してベンチマークを行うと、提案したDQN構成により、パフォーマンスが1.8倍まで向上し、全体的なパフォーマンスが向上する。

Radio Frequency powered Cognitive Radio Networks (RF-CRN) are likely to be the eyes and ears of upcoming modern networks such as Internet of Things (IoT), requiring increased decentralization and autonomous operation. To be considered autonomous, the RF-powered network entities need to make decisions locally to maximize the network throughput under the uncertainty of any network environment. However, in complex and large-scale networks, the state and action spaces are usually large, and existing Tabular Reinforcement Learning technique is unable to find the optimal state-action policy quickly. In this paper, deep reinforcement learning is proposed to overcome the mentioned shortcomings and allow a wireless gateway to derive an optimal policy to maximize network throughput. When benchmarked against advanced DQN techniques, our proposed DQN configuration offers performance speedup of up to 1.8x with good overall performance.
翻訳日:2022-11-12 19:17:05 公開日:2020-07-07
# MAMO: コールドスタート勧告のためのメモリ拡張メタ最適化

MAMO: Memory-Augmented Meta-Optimization for Cold-start Recommendation ( http://arxiv.org/abs/2007.03183v1 )

ライセンス: Link先を確認
Manqing Dong and Feng Yuan and Lina Yao and Xiwei Xu and Liming Zhu(参考訳) 現在のレコメンダシステムで一般的な課題は、コールドスタート問題である。 ユーザとイテムの相互作用が欠如しているため、カスタマイズされたレコメンダシステムは、新しいユーザや新しいアイテムの状況に対処できない。 近年、メタ最適化の考え方をレコメンデーションシナリオに導入する作品がいくつか紹介されている。 中心となるアイデアは、全ユーザのグローバル共有初期化パラメータを学習し、各ユーザのローカルパラメータを個別に学習することだ。 しかし,ほとんどのメタラーニングベースの推薦手法では,パラメータの初期化にモデルに依存しないメタラーニングを採用している。 本稿では,タスク固有の記憶と特徴固有の記憶を格納できる2つのメモリ行列を設計する。 具体的には、特徴特異的メモリはモデルにパーソナライズされたパラメータ初期化を導くのに使われ、タスク固有メモリはモデルがユーザの好みを素早く予測するのに役立つ。 また,提案手法を最適化するためにメタ最適化手法を採用する。 我々は,広く使用されている2つのレコメンデーションデータセット上でモデルをテストし,4つのコールドスタート状況を検討した。 実験の結果,提案手法の有効性が示された。

A common challenge for most current recommender systems is the cold-start problem. Due to the lack of user-item interactions, the fine-tuned recommender systems are unable to handle situations with new users or new items. Recently, some works introduce the meta-optimization idea into the recommendation scenarios, i.e. predicting the user preference by only a few of past interacted items. The core idea is learning a global sharing initialization parameter for all users and then learning the local parameters for each user separately. However, most meta-learning based recommendation approaches adopt model-agnostic meta-learning for parameter initialization, where the global sharing parameter may lead the model into local optima for some users. In this paper, we design two memory matrices that can store task-specific memories and feature-specific memories. Specifically, the feature-specific memories are used to guide the model with personalized parameter initialization, while the task-specific memories are used to guide the model fast predicting the user preference. And we adopt a meta-optimization approach for optimizing the proposed method. We test the model on two widely used recommendation datasets and consider four cold-start situations. The experimental results show the effectiveness of the proposed methods.
翻訳日:2022-11-12 19:16:49 公開日:2020-07-07
# マニフォールドデフレによるマニフォールド学習

Manifold Learning via Manifold Deflation ( http://arxiv.org/abs/2007.03315v1 )

ライセンス: Link先を確認
Daniel Ting and Michael I. Jordan(参考訳) 非線形次元減少法は、高次元データの可視化と解釈に有用な手段である。 しかし、ノイズの脆弱性、反復的な固有方向、凸体の穴、境界バイアスなどの問題により、単純な2次元多様体でも、多くの一般的な方法が劇的に失敗する。 我々は、基礎となる微分作用素から次元を排除するために単座標推定を反復的に使用するリーマン多様体の埋め込み法を導出する。 これらの微分作用素は任意の局所的スペクトル次元減少法を特徴付けることが示されている。 この手法の鍵は,大域構造を座標として組み込んだ新しい漸進的接空間推定器である。 座標が真の座標に収束するときにその一貫性を証明する。 実世界および合成データセットへの新規かつ興味深い埋め込みを復元するアルゴリズムを示す。

Nonlinear dimensionality reduction methods provide a valuable means to visualize and interpret high-dimensional data. However, many popular methods can fail dramatically, even on simple two-dimensional manifolds, due to problems such as vulnerability to noise, repeated eigendirections, holes in convex bodies, and boundary bias. We derive an embedding method for Riemannian manifolds that iteratively uses single-coordinate estimates to eliminate dimensions from an underlying differential operator, thus "deflating" it. These differential operators have been shown to characterize any local, spectral dimensionality reduction method. The key to our method is a novel, incremental tangent space estimator that incorporates global structure as coordinates are added. We prove its consistency when the coordinates converge to true coordinates. Empirically, we show our algorithm recovers novel and interesting embeddings on real-world and synthetic datasets.
翻訳日:2022-11-12 19:15:03 公開日:2020-07-07
# 完全不均衡ラベルを用いたネットワーク埋め込み

Network Embedding with Completely-imbalanced Labels ( http://arxiv.org/abs/2007.03545v1 )

ライセンス: Link先を確認
Zheng Wang (1), Xiaojun Ye (2), Chaokun Wang (2), Jian Cui (1), Philip S. Yu (3)((1) Department of Computer Science, University of Science and Technology Beijing (2) School of Software, Tsinghua University,(3) Department of Computer Science, University of Illinois at Chicago)(参考訳) 低次元空間にネットワークを投影することを目的としたネットワーク埋め込みが,ネットワーク研究の焦点になりつつある。 半教師付きネットワーク埋め込みはラベル付きデータを活用し、有望なパフォーマンスを示している。 しかし、既存の半教師付きメソッドは、ラベル付きノードを全く持たないクラスで完全に不均衡なラベル設定の結果を得るだろう。 そこで我々は2つの新しい半教師付きネットワーク埋め込み手法を提案する。 ひとつはRSDNEという浅いメソッドです。 特に、完全不均衡ラベルの恩恵を受けるために、rsdneはクラス内類似性とクラス間類似性の両方を近似的に保証する。 もう1つの方法は、新しいグラフニューラルネットワークのクラスであるRECTである。 RSDNEと異なり、完全に不均衡なラベルの恩恵を受けるため、RECTはクラス・セマンティックな知識を探求する。 これにより、RECTはノード機能とマルチラベル設定でネットワークを処理できる。 いくつかの実世界のデータセットに対する実験結果は,提案手法の優位性を示している。

Network embedding, aiming to project a network into a low-dimensional space, is increasingly becoming a focus of network research. Semi-supervised network embedding takes advantage of labeled data, and has shown promising performance. However, existing semi-supervised methods would get unappealing results in the completely-imbalanced label setting where some classes have no labeled nodes at all. To alleviate this, we propose two novel semi-supervised network embedding methods. The first one is a shallow method named RSDNE. Specifically, to benefit from the completely-imbalanced labels, RSDNE guarantees both intra-class similarity and inter-class dissimilarity in an approximate way. The other method is RECT which is a new class of graph neural networks. Different from RSDNE, to benefit from the completely-imbalanced labels, RECT explores the class-semantic knowledge. This enables RECT to handle networks with node features and multi-label setting. Experimental results on several real-world datasets demonstrate the superiority of the proposed methods.
翻訳日:2022-11-12 19:14:11 公開日:2020-07-07
# Smoothed Bellman Error Embeddding のシャープ解析

Sharp Analysis of Smoothed Bellman Error Embedding ( http://arxiv.org/abs/2007.03749v1 )

ライセンス: Link先を確認
Ahmed Touati and Pascal Vincent(参考訳) SBEED として知られる \textit{Smoothed Bellman Error Embedding} アルゴリズム~\citep{dai2018sbeed} は、一般的な非線形関数近似を用いた有理収束強化学習アルゴリズムとして提案された。 ニューラルネットワークでうまく実装され、強力な実証結果を得た。 本研究では,バッチモード強化学習におけるSBEEDの理論的挙動について検討する。 我々は,使用済み関数クラスの表現力と分布シフトの厳密な概念に依存する,ほぼ最適性能保証を証明した。 この結果は, 計画の地平線とサンプルサイズに依存する点から, ~\citet{dai2018sbeed} におけるsbeedの事前保証により改善する。 我々の分析は、SBEED の \textit{non-smooth} と解釈できる関連アルゴリズム MSBO を研究する ~\citet{Xie2020} の最近の研究に基づいている。

The \textit{Smoothed Bellman Error Embedding} algorithm~\citep{dai2018sbeed}, known as SBEED, was proposed as a provably convergent reinforcement learning algorithm with general nonlinear function approximation. It has been successfully implemented with neural networks and achieved strong empirical results. In this work, we study the theoretical behavior of SBEED in batch-mode reinforcement learning. We prove a near-optimal performance guarantee that depends on the representation power of the used function classes and a tight notion of the distribution shift. Our results improve upon prior guarantees for SBEED in ~\citet{dai2018sbeed} in terms of the dependence on the planning horizon and on the sample size. Our analysis builds on the recent work of ~\citet{Xie2020} which studies a related algorithm MSBO, that could be interpreted as a \textit{non-smooth} counterpart of SBEED.
翻訳日:2022-11-12 19:08:07 公開日:2020-07-07
# 構造的スパース回復によるニューラルネットワークのハイパーパラメータ最適化

Hyperparameter Optimization in Neural Networks via Structured Sparse Recovery ( http://arxiv.org/abs/2007.04087v1 )

ライセンス: Link先を確認
Minsu Cho, Mohammadreza Soltani, and Chinmay Hegde(参考訳) 本稿では,超パラメータ最適化(HPO)とニューラルアーキテクチャ探索(NAS)という,ニューラルネットワークの自動設計における2つの重要な問題について,スパースリカバリ法を用いて検討する。 本論文の前半では,HPOと構造的スパースリカバリの新たな接続を確立する。 特に,ハイパーパラメータ空間の特別なエンコーディングは,ハイパーバンド(マルチアーム付きバンディット戦略)と組み合わせると,既存のハイパーパラメータ最適化法よりも改善される自然群スパースリカバリ定式化を可能にすることを示す。 CIFAR-10などの画像データセットの実験結果から,提案手法の利点が確認された。 本論文の第2部では,NASと構造的スパース回復の関連性を確立する。 NASにおける「ワンショット」アプローチに基づいて、一ショットアプローチのアイデアと低次スパースブール多項式の学習技術を組み合わせることで、CoNASと呼ぶ新しいアルゴリズムを提案する。 検証誤差の測定回数に関する理論的解析を行う。 最後に,提案手法をいくつかのデータセットで検証し,新たなアーキテクチャを未報告で発見し,既存のNAS手法と比較して,性能と検索時間の両面での競合性(あるいは向上)を実現する。

In this paper, we study two important problems in the automated design of neural networks -- Hyper-parameter Optimization (HPO), and Neural Architecture Search (NAS) -- through the lens of sparse recovery methods. In the first part of this paper, we establish a novel connection between HPO and structured sparse recovery. In particular, we show that a special encoding of the hyperparameter space enables a natural group-sparse recovery formulation, which when coupled with HyperBand (a multi-armed bandit strategy), leads to improvement over existing hyperparameter optimization methods. Experimental results on image datasets such as CIFAR-10 confirm the benefits of our approach. In the second part of this paper, we establish a connection between NAS and structured sparse recovery. Building upon ``one-shot'' approaches in NAS, we propose a novel algorithm that we call CoNAS by merging ideas from one-shot approaches with a techniques for learning low-degree sparse Boolean polynomials. We provide theoretical analysis on the number of validation error measurements. Finally, we validate our approach on several datasets and discover novel architectures hitherto unreported, achieving competitive (or better) results in both performance and search time compared to the existing NAS approaches.
翻訳日:2022-11-12 19:07:47 公開日:2020-07-07
# MO-PaDGAN:多変量性能向上による多変量設計の生成

MO-PaDGAN: Generating Diverse Designs with Multivariate Performance Enhancement ( http://arxiv.org/abs/2007.04790v1 )

ライセンス: Link先を確認
Wei Chen and Faez Ahmed(参考訳) 深部生成モデルは自動設計合成と設計空間探索に有用であることが証明されている。 しかし、エンジニアリング設計に適用すると3つの課題に直面する。 1) 設計には多様性がない。 2) 生成した設計のすべての性能対策を明示的に改善することは困難であり、 3)既存のモデルは,訓練データの領域外において,通常,高性能な新規設計を生成できない。 これらの課題に対処するために、多様性と性能の確率的モデリングのための新しい決定点プロセスに基づく損失関数を含むMO-PaDGANを提案する。 実世界のエアフォイル設計例を通じて,mo-padganが既存の設計空間の境界を高性能領域に拡大し,トレーニングデータを超える多様性と性能を備えた新しい設計を生成することを実証する。

Deep generative models have proven useful for automatic design synthesis and design space exploration. However, they face three challenges when applied to engineering design: 1) generated designs lack diversity, 2) it is difficult to explicitly improve all the performance measures of generated designs, and 3) existing models generally do not generate high-performance novel designs, outside the domain of the training data. To address these challenges, we propose MO-PaDGAN, which contains a new Determinantal Point Processes based loss function for probabilistic modeling of diversity and performances. Through a real-world airfoil design example, we demonstrate that MO-PaDGAN expands the existing boundary of the design space towards high-performance regions and generates new designs with high diversity and performances exceeding training data.
翻訳日:2022-11-12 19:07:25 公開日:2020-07-07
# 手書き文字認識のためのスペクトルグラフに基づく特徴:手書きデバナガリの事例

Spectral Graph-based Features for Recognition of Handwritten Characters: A Case Study on Handwritten Devanagari Numerals ( http://arxiv.org/abs/2007.03281v1 )

ライセンス: Link先を確認
Mohammad Idrees Bhat and B. Sharada(参考訳) 手書き文字の認識には, 筆跡の解釈, 制約のない曲性, プリミティブ部分間の関係が不可欠であり, 課題となっている。 特徴表現が不十分なため、手書き文字の適切な解釈・記述は難しい課題である。 手書き文字に関する既存の研究は広範囲にわたるが、機能空間における文字の効果的な表現を得ることは依然として課題である。 本稿では,手書き文字を特徴付け,効果的に表現するためのロバストグラフ表現とスペクトルグラフ埋め込み概念を活用し,手書き文字の書き方,筆記性,関係性を考慮したアプローチを提案することにより,これらの問題を回避しようとする。 提案手法の有効性を検証するため、インド統計研究所コルカタデータセットの単位である標準手書き数字コンピュータビジョンパターン認識について広範な実験を行った。 実験結果から,今後の研究に活用できる有望な知見が得られた。

Interpretation of different writing styles, unconstrained cursiveness and relationship between different primitive parts is an essential and challenging task for recognition of handwritten characters. As feature representation is inadequate, appropriate interpretation/description of handwritten characters seems to be a challenging task. Although existing research in handwritten characters is extensive, it still remains a challenge to get the effective representation of characters in feature space. In this paper, we make an attempt to circumvent these problems by proposing an approach that exploits the robust graph representation and spectral graph embedding concept to characterise and effectively represent handwritten characters, taking into account writing styles, cursiveness and relationships. For corroboration of the efficacy of the proposed method, extensive experiments were carried out on the standard handwritten numeral Computer Vision Pattern Recognition, Unit of Indian Statistical Institute Kolkata dataset. The experimental results demonstrate promising findings, which can be used in future studies.
翻訳日:2022-11-12 19:06:31 公開日:2020-07-07
# 深層学習から名付けられたエンティティ認識による救急医療サービス臨床監査システム

An Emergency Medical Services Clinical Audit System driven by Named Entity Recognition from Deep Learning ( http://arxiv.org/abs/2007.03596v1 )

ライセンス: Link先を確認
Wang Han, Wesley Yeung, Angeline Tung, Joey Tay Ai Meng, Davin Ryanputera, Feng Mengling, Shalini Arulanadam(参考訳) 臨床成績監査は救急医療サービス(EMS)で定期的に行われ、治療プロトコルの遵守を確保し、治療のための個々の弱点を特定し、訓練用シラバスの発達を導くための体系的な欠陥を発見する。 現在、これらの監査は、時間と労力のかかる手動のチャートレビューによって実施されている。 本稿では,構造化と非構造化の両方の救急車症例記録と,ディープニューラルネットワークに基づくエンティティ認識モデルを用いた臨床ノートに基づく自動監査システムを提案する。 この研究で使用されたデータセットは、2019年4月1日から2019年6月30日までシンガポール民間防衛隊が遭遇した58,898件の無防備救急車事故を含む。 文章をラベル付けするために弱教師付きトレーニングアプローチが採用された。 その後、NERタスクを実行するために3つの異なるモデルを訓練しました。 3モデルともエンティティ型マッチング評価では0.981点,厳密評価では0.976点,BiLSTM-CRFモデルはBERTモデルより1~2桁ほど軽量で高速である。 提案手法は,非構造的救急用フリーテキストレポートから臨床エンティティを確実に識別できる名前付きエンティティ認識モデルを得た。 提案システムは,臨床成績監査の効率を向上し,EMSデータベースの研究にも役立てることができる。

Clinical performance audits are routinely performed in Emergency Medical Services (EMS) to ensure adherence to treatment protocols, to identify individual areas of weakness for remediation, and to discover systemic deficiencies to guide the development of the training syllabus. At present, these audits are performed by manual chart review which is time-consuming and laborious. In this paper, we present an automatic audit system based on both the structured and unstructured ambulance case records and clinical notes with a deep neural network-based named entities recognition model. The dataset used in this study contained 58,898 unlabelled ambulance incidents encountered by the Singapore Civil Defence Force from 1st April 2019 to 30th June 2019. A weakly-supervised training approach was adopted to label the sentences. Later on, we trained three different models to perform the NER task. All three models achieve F1 scores of around 0.981 under entity type matching evaluation and around 0.976 under strict evaluation, while the BiLSTM-CRF model is 1~2 orders of magnitude lighter and faster than our BERT-based models. Overall, our approach yielded a named entity recognition model that could reliably identify clinical entities from unstructured paramedic free-text reports. Our proposed system may improve the efficiency of clinical performance audits and can also help with EMS database research.
翻訳日:2022-11-12 19:06:16 公開日:2020-07-07
# 高速摂動アルゴリズム構成器

Fast Perturbative Algorithm Configurators ( http://arxiv.org/abs/2007.03336v1 )

ライセンス: Link先を確認
George T. Hall, Pietro Simone Oliveto, Dirk Sudholt(参考訳) 最近の研究で、ParamRLSとParamILSアルゴリズムは、標準ベンチマーク関数の単純なランダム化された探索ヒューリスティックをパラメータ空間のサイズで線形期待時間で調整できることが示されている。 本稿では,ParamRLS,ParamILS,およびより大規模なアルゴリズム構成系に対して,パラメータチューニング問題を最適化するための期待時間に基づく線形下界を証明した。 そこで本研究では,単調およびほぼ一様(非スムース)なパラメータ空間に対して,単一パラメータアルゴリズムを多対数時間で確実にチューニングする摂動アルゴリズム構成器のための調和的突然変異演算子を提案する。 最悪の場合(例えば偽り)のランドスケープにおいても、paramrlsやparamilsで使われるデフォルトのものよりも少なくとも対数係数の方が遅いため、汎用演算子として適している。 実験的な分析により、複数のパラメータを含む多くの設定シナリオにおいて、実際にアプローチの優位性を確認する。

Recent work has shown that the ParamRLS and ParamILS algorithm configurators can tune some simple randomised search heuristics for standard benchmark functions in linear expected time in the size of the parameter space. In this paper we prove a linear lower bound on the expected time to optimise any parameter tuning problem for ParamRLS, ParamILS as well as for larger classes of algorithm configurators. We propose a harmonic mutation operator for perturbative algorithm configurators that provably tunes single-parameter algorithms in polylogarithmic time for unimodal and approximately unimodal (i.e., non-smooth, rugged with an underlying gradient towards the optimum) parameter spaces. It is suitable as a general-purpose operator since even on worst-case (e.g., deceptive) landscapes it is only by at most a logarithmic factor slower than the default ones used by ParamRLS and ParamILS. An experimental analysis confirms the superiority of the approach in practice for a number of configuration scenarios, including ones involving more than one parameter.
翻訳日:2022-11-12 19:05:54 公開日:2020-07-07
# 深層強化学習とその神経科学的意義

Deep Reinforcement Learning and its Neuroscientific Implications ( http://arxiv.org/abs/2007.03750v1 )

ライセンス: Link先を確認
Matthew Botvinick, Jane X. Wang, Will Dabney, Kevin J. Miller, Zeb Kurth-Nelson(参考訳) 強力な人工知能の出現は神経科学の新しい研究方向を定義している。 この研究は、画像分類などのタスクにおいて、教師付き学習を用いて訓練されたディープニューラルネットワークに主に焦点を当てている。 しかし、近年のAI研究の分野は、神経科学者からはあまり注目されていないが、深い強化学習という、深い神経科学的意味を持つかもしれない。 Deep RLは、学習、表現、意思決定の間の相互作用を研究するための包括的なフレームワークを提供し、脳科学に新しい研究ツールと幅広い新しい仮説を提供する。 本稿では,deep rlの高レベルな紹介を行い,その初期応用を神経科学に論じ,脳と行動の研究に広く影響し,次の段階研究の機会の一覧をまとめる。

The emergence of powerful artificial intelligence is defining new research directions in neuroscience. To date, this research has focused largely on deep neural networks trained using supervised learning, in tasks such as image classification. However, there is another area of recent AI work which has so far received less attention from neuroscientists, but which may have profound neuroscientific implications: deep reinforcement learning. Deep RL offers a comprehensive framework for studying the interplay among learning, representation and decision-making, offering to the brain sciences a new set of research tools and a wide range of novel hypotheses. In the present review, we provide a high-level introduction to deep RL, discuss some of its initial applications to neuroscience, and survey its wider implications for research on brain and behavior, concluding with a list of opportunities for next-stage research.
翻訳日:2022-11-12 19:05:34 公開日:2020-07-07
# シングルショットmcドロップアウト近似

Single Shot MC Dropout Approximation ( http://arxiv.org/abs/2007.03293v1 )

ライセンス: Link先を確認
Kai Brach, Beate Sick, Oliver D\"urr(参考訳) ディープニューラルネットワーク(DNN)はその高い予測性能、特に物体認識や自律運転といった知覚的なタスクで知られている。 それでも、DNNは不確実性を示すことなく全く新しい状況に遭遇した場合、信頼できない予測を得る傾向にある。 MCドロップアウトBDNNのようなDNN(BDNN)のベイズ変種は不確実性対策を提供する。 しかしながら、BDNNはサンプリングアプローチに依存するため、テスト期間中は遅い。 ここでは,BDNN の利点を DNN よりも遅く抑える一発の MC ドロップアウト近似を提案する。 本手法は,完全接続ネットワークの各層について,期待値とmcドロップアウト信号のばらつきを解析的に近似するものである。 我々は、異なるベンチマークデータセットとシミュレーションされたおもちゃの例についてアプローチを評価した。 我々の単発MCドロップアウト近似は,BDNNのリアルタイム展開に十分高速でありながら,MCアプローチで達成される予測分布の点推定と不確実性推定に類似していることを示す。

Deep neural networks (DNNs) are known for their high prediction performance, especially in perceptual tasks such as object recognition or autonomous driving. Still, DNNs are prone to yield unreliable predictions when encountering completely new situations without indicating their uncertainty. Bayesian variants of DNNs (BDNNs), such as MC dropout BDNNs, do provide uncertainty measures. However, BDNNs are slow during test time because they rely on a sampling approach. Here we present a single shot MC dropout approximation that preserves the advantages of BDNNs without being slower than a DNN. Our approach is to analytically approximate for each layer in a fully connected network the expected value and the variance of the MC dropout signal. We evaluate our approach on different benchmark datasets and a simulated toy example. We demonstrate that our single shot MC dropout approximation resembles the point estimate and the uncertainty estimate of the predictive distribution that is achieved with an MC approach, while being fast enough for real-time deployments of BDNNs.
翻訳日:2022-11-12 18:58:43 公開日:2020-07-07
# 特徴分断協調学習におけるバックドア攻撃と防御

Backdoor attacks and defenses in feature-partitioned collaborative learning ( http://arxiv.org/abs/2007.03608v1 )

ライセンス: Link先を確認
Yang Liu, Zhihao Yi, Tianjian Chen(参考訳) 協調学習には複数のパーティがあるため、悪意のあるパーティはバックドア攻撃を通じて学習プロセスを操作することができる。 しかしながら、既存の作業のほとんどは、データがサンプルによって分割されるフェデレーション学習シナリオのみを考慮しています。 多くの現実世界のアプリケーションでは、機能はしばしば異なるパーティに分散するため、機能分割学習は重要なシナリオになり得る。 このようなシナリオにおける攻撃と防御は、攻撃者がラベルがなく、防御者が他の参加者のデータやモデルパラメータにアクセスできない場合、特に難しい。 本稿では,ラベルにアクセスできない者でもバックドア攻撃を効果的に注入でき,メイン・バックドアともに高い精度が得られることを示す。 次に,これらの手法を組み合わせることで,メインタスクの精度を損なうことなく,バックドアをブロックできることを実証する。 私たちの知る限りでは、この機能を分割した協調学習フレームワークにおいて、バックドア攻撃に対処する最初の体系的な研究である。

Since there are multiple parties in collaborative learning, malicious parties might manipulate the learning process for their own purposes through backdoor attacks. However, most of existing works only consider the federated learning scenario where data are partitioned by samples. The feature-partitioned learning can be another important scenario since in many real world applications, features are often distributed across different parties. Attacks and defenses in such scenario are especially challenging when the attackers have no labels and the defenders are not able to access the data and model parameters of other participants. In this paper, we show that even parties with no access to labels can successfully inject backdoor attacks, achieving high accuracy on both main and backdoor tasks. Next, we introduce several defense techniques, demonstrating that the backdoor can be successfully blocked by a combination of these techniques without hurting main task accuracy. To the best of our knowledge, this is the first systematical study to deal with backdoor attacks in the feature-partitioned collaborative learning framework.
翻訳日:2022-11-12 18:57:27 公開日:2020-07-07
# GraphOpt: グラフ生成の学習最適化モデル

GraphOpt: Learning Optimization Models of Graph Formation ( http://arxiv.org/abs/2007.03619v1 )

ライセンス: Link先を確認
Rakshit Trivedi, Jiachen Yang, Hongyuan Zha(参考訳) 形成機構は複雑なネットワークの研究に基本であるが、観察から学ぶことは困難である。 実世界の領域では、完全な構築プロセスの代わりに最終的な構築されたグラフにのみアクセスでき、観測されたグラフは複雑な構造特性を示す。 本研究では,グラフ構造形成の暗黙的モデルを共同で学習し,潜在目的関数の形で基盤となる最適化機構を発見するエンドツーエンドフレームワークであるGraphOptを提案する。 学習した目的は、観測されたグラフプロパティの説明として機能し、ドメイン内の異なるグラフ間での移動を可能にする。 GraphOptは、グラフ内のリンク生成をシーケンシャルな意思決定プロセスとして、最大エントロピー逆強化学習アルゴリズムを用いて解決する。 さらに、スケーラビリティを支援する新しい連続潜在アクションスペースも採用している。 実験により,GraphOptは,異なる特性を持つグラフを横断的に移動可能な潜在目的物を発見した。 またgraphoptは、このタスクで明示的に訓練されることなく競合リンク予測性能を達成するロバストな確率ポリシーを学び、さらに観察されたグラフと同様の特性を持つグラフの構築を可能にする。

Formation mechanisms are fundamental to the study of complex networks, but learning them from observations is challenging. In real-world domains, one often has access only to the final constructed graph, instead of the full construction process, and observed graphs exhibit complex structural properties. In this work, we propose GraphOpt, an end-to-end framework that jointly learns an implicit model of graph structure formation and discovers an underlying optimization mechanism in the form of a latent objective function. The learned objective can serve as an explanation for the observed graph properties, thereby lending itself to transfer across different graphs within a domain. GraphOpt poses link formation in graphs as a sequential decision-making process and solves it using maximum entropy inverse reinforcement learning algorithm. Further, it employs a novel continuous latent action space that aids scalability. Empirically, we demonstrate that GraphOpt discovers a latent objective transferable across graphs with different characteristics. GraphOpt also learns a robust stochastic policy that achieves competitive link prediction performance without being explicitly trained on this task and further enables construction of graphs with properties similar to those of the observed graph.
翻訳日:2022-11-12 18:57:12 公開日:2020-07-07
# 確率的安全最適化におけるメタアクティブ学習

Meta-active Learning in Probabilistically-Safe Optimization ( http://arxiv.org/abs/2007.03742v1 )

ライセンス: Link先を確認
Mariah L. Schrum, Mark Connolly, Eric Cole, Mihir Ghetiya, Robert Gross, Matthew C. Gombolay(参考訳) 潜在力学(例えば深部脳刺激)を持つ安全クリティカルシステムを制御するための学習は、できるだけ効率的に情報を得るために計算されたリスクを取る必要がある。 そこで本研究では,システムダイナミクスと最適構成を効率的に学習するための確率論的に安全なメタアクティブ学習手法を提案する。 我々は,この問題を,サンプリング履歴を符号化したLong-Short Term Memory Network (LSTM) で表される取得関数のメタラーニングとして用いた。 この取得機能は、高品質なサンプリング戦略を学ぶために、オフラインでメタ学習される。 我々は, lstm取得関数の最終的な線形化層を, 期待情報ゲイン(例えば, システムダイナミクスのモデル精度の向上)を, 安全な制御の可能性をトレードオフする目的で直接エンコードした, 混合整数線形プログラムをポリシとして採用する。 本研究では,情報利得の46%向上とベースライン上の計算時間の20%の高速化を実現するために,動的に変化した高次元システム(すなわち損傷航空機)を制御するための,アクティブラーニングにおける新たな最先端技術を設定した。 さらに,ラット脳の深部脳刺激に対する最適なパラメータ設定を学習する能力を示すとともに,望ましくない副作用(つまり発作を引き起こす)を避けつつ,情報獲得率を58%向上させ,先行研究を上回った。 さらに,このアルゴリズムは,情報ゲインの15%しか失わず,安全な状態で終了する確率が97%に達する。

Learning to control a safety-critical system with latent dynamics (e.g. for deep brain stimulation) requires taking calculated risks to gain information as efficiently as possible. To address this problem, we present a probabilistically-safe, meta-active learning approach to efficiently learn system dynamics and optimal configurations. We cast this problem as meta-learning an acquisition function, which is represented by a Long-Short Term Memory Network (LSTM) encoding sampling history. This acquisition function is meta-learned offline to learn high quality sampling strategies. We employ a mixed-integer linear program as our policy with the final, linearized layers of our LSTM acquisition function directly encoded into the objective to trade off expected information gain (e.g., improvement in the accuracy of the model of system dynamics) with the likelihood of safe control. We set a new state-of-the-art in active learning for control of a high-dimensional system with altered dynamics (i.e., a damaged aircraft), achieving a 46% increase in information gain and a 20% speedup in computation time over baselines. Furthermore, we demonstrate our system's ability to learn the optimal parameter settings for deep brain stimulation in a rat's brain while avoiding unwanted side effects (i.e., triggering seizures), outperforming prior state-of-the-art approaches with a 58% increase in information gain. Additionally, our algorithm achieves a 97% likelihood of terminating in a safe state while losing only 15% of information gain.
翻訳日:2022-11-12 18:56:39 公開日:2020-07-07
# ラベル強化と分布学習のための双方向損失関数

Bidirectional Loss Function for Label Enhancement and Distribution Learning ( http://arxiv.org/abs/2007.03181v1 )

ライセンス: Link先を確認
Xinyuan Liu, Jihua Zhu, Qinghai Zheng, Zhongyu Li, Ruixin Liu and Jun Wang(参考訳) label distribution learning (ldl) は解釈可能で一般的な学習パラダイムであり、多くの現実世界のアプリケーションに適用されている。 シングルラベル学習(SLL)とマルチラベル学習(MLL)の単純な論理ベクトルとは対照的に、LDLは各インスタンスに記述度でラベルを割り当てる。 実際には、LCLの学習過程における次元ギャップ問題への対処方法と、既存の論理ラベルからラベル分布を正確に回収する方法、すなわちラベル拡張(LE)という2つの課題が存在する。 既存のほとんどの ldl と le アルゴリズムでは、入力行列の次元が出力行列の次元よりもはるかに大きいという事実は無視されるが、通常は一方向射影による次元の縮小をもたらす。 機能空間に隠された貴重な情報はマッピングプロセス中に失われます。 そこで本研究では,LE問題とLCL問題に同時に適用可能な双方向投影関数について検討した。 より具体的には、この新規な損失関数は、入力空間の投影から生成されたマッピングエラーを出力空間に考慮するだけでなく、出力空間の投影から生成された再構成エラーを入力空間に戻す。 この損失関数は、出力データから入力データを潜在的に再構成することを目的としている。 そのため,より正確な結果が得られることが期待される。 最後に,LDLとLELの両方に対して提案手法の優位性を示すために,実世界の複数のデータセットの実験を行った。

Label distribution learning (LDL) is an interpretable and general learning paradigm that has been applied in many real-world applications. In contrast to the simple logical vector in single-label learning (SLL) and multi-label learning (MLL), LDL assigns labels with a description degree to each instance. In practice, two challenges exist in LDL, namely, how to address the dimensional gap problem during the learning process of LDL and how to exactly recover label distributions from existing logical labels, i.e., Label Enhancement (LE). For most existing LDL and LE algorithms, the fact that the dimension of the input matrix is much higher than that of the output one is alway ignored and it typically leads to the dimensional reduction owing to the unidirectional projection. The valuable information hidden in the feature space is lost during the mapping process. To this end, this study considers bidirectional projections function which can be applied in LE and LDL problems simultaneously. More specifically, this novel loss function not only considers the mapping errors generated from the projection of the input space into the output one but also accounts for the reconstruction errors generated from the projection of the output space back to the input one. This loss function aims to potentially reconstruct the input data from the output data. Therefore, it is expected to obtain more accurate results. Finally, experiments on several real-world datasets are carried out to demonstrate the superiority of the proposed method for both LE and LDL.
翻訳日:2022-11-12 18:49:44 公開日:2020-07-07
# ASGN:分子特性予測のためのアクティブ半教師付きグラフニューラルネットワーク

ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction ( http://arxiv.org/abs/2007.03196v1 )

ライセンス: Link先を確認
Zhongkai Hao, Chengqiang Lu, Zheyuan Hu, Hao Wang, Zhenya Huang, Qi Liu, Enhong Chen, Cheekong Lee(参考訳) 分子特性予測(例えばエネルギー)は化学や生物学において重要な問題である。 残念なことに、多くの教師付き学習法は、一般に化学空間における希少なラベル付き分子の問題に悩まされ、そのような特性ラベルは、非常に計算コストのかかる密度汎関数理論(DFT)計算によって得られる。 効果的な解決策は、ラベルのない分子を半監督的な方法で組み込むことである。 しかし、分子の本質と構造の両方の合同表現問題、表現と特性の傾きの衝突など、大量の分子に対する半教師付き表現の学習は困難である。 本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。 具体的には、ASGNは教師学生のフレームワークを採用する。 教師モデルでは,分子構造と分子分布から情報を利用する一般表現を学習するための,新しい半教師学習法を提案する。 そして,学生モデルにおいて,学習損失紛争に対応するために,資産予測タスクを目標とした。 最後に,フレームワーク全体の学習中に情報量を選択するための分子多様性の観点から,新しいアクティブラーニング戦略を提案する。 いくつかの公開データセットに対して広範な実験を行う。 実験の結果,ASGNフレームワークの性能は顕著であった。

Molecular property prediction (e.g., energy) is an essential problem in chemistry and biology. Unfortunately, many supervised learning methods usually suffer from the problem of scarce labeled molecules in the chemical space, where such property labels are generally obtained by Density Functional Theory (DFT) calculation which is extremely computational costly. An effective solution is to incorporate the unlabeled molecules in a semi-supervised fashion. However, learning semi-supervised representation for large amounts of molecules is challenging, including the joint representation issue of both molecular essence and structure, the conflict between representation and property leaning. Here we propose a novel framework called Active Semi-supervised Graph Neural Network (ASGN) by incorporating both labeled and unlabeled molecules. Specifically, ASGN adopts a teacher-student framework. In the teacher model, we propose a novel semi-supervised learning method to learn general representation that jointly exploits information from molecular structure and molecular distribution. Then in the student model, we target at property prediction task to deal with the learning loss conflict. At last, we proposed a novel active learning strategy in terms of molecular diversities to select informative data during the whole framework learning. We conduct extensive experiments on several public datasets. Experimental results show the remarkable performance of our ASGN framework.
翻訳日:2022-11-12 18:49:19 公開日:2020-07-07
# ソフトラベリングはディープニューラルネットワークの分散検出に影響を及ぼす

Soft Labeling Affects Out-of-Distribution Detection of Deep Neural Networks ( http://arxiv.org/abs/2007.03212v1 )

ライセンス: Link先を確認
Doyup Lee and Yeongjae Cheon(参考訳) ソフトラベリングはディープニューラルネットワークの一般化とモデル圧縮のための共通出力正規化となる。 しかし、機械学習の安全性の重要なトピックであるアウト・オブ・ディストリビューション(OOD)検出に対するソフトラベリングの効果は検討されていない。 本研究では,ソフトラベリングによりOOD検出性能が決定可能であることを示す。 具体的には、ソフトラベリングによって不正なクラスの出力を正規化する方法は、OOD検出を劣化または改善することができる。 ソフトラベリングによる適切な出力正規化により、OODサンプルの追加トレーニングやモデル修正をすることなく、OOD-robust DNNを構築することができ、分類精度を向上させることができる。

Soft labeling becomes a common output regularization for generalization and model compression of deep neural networks. However, the effect of soft labeling on out-of-distribution (OOD) detection, which is an important topic of machine learning safety, is not explored. In this study, we show that soft labeling can determine OOD detection performance. Specifically, how to regularize outputs of incorrect classes by soft labeling can deteriorate or improve OOD detection. Based on the empirical results, we postulate a future work for OOD-robust DNNs: a proper output regularization by soft labeling can construct OOD-robust DNNs without additional training of OOD samples or modifying the models, while improving classification accuracy.
翻訳日:2022-11-12 18:49:00 公開日:2020-07-07
# 自己教師付きインスタンスフィルタリングとエラーマッププラニングによるオンデバイスcnnトレーニングの実現

Enabling On-Device CNN Training by Self-Supervised Instance Filtering and Error Map Pruning ( http://arxiv.org/abs/2007.03213v1 )

ライセンス: Link先を確認
Yawen Wu, Zhepeng Wang, Yiyu Shi, Jingtong Hu(参考訳) 本研究の目的は、トレーニング時の計算コストを削減し、デバイス上での畳み込みニューラルネットワーク(CNN)のトレーニングを可能にすることである。 cnnモデルは通常高性能コンピュータで訓練され、訓練されたモデルのみがエッジデバイスにデプロイされる。 しかし、静的に訓練されたモデルは実際の環境では動的に適応できず、新しい入力に対して精度が低下する可能性がある。 デプロイ後の実世界のデータから学習するオンデバイストレーニングは、精度を大幅に向上させる。 しかし、高い計算コストにより、リソース制約のあるデバイスに対するトレーニングが禁止される。 そこで本研究では,データレベルの自己教師付き初期インスタンスフィルタリングとアルゴリズムレベルでのエラーマッププラニングという2つの相補的アプローチにより,学習における計算冗長性を調査し,計算コストを削減する。 初期インスタンスフィルタは入力ストリームから重要なインスタンスを選択してネットワークをトレーニングし、簡単なインスタンスをドロップする。 エラーマップの刈り取りは、選択したインスタンスでトレーニングする場合、さらに重要な計算を除外する。 大規模な実験では、計算コストが限界精度の損失なしに大幅に削減されている。 例えば、CIFAR-10上でResNet-110をトレーニングする場合、完全精度と75%の計算節約を保ちながら68%の計算節約を達成し、限界精度の損失は1.3%である。 提案手法に量子化を組み込むと、0.1%未満の精度で96%の攻撃的計算節約が達成される。 さらに、mnistでlenetをトレーニングする場合、79%の計算を節約し、精度を0.2%向上させる。

This work aims to enable on-device training of convolutional neural networks (CNNs) by reducing the computation cost at training time. CNN models are usually trained on high-performance computers and only the trained models are deployed to edge devices. But the statically trained model cannot adapt dynamically in a real environment and may result in low accuracy for new inputs. On-device training by learning from the real-world data after deployment can greatly improve accuracy. However, the high computation cost makes training prohibitive for resource-constrained devices. To tackle this problem, we explore the computational redundancies in training and reduce the computation cost by two complementary approaches: self-supervised early instance filtering on data level and error map pruning on the algorithm level. The early instance filter selects important instances from the input stream to train the network and drops trivial ones. The error map pruning further prunes out insignificant computations when training with the selected instances. Extensive experiments show that the computation cost is substantially reduced without any or with marginal accuracy loss. For example, when training ResNet-110 on CIFAR-10, we achieve 68% computation saving while preserving full accuracy and 75% computation saving with a marginal accuracy loss of 1.3%. Aggressive computation saving of 96% is achieved with less than 0.1% accuracy loss when quantization is integrated into the proposed approaches. Besides, when training LeNet on MNIST, we save 79% computation while boosting accuracy by 0.2%.
翻訳日:2022-11-12 18:48:45 公開日:2020-07-07
# 周波数領域正規化によるロバスト学習

Robust Learning with Frequency Domain Regularization ( http://arxiv.org/abs/2007.03244v1 )

ライセンス: Link先を確認
Weiyu Guo, Yidong Ouyang(参考訳) 畳み込みニューラルネットワークは、コンピュータビジョンの多くのタスクにおいて顕著な性能を達成した。 しかし、CNNは低周波成分に偏りがある。 アプリケーションシナリオの変換に苦しむ場合にフェールする低頻度パターンのキャプチャを優先する。 逆の例は、モデルが高周波摂動に対して非常に敏感であることを示している。 本稿では,モデルのフィルタの周波数スペクトルを制約することにより,新たな正規化手法を提案する。 帯域制限トレーニングと異なり,連続的ではなく異なる層で有効な周波数範囲が絡み合っており,バックプロパゲーションによりエンドツーエンドで有効な周波数範囲を訓練する。 本研究は,(1)逆摂動に対する防御,(2)異なるアーキテクチャにおける一般化ギャップの低減、(3)微調整を伴わない転向学習シナリオにおける一般化能力の向上による正規化の有効性を示す。

Convolution neural networks have achieved remarkable performance in many tasks of computing vision. However, CNN tends to bias to low frequency components. They prioritize capturing low frequency patterns which lead them fail when suffering from application scenario transformation. While adversarial example implies the model is very sensitive to high frequency perturbations. In this paper, we introduce a new regularization method by constraining the frequency spectra of the filter of the model. Different from band-limit training, our method considers the valid frequency range probably entangles in different layers rather than continuous and trains the valid frequency range end-to-end by backpropagation. We demonstrate the effectiveness of our regularization by (1) defensing to adversarial perturbations; (2) reducing the generalization gap in different architecture; (3) improving the generalization ability in transfer learning scenario without fine-tune.
翻訳日:2022-11-12 18:48:03 公開日:2020-07-07
# Auto-CASH: ディープQネットワークを用いた自動分類アルゴリズムの選択

Auto-CASH: Autonomous Classification Algorithm Selection with Deep Q-Network ( http://arxiv.org/abs/2007.03254v1 )

ライセンス: Link先を確認
Tianyu Mu, Hongzhi Wang, Chunnan Wang, Zheng Liang(参考訳) さまざまなデータソースから生成される膨大なデータセットは、機械学習アルゴリズムの選択とハイパーパラメータの設定に挑戦している。 特定の機械学習タスクでは、ドメインの専門家が適切なアルゴリズムを選択してハイパーパラメータを設定するのに多くの時間を要する。 アルゴリズム選択とハイパーパラメータ最適化の問題を自動で解くことができれば、タスクは性能保証とともにより効率的に実行される。 このような問題は現金問題とも呼ばれる。 初期の仕事は大量の人的労働を必要とするか、高い時間や空間の複雑さに悩まされる。 本研究では,キャッシュ問題をより効率的に解くために,メタラーニングに基づく事前学習モデルであるauto-cashを提案する。 Auto-CASHは、Deep Q-Networkを使用してデータセットごとにメタ機能を自動的に選択する最初のアプローチである。 本モデルの有効性を示すために,実世界の120の分類データセットについて広範な実験を行った。 従来のCASH法や最先端CASH法と比較して,Auto-CASHは短時間で性能が向上することを示す実験結果が得られた。

The great amount of datasets generated by various data sources have posed the challenge to machine learning algorithm selection and hyperparameter configuration. For a specific machine learning task, it usually takes domain experts plenty of time to select an appropriate algorithm and configure its hyperparameters. If the problem of algorithm selection and hyperparameter optimization can be solved automatically, the task will be executed more efficiently with performance guarantee. Such problem is also known as the CASH problem. Early work either requires a large amount of human labor, or suffers from high time or space complexity. In our work, we present Auto-CASH, a pre-trained model based on meta-learning, to solve the CASH problem more efficiently. Auto-CASH is the first approach that utilizes Deep Q-Network to automatically select the meta-features for each dataset, thus reducing the time cost tremendously without introducing too much human labor. To demonstrate the effectiveness of our model, we conduct extensive experiments on 120 real-world classification datasets. Compared with classical and the state-of-art CASH approaches, experimental results show that Auto-CASH achieves better performance within shorter time.
翻訳日:2022-11-12 18:47:46 公開日:2020-07-07
# 注意誘導β-CycleGANを用いた教師なしCT金属アーチファクト学習

Unsupervised CT Metal Artifact Learning using Attention-guided beta-CycleGAN ( http://arxiv.org/abs/2007.03480v1 )

ライセンス: Link先を確認
Junghyun Lee, Jawook Gu, and Jong Chul Ye(参考訳) 金属アーチファクトリダクション(MAR)はCT(Computed tomography)において最も重要な研究課題の一つである。 画像再構成のための深層学習技術の進歩に伴い、様々な深層学習手法が金属片の除去にも提案され、その中でも教師付き学習法が最も人気である。 しかし, 実際のCT画像取得では, 非金属画像と金属画像のマッチングは困難である。 近年,marのための有望な教師なし学習が特徴的異方性を用いて提案されているが,ネットワークアーキテクチャは複雑であり,大規模臨床画像の処理が困難である。 そこで本研究では,CTのためのよりシンプルで効果的な教師なしMAR法を提案する。 提案手法は,適切な特徴空間の不等角化のための最適輸送理論に基づく新しいベータサイクガンアーキテクチャに基づいている。 もう一つの重要な貢献は、注意機構が金属のアーティファクトを効果的に除去する鍵となる要素であることを示すことである。 具体的には、畳み込みブロックアテンションモジュール(CBAM)層に適切な乱れパラメータを加えることで、元の画像の詳細なテクスチャを保存したMARをより改善できることを確認した。

Metal artifact reduction (MAR) is one of the most important research topics in computed tomography (CT). With the advance of deep learning technology for image reconstruction,various deep learning methods have been also suggested for metal artifact removal, among which supervised learning methods are most popular. However, matched non-metal and metal image pairs are difficult to obtain in real CT acquisition. Recently, a promising unsupervised learning for MAR was proposed using feature disentanglement, but the resulting network architecture is complication and difficult to handle large size clinical images. To address this, here we propose a much simpler and much effective unsupervised MAR method for CT. The proposed method is based on a novel beta-cycleGAN architecture derived from the optimal transport theory for appropriate feature space disentanglement. Another important contribution is to show that attention mechanism is the key element to effectively remove the metal artifacts. Specifically, by adding the convolutional block attention module (CBAM) layers with a proper disentanglement parameter, experimental results confirm that we can get more improved MAR that preserves the detailed texture of the original image.
翻訳日:2022-11-12 18:40:38 公開日:2020-07-07
# データ構造の分散表現を分解する共振器ネットワーク

Resonator networks for factoring distributed representations of data structures ( http://arxiv.org/abs/2007.03748v1 )

ライセンス: Link先を確認
E. Paxon Frady, Spencer Kent, Bruno A. Olshausen, Friedrich T. Sommer(参考訳) 分散ニューラルネットワークでデータ構造をエンコードし、操作する能力は、認識の中心的特性であるルールベースの象徴的推論をサポートすることによって、従来のニューラルネットワークの能力を定性的に向上させることができる。 ここでは、これをベクトル記号型アーキテクチャ(vsa)の枠組み(plate, 1991, gayler, 1998, kanerva, 1996)で実現し、高次元ベクトルと分散表現の空間上の代数を形成する演算を組み合わせることでデータ構造を符号化する方法を示す。 特に、VSAデータ構造の要素を復号化する際に発生するハード組合せ探索問題に対する効率的な解を提案する。 提案するアルゴリズムは共振器ネットワークと呼ばれ、vsa乗算演算とパターン補完をインターリーブする新しいタイプのリカレントニューラルネットワークである。 木のようなデータ構造の解析と視覚シーンのパースという2つの例で、分解問題がどのように発生し、共振器ネットワークがそれをどのように解決できるかを示す。 より広範に、共振器ネットワークは、現実世界のドメインにおける無数の人工知能問題にVSAを適用する可能性を開く。 共用紙(Kent et al., 2020)では、共振器ネットワークの性能の厳密な分析と評価を行い、代替手法よりも優れた性能を示す。

The ability to encode and manipulate data structures with distributed neural representations could qualitatively enhance the capabilities of traditional neural networks by supporting rule-based symbolic reasoning, a central property of cognition. Here we show how this may be accomplished within the framework of Vector Symbolic Architectures (VSA) (Plate, 1991; Gayler, 1998; Kanerva, 1996), whereby data structures are encoded by combining high-dimensional vectors with operations that together form an algebra on the space of distributed representations. In particular, we propose an efficient solution to a hard combinatorial search problem that arises when decoding elements of a VSA data structure: the factorization of products of multiple code vectors. Our proposed algorithm, called a resonator network, is a new type of recurrent neural network that interleaves VSA multiplication operations and pattern completion. We show in two examples -- parsing of a tree-like data structure and parsing of a visual scene -- how the factorization problem arises and how the resonator network can solve it. More broadly, resonator networks open the possibility to apply VSAs to myriad artificial intelligence problems in real-world domains. A companion paper (Kent et al., 2020) presents a rigorous analysis and evaluation of the performance of resonator networks, showing it out-performs alternative approaches.
翻訳日:2022-11-12 18:40:18 公開日:2020-07-07
# スパイクニューラルネットワークを用いた多変量時系列分類

Multivariate Time Series Classification Using Spiking Neural Networks ( http://arxiv.org/abs/2007.03547v1 )

ライセンス: Link先を確認
Haowen Fang, Amar Shrestha, Qinru Qiu(参考訳) IoT(Internet of Things)とCyber-Physical Systems(CPS)の進歩と拡張によって、組み込みデバイスのようなエネルギー制限されたシナリオで、時間データのストリームを処理する必要性が高まっている。 スパイクニューラルネットワークは、情報をスパーススパイクイベントとしてエンコードして処理することで、低消費電力を可能にするため、注目されている。 最近の研究は、空間時間情報を処理するSNNの能力も示している。 このような利点は、電力制限されたデバイスでリアルタイムセンサーデータを処理できる。 しかし、既存のSNNトレーニングアルゴリズムのほとんどはビジョンタスクに重点を置いており、時間的クレジット割り当てには対処していない。 さらに、広く採用されているレートエンコーディングは時間情報を無視しているため、時系列の表現には適していない。 本研究では,時系列を疎空間時空間スパイクパターンに変換する符号化方式を提案する。 また,空間時間パターンを分類する学習アルゴリズムを提案する。 提案されたアプローチは、UCRリポジトリ内の複数の時系列データセットで評価され、ディープニューラルネットワークに匹敵するパフォーマンスを達成した。

There is an increasing demand to process streams of temporal data in energy-limited scenarios such as embedded devices, driven by the advancement and expansion of Internet of Things (IoT) and Cyber-Physical Systems (CPS). Spiking neural network has drawn attention as it enables low power consumption by encoding and processing information as sparse spike events, which can be exploited for event-driven computation. Recent works also show SNNs' capability to process spatial temporal information. Such advantages can be exploited by power-limited devices to process real-time sensor data. However, most existing SNN training algorithms focus on vision tasks and temporal credit assignment is not addressed. Furthermore, widely adopted rate encoding ignores temporal information, hence it's not suitable for representing time series. In this work, we present an encoding scheme to convert time series into sparse spatial temporal spike patterns. A training algorithm to classify spatial temporal patterns is also proposed. Proposed approach is evaluated on multiple time series datasets in the UCR repository and achieved performance comparable to deep neural networks.
翻訳日:2022-11-12 18:39:54 公開日:2020-07-07
# DAM:視覚対話における詳細・非反復応答生成のための検討・放棄・記憶ネットワーク

DAM: Deliberation, Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue ( http://arxiv.org/abs/2007.03310v1 )

ライセンス: Link先を確認
Xiaoze Jiang, Jing Yu, Yajing Sun, Zengchang Qin, Zihao Zhu, Yue Hu, Qi Wu(参考訳) 視覚対話タスクでは、エージェントが画像について人間と会話することが必要となる。 詳細かつ非反復的な応答を生成する能力は、エージェントが人間のような会話を達成するために不可欠である。 本稿では,高品質な応答を生成するための新しい生成型デコーディングアーキテクチャを提案する。 このアーキテクチャでは、単語生成を一連の注意に基づく情報選択ステップに分解し、新しいリカレントDeliberation, Abandon and Memory (DAM)モジュールによって実行される。 各DAMモジュールは、エンコーダから取得した応答レベルセマンティクスと、各単語を生成するために選択されたワードレベルセマンティクスとを適応的に組み合わせる。 したがって、応答は意味的精度を維持しながら、より詳細で反復的でない記述を含む。 さらに、DAMは、既存の視覚対話エンコーダと協調し、DAMの情報選択モードを制約することにより、エンコーダ構造に適応する。 3つの典型的なエンコーダにDAMを適用し、VisDial v1.0データセットのパフォーマンスを検証する。 実験結果から,提案モデルでは,高品質な応答を持つ新しい最先端性能が得られた。 コードはhttps://github.com/jxze/damで入手できる。

Visual Dialogue task requires an agent to be engaged in a conversation with human about an image. The ability of generating detailed and non-repetitive responses is crucial for the agent to achieve human-like conversation. In this paper, we propose a novel generative decoding architecture to generate high-quality responses, which moves away from decoding the whole encoded semantics towards the design that advocates both transparency and flexibility. In this architecture, word generation is decomposed into a series of attention-based information selection steps, performed by the novel recurrent Deliberation, Abandon and Memory (DAM) module. Each DAM module performs an adaptive combination of the response-level semantics captured from the encoder and the word-level semantics specifically selected for generating each word. Therefore, the responses contain more detailed and non-repetitive descriptions while maintaining the semantic accuracy. Furthermore, DAM is flexible to cooperate with existing visual dialogue encoders and adaptive to the encoder structures by constraining the information selection mode in DAM. We apply DAM to three typical encoders and verify the performance on the VisDial v1.0 dataset. Experimental results show that the proposed models achieve new state-of-the-art performance with high-quality responses. The code is available at https://github.com/JXZe/DAM.
翻訳日:2022-11-12 18:39:36 公開日:2020-07-07
# SVD-based Mixture of Recurrent Experts を用いた画像キャプション

Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent Experts ( http://arxiv.org/abs/2007.03338v1 )

ライセンス: Link先を確認
Marzieh Heidari, Mehdi Ghatee, Ahmad Nickabadi, Arash Pourhasan Nezhad(参考訳) 視覚と自然言語処理の進歩により、画像キャプションの生成が求められている。 最近の論文で、Mathews、Xie、He [1]は、意味論とスタイルを分離してスタイル付きキャプションを生成する新しいモデルを拡張した。 本研究を継続して、特徴抽出のための画像エンコーダと、抽出された特徴の集合を単語集合に埋め込む再帰ネットワークの混合と、得られた単語をスタイライズされた文として結合する文生成器とを含む新しいキャプションモデルを開発した。 結果として得られたシステムはMixture of Recurrent Experts (MoRE)と呼ばれ、リカレントニューラルネットワーク(RNN)の行列の重み付けから特異値分解(SVD)を導出し、キャプションの多様性を高める新しいトレーニングアルゴリズムを使用している。 各分解ステップは、MoRE内のRNNの数に基づいて、特徴的な因子に依存する。 使用済み文生成器は、ペア画像のないスタイリング言語コーパスを提供するので、キャプションモデルも同じことができる。 さらに、スタイルや多様なキャプションは、密にラベル付けされた、あるいはスタイル化されたデータセット上でトレーニングすることなく抽出される。 このキャプションモデルを検証するために、標準的な実写画像キャプションデータセットであるMicrosoft COCOを使用する。 提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。 結果は、コンテンツ精度の点で、より良い説明を示す。

With great advances in vision and natural language processing, the generation of image captions becomes a need. In a recent paper, Mathews, Xie and He [1], extended a new model to generate styled captions by separating semantics and style. In continuation of this work, here a new captioning model is developed including an image encoder to extract the features, a mixture of recurrent networks to embed the set of extracted features to a set of words, and a sentence generator that combines the obtained words as a stylized sentence. The resulted system that entitled as Mixture of Recurrent Experts (MoRE), uses a new training algorithm that derives singular value decomposition (SVD) from weighting matrices of Recurrent Neural Networks (RNNs) to increase the diversity of captions. Each decomposition step depends on a distinctive factor based on the number of RNNs in MoRE. Since the used sentence generator gives a stylized language corpus without paired images, our captioning model can do the same. Besides, the styled and diverse captions are extracted without training on a densely labeled or styled dataset. To validate this captioning model, we use Microsoft COCO which is a standard factual image caption dataset. We show that the proposed captioning model can generate a diverse and stylized image captions without the necessity of extra-labeling. The results also show better descriptions in terms of content accuracy.
翻訳日:2022-11-12 18:32:15 公開日:2020-07-07
# RIFLE:完全連結LayErの再起動による深層移動学習の奥行きのバックプロパゲーション

RIFLE: Backpropagation in Depth for Deep Transfer Learning through Re-Initializing the Fully-connected LayEr ( http://arxiv.org/abs/2007.03349v1 )

ライセンス: Link先を確認
Xingjian Li, Haoyi Xiong, Haozhe An, Chengzhong Xu, Dejing Dou(参考訳) 事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。 トレーニングデータセットが小さい場合でも精度は大幅に向上するが、転送学習の結果は通常、CNNの重みが近い事前訓練されたモデル(Liuら、2019年)によって制約される。 本研究では,完全連結層をランダムにスクラッチで再初期化することにより,伝達学習環境におけるバックプロパゲーションの深化を図る,単純かつ効果的な手法であるライフルを提案する。 rifleは深層cnn層の重み付けに意味のある更新をもたらし、低レベル機能学習を改善し、ランダム化の効果は全体的な学習手順を通じて容易に収束することができる。 実験の結果、RIFLEを使用することで、幅広いデータセット上でのディープトランスファー学習の精度が大幅に向上し、Dropout、DropConnect、StochasticDepth、Disturb Label、Cyclic Learning Rateといった同様の目的で、0.5%から2%高いテスト精度で、既知のトリックよりも優れています。 RIFLEは深層CNN層に有意義な更新をもたらし、精度は向上した。

Fine-tuning the deep convolution neural network(CNN) using a pre-trained model helps transfer knowledge learned from larger datasets to the target task. While the accuracy could be largely improved even when the training dataset is small, the transfer learning outcome is usually constrained by the pre-trained model with close CNN weights (Liu et al., 2019), as the backpropagation here brings smaller updates to deeper CNN layers. In this work, we propose RIFLE - a simple yet effective strategy that deepens backpropagation in transfer learning settings, through periodically Re-Initializing the Fully-connected LayEr with random scratch during the fine-tuning procedure. RIFLE brings meaningful updates to the weights of deep CNN layers and improves low-level feature learning, while the effects of randomization can be easily converged throughout the overall learning procedure. The experiments show that the use of RIFLE significantly improves deep transfer learning accuracy on a wide range of datasets, out-performing known tricks for the similar purpose, such as Dropout, DropConnect, StochasticDepth, Disturb Label and Cyclic Learning Rate, under the same settings with 0.5% -2% higher testing accuracy. Empirical cases and ablation studies further indicate RIFLE brings meaningful updates to deep CNN layers with accuracy improved.
翻訳日:2022-11-12 18:30:45 公開日:2020-07-07
# C2G-Net:画像分類のための形態特性の爆発

C2G-Net: Exploiting Morphological Properties for Image Classification ( http://arxiv.org/abs/2007.03378v1 )

ライセンス: Link先を確認
Laurin Herbsthofer, Barbara Prietl, Martina Tomberger, Thomas Pieber, Pablo L\'opez-Garc\'ia(参考訳) 本稿では,生物細胞のような多くの類似物体を含む画像の形態特性を利用した画像分類用パイプラインC2G-Netを提案する。 C2G-Netは、(1)セグメント化を用いてオブジェクトを識別しグリッド上に配置する画像圧縮アルゴリズムであるCell2Gridと、(2)モデル解釈を容易にするために1万以下のトレーニング可能なパラメータを持つCNNアーキテクチャであるDeepLNiNoである。 c2g-netの性能をテストするために,多発性免疫組織化学画像を用いて大腸癌再発リスクの予測を行った。 生画像に基づいてトレーニングされた従来のCNNアーキテクチャと比較して、C2G-Netは、トレーニング時間が85%削減され、モデルの解釈が容易になった。

In this paper we propose C2G-Net, a pipeline for image classification that exploits the morphological properties of images containing a large number of similar objects like biological cells. C2G-Net consists of two components: (1) Cell2Grid, an image compression algorithm that identifies objects using segmentation and arranges them on a grid, and (2) DeepLNiNo, a CNN architecture with less than 10,000 trainable parameters aimed at facilitating model interpretability. To test the performance of C2G-Net we used multiplex immunohistochemistry images for predicting relapse risk in colon cancer. Compared to conventional CNN architectures trained on raw images, C2G-Net achieved similar prediction accuracy while training time was reduced by 85% and its model was is easier to interpret.
翻訳日:2022-11-12 18:30:05 公開日:2020-07-07
# 実世界とシミュレーションデータの同時学習によるAI運転オリンピックのシミュレーション学習手法

Imitation Learning Approach for AI Driving Olympics Trained on Real-world and Simulation Data Simultaneously ( http://arxiv.org/abs/2007.03514v1 )

ライセンス: Link先を確認
Mikita Sazanovich, Konstantin Chaika, Kirill Krinkin, Aleksei Shpilman(参考訳) 本稿では,AI Driving Olympics competitionにおけるレーン追従チャレンジの解法について,シミュレーションと実世界の混合データを用いた模擬学習を通して述べる。 AI Driving Olympicsは、2段階の競技だ。ステージ1では、アルゴリズムがシミュレーション環境で競い、最高のものが現実世界の決勝に進む。 参加者がコンペで遭遇する主な問題のひとつは、シミュレーション環境で最高のパフォーマンスのために訓練されたアルゴリズムが現実世界の環境では役に立たないことだ。 従来の制御アルゴリズムは、照明、道路タイプ、カメラ位置などの特定の運転条件に合わせて調整する必要があるため、タスク間の変換もうまく行わない。 この問題を克服するために,シミュレーションと実世界の両方から収集したデータセット上で模倣学習アルゴリズムをトレーニングし,すべての環境においてモデルが等しく動作するようにした。

In this paper, we describe our winning approach to solving the Lane Following Challenge at the AI Driving Olympics Competition through imitation learning on a mixed set of simulation and real-world data. AI Driving Olympics is a two-stage competition: at stage one, algorithms compete in a simulated environment with the best ones advancing to a real-world final. One of the main problems that participants encounter during the competition is that algorithms trained for the best performance in simulated environments do not hold up in a real-world environment and vice versa. Classic control algorithms also do not translate well between tasks since most of them have to be tuned to specific driving conditions such as lighting, road type, camera position, etc. To overcome this problem, we employed the imitation learning algorithm and trained it on a dataset collected from sources both from simulation and real-world, forcing our model to perform equally well in all environments.
翻訳日:2022-11-12 18:29:36 公開日:2020-07-07
# README: 公平性を考慮した表現学習

README: REpresentation learning by fairness-Aware Disentangling MEthod ( http://arxiv.org/abs/2007.03775v1 )

ライセンス: Link先を確認
Sungho Park, Dohyung Kim, Sunhee Hwang, Hyeran Byun(参考訳) フェア表現学習は、性別や年齢といった保護された属性に関して不変表現を符号化することを目的としている。 本稿では,公正表現学習のためのFD-VAE(Fairness-aware Disentangling Variational AutoEncoder)を設計する。 このネットワークは、遅延空間を3つの部分空間に切り離し、各部分空間に独立した情報を含むよう促すデコレーション損失を与える。 1)対象属性情報、 2)保護属性情報 3)相互属性情報。 表現学習後、保護属性情報を含む部分空間を除外することにより、この不整合表現をより公平な下流分類に活用する。 我々は,CelebAおよびUTK Faceデータセットの広範な実験を通じて,モデルの有効性を示す。 提案手法は,従来の最先端手法を,均等な機会と等化確率で大きなマージンで上回る。

Fair representation learning aims to encode invariant representation with respect to the protected attribute, such as gender or age. In this paper, we design Fairness-aware Disentangling Variational AutoEncoder (FD-VAE) for fair representation learning. This network disentangles latent space into three subspaces with a decorrelation loss that encourages each subspace to contain independent information: 1) target attribute information, 2) protected attribute information, 3) mutual attribute information. After the representation learning, this disentangled representation is leveraged for fairer downstream classification by excluding the subspace with the protected attribute information. We demonstrate the effectiveness of our model through extensive experiments on CelebA and UTK Face datasets. Our method outperforms the previous state-of-the-art method by large margins in terms of equal opportunity and equalized odds.
翻訳日:2022-11-12 18:29:20 公開日:2020-07-07
# 発達 BERTology の興味深い事例:空間性,伝達学習,一般化,脳について

The curious case of developmental BERTology: On sparsity, transfer learning, generalization and the brain ( http://arxiv.org/abs/2007.03774v1 )

ライセンス: Link先を確認
Xin Wang(参考訳) このエッセイでは,大きな言語モデル,伝達学習,ネットワーク圧縮のレンズを通して,ディープラーニングと神経科学の交点を探索する。 知覚的および認知的神経生理学が効果的な深層ニューラルネットワークアーキテクチャに影響を与え、脳を理解するのに有用なモデルとなっているのと同じように、ここでは生物学的な神経発達が、脳の成熟と老化に有用なモデルとなる、効率的で堅牢な最適化手順をいかに刺激するかを考察する。

In this essay, we explore a point of intersection between deep learning and neuroscience, through the lens of large language models, transfer learning and network compression. Just like perceptual and cognitive neurophysiology has inspired effective deep neural network architectures which in turn make a useful model for understanding the brain, here we explore how biological neural development might inspire efficient and robust optimization procedures which in turn serve as a useful model for the maturation and aging of the brain.
翻訳日:2022-11-12 18:23:14 公開日:2020-07-07
# 集合被覆と旅行セールスマン問題を組み合わせた学習

Learning Combined Set Covering and Traveling Salesman Problem ( http://arxiv.org/abs/2007.03203v1 )

ライセンス: Link先を確認
Yuwen Yang, Jayant Rajgopal(参考訳) トラベリングセールスマン問題(Traveing Salesman Problem)は、現実世界のアプリケーションの範囲と計算複雑性の両方から最も研究されている組合せ最適化問題の1つである。 Set Covering Problemと組み合わせると、トラクタビリティとスケーラビリティに関するさらに多くの問題が発生する。 本研究では,集合被覆問題とトラベルセールスマン問題を組み合わせて検討し,問題を解くための混合整数計画式を提案する。 最適なポリシーを定期的に更新し、mipを介して繰り返しこれを計算的に解決するアプリケーションによって動機づけられ、mipの定式化から得られた歴史的最適解から学習する機会を提供することで、この問題を効果的に扱うための機械学習アプローチを提案する。 また,世界保健機関(who)のワクチン配布チェーンを用いた事例研究を行い,サハラ以南のアフリカの4カ国から得られたデータを数値化する。

The Traveling Salesman Problem is one of the most intensively studied combinatorial optimization problems due both to its range of real-world applications and its computational complexity. When combined with the Set Covering Problem, it raises even more issues related to tractability and scalability. We study a combined Set Covering and Traveling Salesman problem and provide a mixed integer programming formulation to solve the problem. Motivated by applications where the optimal policy needs to be updated on a regular basis and repetitively solving this via MIP can be computationally expensive, we propose a machine learning approach to effectively deal with this problem by providing an opportunity to learn from historical optimal solutions that are derived from the MIP formulation. We also present a case study using the vaccine distribution chain of the World Health Organization, and provide numerical results with data derived from four countries in sub-Saharan Africa.
翻訳日:2022-11-12 18:22:38 公開日:2020-07-07
# エッジベースセンサネットワークの予測メンテナンス:深層強化学習アプローチ

Predictive Maintenance for Edge-Based Sensor Networks: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2007.03313v1 )

ライセンス: Link先を確認
Kevin Shen Hoong Ong, Dusit Niyato, Chau Yuen(参考訳) ミッションクリティカル機器の故障は生産を中断し、金銭的損失をもたらす。 設備の最適性能と安全運転を確保するため、収益発生資産の予測保守により、計画外の設備停止のリスクを最小限に抑えることができる。 しかし,機器のセンサ化が増大するとデータデルージュが発生し,既存の機械学習に基づく予測モデルだけでは時間的機器条件予測には不十分となる。 本稿では,機器ベースのセンサネットワークコンテキストから予測機器のメンテナンスを行うためのモデルフリー深層強化学習アルゴリズムを提案する。 各機器内では、センサ装置が生のセンサデータを集約し、異常事象に対して機器の健康状態を分析する。 従来のブラックボックス回帰モデルとは異なり、提案されたアルゴリズムは最適なメンテナンスポリシーを自己学習し、各機器に実行可能な推奨を提供する。 実験結果は, 自動学習フレームワークとして, 幅広い機器メンテナンスアプリケーションの可能性を示す。

Failure of mission-critical equipment interrupts production and results in monetary loss. The risk of unplanned equipment downtime can be minimized through Predictive Maintenance of revenue generating assets to ensure optimal performance and safe operation of equipment. However, the increased sensorization of the equipment generates a data deluge, and existing machine-learning based predictive model alone becomes inadequate for timely equipment condition predictions. In this paper, a model-free Deep Reinforcement Learning algorithm is proposed for predictive equipment maintenance from an equipment-based sensor network context. Within each equipment, a sensor device aggregates raw sensor data, and the equipment health status is analyzed for anomalous events. Unlike traditional black-box regression models, the proposed algorithm self-learns an optimal maintenance policy and provides actionable recommendation for each equipment. Our experimental results demonstrate the potential for broader range of equipment maintenance applications as an automatic learning framework.
翻訳日:2022-11-12 18:21:52 公開日:2020-07-07
# 強化学習のための実践的干渉対策に向けて

Towards a practical measure of interference for reinforcement learning ( http://arxiv.org/abs/2007.03807v1 )

ライセンス: Link先を確認
Vincent Liu, Adam White, Hengshuai Yao, Martha White(参考訳) 多くのネットワークベースの学習システムでは破滅的干渉が一般的であり、それを緩和するための提案が多数存在する。 しかし、干渉を克服する前には、もっと理解しなければなりません。 本研究では,強化学習における制御に対する干渉の定義を提供する。 各種学習アーキテクチャにおける安定性,サンプル効率,オンラインおよびオフライン制御性能など,学習性能のいくつかの尺度との相関性を評価することで,新たな尺度を体系的に評価する。 我々の新しい干渉対策により、一般的に使われているディープラーニングアーキテクチャについて、新しい科学的質問をすることができる。 特に,対象のネットワーク周波数が干渉の主要因であり,最終層の更新がネットワーク内部への更新よりも著しく高い干渉を生じさせることを示す。 この新たな測度は計算に費用がかかり、効率的なプロキシ測度へのモチベーションを結論付け、それが干渉の定義と相関していることを実証的に実証する。

Catastrophic interference is common in many network-based learning systems, and many proposals exist for mitigating it. But, before we overcome interference we must understand it better. In this work, we provide a definition of interference for control in reinforcement learning. We systematically evaluate our new measures, by assessing correlation with several measures of learning performance, including stability, sample efficiency, and online and offline control performance across a variety of learning architectures. Our new interference measure allows us to ask novel scientific questions about commonly used deep learning architectures. In particular we show that target network frequency is a dominating factor for interference, and that updates on the last layer result in significantly higher interference than updates internal to the network. This new measure can be expensive to compute; we conclude with motivation for an efficient proxy measure and empirically demonstrate it is correlated with our definition of interference.
翻訳日:2022-11-12 18:20:31 公開日:2020-07-07
# ニューラルネットワークを用いた構造化(De)合成可能な表現

Structured (De)composable Representations Trained with Neural Networks ( http://arxiv.org/abs/2007.03325v1 )

ライセンス: Link先を確認
Graham Spinks, Marie-Francine Moens(参考訳) 本稿では,概念クラスのテンプレートとインスタンスを表現する新しい手法を提案する。 テンプレート表現は、クラス全体の特性をキャプチャするジェネリック表現を指す。 提案手法は、エンドツーエンドのディープラーニングを用いて、入力画像と離散ラベルから構造化および構成可能な表現を学習する。 得られた表現は、クラスラベルによって与えられる分布と、環境としてモデル化された文脈情報によって与えられる分布との距離推定に基づいている。 表現には明確な構造があることを証明し、表現をクラスや環境を表す因子に分解する。 本稿では,異なるモダリティ(視覚データと言語データ)を含む分類と検索タスクに関する新しい手法を評価する。

The paper proposes a novel technique for representing templates and instances of concept classes. A template representation refers to the generic representation that captures the characteristics of an entire class. The proposed technique uses end-to-end deep learning to learn structured and composable representations from input images and discrete labels. The obtained representations are based on distance estimates between the distributions given by the class label and those given by contextual information, which are modeled as environments. We prove that the representations have a clear structure allowing to decompose the representation into factors that represent classes and environments. We evaluate our novel technique on classification and retrieval tasks involving different modalities (visual and language data).
翻訳日:2022-11-12 18:14:04 公開日:2020-07-07
# 何の答えだ? ビデオQAデータセットにおける質問応答バイアス解析

What Gives the Answer Away? Question Answering Bias Analysis on Video QA Datasets ( http://arxiv.org/abs/2007.03626v1 )

ライセンス: Link先を確認
Jianing Yang, Yuying Zhu, Yongxin Wang, Ruitao Yi, Amir Zadeh, Louis-Philippe Morency(参考訳) ビデオQAデータセットの回答バイアスは、QAアーティファクトに過度に適合するようにマルチモーダルモデルを誤解させ、モデルを一般化する能力を危険にさらす可能性がある。 これらのQAバイアスがどれほど強く、どこから来たのかを理解することは、コミュニティが進捗をより正確に測定し、研究者にモデルをデバッグするための洞察を与えるのに役立つ。 本稿では,一般的なビデオ質問応答データセットにおけるqaバイアスを分析し,事前学習された言語モデルが,マルチモーダルな文脈情報を用いずに,37~48%の質問に正しく回答できることを示す。 アブレーション研究によると、バイアスは注釈や質問のタイプから生じる。 特に、トレーニング中に見られた注釈は、モデルと推論によって予測され、抽象的な質問は、現実的な直接的な質問よりも多くのバイアスを引き起こす。 また,ビデオQAデータセットのQAバイアスを低減できることを示す。

Question answering biases in video QA datasets can mislead multimodal model to overfit to QA artifacts and jeopardize the model's ability to generalize. Understanding how strong these QA biases are and where they come from helps the community measure progress more accurately and provide researchers insights to debug their models. In this paper, we analyze QA biases in popular video question answering datasets and discover pretrained language models can answer 37-48% questions correctly without using any multimodal context information, far exceeding the 20% random guess baseline for 5-choose-1 multiple-choice questions. Our ablation study shows biases can come from annotators and type of questions. Specifically, annotators that have been seen during training are better predicted by the model and reasoning, abstract questions incur more biases than factual, direct questions. We also show empirically that using annotator-non-overlapping train-test splits can reduce QA biases for video QA datasets.
翻訳日:2022-11-12 18:13:55 公開日:2020-07-07
# 離散化・アウェアアーキテクチャ検索

Discretization-Aware Architecture Search ( http://arxiv.org/abs/2007.03154v1 )

ライセンス: Link先を確認
Yunjie Tian, Chang Liu, Lingxi Xie, Jianbin Jiao, Qixiang Ye(参考訳) ニューラルアーキテクチャサーチ(NAS)の探索コストは、重み付け法により大幅に削減されている。 これらの手法は、全ての可能なエッジと操作でスーパーネットワークを最適化し、離散化によって最適なサブネットワークを決定する。 操作またはエッジで実行される離散化プロセスは、重大な不正確を生じさせるため、最終的なアーキテクチャの品質は保証されない。 本稿では、離散化対応アーキテクチャサーチ(DA\textsuperscript{2}S)を提案し、その中核となる考え方は、超ネットワークを所望のトポロジーの構成に向ける損失項を追加することである。 標準画像分類ベンチマークの実験は、これまで研究されなかった不均衡なターゲットネットワーク構成の下で、我々のアプローチの優位性を実証している。

The search cost of neural architecture search (NAS) has been largely reduced by weight-sharing methods. These methods optimize a super-network with all possible edges and operations, and determine the optimal sub-network by discretization, \textit{i.e.}, pruning off weak candidates. The discretization process, performed on either operations or edges, incurs significant inaccuracy and thus the quality of the final architecture is not guaranteed. This paper presents discretization-aware architecture search (DA\textsuperscript{2}S), with the core idea being adding a loss term to push the super-network towards the configuration of desired topology, so that the accuracy loss brought by discretization is largely alleviated. Experiments on standard image classification benchmarks demonstrate the superiority of our approach, in particular, under imbalanced target network configurations that were not studied before.
翻訳日:2022-11-12 18:12:31 公開日:2020-07-07
# GOLD-NAS: グラデール、ワンレベル、微分可能

GOLD-NAS: Gradual, One-Level, Differentiable ( http://arxiv.org/abs/2007.03331v1 )

ライセンス: Link先を確認
Kaifeng Bi, Lingxi Xie, Xin Chen, Longhui Wei, Qi Tian(参考訳) ニューラルネットワークの検索には多くの文献があるが、既存の作品の多くは、検索の柔軟性をほとんど制限したヒューリスティックなルールを使用している。 本稿では,手動で設計した制約を緩和し,探索空間を10^{160}$以上の候補を含むように拡張する。 新しい分野では、ほとんどの既存の差別化検索手法が劇的に失敗する可能性がある。 そこで我々は, 1レベル最適化に可変リソース制約を導入し, 弱い演算子が徐々にスーパーネットワークから追い出されるような, Gradual One-Level Differentiable Neural Architecture Search (GOLD-NAS) という新しいアルゴリズムを提案する。 標準画像分類ベンチマークでは、GOLD-NASは単一の探索手順内で一連のパレート最適化アーキテクチャを見つけることができる。 発見されたアーキテクチャのほとんどはこれまで研究されなかったが、認識精度とモデルの複雑さのトレードオフをうまく達成している。 新しい空間と探索アルゴリズムは、微分可能なNASの探索を促進することができると信じている。

There has been a large literature of neural architecture search, but most existing work made use of heuristic rules that largely constrained the search flexibility. In this paper, we first relax these manually designed constraints and enlarge the search space to contain more than $10^{160}$ candidates. In the new space, most existing differentiable search methods can fail dramatically. We then propose a novel algorithm named Gradual One-Level Differentiable Neural Architecture Search (GOLD-NAS) which introduces a variable resource constraint to one-level optimization so that the weak operators are gradually pruned out from the super-network. In standard image classification benchmarks, GOLD-NAS can find a series of Pareto-optimal architectures within a single search procedure. Most of the discovered architectures were never studied before, yet they achieve a nice tradeoff between recognition accuracy and model complexity. We believe the new space and search algorithm can advance the search of differentiable NAS.
翻訳日:2022-11-12 18:12:12 公開日:2020-07-07
# 変圧器は深部ロングランジメモリを必要とする

Do Transformers Need Deep Long-Range Memory ( http://arxiv.org/abs/2007.03356v1 )

ライセンス: Link先を確認
Jack W. Rae and Ali Razavi(参考訳) ディープアテンションモデルは、多くのドメインにわたるシーケンシャルデータのモデリングを進歩させた。 特に言語モデリングでは、transformer-xl(過去のアクティベーションの長距離メモリで拡張されたトランスフォーマー)は、様々なよく研究されたベンチマークで最先端の技術であることが示されている。 Transformer-XLはネットワークのすべての層に長距離メモリを組み込んでおり、その状態はRNN以前のものより数千倍も大きい。 しかし、これが必要かどうかは不明である。 ネットワークの下位層における注意範囲を制限することにより,6倍の長大メモリで同等の性能を得ることができ,より優れた性能が得られることを示すために,一連の介入を行う。

Deep attention models have advanced the modelling of sequential data across many domains. For language modelling in particular, the Transformer-XL -- a Transformer augmented with a long-range memory of past activations -- has been shown to be state-of-the-art across a variety of well-studied benchmarks. The Transformer-XL incorporates a long-range memory at every layer of the network, which renders its state to be thousands of times larger than RNN predecessors. However it is unclear whether this is necessary. We perform a set of interventions to show that comparable performance can be obtained with 6X fewer long range memories and better performance can be obtained by limiting the range of attention in lower layers of the network.
翻訳日:2022-11-12 18:11:30 公開日:2020-07-07