このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210609となっている論文です。

PDF登録状況(公開日: 20210609)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) SDGの出会い : 会話型AIプラットフォームを用いた群衆との協調によるゴールの実現 [全文訳有]

Meeting the SDGs : Enabling the Goals by Cooperation with Crowd using a Conversational AI Platform ( http://arxiv.org/abs/2107.04011v1 )

ライセンス: CC BY 4.0
J. Haqbeen, T. Ito, S. Sahab, R. Hadfi, T. Sato, S. Okuhara(参考訳) 本稿では,アフガニスタン持続可能な開発目標に関する1099人の市民による大規模なオンラインディスカッションについて報告する。

In this paper, we report about a large-scale online discussion with 1099 citizens on the Afghanistan Sustainable Development Goals.
翻訳日:2021-07-11 13:33:06 公開日:2021-06-09
# (参考訳) 外科手術の全体モデリングのためのマルチモーダルセマンティックシーングラフ [全文訳有]

Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures ( http://arxiv.org/abs/2106.15309v1 )

ライセンス: CC BY 4.0
Ege \"Ozsoy, Evin P{\i}nar \"Ornek, Ulrich Eck, Federico Tombari, Nassir Navab(参考訳) コンピュータサイエンスの観点からは、手術領域モデルは行動とデータの両方を組み込んだ概念的なモデルである必要がある。 したがってアクター、デバイス、ツール、複雑なインタラクション、データフローをモデル化する必要がある。 これらをキャプチャし、モデル化するために、カメラビューから3次元シーングラフを生成する最新のコンピュータビジョン手法を利用する。 次に,手術手順のシンボリック,時空間的,意味的表現を統一することを目的としたマルチモーダルセマンティックシーングラフ(mssg)を提案する。 本手法は, 医療スタッフ, 画像システム, 手術器具を含む外科領域の異なる部位間の関係をモデル化し, 外科手術の全体的理解とモデリングへの道を開くことを目的とする。 次に,mssgを用いて手術手順解析のための動的に生成されたグラフィカルユーザインタフェースツールを導入し,プロセス最適化や設計,自動レポート生成など,多くのアプリケーションで利用可能となった。 提案したMSSGsは,異なる複雑な外科手術の同期にも有用であることを示す。 本論文は,mvorデータセットに基づく最初の原型的部分的実現を通じて,この新概念の基本的な原則をコミュニティに提供することを目的としている。

From a computer science viewpoint, a surgical domain model needs to be a conceptual one incorporating both behavior and data. It should therefore model actors, devices, tools, their complex interactions and data flow. To capture and model these, we take advantage of the latest computer vision methodologies for generating 3D scene graphs from camera views. We then introduce the Multimodal Semantic Scene Graph (MSSG) which aims at providing a unified symbolic, spatiotemporal and semantic representation of surgical procedures. This methodology aims at modeling the relationship between different components in surgical domain including medical staff, imaging systems, and surgical devices, opening the path towards holistic understanding and modeling of surgical procedures. We then use MSSG to introduce a dynamically generated graphical user interface tool for surgical procedure analysis which could be used for many applications including process optimization, OR design and automatic report generation. We finally demonstrate that the proposed MSSGs could also be used for synchronizing different complex surgical procedures. While the system still needs to be integrated into real operating rooms before getting validated, this conference paper aims mainly at providing the community with the basic principles of this novel concept through a first prototypal partial realization based on MVOR dataset.
翻訳日:2021-07-05 00:28:42 公開日:2021-06-09
# タイムスタンピング資料と信条

Timestamping Documents and Beliefs ( http://arxiv.org/abs/2106.14622v1 )

ライセンス: Link先を確認
Swayambhu Nath Ray(参考訳) 利用可能なテキスト情報のほとんどは、時間的に変動します。 情報が動的である世界では、それらをタイムスタンプするのは非常に重要なタスクです。 ドキュメントは優れた情報ソースであり、感情分析、レビューの分類など、多くのタスクで使用されています。 文書作成の知識は要約,イベント抽出,時間集中情報抽出など,いくつかのタスクを補助する。 残念ながら、web上のほとんどのドキュメントでは、タイムスタンプのメタデータが誤っているか欠落している。 このように、文書デートは、文書の文脈情報と並行して文書の時間構造に関する推論を必要とする困難な問題である。 以前の文書年代測定システムは、文書内部構造を無視しながら、主に手作りの特徴に依存している。 本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代推定手法であるNeuralDaterを提案する。 我々はまた、NeuralDaterのいくつかの制限を指摘し、AD3を提唱するより柔軟で直感的な方法で文書の文脈情報と時間情報の両方を活用しようとした。 私たちの知る限りでは、これらはタスクに対するディープラーニングメソッドの最初の応用です。 実世界のデータセットに関する広範な実験により、我々のモデルは最先端のベースラインを著しく上回っていることがわかった。

Most of the textual information available to us are temporally variable. In a world where information is dynamic, time-stamping them is a very important task. Documents are a good source of information and are used for many tasks like, sentiment analysis, classification of reviews etc. The knowledge of creation date of documents facilitates several tasks like summarization, event extraction, temporally focused information extraction etc. Unfortunately, for most of the documents on the web, the time-stamp meta-data is either erroneous or missing. Thus document dating is a challenging problem which requires inference over the temporal structure of the document alongside the contextual information of the document. Prior document dating systems have largely relied on handcrafted features while ignoring such document-internal structures. In this paper we propose NeuralDater, a Graph Convolutional Network (GCN) based document dating approach which jointly exploits syntactic and temporal graph structures of document in a principled way. We also pointed out some limitations of NeuralDater and tried to utilize both context and temporal information in documents in a more flexible and intuitive manner proposing AD3: Attentive Deep Document Dater, an attention-based document dating system. To the best of our knowledge these are the first application of deep learning methods for the task. Through extensive experiments on real-world datasets, we find that our models significantly outperforms state-of-the-art baselines by a significant margin.
翻訳日:2021-07-04 19:37:48 公開日:2021-06-09
# 文書からのキー情報抽出:評価と生成

Key Information Extraction From Documents: Evaluation And Generator ( http://arxiv.org/abs/2106.14624v1 )

ライセンス: Link先を確認
Oliver Bensch, Mirela Popa and Constantin Spille(参考訳) 文書から情報を抽出することは、通常1次元のテキスト列を扱う自然言語処理手法に依存する。 例えば、請求書文書などの半構造化文書から鍵情報を抽出する場合、テキストの空間的およびフォーマット的情報は文脈的意味を理解するために不可欠である。 畳み込みニューラルネットワークは、多次元データにおける関係の処理と抽出にコンピュータビジョンモデルですでに一般的である。 したがって、自然言語処理モデルは過去にもコンピュータビジョンモデルと組み合わされ、例えば、その恩恵を受けてきた。 位置情報とこれらの鍵情報抽出モデルの性能向上を図る。 既存のモデルは未発表のデータセットやPDFのような文書にフォーカスしない注釈付きレシートのコレクションで訓練された。 この研究プロジェクトでは,情報抽出のための最先端モデルを比較するテンプレートベースの文書生成器が開発された。 既存の情報抽出モデルであるChargrid (Katti et al., 2019) を再構築し, 境界ボックス回帰デコーダの影響と, NLP前処理ステップの影響を評価した。 その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。 しかし、バウンディングボックス回帰デコーダを使用することで、矩形に従わないフィールドに対してのみモデル性能が向上する。

Extracting information from documents usually relies on natural language processing methods working on one-dimensional sequences of text. In some cases, for example, for the extraction of key information from semi-structured documents, such as invoice-documents, spatial and formatting information of text are crucial to understand the contextual meaning. Convolutional neural networks are already common in computer vision models to process and extract relationships in multidimensional data. Therefore, natural language processing models have already been combined with computer vision models in the past, to benefit from e.g. positional information and to improve performance of these key information extraction models. Existing models were either trained on unpublished data sets or on an annotated collection of receipts, which did not focus on PDF-like documents. Hence, in this research project a template-based document generator was created to compare state-of-the-art models for information extraction. An existing information extraction model "Chargrid" (Katti et al., 2019) was reconstructed and the impact of a bounding box regression decoder, as well as the impact of an NLP pre-processing step was evaluated for information extraction from documents. The results have shown that NLP based pre-processing is beneficial for model performance. However, the use of a bounding box regression decoder increases the model performance only for fields that do not follow a rectangular shape.
翻訳日:2021-07-04 19:36:56 公開日:2021-06-09
# 異常検出とドリフト検出のギャップを橋渡しするための部分ワッサースタインと最大平均偏差距離

Partial Wasserstein and Maximum Mean Discrepancy distances for bridging the gap between outlier detection and drift detection ( http://arxiv.org/abs/2106.12893v1 )

ライセンス: Link先を確認
Thomas Viehmann(参考訳) 機械学習とディープラーニングベースのアプリケーションの実践、すなわち監視の台頭により、 これらが仕様内で動作していることを検証することは 重要な実践的問題になっています この監視の重要な側面は、入力(または中間体)が検証された分布から逸脱しているかどうかを確認することであり、テスト中に得られた性能保証を無効にすることができる。 これには2つの共通アプローチがある。 おそらくもっと古典的なものは、外れ値検出(outlier detection)または新規値検出(newnty detection)であり、単一の入力に対して、それが外れ値であるかどうかを問う。 参照分布を起源とする可能性は極めて低い。 2番目の、おそらくより最近のアプローチは、より多くの入力を検討し、その分布を参照分布(例えば、)と比較することである。 テスト中のサンプル)。 これはラベルドリフト検出の下で行われる。 本研究では,基準分布の任意の入力数と自動選択された部分を比較することにより,外れ検出とドリフト検出とのギャップを橋渡しする。

With the rise of machine learning and deep learning based applications in practice, monitoring, i.e. verifying that these operate within specification, has become an important practical problem. An important aspect of this monitoring is to check whether the inputs (or intermediates) have strayed from the distribution they were validated for, which can void the performance assurances obtained during testing. There are two common approaches for this. The, perhaps, more classical one is outlier detection or novelty detection, where, for a single input we ask whether it is an outlier, i.e. exceedingly unlikely to have originated from a reference distribution. The second, perhaps more recent approach, is to consider a larger number of inputs and compare its distribution to a reference distribution (e.g. sampled during testing). This is done under the label drift detection. In this work, we bridge the gap between outlier detection and drift detection through comparing a given number of inputs to an automatically chosen part of the reference distribution.
翻訳日:2021-06-27 09:05:43 公開日:2021-06-09
# 任意の方程式は森である:開形式偏微分方程式(SGA-PDE)を発見するシンボリック遺伝的アルゴリズム

Any equation is a forest: Symbolic genetic algorithm for discovering open-form partial differential equations (SGA-PDE) ( http://arxiv.org/abs/2106.11927v1 )

ライセンス: Link先を確認
Yuntian Chen, Yingtao Luo, Qiang Liu, Hao Xu, and Dongxiao Zhang(参考訳) 偏微分方程式 (PDE) はドメイン知識の簡潔かつ理解可能な表現であり、物理過程の理解を深め、将来の反応を予測するのに不可欠である。 しかし、多くの実世界の問題のPDEは不確実であり、PDE発見を要求する。 本稿では,方程式構造に関する事前知識を必要とせず,データから直接オープンフォームpsdを探索するシンボリック遺伝的アルゴリズム(sga-pde)を提案する。 SGA-PDEはPDEの表現と最適化に焦点を当てている。 まず、SGA-PDEは記号数学を用いて任意のPDEの柔軟な表現を実現し、PDEを森に変換し、各関数項を二分木に変換する。 第2に、SGA-PDEは、木トポロジーとノード属性を反復的に更新することで、バイナリツリーを効率的に最適化する、特別に設計された遺伝的アルゴリズムを採用している。 SGA-PDEは、PDE損失とPDE構造の間の勾配を得るのが困難であるため、PDE発見において望ましい特性である。 実験では、SGA-PDEは非線形バーガー方程式、KdV方程式、Chafee-Infante方程式の発見に成功しただけでなく、従来のPDE発見法では解けない分数構造と複素関数でPDEを処理した。

Partial differential equations (PDEs) are concise and understandable representations of domain knowledge, which are essential for deepening our understanding of physical processes and predicting future responses. However, the PDEs of many real-world problems are uncertain, which calls for PDE discovery. We propose the symbolic genetic algorithm (SGA-PDE) to discover open-form PDEs directly from data without prior knowledge about the equation structure. SGA-PDE focuses on the representation and optimization of PDE. Firstly, SGA-PDE uses symbolic mathematics to realize the flexible representation of any given PDE, transforms a PDE into a forest, and converts each function term into a binary tree. Secondly, SGA-PDE adopts a specially designed genetic algorithm to efficiently optimize the binary trees by iteratively updating the tree topology and node attributes. The SGA-PDE is gradient-free, which is a desirable characteristic in PDE discovery since it is difficult to obtain the gradient between the PDE loss and the PDE structure. In the experiment, SGA-PDE not only successfully discovered nonlinear Burgers' equation, Korteweg-de Vries (KdV) equation, and Chafee-Infante equation, but also handled PDEs with fractional structure and compound functions that cannot be solved by conventional PDE discovery methods.
翻訳日:2021-06-27 09:04:27 公開日:2021-06-09
# (参考訳) 極端事象を含むダイナミックスのスケーラブル予測のための最適アンサンブル深層学習フレームワーク [全文訳有]

Optimized ensemble deep learning framework for scalable forecasting of dynamics containing extreme events ( http://arxiv.org/abs/2106.08968v1 )

ライセンス: CC BY 4.0
Arnob Ray, Tanujit Chakraborty, Dibakar Ghosh(参考訳) 深層学習モデルとアンサンブル法の両方の顕著な柔軟性と適応性は、多くの物理現象の理解における彼らの応用の拡散につながった。 伝統的に、これらの2つのテクニックは実践的な応用において独立した方法論として扱われてきた。 本研究では,モデル精度,安定性,スケーラビリティ,再現性における相乗的改善を達成するために,これら2つの機械学習技術が共同で使用される最適化アンサンブルディープラーニング(oedl)フレームワークを開発した。 非予測可能性(unpredictability)はカオス力学の重要な特徴の1つと考えられており、そのような非線形系のダイナミクスの予測は科学コミュニティにとって重要な問題である。 極端な出来事の予測が私たちの目指す問題になると、ますます難しくなります。 この状況下では、フィードフォワードニューラルネットワーク、リザーバコンピューティング、長期短期記憶の最適な凸結合に基づくoedlモデルが、極端な事象からなるダイナミクスの予測を前進させる上で重要な役割を果たす。 組み合わせたフレームワークは、個別の深層学習者よりも優れたサンプル外性能と、数値シミュレーションと実世界のデータセットのための標準アンサンブルフレームワークを生成することができる。 我々は,リナード型システムから発生する極端な事象を予測するためのOEDLフレームワークの卓越した性能,ブラジルにおけるCOVID-19の予測,サンフアンにおけるデングの予測,ニノ3.4地域の海面温度について述べる。

The remarkable flexibility and adaptability of both deep learning models and ensemble methods have led to the proliferation for their application in understanding many physical phenomena. Traditionally, these two techniques have largely been treated as independent methodologies in practical applications. This study develops an optimized ensemble deep learning (OEDL) framework wherein these two machine learning techniques are jointly used to achieve synergistic improvements in model accuracy, stability, scalability, and reproducibility prompting a new wave of applications in the forecasting of dynamics. Unpredictability is considered as one of the key features of chaotic dynamics, so forecasting such dynamics of nonlinear systems is a relevant issue in the scientific community. It becomes more challenging when the prediction of extreme events is the focus issue for us. In this circumstance, the proposed OEDL model based on a best convex combination of feed-forward neural networks, reservoir computing, and long short-term memory can play a key role in advancing predictions of dynamics consisting of extreme events. The combined framework can generate the best out-of-sample performance than the individual deep learners and standard ensemble framework for both numerically simulated and real world data sets. We exhibit the outstanding performance of the OEDL framework for forecasting extreme events generated from Lienard-type system, prediction of COVID-19 cases in Brazil, dengue cases in San Juan, and sea surface temperature in Nino 3.4 region.
翻訳日:2021-06-20 17:06:29 公開日:2021-06-09
# メタルールスペシャライゼーションとしてのメタ解釈学習

Meta-Interpretive Learning as Metarule Specialisation ( http://arxiv.org/abs/2106.07464v1 )

ライセンス: Link先を確認
Stassa Patsantzis and Stephen H. Muggleton(参考訳) メタ解釈学習(Meta-Interpretive Learning, MIL)では, メタルール, 誘導バイアスとして機能する2階データログ節は, ユーザが手動で定義する。 本研究では,MIL の2次メタルールを MIL で学習可能であることを示す。 我々はメタルールの一般性順序を$\theta$-subsumption で定義し、ユーザー定義のソートメタルールは言語クラスにおける最も一般的なマトリックスメタルールの特殊化によって導出可能であることを示し、これらのマトリックスメタルールは、第2次リテラルの集合にまたがる変数を持つ第3次パンチメタルールの特殊化によって導出可能であり、リテラル数の上限だけをユーザー定義する必要があることを示した。 メタルール言語の濃度は、パンチメタルールのリテラル数における多項式であることを示す。 我々はMILをメタルールの特殊化として再編成する。 我々は、MILメタルール特殊化演算子を1次節ではなく新しいメタルールを返すように修正し、新しい演算子の正しさを証明する。 MILシステムLouiseのサブシステムであるTOILとして,新しい演算子を実装した。 実験の結果,ユーザ定義のソートメタルールはTOILで学習したソートメタルールに徐々に置き換えられるため,Louiseの予測精度はトレーニング時間の少ないコストで維持されることがわかった。 自動派生メタルールはユーザ定義メタルールを置き換えることができる。

In Meta-Interpretive Learning (MIL) the metarules, second-order datalog clauses acting as inductive bias, are manually defined by the user. In this work we show that second-order metarules for MIL can be learned by MIL. We define a generality ordering of metarules by $\theta$-subsumption and show that user-defined sort metarules are derivable by specialisation of the most-general matrix metarules in a language class; and that these matrix metarules are in turn derivable by specialisation of third-order punch metarules with variables that range over the set of second-order literals and for which only an upper bound on their number of literals need be user-defined. We show that the cardinality of a metarule language is polynomial in the number of literals in punch metarules. We re-frame MIL as metarule specialisation by resolution. We modify the MIL metarule specialisation operator to return new metarules rather than first-order clauses and prove the correctness of the new operator. We implement the new operator as TOIL, a sub-system of the MIL system Louise. Our experiments show that as user-defined sort metarules are progressively replaced by sort metarules learned by TOIL, Louise's predictive accuracy is maintained at the cost of a small increase in training times. We conclude that automatically derived metarules can replace user-defined metarules.
翻訳日:2021-06-20 16:14:10 公開日:2021-06-09
# 相違点:幾何学的アライメントによるトポロジカル異常検出

Spot the Difference: Topological Anomaly Detection via Geometric Alignment ( http://arxiv.org/abs/2106.08233v1 )

ライセンス: Link先を確認
Steffen Czolbe, Aasa Feragen, Oswin Krause(参考訳) 幾何学的アライメントは、機械学習におけるドメイン適応、最適輸送、正規化フロー、コンピュータビジョンにおけるオプティカルフローと学習の強化、バイオメディカルイメージングにおける変形可能な登録など、さまざまな応用で現れる。 繰り返し発生する課題は、トポロジが同じでないドメインのアライメントである。 このようなアライメント問題を解決するための第一歩として,教師なし位相差検出アルゴリズムを提案する。 このモデルは条件付き変分オートエンコーダに基づいており、登録ステップと共に参照に関するトポロジカルな異常を検出する。 a) 空間的変化下における画像の位相的変化と, b) 予期せぬ変換を考える。 本手法は画像中の教師なし異常検出のプロキシタスクで検証される。

Geometric alignment appears in a variety of applications, ranging from domain adaptation, optimal transport, and normalizing flows in machine learning; optical flow and learned augmentation in computer vision and deformable registration within biomedical imaging. A recurring challenge is the alignment of domains whose topology is not the same; a problem that is routinely ignored, potentially introducing bias in downstream analysis. As a first step towards solving such alignment problems, we propose an unsupervised topological difference detection algorithm. The model is based on a conditional variational auto-encoder and detects topological anomalies with regards to a reference alongside the registration step. We consider both a) topological changes in the image under spatial variation and b) unexpected transformations. Our approach is validated on a proxy task of unsupervised anomaly detection in images.
翻訳日:2021-06-20 16:12:42 公開日:2021-06-09
# ベルギーにおける不均衡価格の確率的予測

Probabilistic Forecasting of Imbalance Prices in the Belgian Context ( http://arxiv.org/abs/2106.07361v1 )

ライセンス: Link先を確認
Jonathan Dumas, Ioannis Boukas, Miguel Manuel de Villena, S\'ebastien Mathieu, Bertrand Corn\'elusse(参考訳) 短期エネルギー市場への戦略的参加には、不均衡価格の予測が不可欠である。 ベルギーのケースに特に焦点をあてた,新しい2段階確率的アプローチを提案する。 最初のステップは、ネット規制ボリューム状態遷移確率の計算である。 歴史データを用いて計算された行列としてモデル化される。 このマトリクスは、電力供給の1日前にベルギーの送電事業者によって、活性化された予備量と対応する各活性化レベルの限界価格とを関連づけることができるので、不均衡価格を推定するために使用される。 このアプローチは決定論的モデル、多層パーセプトロン、広く使われる確率的手法であるガウス過程と比較される。

Forecasting imbalance prices is essential for strategic participation in the short-term energy markets. A novel two-step probabilistic approach is proposed, with a particular focus on the Belgian case. The first step consists of computing the net regulation volume state transition probabilities. It is modeled as a matrix computed using historical data. This matrix is then used to infer the imbalance prices since the net regulation volume can be related to the level of reserves activated and the corresponding marginal prices for each activation level are published by the Belgian Transmission System Operator one day before electricity delivery. This approach is compared to a deterministic model, a multi-layer perceptron, and a widely used probabilistic technique, Gaussian Processes.
翻訳日:2021-06-20 16:10:38 公開日:2021-06-09
# 異なる機械学習アルゴリズムを用いたインテリジェントタイヤベーススリップ比推定

Intelligent Tire-Based Slip Ratio Estimation Using Different Machine Learning Algorithms ( http://arxiv.org/abs/2106.08961v1 )

ライセンス: Link先を確認
Nan Xu, Zepeng Tang, Jianfeng Zhou, Hassan Askari(参考訳) 走行時および制動時の車両の制御性能向上には, タイヤの長手すべり率の推定が重要である。 本稿では,知的タイヤシステムで使用される3軸mems加速度計からの加速度信号に基づいて,4つの機械学習アルゴリズム(ニューラルネットワーク,勾配昇降機,ランダムフォレスト,サポートベクターマシン)を用いてスリップ比を推定する。 実験データはmts実験プラットフォームを通じて収集される。 タイヤ接触パッチ内の対応する加速度信号は、前記機械学習アルゴリズムのトレーニングに使用するフィルタリング後に抽出される。 10倍のCVを用いて実装されたMLアルゴリズムの比較を行う。 CV結果のNRMS誤差は,他の手法と比較してNNの精度が最も高いことを示している。 NN, GBM, RF, SVMのNRSM誤差はそれぞれ2.59\%, 3.30\%, 4.21\%, 5.34\%である。 これらの技術の中で、GBMは最小出力分散を持つため、より安定した結果が得られる。 本研究は、インテリジェントタイヤシステムと機械学習アルゴリズムの融合により、タイヤスリップ率の正確な推定方法が舗装され、信頼性の高い車両制御アルゴリズムの開発に不可欠である。

Estimation of the longitudinal slip ratio of tires is important in boosting the control performance of the vehicle under driving and braking conditions. In this paper, the slip ratio is estimated using four machine learning algorithms (Neural Network, Gradient Boosting Machine, Random Forest and Support Vector Machine) based on the acceleration signals from the tri-axial MEMS accelerometers utilized in the intelligent tire system. The experimental data are collected through the MTS experimental platform. The corresponding acceleration signals within the tire contact patch are extracted after filtering to be used for the training the aforesaid machine learning algorithms. A comparison is provided between the implemented ML algorithms using a 10-fold CV. NRMS errors in the CV results indicate that NN has the highest accuracy in comparison with other techniques. The NRSM errors of NN, GBM, RF, and SVM are 2.59\%, 3.30\%, 4.21\%, and 5.34\%, respectively. Among these techniques, GBM has a more stable results as it has the smallest output variance. The present study with the fusion of intelligent tire system and machine learning algorithms paves the way for the accurate estimation of tire slip ratio, which is critical for the development of reliable vehicle control algorithms.
翻訳日:2021-06-20 16:10:12 公開日:2021-06-09
# (参考訳) 専門的なODEをニューラルネットワークに統合する:薬理学と疾患の進展 [全文訳有]

Integrating Expert ODEs into Neural ODEs: Pharmacology and Disease Progression ( http://arxiv.org/abs/2106.02875v2 )

ライセンス: CC BY 4.0
Zhaozhi Qian, William R. Zame, Lucas M. Fleuren, Paul Elbers, Mihaela van der Schaar(参考訳) 外部刺激に反応してシステムの時間的挙動をモデル化することは、多くの領域において根本的な問題である。 純粋な機械学習(ML)アプローチは、小さなサンプルシステムでは失敗することが多く、予測を越えて実行可能な洞察を提供することはできない。 有望な修正は、専門家のドメイン知識をMLモデルに組み込むことである。 私たちが検討するアプリケーションは、薬理学から多くのドメイン知識が利用できる薬理学における疾患の進行を予測することである。 薬理モデルは、通常の微分方程式(odes)の系の観点から、慎重に医学的に有意義な変数の力学を記述する。 しかしながら、これらのモデルは変数の限られた集まりしか記述せず、臨床環境では観察できないことが多い。 このギャップを埋めるために、専門家設計のODEと機械学習のNeural ODEのシステムを統合する潜時ハイブリッドモデル(LHM)を提案し、システムのダイナミクスを完全に記述し、専門家と潜時変数を観測可能な量にリンクする。 新型コロナウイルス患者のLHMと実世界集中治療データを用いてLHMを評価した。 LHMは、特にパンデミックの開始時など、トレーニングサンプルが少ない場合、従来よりも一貫して優れています。

Modeling a system's temporal behaviour in reaction to external stimuli is a fundamental problem in many areas. Pure Machine Learning (ML) approaches often fail in the small sample regime and cannot provide actionable insights beyond predictions. A promising modification has been to incorporate expert domain knowledge into ML models. The application we consider is predicting the progression of disease under medications, where a plethora of domain knowledge is available from pharmacology. Pharmacological models describe the dynamics of carefully-chosen medically meaningful variables in terms of systems of Ordinary Differential Equations (ODEs). However, these models only describe a limited collection of variables, and these variables are often not observable in clinical environments. To close this gap, we propose the latent hybridisation model (LHM) that integrates a system of expert-designed ODEs with machine-learned Neural ODEs to fully describe the dynamics of the system and to link the expert and latent variables to observable quantities. We evaluated LHM on synthetic data as well as real-world intensive care data of COVID-19 patients. LHM consistently outperforms previous works, especially when few training samples are available such as at the beginning of the pandemic.
翻訳日:2021-06-14 04:37:41 公開日:2021-06-09
# (参考訳) 交通状態推定と基本図発見のための物理モデルによる深層学習パラダイム [全文訳有]

A Physics-Informed Deep Learning Paradigm for Traffic State Estimation and Fundamental Diagram Discovery ( http://arxiv.org/abs/2106.03142v2 )

ライセンス: CC BY 4.0
Rongye Shi, Zhaobin Mo, Kuang Huang, Xuan Di, Qiang Du(参考訳) トラフィック状態推定(traffic state estimation, tse)は、モデル駆動型とデータ駆動型(機械学習、ml)の2つの主要なカテゴリに分岐する。 これらの制限を緩和するために、最近の研究は、モデル駆動とデータ駆動の両方を含む物理インフォームドディープラーニング(PIDL)のようなハイブリッド手法を導入した。 本稿では,基本ダイアグラム学習器(pidl+fdl)を用いて,モデル駆動コンポーネントにml用語を統合し,基本ダイアグラム(fd)の機能形式,すなわち交通密度から流れや速度へのマッピングを学ぶ,物理にインフォームされたディープラーニングという改良パラダイムを提案する。 提案するPIDL+FDLは,TSE学習,モデルパラメータ発見,FD発見を同時に行うという利点がある。 本稿では,交通密度や速度を交通変数として用いて,ループ検出器からの観測データを用いた高速道路TSEに焦点を当てた。 本稿では, PIDL+FDLを用いて, 人気のある1次・2次交通流モデルとFD関係の再構築とFD項以外のモデルパラメータの再構築を行う。 次に、NGSIMデータセットを用いてPIDL+FDLベースのTSEを評価する。 実験の結果,pidl+fdlの精度は,先進的なベースラインtse法よりも精度が向上し,データ効率が向上し,未知のfd関係を適切に学習できることがわかった。

Traffic state estimation (TSE) bifurcates into two main categories, model-driven and data-driven (e.g., machine learning, ML) approaches, while each suffers from either deficient physics or small data. To mitigate these limitations, recent studies introduced hybrid methods, such as physics-informed deep learning (PIDL), which contains both model-driven and data-driven components. This paper contributes an improved paradigm, called physics-informed deep learning with a fundamental diagram learner (PIDL+FDL), which integrates ML terms into the model-driven component to learn a functional form of a fundamental diagram (FD), i.e., a mapping from traffic density to flow or velocity. The proposed PIDL+FDL has the advantages of performing the TSE learning, model parameter discovery, and FD discovery simultaneously. This paper focuses on highway TSE with observed data from loop detectors, using traffic density or velocity as traffic variables. We demonstrate the use of PIDL+FDL to solve popular first-order and second-order traffic flow models and reconstruct the FD relation as well as model parameters that are outside the FD term. We then evaluate the PIDL+FDL-based TSE using the Next Generation SIMulation (NGSIM) dataset. The experimental results show the superiority of the PIDL+FDL in terms of improved estimation accuracy and data efficiency over advanced baseline TSE methods, and additionally, the capacity to properly learn the unknown underlying FD relation.
翻訳日:2021-06-13 15:23:16 公開日:2021-06-09
# graph-to-sequenceニューラルモデルを用いた複素表現間の等価性証明

Proving Equivalence Between Complex Expressions Using Graph-to-Sequence Neural Models ( http://arxiv.org/abs/2106.02452v2 )

ライセンス: Link先を確認
Steve Kommrusch, Th\'eo Barollet and Louis-No\"el Pouchet(参考訳) 2つの複雑な表現木間の等価性を確実に計算する問題をターゲットにしている。 そこで我々は,プログラム等価性のためのグラフ・ツー・シーケンス・ニューラルネットシステムを開発し,慎重に構築された自動例生成アルゴリズムを用いて,書き直し規則の集合を一方から他方へ保存し,書き直しが構造的に同一であり,したがって自明に等価であるような2つのプログラム間の等価性の問題について定式化する。 我々は,100以上のグラフ書き換え公理の任意の組み合わせを用いて,リッチな多型線形代数表現言語上でのシステムを広範囲に評価した。 我々の機械学習システムは、すべての真の負の正しさを保証し、設計によって0の偽陽性を保証する。 テスト用に分離された10,000の等価式ペアの93%に対して、最大50の式を使用して、等価性の妥当な証明を推論して出力する。 いずれの場合も、生成されたシーケンスの妥当性、従ってプログラム等価性の証明可能なアサーションは常に計算可能である。

We target the problem of provably computing the equivalence between two complex expression trees. To this end, we formalize the problem of equivalence between two such programs as finding a set of semantics-preserving rewrite rules from one into the other, such that after the rewrite the two programs are structurally identical, and therefore trivially equivalent.We then develop a graph-to-sequence neural network system for program equivalence, trained to produce such rewrite sequences from a carefully crafted automatic example generation algorithm. We extensively evaluate our system on a rich multi-type linear algebra expression language, using arbitrary combinations of 100+ graph-rewriting axioms of equivalence. Our machine learning system guarantees correctness for all true negatives, and ensures 0 false positive by design. It outputs via inference a valid proof of equivalence for 93% of the 10,000 equivalent expression pairs isolated for testing, using up to 50-term expressions. In all cases, the validity of the sequence produced and therefore the provable assertion of program equivalence is always computable, in negligible time.
翻訳日:2021-06-13 14:00:24 公開日:2021-06-09
# (参考訳) 畳み込みニューラルネットワークにおけるトランスフォーマー [全文訳有]

Transformer in Convolutional Neural Networks ( http://arxiv.org/abs/2106.03180v2 )

ライセンス: CC BY 4.0
Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool(参考訳) マルチヘッド・セルフアテンション(mhsa)における高い計算量/空間複雑性に起因する視覚トランスフォーマーの低効率な欠陥に取り組む。 この目的のために,階層的手法で表現を計算した階層的mhsa (h-mhsa) を提案する。 具体的には、H-MHSAはまず、画像パッチをトークンとして見ることによって、小さなグリッド内の特徴関係を学習する。 そして、小さなグリッドをより大きなグリッドにマージし、前ステップで各小さなグリッドをトークンとして見ることによって特徴関係を学習する。 このプロセスを繰り返してトークンの数を徐々に減らします。 H-MHSAモジュールは任意のCNNアーキテクチャに簡単にプラグイン可能で、バックプロパゲーションによるトレーニングが可能である。 我々はこの新しいバックボーンTransCNNと呼び、基本的にトランスフォーマーとCNNの両方の利点を継承します。 実験により、TransCNNは画像認識の最先端の精度を達成することが示された。 コードと事前訓練されたモデルはhttps://github.com/y un-liu/TransCNN.comで入手できる。 このテクニカルレポートは、さらなる実験を追加して更新を続ける。

We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at https://github.com/y un-liu/TransCNN. This technical report will keep updating by adding more experiments.
翻訳日:2021-06-13 12:36:24 公開日:2021-06-09
# (参考訳) BERTにおける過渡カオス [全文訳有]

Transient Chaos in BERT ( http://arxiv.org/abs/2106.03181v2 )

ライセンス: CC BY 4.0
Katsuma Inoue, Soh Ohara, Yasuo Kuniyoshi, and Kohei Nakajima(参考訳) 言語は複雑で動的な人間の相互作用の結果であり、自然言語処理(NLP)の技術は人間の言語活動に基づいて構築される。 Bidirectional Encoder Representations from Transformers (BERT)は、最近、いくつかのNLPベンチマークで最先端のスコアを確立することで人気を博している。 Lite BERT(ALBERT)は、文字通りBERTの軽量版として特徴付けられ、Transformerのエンコーダ層と呼ばれる同じニューラルネットワークを繰り返し適用することでBERTパラメータの数を削減できる。 パラメータを大量の自然言語データで事前学習することにより、ALBERTは入力文を多目的な高次元ベクトルに変換し、複数のNLPタスクを解くことができる。 その意味では、アルバートはトランスフォーマーのエンコーダであるようなよく設計された高次元力学系と見なすことができ、したがって人間の言語の本質的な構造はその力学にカプセル化されることが期待される。 本研究では,ALBERTの組込み特性について検討し,NLPタスクの動的利用による効果的解法を明らかにする。 そこで我々は,NLPモデルの動的表現から人間の言語の性質を探究することを目的とした。 我々の短期分析により, 事前学習モデルでは, NLPタスクに必要な表現能力を高めるために, 高次元の軌道が安定的に得られることが明らかとなった。 また, 経時的カオスを内在的に示し, 経時的カオスのみを呈する典型的な非線形現象であり, 事前学習したALBERTモデルでは, ランダムに初期化したモデルに比べて, カオス軌道がかなり長い傾向が見られた。 その結果,局所的カオス性はnlp性能の向上に寄与し,人間の言語行動におけるカオスダイナミクスの役割における新たな側面を明らかにすることができた。

Language is an outcome of our complex and dynamic human-interactions and the technique of natural language processing (NLP) is hence built on human linguistic activities. Bidirectional Encoder Representations from Transformers (BERT) has recently gained its popularity by establishing the state-of-the-art scores in several NLP benchmarks. A Lite BERT (ALBERT) is literally characterized as a lightweight version of BERT, in which the number of BERT parameters is reduced by repeatedly applying the same neural network called Transformer's encoder layer. By pre-training the parameters with a massive amount of natural language data, ALBERT can convert input sentences into versatile high-dimensional vectors potentially capable of solving multiple NLP tasks. In that sense, ALBERT can be regarded as a well-designed high-dimensional dynamical system whose operator is the Transformer's encoder, and essential structures of human language are thus expected to be encapsulated in its dynamics. In this study, we investigated the embedded properties of ALBERT to reveal how NLP tasks are effectively solved by exploiting its dynamics. We thereby aimed to explore the nature of human language from the dynamical expressions of the NLP model. Our short-term analysis clarified that the pre-trained model stably yields trajectories with higher dimensionality, which would enhance the expressive capacity required for NLP tasks. Also, our long-term analysis revealed that ALBERT intrinsically shows transient chaos, a typical nonlinear phenomenon showing chaotic dynamics only in its transient, and the pre-trained ALBERT model tends to produce the chaotic trajectory for a significantly longer time period compared to a randomly-initialized one. Our results imply that local chaoticity would contribute to improving NLP performance, uncovering a novel aspect in the role of chaotic dynamics in human language behaviors.
翻訳日:2021-06-13 11:22:35 公開日:2021-06-09
# (参考訳) HASI: ハードウェアによる確率推論 - 敵対的機械学習攻撃に対する防御 [全文訳有]

HASI: Hardware-Accelerated Stochastic Inference, A Defense Against Adversarial Machine Learning Attacks ( http://arxiv.org/abs/2106.05825v1 )

ライセンス: CC BY 4.0
Mohammad Hossein Samavatian, Saikat Majumdar, Kristin Barber, Radu Teodorescu(参考訳) DNNは、入力を慎重に操作して誤分類を引き起こすいわゆる敵攻撃に弱いことが知られている。 既存の防御は主にソフトウェアベースで、高いオーバーヘッドやその他の制限がある。 本稿では,確率推論と呼ばれる手法を用いて,対向入力を検出するハードウェアアクセラレーションディフェンスHASIを提案する。 hasiは推論時にモデルにノイズを注意深く注入し、モデルの応答を使用して、逆入力と良性入力を区別する。 その結果,平均87%の敵検出率が最先端の手法検出率を上回り,はるかに低いオーバーヘッドを示した。 ソフトウェアのみのGPU実装における14X-20Xオーバーヘッドと比較して,確率的推論のパフォーマンスへの影響を,保護されていないベースラインと比較して1.58X-2Xに低減するソフトウェア/ハードウェアアクセラレーションの共設計を実証する。

DNNs are known to be vulnerable to so-called adversarial attacks, in which inputs are carefully manipulated to induce misclassification. Existing defenses are mostly software-based and come with high overheads or other limitations. This paper presents HASI, a hardware-accelerated defense that uses a process we call stochastic inference to detect adversarial inputs. HASI carefully injects noise into the model at inference time and used the model's response to differentiate adversarial inputs from benign ones. We show an adversarial detection rate of average 87% which exceeds the detection rate of the state-of-the-art approaches, with a much lower overhead. We demonstrate a software/hardware-ac celerated co-design, which reduces the performance impact of stochastic inference to 1.58X-2X relative to the unprotected baseline, compared to 14X-20X overhead for a software-only GPU implementation.
翻訳日:2021-06-13 04:45:28 公開日:2021-06-09
# (参考訳) CaloFlow: 正規化フローによるキャロリメータショーアの高速かつ高精度生成

CaloFlow: Fast and Accurate Generation of Calorimeter Showers with Normalizing Flows ( http://arxiv.org/abs/2106.05285v1 )

ライセンス: CC BY 4.0
Claudius Krause and David Shih(参考訳) 正規化フローに基づく高速検出器シミュレーションフレームワークであるCaloFlowを紹介する。 計算量の多いgeant4シミュレーションや、gansやvaesに基づく最先端の高速シミュレーションフレームワークの代替として、フローの正規化が極めて高い忠実度で多チャンネルのカロリメータシャワーを再現できることを初めて実証した。 実際の画像と実際の画像とを区別するために訓練された分類器の性能について,通常のヒストグラムやカロリーメータシャワーの画像に加えて,生成モデルの品質を判断する新たな指標を導入する。 GAN生成した画像は100%精度で分類器で識別でき、CaloFlowから生成された画像は多くの場合、分類器を騙すことができる。 より広い範囲において、フローの正規化は、他の最先端のアプローチ(gansとvaes)と比較していくつかの利点を提供している。 正規化フローはまた、データと潜伏空間の間の単射マッピングを提供し、例えば展開を検知するためのシミュレーション以外の応用を与えることができる。

We introduce CaloFlow, a fast detector simulation framework based on normalizing flows. For the first time, we demonstrate that normalizing flows can reproduce many-channel calorimeter showers with extremely high fidelity, providing a fresh alternative to computationally expensive GEANT4 simulations, as well as other state-of-the-art fast simulation frameworks based on GANs and VAEs. Besides the usual histograms of physical features and images of calorimeter showers, we introduce a new metric for judging the quality of generative modeling: the performance of a classifier trained to differentiate real from generated images. We show that GAN-generated images can be identified by the classifier with 100% accuracy, while images generated from CaloFlow are able to fool the classifier much of the time. More broadly, normalizing flows offer several advantages compared to other state-of-the-art approaches (GANs and VAEs), including: tractable likelihoods; stable and convergent training; and principled model selection. Normalizing flows also provide a bijective mapping between data and the latent space, which could have other applications beyond simulation, for example, to detector unfolding.
翻訳日:2021-06-13 04:18:07 公開日:2021-06-09
# (参考訳) Grover's Algorithm for Question Answering [全文訳有]

Grover's Algorithm for Question Answering ( http://arxiv.org/abs/2106.05299v1 )

ライセンス: CC BY 4.0
A. D. Correia, M. Moortgat, H. T. C. Stoof(参考訳) グロバーのアルゴリズムはよく知られた量子検索アルゴリズムであり、二次的なスピードアップでデータベース内の正しい項目を見つけることができる。 本稿では,グローバーのアルゴリズムを,英語の自然言語問題に対する正解を求める問題に適用し,量子自然言語処理の分野の拡大に寄与する。 テンソル収縮として解釈できる文法を用いて、各単語は量子回路への入力として機能する量子状態として表現される。 本稿では、単語の表現を縮めるために量子計測を導入し、その結果、より大きなテキスト断片を表現する。 このフレームワークを使用すると、質問の表現が発見され、同じ量子重ね合わせで可能な全ての答えが含まれ、特定の質問に無関係で正しい回答を検出できるオラクルの構築が可能になる。 さらに, 量子重ね合わせにおいても, 様々な意味を保ちながら, ある種のあいまいなフレーズを処理できることを示す。

Grover's algorithm, a well-know quantum search algorithm, allows one to find the correct item in a database, with quadratic speedup. In this paper we adapt Grover's algorithm to the problem of finding a correct answer to a natural language question in English, thus contributing to the growing field of Quantum Natural Language Processing. Using a grammar that can be interpreted as tensor contractions, each word is represented as a quantum state that serves as input to the quantum circuit. We here introduce a quantum measurement to contract the representations of words, resulting in the representation of larger text fragments. Using this framework, a representation for the question is found that contains all the possible answers in equal quantum superposition, and allows for the building of an oracle that can detect a correct answer, being agnostic to the specific question. Furthermore, we show that our construction can deal with certain types of ambiguous phrases by keeping the various different meanings in quantum superposition.
翻訳日:2021-06-13 04:16:49 公開日:2021-06-09
# (参考訳) 動的マスクを用いた時系列予測の解説 [全文訳有]

Explaining Time Series Predictions with Dynamic Masks ( http://arxiv.org/abs/2106.05303v1 )

ライセンス: CC BY 4.0
Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) 機械学習モデルの予測についてどのように説明できるのか? データが多変量時系列として構造化されている場合、この質問は時間依存と多数の入力を具現化する説明の必要性などの追加の困難を生じさせる。 これらの課題に対処するため,動的マスク (Dynamask) を提案する。 この方法は、入力シーケンスに摂動マスクを嵌合させることにより、各時間ステップ毎に各特徴のインスタンス単位の重要スコアを生成する。 データの時間依存性を取り入れるために、dynamaskは動的摂動演算子の効果を研究している。 多数の入力に対処するために,特徴選択を同義に(必要以上の特徴を選ばない)かつ(情報理論と平行して記述することで詳述する)正当性を持たせる手法を提案する。 合成データと実世界のデータを用いて,dynamaskの動的基盤とparsimonyによって,機能の重要性の識別が時間とともに改善されることを実証する。 dynamaskのモジュール性は、時系列が豊富である医療や金融といった分野において、幅広い機械学習モデルの透明性を高めるためのプラグインとして理想的です。

How can we explain the predictions of a machine learning model? When the data is structured as a multivariate time series, this question induces additional difficulties such as the necessity for the explanation to embody the time dependency and the large number of inputs. To address these challenges, we propose dynamic masks (Dynamask). This method produces instance-wise importance scores for each feature at each time step by fitting a perturbation mask to the input sequence. In order to incorporate the time dependency of the data, Dynamask studies the effects of dynamic perturbation operators. In order to tackle the large number of inputs, we propose a scheme to make the feature selection parsimonious (to select no more feature than necessary) and legible (a notion that we detail by making a parallel with information theory). With synthetic and real-world data, we demonstrate that the dynamic underpinning of Dynamask, together with its parsimony, offer a neat improvement in the identification of feature importance over time. The modularity of Dynamask makes it ideal as a plug-in to increase the transparency of a wide range of machine learning models in areas such as medicine and finance, where time series are abundant.
翻訳日:2021-06-13 03:55:28 公開日:2021-06-09
# (参考訳) DiffCloth:ドライ摩擦接触による微分可能な衣服シミュレーション [全文訳有]

DiffCloth: Differentiable Cloth Simulation with Dry Frictional Contact ( http://arxiv.org/abs/2106.05306v1 )

ライセンス: CC BY 4.0
Yifei Li, Tao Du, Kui Wu, Jie Xu, Wojciech Matusik(参考訳) 衣服シミュレーションには、コンピュータアニメーション、衣服デザイン、ロボット支援ドレッシングなど幅広い応用がある。 本稿では,布に関するアプリケーションにおいて,さらなる勾配情報の提供が容易な,微分可能な布シミュレータを提案する。 我々の微分可能シミュレータは、プロジェクティブダイナミクスに基づく最先端の布シミュレータを拡張し、シノリニ・クーロン法により制御されるドライ摩擦接触を持つ。 このフォワード・シミュレーション・フレームワークに接触した勾配を導出し、従来の微分可能シミュレーション作業にインスパイアされたヤコビ反復による計算を高速化する。 我々の知る限り、最初の微分可能な布シミュレータをクーロン摩擦法則で提示する。 本稿では,システム同定,操作,逆設計,実対simタスクなど,様々なアプリケーションにおけるシミュレータの有効性を実証する。 我々の応用の多くは、以前の微分可能な布シミュレータでは実証されていない。 本シミュレータからの勾配情報により,標準的な勾配フリー手法よりも相当な高速化を観測できる,効率的な勾配ベースのタスクソルバを実現する。

Cloth simulation has wide applications including computer animation, garment design, and robot-assisted dressing. In this work, we present a differentiable cloth simulator whose additional gradient information facilitates cloth-related applications. Our differentiable simulator extends the state-of-the-art cloth simulator based on Projective Dynamics and with dry frictional contact governed by the Signorini-Coulomb law. We derive gradients with contact in this forward simulation framework and speed up the computation with Jacobi iteration inspired by previous differentiable simulation work. To our best knowledge, we present the first differentiable cloth simulator with the Coulomb law of friction. We demonstrate the efficacy of our simulator in various applications, including system identification, manipulation, inverse design, and a real-to-sim task. Many of our applications have not been demonstrated in previous differentiable cloth simulators. The gradient information from our simulator enables efficient gradient-based task solvers from which we observe a substantial speedup over standard gradient-free methods.
翻訳日:2021-06-13 03:29:24 公開日:2021-06-09
# (参考訳) Rendering-based Visibility Model を用いたロバスト協調知覚のための視覚センサポーズ最適化 [全文訳有]

Visual Sensor Pose Optimisation Using Rendering-based Visibility Models for Robust Cooperative Perception ( http://arxiv.org/abs/2106.05308v1 )

ライセンス: CC BY 4.0
Eduardo Arnold, Sajjad Mozaffari, Mehrdad Dianati, Paul Jennings(参考訳) 視覚センサネットワークは、複雑な道路区間における自律運転のためのインフラストラクチャサポートなど、様々な知覚アプリケーションで使用できる。 このようなネットワークにおけるセンサのポーズは、その環境やオブジェクトのカバレッジを直接決定し、オブジェクト検出やトラッキングといったアプリケーションのパフォーマンスに影響を与える。 既存のセンサは、地表面のカバレッジを最大化するか、ターゲットオブジェクトの可視性を様々な可視性を示すことができないバイナリ変数として考えるかのどちらかである。 このような定式化は、オクルージョンを考慮しないため、対象オブジェクトの可視性を保証することができない。 本稿では,複数対象対象物体の視認性を最大化する勾配強調法と整数計画法に基づく2つの新しいセンサポーズ最適化手法を提案する。 どちらの手法も、ターゲットオブジェクトに関するピクセルレベルの可視性情報を提供するレンダリングエンジンに基づく現実的な可視性モデルを考える。 提案手法は複雑な環境下で評価され,文献上の既存手法と比較した。 評価結果は,対象物体の視認性を明確にモデル化することは,乱雑な環境下での閉塞を避けるために重要であることを示している。 さらに,両手法はオブジェクトの可視性という点で既存手法よりも優れていた。

Visual Sensor Networks can be used in a variety of perception applications such as infrastructure support for autonomous driving in complex road segments. The pose of the sensors in such networks directly determines the coverage of the environment and objects therein, which impacts the performance of applications such as object detection and tracking. Existing sensor pose optimisation methods in the literature either maximise the coverage of ground surfaces, or consider the visibility of the target objects as binary variables, which cannot represent various degrees of visibility. Such formulations cannot guarantee the visibility of the target objects as they fail to consider occlusions. This paper proposes two novel sensor pose optimisation methods, based on gradient-ascent and Integer Programming techniques, which maximise the visibility of multiple target objects in cluttered environments. Both methods consider a realistic visibility model based on a rendering engine that provides pixel-level visibility information about the target objects. The proposed methods are evaluated in a complex environment and compared to existing methods in the literature. The evaluation results indicate that explicitly modelling the visibility of target objects is critical to avoid occlusions in cluttered environments. Furthermore, both methods significantly outperform existing methods in terms of object visibility.
翻訳日:2021-06-13 02:32:23 公開日:2021-06-09
# (参考訳) 産業制御ネットワークサイバーセキュリティオーケストレーションのための強化学習 [全文訳有]

Reinforcement Learning for Industrial Control Network Cyber Security Orchestration ( http://arxiv.org/abs/2106.05332v1 )

ライセンス: CC BY 4.0
John Mern, Kyle Hatch, Ryan Silva, Jeff Brush, Mykel J. Kochenderfer(参考訳) サイバー攻撃からコンピュータネットワークを守るには、ネットワーク操作の中断を最小限に抑えながら、妥協の完全な指標に基づいて複数のノードをまたがる行動を調整する必要がある。 高度な攻撃は、実行数ヶ月前に観測可能な信号がほとんどないまま進行する可能性がある。 結果として生じる逐次決定問題は、大きな観測と行動空間と長い時間軸を持ち、既存の手法では解決が難しい。 本稿では,大規模産業制御ネットワークにおけるサイバーセキュリティオーケストレーション問題を解決するために,深層強化学習をスケールする手法を提案する。 本稿では,保護下のネットワークサイズに不変な,サイズ複雑度を有する注意型ニューラルアーキテクチャを提案する。 早期探査の難しさを克服するための予習カリキュラムが提示される。 実験により,提案手法は,学習サンプルの複雑さと,ベースライン法よりも収束したポリシー性能の両方を大幅に改善することを示した。

Defending computer networks from cyber attack requires coordinating actions across multiple nodes based on imperfect indicators of compromise while minimizing disruptions to network operations. Advanced attacks can progress with few observable signals over several months before execution. The resulting sequential decision problem has large observation and action spaces and a long time-horizon, making it difficult to solve with existing methods. In this work, we present techniques to scale deep reinforcement learning to solve the cyber security orchestration problem for large industrial control networks. We propose a novel attention-based neural architecture with size complexity that is invariant to the size of the network under protection. A pre-training curriculum is presented to overcome early exploration difficulty. Experiments show in that the proposed approaches greatly improve both the learning sample complexity and converged policy performance over baseline methods in simulation.
翻訳日:2021-06-13 02:05:08 公開日:2021-06-09
# (参考訳) 後方サンプリングによる確率的最短経路モデルのオンライン学習 [全文訳有]

Online Learning for Stochastic Shortest Path Model via Posterior Sampling ( http://arxiv.org/abs/2106.05335v1 )

ライセンス: CC BY 4.0
Mehdi Jafarnia-Jahromi, Liyu Chen, Rahul Jain, Haipeng Luo(参考訳) 吸収状態を持つ未知のMDPとしてモデル化された確率的短経路問題(SSP)に対するオンライン強化学習の問題点を考察する。 SSP問題に対する単純な後方サンプリングに基づく強化学習アルゴリズムであるPSRL-SSPを提案する。 アルゴリズムはエポックで動作します。 各エポックの開始時に、未知のモデルダイナミクスの後方分布からサンプルを抽出し、そのエポックの間、この描画されたサンプルに対する最適なポリシーに従う。 エポックは、現在のエポックにおけるゴール状態への訪問回数が前のエポックの訪問回数を超えるか、またはいずれかのステート-アクションペアへの訪問回数が倍になる場合に完了する。 ここで、$b_\star$は、最適なポリシーの期待されるコストの上限であり、$s$は、状態空間のサイズであり、$a$は、アクション空間のサイズであり、$k$は、エピソードの数である。 このアルゴリズムは、事前分布の知識のみを必要とし、チューニングするハイパーパラメータを持たない。 この種の後方サンプリングアルゴリズムとしては初めてであり、これまで提案されていたオプティミズムに基づくアルゴリズムよりも優れていた。

We consider the problem of online reinforcement learning for the Stochastic Shortest Path (SSP) problem modeled as an unknown MDP with an absorbing state. We propose PSRL-SSP, a simple posterior sampling-based reinforcement learning algorithm for the SSP problem. The algorithm operates in epochs. At the beginning of each epoch, a sample is drawn from the posterior distribution on the unknown model dynamics, and the optimal policy with respect to the drawn sample is followed during that epoch. An epoch completes if either the number of visits to the goal state in the current epoch exceeds that of the previous epoch, or the number of visits to any of the state-action pairs is doubled. We establish a Bayesian regret bound of $O(B_\star S\sqrt{AK})$, where $B_\star$ is an upper bound on the expected cost of the optimal policy, $S$ is the size of the state space, $A$ is the size of the action space, and $K$ is the number of episodes. The algorithm only requires the knowledge of the prior distribution, and has no hyper-parameters to tune. It is the first such posterior sampling algorithm and outperforms numerically previously proposed optimism-based algorithms.
翻訳日:2021-06-13 01:49:22 公開日:2021-06-09
# (参考訳) DESCGEN: 抽象エンティティ記述を生成するための遠隔監視データセット [全文訳有]

DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity Descriptions ( http://arxiv.org/abs/2106.05365v1 )

ライセンス: CC BY 4.0
Weijia Shi, Mandar Joshi, Luke Zettlemoyer(参考訳) エンティティの短いテキスト記述は、キー属性の要約を提供し、エンティティリンクや質問応答といったタスクの背景知識の有用な情報源であることが示されている。 しかし,内容やスタイルが異なる複数のソースに関連情報が散在することが多いため,エンティティ記述の生成は,特に新しいロングテールエンティティに対しては困難である。 descgenを紹介する: 複数のドキュメントにまたがる言及を考えると、目標はエンティティの概要記述を生成することです。 descgenはwikipediaとfandomの37kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書がある。 ドキュメントはwikipediaとfandomエンティティページへのエンティティリンクとハイパーリンクの組み合わせを使って収集され、高品質な遠隔監視を提供する。 結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。 また,2段階の抽出-then-generateベースラインを提案し,最先端モデルと人間のパフォーマンスの間に大きなギャップ(ルージュlの19.9%)があることを示し,そのデータが将来の大きな作業をサポートすることを示唆する。

Short textual descriptions of entities provide summaries of their key attributes and have been shown to be useful sources of background knowledge for tasks such as entity linking and question answering. However, generating entity descriptions, especially for new and long-tail entities, can be challenging since relevant information is often scattered across multiple sources with varied content and style. We introduce DESCGEN: given mentions spread over multiple documents, the goal is to generate an entity summary description. DESCGEN consists of 37K entity descriptions from Wikipedia and Fandom, each paired with nine evidence documents on average. The documents were collected using a combination of entity linking and hyperlinks to the Wikipedia and Fandom entity pages, which together provide high-quality distant supervision. The resulting summaries are more abstractive than those found in existing datasets and provide a better proxy for the challenge of describing new and emerging entities. We also propose a two-stage extract-then-generat e baseline and show that there exists a large gap (19.9% in ROUGE-L) between state-of-the-art models and human performance, suggesting that the data will support significant future work.
翻訳日:2021-06-13 01:04:21 公開日:2021-06-09
# (参考訳) 確率線形帯域のパラメータと特徴選択 [全文訳有]

Parameter and Feature Selection in Stochastic Linear Bandits ( http://arxiv.org/abs/2106.05378v1 )

ライセンス: CC BY 4.0
Ahmadreza Moradipari, Yasin Abbasi-Yadkori, Mahnoosh Alizadeh, Mohammad Ghavamzadeh(参考訳) 確率線形バンディット (lb) におけるモデル選択設定について検討した。 最初の設定では、LB問題の報酬パラメータは、$\mathbb R^d$の重なり合うボールとして表される$M$モデルから任意に選択される。 しかし、エージェントは不特定モデル(すなわちボールの中心と半径の推定値)にしかアクセスできない。 この設定をパラメータ選択と呼ぶ。 第2の設定では、機能選択 (feature selection) と呼ばれ、lb問題の期待される報酬は、少なくとも$m$フィーチャマップ (models) の少なくとも1つの線形スパンにある。 各設定に対して,帯域幅から全情報問題への削減に基づくアルゴリズムを開発し,解析する。 これにより、真のモデルが知られている場合よりも悪くはない($\sqrt{\log m}$ factor まで)後悔の限界を得ることができる。 パラメータ選択アルゴリズムはoful型であり,特徴選択アルゴリズムはsquarecbアルゴリズムに基づいている。 また,パラメータ選択アルゴリズムの後悔は,モデルの誤特定と対数的にスケールすることを示した。

We study two model selection settings in stochastic linear bandits (LB). In the first setting, the reward parameter of the LB problem is arbitrarily selected from $M$ models represented as (possibly) overlapping balls in $\mathbb R^d$. However, the agent only has access to misspecified models, i.e., estimates of the centers and radii of the balls. We refer to this setting as parameter selection. In the second setting, which we refer to as feature selection, the expected reward of the LB problem is in the linear span of at least one of $M$ feature maps (models). For each setting, we develop and analyze an algorithm that is based on a reduction from bandits to full-information problems. This allows us to obtain regret bounds that are not worse (up to a $\sqrt{\log M}$ factor) than the case where the true model is known. Our parameter selection algorithm is OFUL-style and the one for feature selection is based on the SquareCB algorithm. We also show that the regret of our parameter selection algorithm scales logarithmically with model misspecification.
翻訳日:2021-06-13 00:49:45 公開日:2021-06-09
# (参考訳) メタラーニングによる継続学習のための再利用可能な知識の最適化 [全文訳有]

Optimizing Reusable Knowledge for Continual Learning via Metalearning ( http://arxiv.org/abs/2106.05390v1 )

ライセンス: CC BY 4.0
Julio Hurtado, Alain Raymond-Saez and Alvaro Soto(参考訳) 時間の経過とともにタスクを学習する際、人工知能ニューラルネットワークは、Catastrophic Forgetting (CF)と呼ばれる問題に悩まされる。 これは、古い情報を忘れた新しいタスクのトレーニング中にネットワークの重みが上書きされたときに発生する。 この問題に対処するために,新しいタスクを学習する際にオーバーライトする代わりに,重み付け再利用性を促進する新しい手法であるmeta reusable knowledge or markを提案する。 具体的には、MARKはタスク間の共有重みのセットを保持する。 これらの共有重みは、新しいタスクを学ぶために使われるだけでなく、モデルが新しいタスクを学ぶときに新しい知識に富む共通知識ベース(KB)として考えます。 MARKの主要なコンポーネントは2つだ。 一方、メタラーニングアプローチは、KBを新たな知識で漸進的に強化し、タスク間の重み付け可能性を高めるための重要なメカニズムを提供する。 一方、訓練可能なマスクのセットは、各タスクを解決するためにkbに関連する重みの中から選択するキーメカニズムを提供する。 markを用いて,20スプライト・ミニイメージネットデータセットにおいて,平均精度で最高性能の手法を10%以上上回り,パラメータ数の55%でほぼゼロの忘れやすさを達成している。 さらに、アブレーション研究は、markが各タスクで選択的に使用される再利用可能な知識を学習している証拠を与える。

When learning tasks over time, artificial neural networks suffer from a problem known as Catastrophic Forgetting (CF). This happens when the weights of a network are overwritten during the training of a new task causing forgetting of old information. To address this issue, we propose MetA Reusable Knowledge or MARK, a new method that fosters weight reusability instead of overwriting when learning a new task. Specifically, MARK keeps a set of shared weights among tasks. We envision these shared weights as a common Knowledge Base (KB) that is not only used to learn new tasks, but also enriched with new knowledge as the model learns new tasks. Key components behind MARK are two-fold. On the one hand, a metalearning approach provides the key mechanism to incrementally enrich the KB with new knowledge and to foster weight reusability among tasks. On the other hand, a set of trainable masks provides the key mechanism to selectively choose from the KB relevant weights to solve each task. By using MARK, we achieve state of the art results in several popular benchmarks, surpassing the best performing methods in terms of average accuracy by over 10% on the 20-Split-MiniImageNe t dataset, while achieving almost zero forgetfulness using 55% of the number of parameters. Furthermore, an ablation study provides evidence that, indeed, MARK is learning reusable knowledge that is selectively used by each task.
翻訳日:2021-06-12 23:36:45 公開日:2021-06-09
# (参考訳) 非線形ニューラルネットワークの細粒度システム同定 [全文訳有]

Fine-Grained System Identification of Nonlinear Neural Circuits ( http://arxiv.org/abs/2106.05400v1 )

ライセンス: CC BY 4.0
Dawna Bagherian, James Gornet, Jeremy Bernstein, Yu-Li Ni, Yisong Yue, and Markus Meister(参考訳) 高次元合成関数の疎非線形モデル回復問題について検討する。 我々の研究は、収集された測定データを用いて生体神経回路のきめ細かいモデルを復元する神経科学の新たな機会に動機付けられている。 神経科学における利用可能なドメイン知識に導かれ、トレーニングデータを生成する基礎となる生体回路を回復できる条件を探索する。 結果は理論的・実用的双方の関心の見識を示唆する。 最も注目すべきは、重み付けに対する符号制約がシステムの回復に必要条件であることであり、理論上は識別可能性保証と、シミュレーションされた生物学的回路の両方で確立する。 マウス網膜から収集したデータを用いた網膜神経節細胞回路のケーススタディにより,本手法の実用化の可能性を示した。

We study the problem of sparse nonlinear model recovery of high dimensional compositional functions. Our study is motivated by emerging opportunities in neuroscience to recover fine-grained models of biological neural circuits using collected measurement data. Guided by available domain knowledge in neuroscience, we explore conditions under which one can recover the underlying biological circuit that generated the training data. Our results suggest insights of both theoretical and practical interests. Most notably, we find that a sign constraint on the weights is a necessary condition for system recovery, which we establish both theoretically with an identifiability guarantee and empirically on simulated biological circuits. We conclude with a case study on retinal ganglion cell circuits using data collected from mouse retina, showcasing the practical potential of this approach.
翻訳日:2021-06-12 23:22:08 公開日:2021-06-09
# (参考訳) 社会的学習における認知 : マルチエージェント強化学習の視点から [全文訳有]

Deception in Social Learning: A Multi-Agent Reinforcement Learning Perspective ( http://arxiv.org/abs/2106.05402v1 )

ライセンス: CC BY 4.0
Paul Chelarescu(参考訳) マルチエージェント強化学習(Multi-Agent Reinforcement Learning)の枠組みの中で、ソーシャルラーニング(Social Learning)は、エージェントが他のエージェントの報酬機能を再形成することを可能にする新しいアルゴリズムのクラスである。 しかし、この新しい修正により、エージェント同士の学習プロセスに前例のないアクセスが可能となり、エージェントが実際に最善ではないポリシーを採用することに騙されていることに気づかない場合には、操作のリスクが大幅に増大する。 本研究は、問題ステートメントを導入し、重要な概念を定義し、既存の証拠を批判的に評価し、今後の研究で解決すべき課題に対処する。

Within the framework of Multi-Agent Reinforcement Learning, Social Learning is a new class of algorithms that enables agents to reshape the reward function of other agents with the goal of promoting cooperation and achieving higher global rewards in mixed-motive games. However, this new modification allows agents unprecedented access to each other's learning process, which can drastically increase the risk of manipulation when an agent does not realize it is being deceived into adopting policies which are not actually in its own best interest. This research review introduces the problem statement, defines key concepts, critically evaluates existing evidence and addresses open problems that should be addressed in future research.
翻訳日:2021-06-12 23:02:09 公開日:2021-06-09
# (参考訳) ゼロタイムムダ:初期エグジットニューラルネットワークにおけるリサイクル予測 [全文訳有]

Zero Time Waste: Recycling Predictions in Early Exit Neural Networks ( http://arxiv.org/abs/2106.05409v1 )

ライセンス: CC BY 4.0
Maciej Wo{\l}czyk, Bartosz W\'ojcik, Klaudia Ba{\l}azy, Igor Podolak, Jacek Tabor, Marek \'Smieja, Tomasz Trzci\'nski(参考訳) 大規模ディープラーニングモデルの処理時間を短縮する問題は、多くの現実世界アプリケーションにおいて根本的な課題である。 早期終了メソッドは、ニューラルネットワークの中間層に追加の内部分類器(IC)を追加することで、この目標に向かっている。 ICは簡単な例の予測を素早く返し、結果としてモデル全体の平均推測時間を短縮することができる。 しかし、特定のICが答えを早期に返さない場合、その予測は破棄され、その計算は事実上無駄にされる。 そこで本研究では,(1)IC間の直接接続を付加し,(2)前の出力をアンサンブル的な方法で組み合わせることで,各ICが前者から返却した予測を再利用する手法であるZero Time Waste (ZTW)を紹介する。 我々は、ZTWが最近提案された他の早期出口法よりもはるかに精度が良いことを実証するために、さまざまなデータセットやアーキテクチャにわたって広範な実験を行った。

The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.
翻訳日:2021-06-12 22:40:21 公開日:2021-06-09
# (参考訳) DASVDD: 異常検出のためのDeep Autoencoding Support Vector Data Descriptor [全文訳有]

DASVDD: Deep Autoencoding Support Vector Data Descriptor for Anomaly Detection ( http://arxiv.org/abs/2106.05410v1 )

ライセンス: CC BY 4.0
Hadi Hojjati, Narges Armanfard(参考訳) 通常のデータのみを訓練したモデルを用いて、正常サンプルから異常を検出することを目的とした半教師付き異常検出は、過去10年間、活発な研究分野であった。 ディープラーニングの最近の進歩、特に生成的敵ネットワークとオートエンコーダにより、研究者は効率的な深部異常検出法を設計した。 既存の作品では、オートエンコーダのようなニューラルネットワークを使用して、データを扱いやすい新しい表現にマッピングし、異常検出アルゴリズムを適用するのが一般的である。 本稿では,自動エンコーダのパラメータを協調的に学習し,その潜在表現上で囲む超球の体積を最小化する手法であるdasvddを提案する。 本研究では,オートエンコーダの再構成誤差と,囲む超球の中心からサンプルの低次元表現距離を組み合わせた,カスタマイズされた異常スコアを提案する。 トレーニング中の正規データに対するこの異常スコアの最小化は、正規データの基礎となる分布を学習するのに役立ちます。 異常スコアに再構成誤差を含めると、DASVDDは、提案されたDASVDDモデルは、全ての入力を潜在表現の定数点にマッピングする自明な解に収束しないため、共通の超球崩壊問題に悩まされない。 異なる領域のベンチマークデータセットにおける実験的評価により、提案手法は、異なる異常クラスにおける堅牢で正確な性能を維持しつつ、一般的に使用される最先端の異常検出アルゴリズムのほとんどを上回ることが示された。

Semi-supervised anomaly detection, which aims to detect anomalies from normal samples using a model that is solely trained on normal data, has been an active field of research in the past decade. With recent advancements in deep learning, particularly generative adversarial networks and autoencoders, researchers have designed efficient deep anomaly detection methods. Existing works commonly use neural networks such as an autoencoder to map the data into a new representation that is easier to work with and then apply an anomaly detection algorithm. In this paper, we propose a method, DASVDD, that jointly learns the parameters of an autoencoder while minimizing the volume of an enclosing hyper-sphere on its latent representation. We propose a customized anomaly score which is a combination of autoencoder's reconstruction error and distance of the lower-dimensional representation of a sample from the center of the enclosing hyper-sphere. Minimizing this anomaly score on the normal data during training aids us in learning the underlying distribution of normal data. Including the reconstruction error in the anomaly score ensures that DASVDD does not suffer from the common hyper-sphere collapse issue since the proposed DASVDD model does not converge to the trivial solution of mapping all inputs to a constant point in the latent representation. Experimental evaluations on several benchmark datasets from different domains show that the proposed method outperforms most of the commonly used state-of-the-art anomaly detection algorithms while maintaining robust and accurate performance across different anomaly classes.
翻訳日:2021-06-12 22:23:15 公開日:2021-06-09
# (参考訳) 言語表現空間における低次元構造は脳反応に反映される [全文訳有]

Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses ( http://arxiv.org/abs/2106.05426v1 )

ライセンス: CC BY 4.0
Richard Antonello, Javier Turek, Vy Vo, and Alexander Huth(参考訳) ニューラルネットワークモデル、翻訳モデル、言語タグ付けタスクによって学習される表現は、どの程度関連しているか? 本稿では,コンピュータビジョンからエンコーダ-デコーダ変換学習手法を適用し,言語タスクを訓練した各種ネットワークの隠れ表現から抽出した100種類の特徴空間の構造について検討する。 本手法は,言語モデルと翻訳モデルが単語の埋め込み,構文的・意味的タスク,将来の単語埋め込みを円滑に補間する低次元構造を明らかにする。 この低次元構造を言語表現埋め込みと呼び、様々なNLPタスクのために言語処理に必要な表現間の関係を符号化する。 この表現埋め込みは、個々の特徴空間が、fmriで記録された自然言語刺激に対する人間の脳の反応にどの程度うまくマッピングできるかを予測することができる。 さらに、この構造の主要な次元は、脳の自然言語処理階層を強調するメトリクスの作成に利用できることが判明した。 これは、埋め込みが脳の自然言語表現構造の一部を捉えることを示唆している。

How related are the representations learned by neural language models, translation models, and language tagging tasks? We answer this question by adapting an encoder-decoder transfer learning method from computer vision to investigate the structure among 100 different feature spaces extracted from hidden representations of various networks trained on language tasks. This method reveals a low-dimensional structure where language models and translation models smoothly interpolate between word embeddings, syntactic and semantic tasks, and future word embeddings. We call this low-dimensional structure a language representation embedding because it encodes the relationships between representations needed to process language for a variety of NLP tasks. We find that this representation embedding can predict how well each individual feature space maps to human brain responses to natural language stimuli recorded using fMRI. Additionally, we find that the principal dimension of this structure can be used to create a metric which highlights the brain's natural language processing hierarchy. This suggests that the embedding captures some part of the brain's natural language representation structure.
翻訳日:2021-06-12 22:10:44 公開日:2021-06-09
# (参考訳) deep direct volume rendering: 例示画像からの視覚的特徴マッピングの学習 [全文訳有]

Deep Direct Volume Rendering: Learning Visual Feature Mappings From Exemplary Images ( http://arxiv.org/abs/2106.05429v1 )

ライセンス: CC BY-SA 4.0
Jakob Weiss, Nassir Navab(参考訳) ボリュームレンダリングは三次元スカラーデータグリッドを可視化する重要な技術であり、科学や医学的な画像データに一般的に用いられている。 直接ボリュームレンダリング(英: Direct Volume Rendering, DVR)は、ボリュームデータのためのアルゴリズムである。 ニューラルレンダリングは、ディープニューラルネットワークを使用して逆レンダリングタスクを解決し、DVRに似たテクニックを適用する。 しかし、科学的ボリュームデータのレンダリングには成功していない。 本稿では,DVRアルゴリズムへのディープニューラルネットワークの統合を可能にするDVRの一般化であるDeep Direct Volume Rendering(DeepDVR)を紹介する。 色空間におけるレンダリングを概念化し、深層アーキテクチャを用いて特徴抽出と分類のための暗黙マッピングを学習し、明示的な特徴設計と手作りの伝達関数を置き換える。 私たちの一般化は、画像空間の例からエンドツーエンドでトレーニングできる新しいボリュームレンダリングアーキテクチャを導出し、より優れた分類強度を提供しながら、手動で多次元転送関数を定義し、微調整する必要をなくすのに役立ちます。 さらに,DeepDVRモデルのトレーニングを加速し,その有効性を実験で検証する段階的アニール方式を提案する。 我々は,(1)手動で調整した1ボリュームの参照画像から最適化されたレンダリングを学習すること,(2)シェーディングやセマンティックカラー化などの高度な視覚化概念を学習すること,の2つの例でアーキテクチャを検証する。 DVRパイプラインの明示的なモデリングによる深部ボリュームレンダリングアーキテクチャは,対象画像からの科学的ボリュームレンダリングタスクのエンドツーエンド学習を効果的に実現する。

Volume Rendering is an important technique for visualizing three-dimensional scalar data grids and is commonly employed for scientific and medical image data. Direct Volume Rendering (DVR) is a well established and efficient rendering algorithm for volumetric data. Neural rendering uses deep neural networks to solve inverse rendering tasks and applies techniques similar to DVR. However, it has not been demonstrated successfully for the rendering of scientific volume data. In this work, we introduce Deep Direct Volume Rendering (DeepDVR), a generalization of DVR that allows for the integration of deep neural networks into the DVR algorithm. We conceptualize the rendering in a latent color space, thus enabling the use of deep architectures to learn implicit mappings for feature extraction and classification, replacing explicit feature design and hand-crafted transfer functions. Our generalization serves to derive novel volume rendering architectures that can be trained end-to-end directly from examples in image space, obviating the need to manually define and fine-tune multidimensional transfer functions while providing superior classification strength. We further introduce a novel stepsize annealing scheme to accelerate the training of DeepDVR models and validate its effectiveness in a set of experiments. We validate our architectures on two example use cases: (1) learning an optimized rendering from manually adjusted reference images for a single volume and (2) learning advanced visualization concepts like shading and semantic colorization that generalize to unseen volume data. We find that deep volume rendering architectures with explicit modeling of the DVR pipeline effectively enable end-to-end learning of scientific volume rendering tasks from target images.
翻訳日:2021-06-12 21:49:30 公開日:2021-06-09
# 視覚トランスフォーマーにおけるスパーシティの追求:エンドツーエンド探索

Chasing Sparsity in Vision Transformers: An End-to-End Exploration ( http://arxiv.org/abs/2106.04533v2 )

ライセンス: Link先を確認
Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang(参考訳) ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。 通常の訓練後の刈り取りは、しばしば高い訓練予算を伴います。 対照的に,本稿では,学習メモリのオーバヘッドと推論複雑性の両方を,実現可能な精度を犠牲にすることなく削減することを目的としている。 われわれは、ViTsに「端から端まで」スパーシリティを統合する統一的なアプローチを採り入れた、先駆的な包括的探査をローンチし報告する。 具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算を維持しながら、スパースサブネットワークを動的に抽出し、訓練する。 提案手法はモデルパラメータを協調的に最適化し,トレーニングを通じて接続性を探究し,最終的に1つの疎ネットワークを最終的な出力とする。 このアプローチは、非構造化から構造化されたスパース性へとシームレスに拡張され、後者は、vits内の自己愛の頭を導くことを検討する。 さらなる効率向上のために、我々は新しい学習可能なトークンセレクタを差し込み、現在最も重要なパッチを適応的に決定することで、データとアーキテクチャの疎結合をさらに発見する。 多様なViTバックボーンを持つImageNetの広範な結果から,計算コストを大幅に削減し,ほぼ不備な一般化を実現する提案の有効性が検証された。 おそらく最も驚くべきことに、提案されたスパース(コ-)トレーニングは、それを妥協するよりも、ViTの精度を向上し、スパースを「無料ランチ」にすることができる。 例えば、sparsified deit-small at (5%, 50%) sparsity for (data, architecture)、0.28% top-1の精度向上、49.32%のフロップと4.40%の実行時間の節約を実現しています。 私たちのコードはhttps://github.com/V ITA-Group/SViTE.comで公開されています。

Vision transformers (ViTs) have recently received explosive popularity, but their enormous model sizes and training costs remain daunting. Conventional post-training pruning often incurs higher training budgets. In contrast, this paper aims to trim down both the training memory overhead and the inference complexity, without sacrificing the achievable accuracy. We launch and report the first-of-its-kind comprehensive exploration, on taking a unified approach of integrating sparsity in ViTs "from end to end". Specifically, instead of training full ViTs, we dynamically extract and train sparse subnetworks, while sticking to a fixed small parameter budget. Our approach jointly optimizes model parameters and explores connectivity throughout training, ending up with one sparse network as the final output. The approach is seamlessly extended from unstructured to structured sparsity, the latter by considering to guide the prune-and-grow of self-attention heads inside ViTs. For additional efficiency gains, we further co-explore data and architecture sparsity, by plugging in a novel learnable token selector to adaptively determine the currently most vital patches. Extensive results on ImageNet with diverse ViT backbones validate the effectiveness of our proposals which obtain significantly reduced computational cost and almost unimpaired generalization. Perhaps most surprisingly, we find that the proposed sparse (co-)training can even improve the ViT accuracy rather than compromising it, making sparsity a tantalizing "free lunch". For example, our sparsified DeiT-Small at (5%, 50%) sparsity for (data, architecture), improves 0.28% top-1 accuracy, and meanwhile enjoys 49.32% FLOPs and 4.40% running time savings. Our codes are available at https://github.com/V ITA-Group/SViTE.
翻訳日:2021-06-11 14:49:18 公開日:2021-06-09
# 類似性と接続性による構造規則化を伴う超コンパクトクラスタ

Very Compact Clusters with Structural Regularization via Similarity and Connectivity ( http://arxiv.org/abs/2106.05430v1 )

ライセンス: Link先を確認
Xin Ma and Won Hwa Kim(参考訳) クラスタリングアルゴリズムは、データの効果的な表現を提供するディープニューラルネットワークとともに大幅に改善されている。 既存のメソッドは、サンプルのクラスタ割り当ての分散を利用するディープオートエンコーダとセルフトレーニングプロセス上に構築されている。 しかし、オートエンコーダの基本的な目的は効率的なデータ再構成であり、学習空間はクラスタリングに最適であるかもしれない。 さらに、データの高効率なコード(つまり表現)を必要とするが、そうでなければ初期クラスタセンターは、自己学習中に安定性の問題を引き起こすことが多い。 多くの最先端クラスタリングアルゴリズムは畳み込み演算を使って効率的なコードを抽出するが、その応用は画像データに限られる。 本稿では,クラスタ境界近傍のサンプルの局所的関係の分布を利用して,クラスタ中心に適切に分離してプルすることでコンパクトクラスタを形成する汎用データセットのための,エンド・ツー・エンドの深層クラスタリングアルゴリズム,すなわち超コンパクトクラスタ(vcc)を提案する。 画像データの畳み込みを行わずにvccが学習したデータ組込みは,特殊な畳み込み手法にさえ匹敵する。

Clustering algorithms have significantly improved along with Deep Neural Networks which provide effective representation of data. Existing methods are built upon deep autoencoder and self-training process that leverages the distribution of cluster assignments of samples. However, as the fundamental objective of the autoencoder is focused on efficient data reconstruction, the learnt space may be sub-optimal for clustering. Moreover, it requires highly effective codes (i.e., representation) of data, otherwise the initial cluster centers often cause stability issues during self-training. Many state-of-the-art clustering algorithms use convolution operation to extract efficient codes but their applications are limited to image data. In this regard, we propose an end-to-end deep clustering algorithm, i.e., Very Compact Clusters (VCC), for the general datasets, which takes advantage of distributions of local relationships of samples near the boundary of clusters, so that they can be properly separated and pulled to cluster centers to form compact clusters. Experimental results on various datasets illustrate that our proposed approach achieves better clustering performance over most of the state-of-the-art clustering methods, and the data embeddings learned by VCC without convolution for image data are even comparable with specialized convolutional methods.
翻訳日:2021-06-11 14:39:22 公開日:2021-06-09
# 利害関係者の目:テキスト型強化学習エージェントにおける関係一般化の改善

Eye of the Beholder: Improved Relation Generalization for Text-based Reinforcement Learning Agents ( http://arxiv.org/abs/2106.05387v1 )

ライセンス: Link先を確認
Keerthiram Murugesan, Subhajit Chaudhury, Kartik Talamadupula(参考訳) テキストベースのゲーム(TBG)は、準現実世界における決定を下す学習ベースのエージェントのデモンストレーションの場として人気がある。 このようなtbgsにおける強化学習エージェントの問題点は、世界のオブジェクトとそれらのオブジェクトとその世界との関係を識別することにある。 近年,エージェントの知識を増大させ,その一般化を向上するためにテキストベースのリソースが使われていることは有望であるが,本論文では,これらの同一世界の視覚的表現から学ばないことが示唆されている。 具体的には,世界のテキスト観察の特定の事例を表すイメージを検索し,エージェントをそのようなイメージで訓練することを提案する。 これにより、エージェントがゲーム「シーン」とそれらの周りの世界との関係を総合的に理解し、様々な視覚的表現を提供することで、エージェントは関係をより一般化することができる。 このようなイメージを取り入れることで,様々なTBG設定におけるエージェントの性能が向上することを示す。

Text-based games (TBGs) have become a popular proving ground for the demonstration of learning-based agents that make decisions in quasi real-world settings. The crux of the problem for a reinforcement learning agent in such TBGs is identifying the objects in the world, and those objects' relations with that world. While the recent use of text-based resources for increasing an agent's knowledge and improving its generalization have shown promise, we posit in this paper that there is much yet to be learned from visual representations of these same worlds. Specifically, we propose to retrieve images that represent specific instances of text observations from the world and train our agents on such images. This improves the agent's overall understanding of the game 'scene' and objects' relationships to the world around them, and the variety of visual representations on offer allow the agent to generate a better generalization of a relationship. We show that incorporating such images improves the performance of agents in various TBG settings.
翻訳日:2021-06-11 14:38:26 公開日:2021-06-09
# 薬物発見における人工知能の応用と技術

Artificial Intelligence in Drug Discovery:Applicatio ns and Techniques ( http://arxiv.org/abs/2106.05386v1 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能は過去10年間、薬物発見の実践を変えてきた。 様々な人工知能技術が幅広い用途に使われている。 この観点から、我々は、薬物発見におけるAIの大きな応用を示し、関連するAI技術について議論し、AIによる薬物発見の最近の進歩について述べる。 この視点は、人工知能と薬物発見の分野で働くことに興味がある研究者のガイドになることを期待している。 また、調査対象の論文を学習リソースとして要約したgithubリポジトリも提供しています。

Artificial intelligence has transformed the practice of drug discovery in the past decade. Various artificial intelligence techniques have been used in a wide range of applications. In this perspective, we present major applications of AI in drug discovery and discuss the relevant AI techniques, covering most recent progress in AI-driven drug discovery. We expect that the perspective will serve as a guide for researchers who are interested in working at this intersected area of artificial intelligence and drug discovery. We also provide a GitHub repository summarizing the surveyed papers as a learning resource, which will be regularly updated.
翻訳日:2021-06-11 14:38:11 公開日:2021-06-09
# オープンドメイン質問応答のためのマルチドキュメントリーダとレトリバーのエンドツーエンドトレーニング

End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering ( http://arxiv.org/abs/2106.05346v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Siva Reddy and William Hamilton and Chris Dyer and Dani Yogatama(参考訳) 本稿では,複数の検索文書からの情報を結合して回答を生成するオープンドメイン質問応答システムのための,エンドツーエンドの識別可能な学習手法を提案する。 検索判断を関連文書の集合上の潜在変数としてモデル化する。 検索された文書の集合の辺縁化は計算が難しいので,期待最大化アルゴリズムを用いて近似する。 潜在変数(ある質問に対する関連する文書の集合)の値を反復的に推定し、この推定値を使ってレトリバーとリーダーパラメータを更新します。 このようなエンドツーエンドのトレーニングは、トレーニングシグナルが読み手へ流れて、段階的なトレーニングよりもレトリバーへ流れることを想定しています。 これにより、質問に対してより関連性の高い文書を選択できるレトリバーと、より正確な文書で訓練された読者が回答を生成する。 3つのベンチマークデータセットにおける実験により,提案手法が既存の2~3%の絶対的一致点を上回り,新たな最先端結果が得られることを示した。 また,検索判断を明示的に管理することなく,回答生成を改善するための学習の可能性を示す。

We present an end-to-end differentiable training method for retrieval-augmented open-domain question answering systems that combine information from multiple retrieved documents when generating answers. We model retrieval decisions as latent variables over sets of relevant documents. Since marginalizing over sets of retrieved documents is computationally hard, we approximate this using an expectation-maximiza tion algorithm. We iteratively estimate the value of our latent variable (the set of relevant documents for a given question) and then use this estimate to update the retriever and reader parameters. We hypothesize that such end-to-end training allows training signals to flow to the reader and then to the retriever better than staged-wise training. This results in a retriever that is able to select more relevant documents for a question and a reader that is trained on more accurate documents to generate an answer. Experiments on three benchmark datasets demonstrate that our proposed method outperforms all existing approaches of comparable size by 2-3% absolute exact match points, achieving new state-of-the-art results. Our results also demonstrate the feasibility of learning to retrieve to improve answer generation without explicit supervision of retrieval decisions.
翻訳日:2021-06-11 14:36:28 公開日:2021-06-09
# 共形埋め込み流れをもつ学習多様体の気道密度推定

Tractable Density Estimation on Learned Manifolds with Conformal Embedding Flows ( http://arxiv.org/abs/2106.05275v1 )

ライセンス: Link先を確認
Brendan Leigh Ross, Jesse C. Cresswell(参考訳) 正規化フローは、単純な基底分布を複素対象分布に変換することによって、トラクタブル密度推定を提供する生成モデルである。 しかし、この手法は、画像データのような実世界の領域でよく見られる未知の低次元多様体上でのデータを直接モデル化することはできない。 この制限を是正しようとする最近の試みは、流れの正規化の中心的な利点である正確な密度推定を打ち破る幾何学的複雑化をもたらす。 この利点は、トラクタブル密度の多様体を学習するフローを設計するためのフレームワークであるConformal Embedding Flowsを用いて回復する。 トレーニング可能な共形埋め込みで標準流れを構成することは、多様体が支持するデータをモデル化する最も自然な方法である。 そこで本論文では, 実世界および合成データを用いた実験において, 計算可能な確率を犠牲にすることなく, フローが多様体支持分布をモデル化可能であることを示す。

Normalizing flows are generative models that provide tractable density estimation by transforming a simple base distribution into a complex target distribution. However, this technique cannot directly model data supported on an unknown low-dimensional manifold, a common occurrence in real-world domains such as image data. Recent attempts to remedy this limitation have introduced geometric complications that defeat a central benefit of normalizing flows: exact density estimation. We recover this benefit with Conformal Embedding Flows, a framework for designing flows that learn manifolds with tractable densities. We argue that composing a standard flow with a trainable conformal embedding is the most natural way to model manifold-supported data. To this end, we present a series of conformal building blocks and apply them in experiments with real-world and synthetic data to demonstrate that flows can model manifold-supported distributions without sacrificing tractable likelihoods.
翻訳日:2021-06-11 14:35:50 公開日:2021-06-09
# gansのsteinutnt最適化

Stein Latent Optimization for GANs ( http://arxiv.org/abs/2106.05319v1 )

ライセンス: Link先を確認
Uiwon Hwang, Heeseung Kim, Dahuin Jung, Hyemi Jang, Hyungyu Lee, Sungroh Yoon(参考訳) クラスタ化された潜在空間を持つGANは、完全に教師なしの条件付き生成を行うことができる。 しかし、実世界のラベルのないデータの健全な特性は、ほとんど不均衡である。 既存の教師なし条件付きGANは、属性の均一分布を仮定するため、潜在空間に属性を適切にクラスタ化できない。 この問題に対処するために、連続潜時空間においてガウス混合を前提とした潜時分布パラメータの再パラメータ化可能な勾配推定を提供するスタイン潜時最適化を理論的に導出する。 構造的には、エンコーダネットワークと新しいコントラスト損失を導入して、単一の混合コンポーネントから生成されたデータを単一の属性として表現する。 提案手法は,SLOGAN(Stein Latent Optimization for GAN)と命名され,バランスの取れた属性や不均衡な属性を学習し,非教師なし条件生成,無条件生成,クラスタ割り当てなどの非教師なしタスクを行う。 不均衡比)。 さらに,少量のプローブデータを用いて学習対象の属性を操作できることを実証した。

Generative adversarial networks (GANs) with clustered latent spaces can perform conditional generation in a completely unsupervised manner. However, the salient attributes of unlabeled data in the real-world are mostly imbalanced. Existing unsupervised conditional GANs cannot properly cluster the attributes in their latent spaces because they assume uniform distributions of the attributes. To address this problem, we theoretically derive Stein latent optimization that provides reparameterizable gradient estimations of the latent distribution parameters assuming a Gaussian mixture prior in a continuous latent space. Structurally, we introduce an encoder network and a novel contrastive loss to help generated data from a single mixture component to represent a single attribute. We confirm that the proposed method, named Stein Latent Optimization for GANs (SLOGAN), successfully learns the balanced or imbalanced attributes and performs unsupervised tasks such as unsupervised conditional generation, unconditional generation, and cluster assignment even in the absence of information of the attributes (e.g. the imbalance ratio). Moreover, we demonstrate that the attributes to be learned can be manipulated using a small amount of probe data.
翻訳日:2021-06-11 14:35:35 公開日:2021-06-09
# 情報幾何学を取り戻す

Pulling back information geometry ( http://arxiv.org/abs/2106.05367v1 )

ライセンス: Link先を確認
Georgios Arvanitidis, Miguel Gonz\'alez-Duque, Alison Pouplin, Dimitris Kalatzis, S{\o}ren Hauberg(参考訳) 潜時空間幾何学は、深部生成モデルの潜時変数と相互作用するリッチで厳密な枠組みを提供することを示した。 しかし、既存の理論は、その単純な再パラメータ化により生成過程を決定論的多様体のランダム射影として解釈できるため、ガウス分布であるデコーダに依存する。 したがって、再パラメータ化が容易でないデコーダに適用すると、このアプローチは崩壊する。 本稿では,ディコーダ分布の空間に関連するfisher-raoメトリックを基準メトリックとして使用し,それを潜在空間に戻すことを提案する。 先行理論が適用できない広い範囲のデコーダ分布に対して有意義な潜在ジオメトリを実現できることを示し、「ブラックボックス」潜在ジオメトリへの扉を開く。

Latent space geometry has shown itself to provide a rich and rigorous framework for interacting with the latent variables of deep generative models. The existing theory, however, relies on the decoder being a Gaussian distribution as its simple reparametrization allows us to interpret the generating process as a random projection of a deterministic manifold. Consequently, this approach breaks down when applied to decoders that are not as easily reparametrized. We here propose to use the Fisher-Rao metric associated with the space of decoder distributions as a reference metric, which we pull back to the latent space. We show that we can achieve meaningful latent geometries for a wide range of decoder distributions for which the previous theory was not applicable, opening the door to `black box' latent geometries.
翻訳日:2021-06-11 14:35:17 公開日:2021-06-09
# 単純かつ効果的なベースラインを用いた点雲形状分類の再検討

Revisiting Point Cloud Shape Classification with a Simple and Effective Baseline ( http://arxiv.org/abs/2106.05304v1 )

ライセンス: Link先を確認
Ankit Goyal, Hei Law, Bowei Liu, Alejandro Newell, Jia Deng(参考訳) ポイントクラウドデータの処理は多くの現実世界システムにおいて重要なコンポーネントである。 このように、様々なポイントベースのアプローチが提案され、時間とともに安定したベンチマーク改善が報告されている。 この進展の鍵となる要素について検討し、2つの重要な結果を明らかにする。 まず,モデルアーキテクチャに依存しない評価手法,データ拡張戦略,損失関数などの補助的要因が,性能に大きな違いをもたらすことを明らかにする。 違いは十分に大きく、アーキテクチャの影響を曖昧にしています。 これらの要因が制御されると、比較的古いネットワークであるPointNet++は、最近の手法と競合して動作する。 次に、SimpleViewと呼ばれる非常に単純なプロジェクションベースのメソッドが驚くほどうまく機能します。 modelnet40の最先端メソッドと同等かそれ以上の結果が得られるが、pointnet++の半分のサイズである。 また、実世界のポイントクラウドベンチマークであるScanObjectNNで最先端のメソッドを上回り、より良いデータセットの一般化を示す。 コードはhttps://github.com/p rinceton-vl/SimpleVi ewで入手できる。

Processing point cloud data is an important component of many real-world systems. As such, a wide variety of point-based approaches have been proposed, reporting steady benchmark improvements over time. We study the key ingredients of this progress and uncover two critical results. First, we find that auxiliary factors like different evaluation schemes, data augmentation strategies, and loss functions, which are independent of the model architecture, make a large difference in performance. The differences are large enough that they obscure the effect of architecture. When these factors are controlled for, PointNet++, a relatively older network, performs competitively with recent methods. Second, a very simple projection-based method, which we refer to as SimpleView, performs surprisingly well. It achieves on par or better results than sophisticated state-of-the-art methods on ModelNet40 while being half the size of PointNet++. It also outperforms state-of-the-art methods on ScanObjectNN, a real-world point cloud benchmark, and demonstrates better cross-dataset generalization. Code is available at https://github.com/p rinceton-vl/SimpleVi ew.
翻訳日:2021-06-11 14:32:29 公開日:2021-06-09
# ZoPE:低次元入力を持つReLUネットワークの高速最適化

ZoPE: A Fast Optimizer for ReLU Networks with Low-Dimensional Inputs ( http://arxiv.org/abs/2106.05325v1 )

ライセンス: Link先を確認
Christopher A. Strong, Sydney M. Katz, Anthony L. Corso, Mykel J. Kochenderfer(参考訳) ディープニューラルネットワークは、安全クリティカルなシステムにデプロイされるために必要な安全性と堅牢性保証を欠くことが多い。 形式的検証手法は、ネットワークの入出力安全特性を証明するのに使用できるが、プロパティの指定が難しい場合、様々な最適化問題に対する解決策に依存する。 本研究では,低次元入力によるフィードフォワードReLUネットワークの出力に対する最適化問題を解くZoPEアルゴリズムを提案する。 このアルゴリズムは入力空間を熱心に分割し、各ステップでzonotope伝播を用いて目的を束縛し、既存の混合整数計画法と比較して計算効率を向上させる。 i)出力空間上の任意の凸関数の最小化、(ii)2つのネットワークの出力上の凸関数の最小化、(iii)2つのネットワーク間の出力差の最大化である。 我々はZoPEを用いて、ACAS Xuニューラルネットワーク検証ベンチマークのプロパティ1における25ドル=スピードアップと、一連の線形最適化問題に対する85ドル=スピードアップを観察した。 本稿では,生成型逆ネットワークの範囲を投影し,圧縮型ネットワークと非圧縮型ネットワークの違いを可視化することにより,ネットワーク解析におけるオプティマイザの汎用性を示す。

Deep neural networks often lack the safety and robustness guarantees needed to be deployed in safety critical systems. Formal verification techniques can be used to prove input-output safety properties of networks, but when properties are difficult to specify, we rely on the solution to various optimization problems. In this work, we present an algorithm called ZoPE that solves optimization problems over the output of feedforward ReLU networks with low-dimensional inputs. The algorithm eagerly splits the input space, bounding the objective using zonotope propagation at each step, and improves computational efficiency compared to existing mixed integer programming approaches. We demonstrate how to formulate and solve three types of optimization problems: (i) minimization of any convex function over the output space, (ii) minimization of a convex function over the output of two networks in series with an adversarial perturbation in the layer between them, and (iii) maximization of the difference in output between two networks. Using ZoPE, we observe a $25\times$ speedup on property 1 of the ACAS Xu neural network verification benchmark and an $85\times$ speedup on a set of linear optimization problems. We demonstrate the versatility of the optimizer in analyzing networks by projecting onto the range of a generative adversarial network and visualizing the differences between a compressed and uncompressed network.
翻訳日:2021-06-11 14:30:02 公開日:2021-06-09
# 不正確な最適化から勾配集中による学習へ

From inexact optimization to learning via gradient concentration ( http://arxiv.org/abs/2106.05397v1 )

ライセンス: Link先を確認
Bernhard Stankewitz, Nicole M\"ucke, Lorenzo Rosasco(参考訳) 最近、最適化は学習プロセスの帰納的バイアス、暗黙的あるいは反復的正規化と呼ばれる特性を制御することが示されている。 反復的にトレーニングエラーを最小化する推定器は、さらなる罰則や制約を必要とせずに一般化することができる。 本稿では, 滑らかな損失関数を持つ線形モデルにおいて, この現象を考察する。 特に,不正確な最適化と確率論,特に勾配集中のアイデアを組み合わせた証明手法について検討し,提案する。 証明は簡単に追従でき、鋭い学習境界を得ることができる。 より一般的には、学習保証に最適化結果を開発する方法を強調している。

Optimization was recently shown to control the inductive bias in a learning process, a property referred to as implicit, or iterative regularization. The estimator obtained iteratively minimizing the training error can generalise well with no need of further penalties or constraints. In this paper, we investigate this phenomenon in the context of linear models with smooth loss functions. In particular, we investigate and propose a proof technique combining ideas from inexact optimization and probability theory, specifically gradient concentration. The proof is easy to follow and allows to obtain sharp learning bounds. More generally, it highlights a way to develop optimization results into learning guarantees.
翻訳日:2021-06-11 14:29:18 公開日:2021-06-09
# 確率スペクトル埋め込みを用いた希少事象推定

Rare event estimation using stochastic spectral embedding ( http://arxiv.org/abs/2106.05824v1 )

ライセンス: Link先を確認
P.-R. Wagner, S. Marelli, I. Papaioannou, D. Straub, B. Sudret(参考訳) まれな障害の発生確率を推定することは、エンジニアリングシステムの信頼性評価において不可欠なステップである。 複雑な非線形システムに対するこの障害確率の計算は困難であり、最近アクティブラーニング信頼性手法の開発が進められている。 これらの手法は、逐次強化されたモデル評価のセットで訓練されたサロゲートモデルを用いて極限状態関数(lsf)を近似する。 確率スペクトル埋め込み(SSE)と呼ばれる最近提案された手法は、入力空間のサブドメインに局所的残留展開を逐次埋め込むことにより、グローバルスペクトル代理モデリング技術の局所近似精度を向上させることを目的としている。 本研究では,SSE を LSF に適用し,確率スペクトル埋め込み型信頼性 (SSER) 法を導出する。 入力空間の結果として生じる分割は、障害確率を計算し易い領域の障害確率の集合に分解する。 稀な事象推定問題を効率的に解くためにアルゴリズムを調整した一連の修正を提案する。 これらの変更には、特別な洗練されたドメインの選択、分割、強化戦略が含まれる。 LSFにおける様々な次元と複雑さの4つのベンチマーク問題に対して,アルゴリズムの性能を示す。

Estimating the probability of rare failure events is an essential step in the reliability assessment of engineering systems. Computing this failure probability for complex non-linear systems is challenging, and has recently spurred the development of active-learning reliability methods. These methods approximate the limit-state function (LSF) using surrogate models trained with a sequentially enriched set of model evaluations. A recently proposed method called stochastic spectral embedding (SSE) aims to improve the local approximation accuracy of global, spectral surrogate modelling techniques by sequentially embedding local residual expansions in subdomains of the input space. In this work we apply SSE to the LSF, giving rise to a stochastic spectral embedding-based reliability (SSER) method. The resulting partition of the input space decomposes the failure probability into a set of easy-to-compute domain-wise failure probabilities. We propose a set of modifications that tailor the algorithm to efficiently solve rare event estimation problems. These modifications include specialized refinement domain selection, partitioning and enrichment strategies. We showcase the algorithm performance on four benchmark problems of various dimensionality and complexity in the LSF.
翻訳日:2021-06-11 14:28:01 公開日:2021-06-09
# 投影探索を用いた大規模最適輸送マップ推定

Large-scale optimal transport map estimation using projection pursuit ( http://arxiv.org/abs/2106.05838v1 )

ライセンス: Link先を確認
Cheng Meng, Yuan Ke, Jingyi Zhang, Mengrui Zhang, Wenxuan Zhong, Ping Ma(参考訳) 本稿では,次元の呪いによる課題としてよく知られている,大規模最適輸送マップ(OTM)の推定について検討する。 既存の文献は、反復的ランダム・プロジェクションによる1次元のOTM問題の連続による大規模OTMを近似している。 しかし、そのような方法はランダムに選択された投影方向の性質から、実際に収束が遅いか全くない。 そこで本研究では,投影追従回帰法と十分次元縮小法を組み合わせた大規模OTM推定手法を提案する。 提案手法である射影追跡モンジマップ (ppmm) は,各イテレーションにおける最大 ‘informative''' 投影方向を適応的に選択する。 理論上,提案手法は,各イテレーションにおける最大‘インフォーマティブ’投影方向を一貫して推定できることを示す。 さらに,PPMMアルゴリズムは,目標とする大規模OTMに適度なステップで弱収束する。 PPMMは計算が容易で、高速に収束する。 本研究では,wasserstein距離推定と生成モデルの適用により,有限サンプル性能を評価する。

This paper studies the estimation of large-scale optimal transport maps (OTM), which is a well-known challenging problem owing to the curse of dimensionality. Existing literature approximates the large-scale OTM by a series of one-dimensional OTM problems through iterative random projection. Such methods, however, suffer from slow or none convergence in practice due to the nature of randomly selected projection directions. Instead, we propose an estimation method of large-scale OTM by combining the idea of projection pursuit regression and sufficient dimension reduction. The proposed method, named projection pursuit Monge map (PPMM), adaptively selects the most ``informative'' projection direction in each iteration. We theoretically show the proposed dimension reduction method can consistently estimate the most ``informative'' projection direction in each iteration. Furthermore, the PPMM algorithm weakly convergences to the target large-scale OTM in a reasonable number of steps. Empirically, PPMM is computationally easy and converges fast. We assess its finite sample performance through the applications of Wasserstein distance estimation and generative models.
翻訳日:2021-06-11 14:26:54 公開日:2021-06-09
# モデルフリー重み付けによる行列完全化

Matrix Completion with Model-free Weighting ( http://arxiv.org/abs/2106.05850v1 )

ライセンス: Link先を確認
Jiayi Wang, Raymond K. W. Wong, Xiaojun Mao, Kwun Chuen Gary Chan(参考訳) 本稿では,一般の非一様欠落構造の下での行列補完手法を提案する。 新たなバランシング誤差の上限を制御することにより,観測確率を明示的にモデル化することなく,経験的リスクの不均一性を積極的に調整し,凸最適化により効率的に計算できる重みを構成する。 提案した重み付き経験的リスクに基づく回復行列は、理論的な保証を魅力的に享受する。 特に, 提案手法は, 漸近的に異種欠落した環境下での観測確率のスケーリングにおいて, 既存の作業よりも高い保証を達成している。 これらの設定は、非常に異なる確率を持つ欠落パターンのより優れた理論モデルと見なすことができる。 また、不均一な設定のクラスの下で、新しいminimaxローバウンドを提供する。 また,提案手法の有効性を示すために数値実験を行った。

In this paper, we propose a novel method for matrix completion under general non-uniform missing structures. By controlling an upper bound of a novel balancing error, we construct weights that can actively adjust for the non-uniformity in the empirical risk without explicitly modeling the observation probabilities, and can be computed efficiently via convex optimization. The recovered matrix based on the proposed weighted empirical risk enjoys appealing theoretical guarantees. In particular, the proposed method achieves a stronger guarantee than existing work in terms of the scaling with respect to the observation probabilities, under asymptotically heterogeneous missing settings (where entry-wise observation probabilities can be of different orders). These settings can be regarded as a better theoretical model of missing patterns with highly varying probabilities. We also provide a new minimax lower bound under a class of heterogeneous settings. Numerical experiments are also provided to demonstrate the effectiveness of the proposed method.
翻訳日:2021-06-11 14:26:39 公開日:2021-06-09
# SCARI:アクションルールとレコメンデーションインジェクションのための分離・コンカレントアルゴリズム

SCARI: Separate and Conquer Algorithm for Action Rules and Recommendations Induction ( http://arxiv.org/abs/2106.05348v1 )

ライセンス: Link先を確認
Marek Sikora (1), Pawe{\l} Matyszok (1), {\L}ukasz Wr\'obel (1)((1) Faculty of Automatic Control, Electronics and Computer Science, Silesian University of Technology, Akademicka 16, 44-100 Gliwice, Poland)(参考訳) 本稿では,逐次被覆手法に基づく行動規則誘導アルゴリズムについて述べる。 アルゴリズムの2つの変種が提示される。 このアルゴリズムは、ソースとターゲット決定クラスの観点からアクションルールを誘導することを可能にする。 ルール品質対策の適用により、様々な品質基準を満たすアクションルールの誘導が可能になる。 この記事では、レコメンデーションインダクションの方法も紹介する。 推奨事項は、ソースクラスを表す所定のテスト例をターゲットに移動するためのアクションを示す。 レコメンデーション方法は一連の誘導アクションルールに基づいている。 論文の実験的部分は、16のデータセットにおけるアルゴリズム演算の結果である。 調査の結果、Ac-Rulesパッケージが利用可能になった。

This article describes an action rule induction algorithm based on a sequential covering approach. Two variants of the algorithm are presented. The algorithm allows the action rule induction from a source and a target decision class point of view. The application of rule quality measures enables the induction of action rules that meet various quality criteria. The article also presents a method for recommendation induction. The recommendations indicate the actions to be taken to move a given test example, representing the source class, to the target one. The recommendation method is based on a set of induced action rules. The experimental part of the article presents the results of the algorithm operation on sixteen data sets. As a result of the conducted research the Ac-Rules package was made available.
翻訳日:2021-06-11 14:23:36 公開日:2021-06-09
# 数発学習のためのテンソル特徴幻覚

Tensor feature hallucination for few-shot learning ( http://arxiv.org/abs/2106.05321v1 )

ライセンス: Link先を確認
Michalis Lazarou, Yannis Avrithis, Tania Stathaki(参考訳) 少数の分類は、限られた監督だけでなく、限られたデータにも対処する。 魅力的な解決策は合成データ生成である。 しかし、そのような手法のほとんどは高度であり、入力空間における高品質で現実的なデータに焦点を当てている。 数発体制に適応し、下流の分類タスクに使用することが正しいアプローチであるかどうかは不明である。 数ショット分類のための合成データ生成に関する以前の研究は、例えば複雑なモデルの利用に焦点を当てていた。 複数の正規化器またはネットワークを持つワッサースタインganは、既知のクラスから新しいクラスへ潜在多様性を転送する。 我々は異なるアプローチを踏襲し、単純で簡単な合成データ生成手法を効果的に利用する方法を検討する。 すなわち,(1) 単純な損失関数を用いることで,数ショット設定で特徴生成器を訓練するのに十分である,(2) ベクトル特徴の代わりにテンソル特徴を生成する学習が優れている,という2つのコントリビューションを提示する。 miniimagenet、cub、cifar-fsデータセットに関する広範囲な実験により、この手法が最先端のデータ拡張手法よりも優れていることを示す。

Few-shot classification addresses the challenge of classifying examples given not just limited supervision but limited data as well. An attractive solution is synthetic data generation. However, most such methods are overly sophisticated, focusing on high-quality, realistic data in the input space. It is unclear whether adapting them to the few-shot regime and using them for the downstream task of classification is the right approach. Previous works on synthetic data generation for few-shot classification focus on exploiting complex models, e.g. a Wasserstein GAN with multiple regularizers or a network that transfers latent diversities from known to novel classes. We follow a different approach and investigate how a simple and straightforward synthetic data generation method can be used effectively. We make two contributions, namely we show that: (1) using a simple loss function is more than enough for training a feature generator in the few-shot setting; and (2) learning to generate tensor features instead of vector features is superior. Extensive experiments on miniImagenet, CUB and CIFAR-FS datasets show that our method sets a new state of the art, outperforming more sophisticated few-shot data augmentation methods.
翻訳日:2021-06-11 14:23:28 公開日:2021-06-09
# マッチング: 継続的な学習のための生成的意図的特徴リプレイ

Match What Matters: Generative Implicit Feature Replay for Continual Learning ( http://arxiv.org/abs/2106.05350v1 )

ライセンス: Link先を確認
Kevin Thandiackal (1 and 2), Tiziano Portenier (2), Andrea Giovannini (1), Maria Gabrani (1), Orcun Goksel (2 and 3) ((1) IBM Research Europe, (2) ETH Zurich, (3) Uppsala University)(参考訳) ニューラルネットワークは、異なるタスクで漸進的にトレーニングすると、破滅的な忘れがちです。 忘れるのを防ぐため、既存のほとんどのメソッドは、前に見たサンプルの小さなサブセットを保持し、新しいタスクとの共同トレーニングに使用できる。 これは確かに有効であるが、データ保護規則などにより、常にそのようなサンプルを保存できるとは限らない。 このような場合、生成モデルを使用して、以前のタスクからの記憶を表す人工的なサンプルや特徴を作成することができる。 類似の方向性に従い、クラス増分学習のためのGenIFeR(Generative Implicit Feature Replay)を提案する。 主な目的は、GAN(Generative Adversarial Network)をトレーニングして、現実的な特徴を含む画像を生成することである。 ジェネレータは全解像度で画像を生成するが、識別器は継続的に訓練された分類器によって抽出された対応する特徴のみを見る。 分類器は、生画像を実際に分類に関連のある特徴に圧縮するので、GANはこのターゲット分布をより正確に一致させることができる。 一方、ジェネレータがフル解像度の画像を作成できるようにするには、いくつかの利点がある: 以前のアプローチとは対照的に、分類器の機能抽出器は凍結する必要がない。 さらに,画像の分類性能を向上させるだけでなく,gan訓練における判別器の過剰フィットを緩和する効果も期待できる。 我々は、GenIFeRが従来の生成画像と特徴再生の両方よりも優れていることを実証的に示す。 特に、CIFAR-100およびCUB-200データセットの様々な設定において、生成的再生における最先端性を大幅に上回る。

Neural networks are prone to catastrophic forgetting when trained incrementally on different tasks. In order to prevent forgetting, most existing methods retain a small subset of previously seen samples, which in turn can be used for joint training with new tasks. While this is indeed effective, it may not always be possible to store such samples, e.g., due to data protection regulations. In these cases, one can instead employ generative models to create artificial samples or features representing memories from previous tasks. Following a similar direction, we propose GenIFeR (Generative Implicit Feature Replay) for class-incremental learning. The main idea is to train a generative adversarial network (GAN) to generate images that contain realistic features. While the generator creates images at full resolution, the discriminator only sees the corresponding features extracted by the continually trained classifier. Since the classifier compresses raw images into features that are actually relevant for classification, the GAN can match this target distribution more accurately. On the other hand, allowing the generator to create full resolution images has several benefits: In contrast to previous approaches, the feature extractor of the classifier does not have to be frozen. In addition, we can employ augmentations on generated images, which not only boosts classification performance, but also mitigates discriminator overfitting during GAN training. We empirically show that GenIFeR is superior to both conventional generative image and feature replay. In particular, we significantly outperform the state-of-the-art in generative replay for various settings on the CIFAR-100 and CUB-200 datasets.
翻訳日:2021-06-11 14:23:10 公開日:2021-06-09
# ボールに目を向ける:ビデオトランスフォーマーの軌道上の注意

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers ( http://arxiv.org/abs/2106.05392v1 )

ライセンス: Link先を確認
Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, Jo\\~ao F. Henriques(参考訳) ビデオトランスでは、時間次元は2つの空間次元と同じ方法で扱われることが多い。 しかし、オブジェクトやカメラが動くシーンでは、フレーム$t$の1つの場所にある物理ポイントは、フレーム$t+k$でその場所にあるものとは全く無関係かもしれない。 これらの時間対応は動的シーンの学習を容易にするためにモデル化されるべきである。 そこで本研究では,暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマタのための新しいドロップインブロックを提案する。 また,高解像度ビデオや長時間ビデオにおいて特に重要な入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。 これらのアイデアは様々な場面で有用であるが、トランスフォーマーモデルを用いたビデオ行動認識の特定のタスクに適用し、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。 コードとモデルは、https://github.com/f acebookresearch/Moti onformer.comで入手できる。

In video transformers, the time dimension is often treated in the same way as the two spatial dimensions. However, in a scene where objects or the camera may move, a physical point imaged at one location in frame $t$ may be entirely unrelated to what is found at that location in frame $t+k$. These temporal correspondences should be modeled to facilitate learning about dynamic scenes. To this end, we propose a new drop-in block for video transformers -- trajectory attention -- that aggregates information along implicitly determined motion paths. We additionally propose a new method to address the quadratic dependence of computation and memory on the input size, which is particularly important for high resolution or long videos. While these ideas are useful in a range of settings, we apply them to the specific task of video action recognition with a transformer model and obtain state-of-the-art results on the Kinetics, Something--Something V2, and Epic-Kitchens datasets. Code and models are available at: https://github.com/f acebookresearch/Moti onformer
翻訳日:2021-06-11 14:22:47 公開日:2021-06-09
# 注意メタリアナーは多義的分類器である

Attentional meta-learners are polythetic classifiers ( http://arxiv.org/abs/2106.05317v1 )

ライセンス: Link先を確認
Ben Day, Ramon Vi\~nas, Nikola Simidjievski, Pietro Li\`o(参考訳) クラスのメンバー間で普遍的でも定数的でもない特徴の共有パターンに基づく多義的分類は、自然界では一般的であり、一連の特徴に対する単義的分類を大幅に上回っている。 しきい値メタリーナーは、これらの関数をエミュレートする特徴の数に指数関数的な埋め込み次元を必要とする。 対照的に、注意分類器はデフォルトでは多義的であり、線形埋め込み次元でこれらの問題を解くことができる。 しかし,メタ学習問題に固有のタスク無関係な特徴の存在下では,注意モデルが誤分類の影響を受けやすいことが判明した。 この課題に対処するために,非識別的特徴を適応的に希釈する自己意図的特徴選択機構を提案する。 ブール関数のメタ学習における我々のアプローチの有効性と,合成および実世界の数ショット学習タスクの有効性を実証する。

Polythetic classifications, based on shared patterns of features that need neither be universal nor constant among members of a class, are common in the natural world and greatly outnumber monothetic classifications over a set of features. We show that threshold meta-learners require an embedding dimension that is exponential in the number of features to emulate these functions. In contrast, attentional classifiers are polythetic by default and able to solve these problems with a linear embedding dimension. However, we find that in the presence of task-irrelevant features, inherent to meta-learning problems, attentional models are susceptible to misclassification. To address this challenge, we further propose a self-attention feature-selection mechanism that adaptively dilutes non-discriminative features. We demonstrate the effectiveness of our approach in meta-learning Boolean functions, and synthetic and real-world few-shot learning tasks.
翻訳日:2021-06-11 14:17:45 公開日:2021-06-09
# 公正なノード表現学習

Fairness-Aware Node Representation Learning ( http://arxiv.org/abs/2106.05391v1 )

ライセンス: Link先を確認
\"Oyk\"u Deniz K\"ose, Yanning Shen(参考訳) ノード表現学習は、グラフ上の様々なアプリケーションに対してその効果を示した。 特に、コントラスト学習の最近の発展は、多くのタスクに対して教師なしノード表現学習の有望な結果をもたらしている。 グラフの対比学習の成功と、それに伴う関心の高まりにもかかわらず、フェアネスはこの分野でほとんど未開拓である。 この目的のために本研究は,適応型特徴マスキングとエッジ削除によるグラフコントラスト学習における公平性の問題に対処する。 本研究では,提案するグラフ拡張のガイドラインとなる,グラフ上の異なる公平性概念を導入する。 さらに,提案手法が本質バイアスを低減できることを定量的に証明するために,理論的解析を行った。 実社会ネットワークにおける実験結果から,提案手法は,ノード分類における最先端のコントラスト法と同等の分類精度を提供しつつ,統計的パリティと等機会の観点で公平性を高めることができることを示した。

Node representation learning has demonstrated its effectiveness for various applications on graphs. Particularly, recent developments in contrastive learning have led to promising results in unsupervised node representation learning for a number of tasks. Despite the success of graph contrastive learning and consequent growing interest, fairness is largely under-explored in the field. To this end, this study addresses fairness issues in graph contrastive learning with fairness-aware graph augmentation designs, through adaptive feature masking and edge deletion. In the study, different fairness notions on graphs are introduced, which serve as guidelines for the proposed graph augmentations. Furthermore, theoretical analysis is provided to quantitatively prove that the proposed feature masking approach can reduce intrinsic bias. Experimental results on real social networks are presented to demonstrate that the proposed augmentations can enhance fairness in terms of statistical parity and equal opportunity, while providing comparable classification accuracy to state-of-the-art contrastive methods for node classification.
翻訳日:2021-06-11 14:17:29 公開日:2021-06-09
# 超音波骨折検出のためのドメイン特異的トランスポーターフレームワーク

Domain Specific Transporter Framework to Detect Fractures in Ultrasound ( http://arxiv.org/abs/2106.05929v1 )

ライセンス: Link先を確認
Arpan Tripathi, Abhilash Rakkunedeth, Mahesh Raveendranatha Panicker, Jack Zhang, Naveenjyote Boora, Jacob Jaremko(参考訳) 骨折検出のための超音波検査は、比較的高速で(電離放射線から)安全であり、ダイナミックイメージング能力があり、携帯性も容易であるため、救急部(ED)に適している。 超音波スキャンのハンドアセスメントにおける高オブザーバ変動は,Deep Learning (DL) を用いた自動アセスメント技術に注目されている。 ほとんどのDL技術は教師付きであり、大量のラベル付きデータに基づいて訓練されている。 本稿では,手首超音波スキャンから関連するキーポイントを特定するための,教師なし領域特定トランスポーターフレームワークを提案する。 本フレームワークは3次元超音波(3DUS)配列における構造変化の高い領域を強調表示する簡潔な幾何学的表現を提供する。 また3DUSから骨の特徴を検出する即時局所位相(LP)で表される領域固有情報も取り入れた。 30名の被験者から得られた3dusビデオで検証した。 それぞれの超音波スキャンは3人の読者によって独立に評価され、対応するX線とともに骨折を同定した。 このトランスポーターニューラルネットワークは手首の超音波ビデオから採取した250個の骨領域のうち180個を正確に検出することができた。 この手法は, 骨折検出における超音波の応用性を高めることを期待する。

Ultrasound examination for detecting fractures is ideally suited for Emergency Departments (ED) as it is relatively fast, safe (from ionizing radiation), has dynamic imaging capability and is easily portable. High interobserver variability in manual assessment of ultrasound scans has piqued research interest in automatic assessment techniques using Deep Learning (DL). Most DL techniques are supervised and are trained on large numbers of labeled data which is expensive and requires many hours of careful annotation by experts. In this paper, we propose an unsupervised, domain specific transporter framework to identify relevant keypoints from wrist ultrasound scans. Our framework provides a concise geometric representation highlighting regions with high structural variation in a 3D ultrasound (3DUS) sequence. We also incorporate domain specific information represented by instantaneous local phase (LP) which detects bone features from 3DUS. We validate the technique on 3DUS videos obtained from 30 subjects. Each ultrasound scan was independently assessed by three readers to identify fractures along with the corresponding x-ray. Saliency of keypoints detected in the image\ are compared against manual assessment based on distance from relevant features.The transporter neural network was able to accurately detect 180 out of 250 bone regions sampled from wrist ultrasound videos. We expect this technique to increase the applicability of ultrasound in fracture detection.
翻訳日:2021-06-11 14:13:15 公開日:2021-06-09
# ナノスケールハードウェアのための計算フレームワークとしてのベクトルシンボリックアーキテクチャ

Vector Symbolic Architectures as a Computing Framework for Nanoscale Hardware ( http://arxiv.org/abs/2106.05268v1 )

ライセンス: Link先を確認
Denis Kleyko, Mike Davies, E. Paxon Frady, Pentti Kanerva, Spencer J. Kent, Bruno A. Olshausen, Evgeny Osipov, Jan M. Rabaey, Dmitri A. Rachkovskij, Abbas Rahimi, Friedrich T. Sommer(参考訳) 本稿では,計算フレームワークVector Symbolic Architectures(超次元コンピューティング)の開発における最近の進歩を概観する。 このフレームワークは確率的でナノスケールのハードウェアの実装に適しており、人工知能(AI)に必要な認知操作のタイプを自然に表現している。 本稿では,ベクトル記号アーキテクチャの環状代数構造が,現代コンピューティングに関連するすべてのデータ構造と操作をサポートする高次元ベクトルに対して,単純かつ強力な操作を提供することを示す。 さらに,従来の計算とは別個の「重ね合わせ計算」というベクトル記号アーキテクチャの特徴を述べる。 この後者の性質は、AIアプリケーションに固有の難しい組合せ探索問題に対する効率的な解決策への扉を開く。 ベクトルシンボリックアーキテクチャは、私たちが示すようにチューリング完全であり、無数のAI設定で分散表現を計算するためのフレームワークとして機能すると考えています。 本稿では、分散コンピューティングのためのvsasの技法と哲学を図解し、ニューロモーフィックコンピューティングのような新しいコンピューティングハードウェアとの関連性を示すことで、コンピュータアーキテクトの参考となる。

This article reviews recent progress in the development of the computing framework Vector Symbolic Architectures (also known as Hyperdimensional Computing). This framework is well suited for implementation in stochastic, nanoscale hardware and it naturally expresses the types of cognitive operations required for Artificial Intelligence (AI). We demonstrate in this article that the ring-like algebraic structure of Vector Symbolic Architectures offers simple but powerful operations on high-dimensional vectors that can support all data structures and manipulations relevant in modern computing. In addition, we illustrate the distinguishing feature of Vector Symbolic Architectures, "computing in superposition," which sets it apart from conventional computing. This latter property opens the door to efficient solutions to the difficult combinatorial search problems inherent in AI applications. Vector Symbolic Architectures are Turing complete, as we show, and we see them acting as a framework for computing with distributed representations in myriad AI settings. This paper serves as a reference for computer architects by illustrating techniques and philosophy of VSAs for distributed computing and relevance to emerging computing hardware, such as neuromorphic computing.
翻訳日:2021-06-11 14:12:57 公開日:2021-06-09
# FedDICE:フェデレートラーニングとSDNによる緩和を用いた分散型統合臨床環境におけるランサムウェア拡散検出

FedDICE: A ransomware spread detection in a distributed integrated clinical environment using federated learning and SDN based mitigation ( http://arxiv.org/abs/2106.05434v1 )

ライセンス: Link先を確認
Chandra Thapa and Kallol Krishna Karmakar and Alberto Huertas Celdran and Seyit Camtepe and Vijay Varadharajan and Surya Nepal(参考訳) 統合臨床環境(ice)は、病院における患者のケアに関する医療機器のインターネットの接続と協調を可能にする。 しかし、ランサムウェア攻撃やICEを含む病院インフラへの拡散は増加している。 敵はしばしば同じランサムウェア攻撃で複数の病院を標的にしている。 これらの攻撃は機械学習アルゴリズムを用いて検出される。 しかし,(1)攻撃を受けた場合,他の病院に免疫を提供し,(2)病院は地理的に分散し,(3)プライバシー上の懸念から直接的なデータ共有は避ける,という条件下で,反ランサムウェア学習機構やサービスを開発することが課題である。 本稿では,連合型分散型統合臨床環境であるakaについて述べる。 FedDICE FedDICEは、プライバシ保護学習であるフェデレーション学習(FL)をSDN指向のセキュリティアーキテクチャに統合し、ランサムウェア攻撃の協調学習、検出、緩和を可能にする。 我々は,最大4つの病院と4つのランサムウェア,すなわちWannaCry,Petya,BadRa bbit,PowerGhostとの共同環境におけるFedDICEの重要性を実証した。 IIDと非IIDデータ設定の両方において,FedDICEは検出に直接データ共有を必要とする集中型ベースライン性能を実現する。 しかし、データプライバシーとのトレードオフとして、FedDICEはロジスティック回帰モデルの28倍のようなアンチランサムウェアモデルのトレーニングにおけるオーバーヘッドを観察する。 さらに、FedDICEはSDNの動的ネットワークプログラマビリティ機能を使用して、ICEの感染したデバイスを削除する。

An integrated clinical environment (ICE) enables the connection and coordination of the internet of medical things around the care of patients in hospitals. However, ransomware attacks and their spread on hospital infrastructures, including ICE, are rising. Often the adversaries are targeting multiple hospitals with the same ransomware attacks. These attacks are detected by using machine learning algorithms. But the challenge is devising the anti-ransomware learning mechanisms and services under the following conditions: (1) provide immunity to other hospitals if one of them got the attack, (2) hospitals are usually distributed over geographical locations, and (3) direct data sharing is avoided due to privacy concerns. In this regard, this paper presents a federated distributed integrated clinical environment, aka. FedDICE. FedDICE integrates federated learning (FL), which is privacy-preserving learning, to SDN-oriented security architecture to enable collaborative learning, detection, and mitigation of ransomware attacks. We demonstrate the importance of FedDICE in a collaborative environment with up to four hospitals and four popular ransomware families, namely WannaCry, Petya, BadRabbit, and PowerGhost. Our results find that in both IID and non-IID data setups, FedDICE achieves the centralized baseline performance that needs direct data sharing for detection. However, as a trade-off to data privacy, FedDICE observes overhead in the anti-ransomware model training, e.g., 28x for the logistic regression model. Besides, FedDICE utilizes SDN's dynamic network programmability feature to remove the infected devices in ICE.
翻訳日:2021-06-11 14:12:42 公開日:2021-06-09
# コミュニケーションダイナミクスの理論的モデリング

Theoretical Modeling of Communication Dynamics ( http://arxiv.org/abs/2106.05414v1 )

ライセンス: Link先を確認
Torsten En{\ss}lin, Viktoria Kainz, C\'eline B{\oe}hm(参考訳) コミュニケーションは、人間や人工知能(AI)など、社会的相互作用の基盤である。 しかし、交換された情報の正直性に応じて有害である可能性がある。 これを研究するために、エージェントベースの社会学シミュレーションフレームワーク、評判ゲームを示す。 これは、異なるコミュニケーション戦略がエージェントの評判に与える影響を示している。 ゲームは、参加するエージェントの信頼性、他者が認識する誠実さに焦点を当てている。 ゲームでは、各エージェントは他のエージェントと自分自身と互いの誠実さについて意見を交換し、判断を進化させる。 シコファント、エゴセントリック、病的嘘、送信者に対する攻撃性、受信者に対する認識と欠如など、様々な送信者および受信者戦略が研究されている。 ミニマリストの悪質な戦略は、操作的、支配的、破壊的であり、他人の費用に対する評判を著しく高める。 エコーチャンバー、自己認識、偽共生、クライク形成、グループの意見の凍結といった現象は、ダイナミクスから生じる。 このことは、評価ゲームが複雑なグループ現象の研究、行動仮説のテスト、そして、ソーシャルメディアに影響を及ぼしたAIを分析することができることを示している。 洗練されたルールは、社会的相互作用を理解し、非虐待的なAIシステムの設計を保護するのに役立ちます。

Communication is a cornerstone of social interactions, be it with human or artificial intelligence (AI). Yet it can be harmful, depending on the honesty of the exchanged information. To study this, an agent based sociological simulation framework is presented, the reputation game. This illustrates the impact of different communication strategies on the agents' reputation. The game focuses on the trustworthiness of the participating agents, their honesty as perceived by others. In the game, each agent exchanges statements with the others about their own and each other's honesty, which lets their judgments evolve. Various sender and receiver strategies are studied, like sycophant, egocentricity, pathological lying, and aggressiveness for senders as well as awareness and lack thereof for receivers. Minimalist malicious strategies are identified, like being manipulative, dominant, or destructive, which significantly increase reputation at others' costs. Phenomena such as echo chambers, self-deception, deception symbiosis, clique formation, freezing of group opinions emerge from the dynamics. This indicates that the reputation game can be studied for complex group phenomena, to test behavioral hypothesis, and to analyze AI influenced social media. With refined rules it may help to understand social interactions, and to safeguard the design of non-abusive AI systems.
翻訳日:2021-06-11 14:12:16 公開日:2021-06-09
# Plan2Scene: フロアプランを3Dシーンに変換する

Plan2Scene: Converting Floorplans to 3D Scenes ( http://arxiv.org/abs/2106.05375v1 )

ライセンス: Link先を確認
Madhawa Vidanapathirana, Qirui Wu, Yasutaka Furukawa, Angel X. Chang and Manolis Savva(参考訳) 我々は,集合住宅のフロアプランと関連画像のセットを,plan2sceneと呼ばれるテクスチャ付き3dメッシュモデルに変換するタスクに対処した。 システム1)は、フロアプラン画像を3Dメッシュモデルに引き上げ、2)入力画像に基づいて表面テクスチャを合成し、3)グラフニューラルネットワークアーキテクチャを用いて未観測表面のテクスチャを推論する。 システムをトレーニングし,評価するために,室内表層テクスチャデータセットを作成し,調整した表層作物と追加アノテーションを用いた事前作業によるフロアプランと写真のデータセットを増強する。 提案手法では,床や壁,天井などの支配的な表面のタイル性テクスチャを,住宅を部分的に覆うような不揃いな写真から生成することの難しさを解決している。 質的・定量的評価により,本システムは現実的な3次元インテリアモデルを作成し,テクスチャ品質指標群におけるベースラインアプローチを上回り,総合的なユーザスタディにより測定した。

We address the task of converting a floorplan and a set of associated photos of a residence into a textured 3D mesh model, a task which we call Plan2Scene. Our system 1) lifts a floorplan image to a 3D mesh model; 2) synthesizes surface textures based on the input photos; and 3) infers textures for unobserved surfaces using a graph neural network architecture. To train and evaluate our system we create indoor surface texture datasets, and augment a dataset of floorplans and photos from prior work with rectified surface crops and additional annotations. Our approach handles the challenge of producing tileable textures for dominant surfaces such as floors, walls, and ceilings from a sparse set of unaligned photos that only partially cover the residence. Qualitative and quantitative evaluations show that our system produces realistic 3D interior models, outperforming baseline approaches on a suite of texture quality metrics and as measured by a holistic user study.
翻訳日:2021-06-11 14:11:57 公開日:2021-06-09
# covilearn:covid-19の自動初期スクリーニングのための医療サイバーフィジカルシステムにおける機械学習統合型スマートx線デバイス

CoviLearn: A Machine Learning Integrated Smart X-Ray Device in Healthcare Cyber-Physical System for Automatic Initial Screening of COVID-19 ( http://arxiv.org/abs/2106.05861v1 )

ライセンス: Link先を確認
Debanjan Das, Chirag Samal, Deewanshu Ukey, Gourav Chowdhary, and Saraju P. Mohanty(参考訳) 新型コロナウイルス感染症(COVID-19)のパンデミックは世界中で広がり、深刻な健康問題や世界経済に深刻な影響を与えている。 新型コロナウイルス(covid-19)の信頼性と迅速な検査は、研究者や医療従事者にとって課題となっている。 本研究は、医療従事者が新型コロナウイルス患者の自動初期スクリーニングを行えるように、新しい機械学習(ML)統合X線デバイスをHealthcare Cyber-Physical System(H-CPS)またはスマートヘルスケアフレームワーク(CoviLearn)に提示する。 本稿では,x線装置に組み込まれたx線画像の畳み込みニューラルネットワーク(cnn)モデルを提案する。 提案装置は、患者の胸部x線画像を考慮して、新型コロナウイルス陽性か陰性かを検出するのに有用である。 CoviLearnは、唾液や血液などのより侵入的な医療データを採取することなく、新型コロナウイルス感染症を即時に検出する便利なツールである。 新型コロナウイルス(covid-19)は呼吸器を支える内皮組織を攻撃し、x線画像は患者の肺の健康分析に使用できる。 すべての医療センターにX線装置があるため、特定の検査キットなしで新型コロナウイルスの検査に提案されているコビレンX線を使用することができる。 99%の精度を持つ自動分析システムcovilearnは、x線装置が放射線専門家を必要とする場合に欠点となるため、医療専門家の貴重な時間を節約できる。

The pandemic of novel Coronavirus Disease 2019 (COVID-19) is widespread all over the world causing serious health problems as well as serious impact on the global economy. Reliable and fast testing of the COVID-19 has been a challenge for researchers and healthcare practitioners. In this work we present a novel machine learning (ML) integrated X-ray device in Healthcare Cyber-Physical System (H-CPS) or smart healthcare framework (called CoviLearn) to allow healthcare practitioners to perform automatic initial screening of COVID-19 patients. We propose convolutional neural network (CNN) models of X-ray images integrated into an X-ray device for automatic COVID-19 detection. The proposed CoviLearn device will be useful in detecting if a person is COVID-19 positive or negative by considering the chest X-ray image of individuals. CoviLearn will be useful tool doctors to detect potential COVID-19 infections instantaneously without taking more intrusive healthcare data samples, such as saliva and blood. COVID-19 attacks the endothelium tissues that support respiratory tract, X-rays images can be used to analyze the health of a patient lungs. As all healthcare centers have X-ray machines, it could be possible to use proposed CoviLearn X-rays to test for COVID-19 without the especial test kits. Our proposed automated analysis system CoviLearn which has 99% accuracy will be able to save valuable time of medical professionals as the X-ray machines come with a drawback as it needed a radiology expert.
翻訳日:2021-06-11 14:10:36 公開日:2021-06-09
# cocktail: パブリッククラウドでの最適化モデル提供にアンサンブル学習を活用する

Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud ( http://arxiv.org/abs/2106.05345v1 )

ライセンス: Link先を確認
Jashwant Raj Gunasekaran, Cyan Subhra Mishra, Prashanth Thinakaran, Mahmut Taylan Kandemir, Chita R. Das(参考訳) さまざまなアプリケーションサービスにMLモデルを採用する必要性が高まっているため、これらのモデルが提供するフレームワークは、パブリッククラウド環境におけるデプロイメントコストの削減とともに、最小のレイテンシで、高精度な予測オプションを提供することができることが不可欠である。 レイテンシが高いにもかかわらず、この領域のプリンシパルな作業は、個々のモデルが提供するアククレーシーによって著しく制限される。 直感的には、モデルエンセムブリングは、微分モデルを並列にインテリジェントに組み合わせることで、精度ギャップに対処することができる。 しかし、最小限のデプロイメントコストで低レイテンシで所望の精度を満たすために実行時に動的にappro-priateモデルを選択することは、簡単な問題です。 そこで本研究では,コスト効率の高いアンサンブルモデル提供フレームワークであるCocktailを提案する。Cocktailは,(i)精度と遅延要求を満足しつつ,アンサンブル内のモデル数を削減する動的モデル選択フレームワーク,(ii)分散プロアクティブオートスケーリングポリティクスと重要サンプリングを組み合わせた適応型リソース管理(RM)フレームワークの2つの主要なコンポーネントで構成され,モデルのリソースを効率的にアロケートする。 rmフレームワークはtransient virtual machine (vm)インスタンスを活用して、パブリッククラウドでのデプロイメントコストを削減する。 aws ec2プラットフォームとさまざまなワークロードを使用した徹底したevalua-tionの実装では、cocktailがレイテンシの2倍削減と最大96%のリクエストのターゲット精度を満足しながら、デプロイコストを1.45倍削減できることが示されている。

With a growing demand for adopting ML models for a varietyof application services, it is vital that the frameworks servingthese models are capable of delivering highly accurate predic-tions with minimal latency along with reduced deploymentcosts in a public cloud environment. Despite high latency,prior works in this domain are crucially limited by the accu-racy offered by individual models. Intuitively, model ensem-bling can address the accuracy gap by intelligently combiningdifferent models in parallel. However, selecting the appro-priate models dynamically at runtime to meet the desiredaccuracy with low latency at minimal deployment cost is anontrivial problem. Towards this, we proposeCocktail, a costeffective ensembling-based model serving framework.Cock-tailc omprises of two key components: (i) a dynamic modelselection framework, which reduces the number of modelsin the ensemble, while satisfying the accuracy and latencyrequirements; (ii) an adaptive resource management (RM)framework that employs a distributed proactive autoscalingpolicy combined with importance sampling, to efficiently allo-cate resources for the models. The RM framework leveragestransient virtual machine (VM) instances to reduce the de-ployment cost in a public cloud. A prototype implementationofCock tailon the AWS EC2 platform and exhaustive evalua-tions using a variety of workloads demonstrate thatCocktailcan reduce deployment cost by 1.45x, while providing 2xreduction in latency and satisfying the target accuracy for upto 96% of the requests, when compared to state-of-the-artmode l-serving frameworks.
翻訳日:2021-06-11 14:08:41 公開日:2021-06-09
# 特別イベントの公共交通:乗車予測と列車最適化

Public Transit for Special Events: Ridership Prediction and Train Optimization ( http://arxiv.org/abs/2106.05359v1 )

ライセンス: Link先を確認
Tejas Santanam, Anthony Trasatti, Pascal Van Hentenryck, and Hanyu Zhang(参考訳) スポーツゲームやコンサートを含む多くの特別イベントは、しばしば交通システムに対する需要の急増と混雑を引き起こす。 したがって、交通機関は、ディスラプション、遅延、運賃収入への影響を理解することが重要である。 本稿では,AFC(Automated Fare Collection)データを利用して,特別なイベントによる混雑ピーク時の交通システムの性能評価,予測,管理を行う一連のデータ駆動手法を提案する。 これはメトロポリタン・アトランタ・ラピッド・トランジット・オーソリティ (Metropolitan Atlanta Rapid Transit Authority, MARTA) の鉄道データを用いて、アトランタ中心街の2つの主要スタジアムの乗客の広範な分析を含む。 論文はまず,イベント日とイベント日の両方において,各駅の集計レベルでの乗車率予測可能性について強調する。 そして、教師なしの機械学習モデルを提示し、乗客をクラスタ化し、乗っている列車を特定する。 このモデルは、列車ごとの乗客の負荷や乗客の待ち時間といった基本的な測定基準の観点からシステムパフォーマンスを評価することができる。 また、過去のスループット分析と組み合わせて需要予測に用いるライダーシップ予測のための線形回帰モデルとランダム森林モデルを提案する。 最後に、予測された需要に基づいて列車の周波数を最適化する提案手法を利用して、待ち時間と需要マッチングの潜在的な改善を示すシミュレーションを行う。

Many special events, including sport games and concerts, often cause surges in demand and congestion for transit systems. Therefore, it is important for transit providers to understand their impact on disruptions, delays, and fare revenues. This paper proposes a suite of data-driven techniques that exploit Automated Fare Collection (AFC) data for evaluating, anticipating, and managing the performance of transit systems during recurring congestion peaks due to special events. This includes an extensive analysis of ridership of the two major stadiums in downtown Atlanta using rail data from the Metropolitan Atlanta Rapid Transit Authority (MARTA). The paper first highlights the ridership predictability at the aggregate level for each station on both event and non-event days. It then presents an unsupervised machine-learning model to cluster passengers and identify which train they are boarding. The model makes it possible to evaluate system performance in terms of fundamental metrics such as the passenger load per train and the wait times of riders. The paper also presents linear regression and random forest models for predicting ridership that are used in combination with historical throughput analysis to forecast demand. Finally, simulations are performed that showcase the potential improvements to wait times and demand matching by leveraging proposed techniques to optimize train frequencies based on forecasted demand.
翻訳日:2021-06-11 14:08:07 公開日:2021-06-09
# 物理インフォームドディープオネットによるパラメトリック進化方程式の長期統合

Long-time integration of parametric evolution equations with physics-informed DeepONets ( http://arxiv.org/abs/2106.05384v1 )

ライセンス: Link先を確認
Sifan Wang, Paris Perdikaris(参考訳) 常微分方程式と偏微分方程式(odes/pdes)は、科学と工学の全分野にわたる複雑な動的過程の解析とシミュレーションにおいて重要な役割を果たす。 近年、機械学習ツールは、pdesをシミュレートする新しい効果的な方法を導入しようとしているが、既存のアプローチでは、長い時間軸にわたって安定かつ正確な予測を確実に返すことはできない。 ランダムな初期条件を関連するPDEソリューションに短時間でマッピングする無限次元演算子を学習するための効果的なフレームワークを導入することで、この問題に対処することを目指している。 このような潜在演算子は、ペアの入出力観測を必要とせずに、完全に自己監視された方法でトレーニングされるディープニューラルネットワークによってパラメトリ化することができる。 次に、各予測を次の評価ステップの初期条件として、訓練されたモデルを反復的に評価することにより、一連の初期条件にわたるグローバルな長期予測を得ることができる。 これは時間領域分解に新しいアプローチを導入し、波動伝播から反応拡散力学や固化化学力学まで幅広いパラメトリックODEとPDEシステムに対して、古典的な数値解法で必要とされる計算コストのごく一部で正確な長時間シミュレーションを行うのに有効であることを示した。

Ordinary and partial differential equations (ODEs/PDEs) play a paramount role in analyzing and simulating complex dynamic processes across all corners of science and engineering. In recent years machine learning tools are aspiring to introduce new effective ways of simulating PDEs, however existing approaches are not able to reliably return stable and accurate predictions across long temporal horizons. We aim to address this challenge by introducing an effective framework for learning infinite-dimensional operators that map random initial conditions to associated PDE solutions within a short time interval. Such latent operators can be parametrized by deep neural networks that are trained in an entirely self-supervised manner without requiring any paired input-output observations. Global long-time predictions across a range of initial conditions can be then obtained by iteratively evaluating the trained model using each prediction as the initial condition for the next evaluation step. This introduces a new approach to temporal domain decomposition that is shown to be effective in performing accurate long-time simulations for a wide range of parametric ODE and PDE systems, from wave propagation, to reaction-diffusion dynamics and stiff chemical kinetics, all at a fraction of the computational cost needed by classical numerical solvers.
翻訳日:2021-06-11 14:07:46 公開日:2021-06-09
# 合成相関データセットモデルを用いた転送学習の探索

Probing transfer learning with a model of synthetic correlated datasets ( http://arxiv.org/abs/2106.05418v1 )

ライセンス: Link先を確認
Federica Gerace, Luca Saglietti, Stefano Sarao Mannelli, Andrew Saxe, Lenka Zdeborov\'a(参考訳) 転送学習は、データスカース目標タスクとデータアバウントソースタスクの関連性を活用することにより、ニューラルネットワークのサンプル効率を著しく向上させることができる。 長年の応用にもかかわらず、転送学習の実践はしばしばアドホックな解に依存するが、理論的な理解はまだ限られている。 本研究では,データセット間の相関をモデル化するためのフレームワークとして,合成データの可解モデルを再考する。 この設定により、学習した特徴マップをソースからターゲットタスクに転送する際に得られる一般化性能を解析的に評価することができる。 二層ネットワークを二層分類設定でトレーニングする問題に着目し,本モデルが実データを用いた伝達学習の多彩な特徴を捉えることができることを示す。 さらに, 2つのデータセット間の相関をパラメトリック制御することにより, 特徴の伝達が一般化に有用である条件を体系的に検討する。

Transfer learning can significantly improve the sample efficiency of neural networks, by exploiting the relatedness between a data-scarce target task and a data-abundant source task. Despite years of successful applications, transfer learning practice often relies on ad-hoc solutions, while theoretical understanding of these procedures is still limited. In the present work, we re-think a solvable model of synthetic data as a framework for modeling correlation between data-sets. This setup allows for an analytic characterization of the generalization performance obtained when transferring the learned feature map from the source to the target task. Focusing on the problem of training two-layer networks in a binary classification setting, we show that our model can capture a range of salient features of transfer learning with real data. Moreover, by exploiting parametric control over the correlation between the two data-sets, we systematically investigate under which conditions the transfer of features is beneficial for generalization.
翻訳日:2021-06-11 14:07:23 公開日:2021-06-09
# 個別に公平なクラスタリングの新しい概念:$\alpha$-equitable $k$-center

A New Notion of Individually Fair Clustering: $\alpha$-Equitable $k$-Center ( http://arxiv.org/abs/2106.05423v1 )

ライセンス: Link先を確認
Darshan Chakrabarti, John P. Dickerson, Seyed A. Esmaeili, Aravind Srinivasan, Leonidas Tsepenekas(参考訳) クラスタリングは教師なし機械学習の基本的な問題であり、その公正なバリエーションは近年大きな注目を集めている。 本稿では,クラスタリング問題に対する公平性の新たな定義を提案する。 特に、我々のモデルでは、j$ は他の点の集合 $\mathcal{S}_j$ を持ち、それがそれ自身と似ていると認識し、ソリューションで受け取るサービスの品質が $\mathcal{S}_j$ の点の集合 $\alpha$-close であるなら、かなり扱われていると感じている。 問題の構造、すなわち、$\alpha$の値が適切に定義されているか、そしてそれに対する公正価格(PoF)の振舞いについて、質問に答えることから研究を開始する。 適切に定義された$\alpha$の領域に対して、$k$-centerの目的に対して効率的かつ容易に実装可能な近似アルゴリズムを提供する。 我々は最終的に、理論結果の有効性を検証する広範な実験によって分析を補完する。

Clustering is a fundamental problem in unsupervised machine learning, and fair variants of it have recently received significant attention. In this work we introduce a novel definition of fairness for clustering problems. Specifically, in our model each point $j$ has a set of other points $\mathcal{S}_j$ that it perceives as similar to itself, and it feels that it is fairly treated, if the quality of service it receives in the solution is $\alpha$-close to that of the points in $\mathcal{S}_j$. We begin our study by answering questions regarding the structure of the problem, namely for what values of $\alpha$ the problem is well-defined, and what the behavior of the Price of Fairness (PoF) for it is. For the well-defined region of $\alpha$, we provide efficient and easily implementable approximation algorithms for the $k$-center objective, which in certain cases also enjoy bounded PoF guarantees. We finally complement our analysis by an extensive suite of experiments that validates the effectiveness of our theoretical results.
翻訳日:2021-06-11 14:07:10 公開日:2021-06-09
# グラフカット問題による公平な災害封じ込め

Fair Disaster Containment via Graph-Cut Problems ( http://arxiv.org/abs/2106.05424v1 )

ライセンス: Link先を確認
Amy Babay, Michael Dinitz, Prathyush Sambaturu, Aravind Srinivasan, Leonidas Tsepenekas, Anil Vullikanti(参考訳) グラフカット問題は組合せ最適化の基本的な問題タイプを形成し、理論と実践の両方において中心的な研究対象となっている。 さらに、アルゴリズム設計と機械学習における公正性の研究は、最近、様々な文脈において多くの異なる概念が提案され分析され、大きな注目を集めている。 本稿では, グラフ切断問題に対する公平性について, 最初の公正な定義を与えて検討し, 厳密な理論的解析をもたらす適切なアルゴリズム手法を実証する。 具体的には、人口統計学と確率論的個人公正という2つの異なるフェアネスの定義を、特定のカット問題モデリング災害封じ込めシナリオに取り入れる。 我々の結果は、証明可能な理論的保証を持つ様々な近似アルゴリズムを含む。

Graph cut problems form a fundamental problem type in combinatorial optimization, and are a central object of study in both theory and practice. In addition, the study of fairness in Algorithmic Design and Machine Learning has recently received significant attention, with many different notions proposed and analyzed in a variety of contexts. In this paper we initiate the study of fairness for graph cut problems by giving the first fair definitions for them, and subsequently we demonstrate appropriate algorithmic techniques that yield a rigorous theoretical analysis. Specifically, we incorporate two different definitions of fairness, namely demographic and probabilistic individual fairness, in a particular cut problem modeling disaster containment scenarios. Our results include a variety of approximation algorithms with provable theoretical guarantees.
翻訳日:2021-06-11 14:06:47 公開日:2021-06-09
# StreamBrain: CPU、GPU、FPGA上の脳のようなニューラルネットワークのためのHPCフレームワーク

StreamBrain: An HPC Framework for Brain-like Neural Networks on CPUs, GPUs and FPGAs ( http://arxiv.org/abs/2106.05373v1 )

ライセンス: Link先を確認
Artur Podobas, Martin Svedin, Steven W. D. Chien, Ivy B. Peng, Naresh Balaji Ravichandran, Pawel Herman, Anders Lansner, Stefano Markidis(参考訳) バックプロパゲーションに基づく現代のディープラーニング手法は、人気が高まり、複数のドメインやアプリケーション領域で使われている。 同時に、成熟した堅固な理論基盤を持つ他の(あまり知られていない)機械学習アルゴリズムもある。 そのような例としては、bcpnn(brain-like bayesian confidence propagation neural network)がある。 本稿では,BCPNNをベースとしたニューラルネットワークを,高性能コンピューティングシステムに実用化可能なフレームワークであるStreamBrainを紹介する。 StreamBrainはドメイン固有言語(DSL)であり、既存の機械学習(ML)フレームワークと同様のコンセプトで、CPU、GPU、FPGAのバックエンドをサポートする。 我々は、StreamBrainがよく知られたMLベンチマークデータセットMNISTを数秒でトレーニングできることを実証的に実証し、STL-10サイズネットワーク上でBCPNNを初めて実演した。 また,カスタム浮動小数点フォーマットでstreambrainをトレーニングする方法を示し,fpgaを用いたbcpnnにおけるbfloatのバリエーションの違いが与える影響について述べる。

The modern deep learning method based on backpropagation has surged in popularity and has been used in multiple domains and application areas. At the same time, there are other -- less-known -- machine learning algorithms with a mature and solid theoretical foundation whose performance remains unexplored. One such example is the brain-like Bayesian Confidence Propagation Neural Network (BCPNN). In this paper, we introduce StreamBrain -- a framework that allows neural networks based on BCPNN to be practically deployed in High-Performance Computing systems. StreamBrain is a domain-specific language (DSL), similar in concept to existing machine learning (ML) frameworks, and supports backends for CPUs, GPUs, and even FPGAs. We empirically demonstrate that StreamBrain can train the well-known ML benchmark dataset MNIST within seconds, and we are the first to demonstrate BCPNN on STL-10 size networks. We also show how StreamBrain can be used to train with custom floating-point formats and illustrate the impact of using different bfloat variations on BCPNN using FPGAs.
翻訳日:2021-06-11 14:03:22 公開日:2021-06-09
# 音声タグと音響イベント検出のための視聴覚伝達学習

Audiovisual transfer learning for audio tagging and sound event detection ( http://arxiv.org/abs/2106.05408v1 )

ライセンス: Link先を確認
Wim Boes, Hugo Van hamme(参考訳) 本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。 特徴融合を用いて, スペクトル音響入力のみを用いたベースラインシステムを適用し, 異なるタスク用に構築され, 外部データでトレーニングされたネットワークから抽出された聴覚・視覚特徴を活用した。 我々は,これらの修正モデルを用いて,多数のラベルなしサンプルと少ないアノテーション付きクリップを含む視聴覚多ラベルデータセット上で実験を行い,アクティブな聴覚イベントの時間的境界を指定せずに10種類の音響カテゴリのクリップレベルの存在を示す。 クリップベースのオーディオタグ付けでは、この変換学習法は顕著な改善をもたらす。 オーディオの上に視覚的モダリティを加えることは、この文脈で有利であることを示す。 音声録音の書き起こしに関して、事前訓練された特徴の利点は、要求された時間分解能に依存する。 しかし、よりきめ細かい予測が必要となると、事前学習されたベクトルが得られたモデルの目標と問題のミスマッチにより、パフォーマンス向上が強く低下する。

We study the merit of transfer learning for two sound recognition problems, i.e., audio tagging and sound event detection. Employing feature fusion, we adapt a baseline system utilizing only spectral acoustic inputs to also make use of pretrained auditory and visual features, extracted from networks built for different tasks and trained with external data. We perform experiments with these modified models on an audiovisual multi-label data set, of which the training partition contains a large number of unlabeled samples and a smaller amount of clips with weak annotations, indicating the clip-level presence of 10 sound categories without specifying the temporal boundaries of the active auditory events. For clip-based audio tagging, this transfer learning method grants marked improvements. Addition of the visual modality on top of audio also proves to be advantageous in this context. When it comes to generating transcriptions of audio recordings, the benefit of pretrained features depends on the requested temporal resolution: for coarse-grained sound event detection, their utility remains notable. But when more fine-grained predictions are required, performance gains are strongly reduced due to a mismatch between the problem at hand and the goals of the models from which the pretrained vectors were obtained.
翻訳日:2021-06-11 14:03:04 公開日:2021-06-09
# (参考訳) スタイル伝達のための人的評価のレビュー [全文訳有]

A Review of Human Evaluation for Style Transfer ( http://arxiv.org/abs/2106.04747v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Sweta Agrawal, Ke Zhang, Joel Tetreault and Marine Carpuat(参考訳) 本稿では,97 スタイルの伝達論文に記述されている人的評価の実践を,スタイルの伝達,保存,流布の3つの主要な評価側面についてレビューし,要約する。 原則として、人間による評価が最も信頼性が高い。 しかし, スタイル伝達論文では, ヒト評価のためのプロトコルが過小評価され, 標準化されていないことが判明し, この分野の研究の再現性を阻害し, よりよい人間的, 自動的評価手法への進歩がみられた。

This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be the most reliable. However, in style transfer papers, we find that protocols for human evaluations are often underspecified and not standardized, which hampers the reproducibility of research in this field and progress toward better human and automatic evaluation methods.
翻訳日:2021-06-11 08:24:13 公開日:2021-06-09
# (参考訳) NLPのためのサンプルベース説明法について:有効性、忠実性、意味的評価 [全文訳有]

On Sample Based Explanation Methods for NLP:Efficiency, Faithfulness, and Semantic Evaluation ( http://arxiv.org/abs/2106.04753v1 )

ライセンス: CC BY 4.0
Wei Zhang, Ziming Huang, Yada Zhu, Guangnan Ye, Xiaodong Cui, Fan Zhang(参考訳) 自然言語処理の最近の進歩では、最先端のモデルやデータセットの規模が広くなり、説明解釈性、効率性、忠実性など、多くの面でサンプルベースの説明手法の適用に挑戦している。 本稿では,説明単位として任意のテキスト列を許容することで,説明の解釈可能性を向上させる。 さらに,モデルの忠実性を保証するため,ヘッセン自由法を実装した。 最後に,本手法を他の手法と比較するために,広く採用されている診断・再訓練尺度よりも,人間の説明判断に適合する意味に基づく評価指標を提案する。 複数の実データ集合に対する実験結果から,提案手法のセマンティック評価における影響関数やTracInなどの一般的な説明手法よりも優れた性能を示す。

In the recent advances of natural language processing, the scale of the state-of-the-art models and datasets is usually extensive, which challenges the application of sample-based explanation methods in many aspects, such as explanation interpretability, efficiency, and faithfulness. In this work, for the first time, we can improve the interpretability of explanations by allowing arbitrary text sequences as the explanation unit. On top of this, we implement a hessian-free method with a model faithfulness guarantee. Finally, to compare our method with the others, we propose a semantic-based evaluation metric that can better align with humans' judgment of explanations than the widely adopted diagnostic or re-training measures. The empirical results on multiple real data sets demonstrate the proposed method's superior performance to popular explanation techniques such as Influence Function or TracIn on semantic evaluation.
翻訳日:2021-06-11 08:13:46 公開日:2021-06-09
# (参考訳) Submodular + Concave [全文訳有]

Submodular + Concave ( http://arxiv.org/abs/2106.04769v1 )

ライセンス: CC BY 4.0
Siddharth Mitra, Moran Feldman, Amin Karbasi(参考訳) 一階最適化法が凸関数の最大目的値に収束し、(非凸/非凸)連続部分モジュラ函数に対する定数因子近似の保証を提供できることはよく確立されている。 本研究では, 可解凸体上での$f(x) = g(x) +c(x)$ の関数の最大化の研究を開始する。ここでは$g$ は滑らかな dr-サブモジュラー関数であり、$c$ は滑らかな凸関数である。 このクラスの函数は、理論的な保証がないような凹凸および連続DR-部分モジュラ函数の厳密な拡張である。 目的関数の性質(例えば$G$ と $C$ が単調か非負か)と集合 $P$ の性質(下向きの閉か否かに関わらず)により、1-1/e$, $1/e$, $1/2$ の近似保証を提供するフランク・ウルフ型アルゴリズムのスイートを提供する。 次に、我々のアルゴリズムを用いて、与えられた基底集合から多様な要素の選択(決定点過程のモードに対応する)とクラスタ化された要素のセットの選択(適切な凹凸関数の最大値に対応する)を円滑に補間するフレームワークを得る。 さらに, 制約条件と制約条件の両方で, 上記のクラス(DR-submodular + concave)の様々な関数にアルゴリズムを適用し, アルゴリズムが自然ベースラインを一貫して上回ることを示す。

It has been well established that first order optimization methods can converge to the maximal objective value of concave functions and provide constant factor approximation guarantees for (non-convex/non-conc ave) continuous submodular functions. In this work, we initiate the study of the maximization of functions of the form $F(x) = G(x) +C(x)$ over a solvable convex body $P$, where $G$ is a smooth DR-submodular function and $C$ is a smooth concave function. This class of functions is a strict extension of both concave and continuous DR-submodular functions for which no theoretical guarantee is known. We provide a suite of Frank-Wolfe style algorithms, which, depending on the nature of the objective function (i.e., if $G$ and $C$ are monotone or not, and non-negative or not) and on the nature of the set $P$ (i.e., whether it is downward closed or not), provide $1-1/e$, $1/e$, or $1/2$ approximation guarantees. We then use our algorithms to get a framework to smoothly interpolate between choosing a diverse set of elements from a given ground set (corresponding to the mode of a determinantal point process) and choosing a clustered set of elements (corresponding to the maxima of a suitable concave function). Additionally, we apply our algorithms to various functions in the above class (DR-submodular + concave) in both constrained and unconstrained settings, and show that our algorithms consistently outperform natural baselines.
翻訳日:2021-06-11 07:52:53 公開日:2021-06-09
# (参考訳) 政策決定を支援する形状ファイルを用いた地理空間推論 [全文訳有]

Geospatial Reasoning with Shapefiles for Supporting Policy Decisions ( http://arxiv.org/abs/2106.04771v1 )

ライセンス: CC BY 4.0
Henrique Santos, James P. McCusker, Deborah L. McGuinness(参考訳) 政策は、意思決定をサポートするために複数のドメインに存在する権威ある資産である。 ドメインエンティティとその属性が特定の基準を満たすとき、どのようなアクションが許可されるか、推奨されるかを記述する。 地名間の距離や包摂関係を含む地理的規則を含む政策を見つけることは一般的である。 これらの位置のポリゴンはしばしば地理空間データセットにエンコードされる。 本稿では、OWL、PROV-O、GeoSPARQL標準を用いて、地理空間データセットからLinked Dataにデータを変換し、この表現を活用して、自動オントロジーベースのポリシー決定をサポートする方法を提案する。 我々は,この手法を位置情報に敏感な電波スペクトルポリシーに適用し,国勢調査データセットにおける無線送信者座標と政策規制地域との関係を同定した。 owl推論とgeosparqlを混合したポリシ評価パイプラインを用いて,無線スペクトラムドメインの専門家による一連の要件に従って,関連する地理空間関係を実装した。

Policies are authoritative assets that are present in multiple domains to support decision-making. They describe what actions are allowed or recommended when domain entities and their attributes satisfy certain criteria. It is common to find policies that contain geographical rules, including distance and containment relationships among named locations. These locations' polygons can often be found encoded in geospatial datasets. We present an approach to transform data from geospatial datasets into Linked Data using the OWL, PROV-O, and GeoSPARQL standards, and to leverage this representation to support automated ontology-based policy decisions. We applied our approach to location-sensitive radio spectrum policies to identify relationships between radio transmitters coordinates and policy-regulated regions in Census.gov datasets. Using a policy evaluation pipeline that mixes OWL reasoning and GeoSPARQL, our approach implements the relevant geospatial relationships, according to a set of requirements elicited by radio spectrum domain experts.
翻訳日:2021-06-11 07:16:49 公開日:2021-06-09
# (参考訳) 生活行動に触発されたアルゴリズムの2020年分類法 [全文訳有]

A 2020 taxonomy of algorithms inspired on living beings behavior ( http://arxiv.org/abs/2106.04775v1 )

ライセンス: CC BY 4.0
Luis Torres-Trevi\~no(参考訳) コンピュータ博物学者の役割を担い、生物にインスパイアされたアルゴリズムを通して、生物の行動にインスパイアされたアルゴリズムを利用する。 アルゴリズムのコンピレーションは、バイオインスパイアされたヒューリスティックスとスウォームインテリジェンスのいくつかのレビューや調査を、2020年まで考慮している。 分類学の発展のために、生物、細菌、植物、真菌、および原虫のいくつかの枝を生成する生物学者が使用する王国を考慮して分類される。

Taking the role of a computer naturalist, a journey is taken through bio inspired algorithms taking account on algorithms which are inspired on living being behaviors. A compilation of algorithms is made considering several reviews or surveys of bio-inspired heuristics and swarm intelligence until 2020 year. A classification is made considering kingdoms as used by biologists generating several branches for animalia, bacteria, plants, fungi and protista to develop a taxonomy.
翻訳日:2021-06-11 07:10:18 公開日:2021-06-09
# (参考訳) メタラーニングのための確率的タスクモデリング [全文訳有]

Probabilistic task modelling for meta-learning ( http://arxiv.org/abs/2106.04802v1 )

ライセンス: CC BY 4.0
Cuong C. Nguyen and Thanh-Toan Do and Gustavo Carneiro(参考訳) メタラーニングに使用されるタスクの集合に対する生成的確率モデルである確率的タスクモデリングを提案する。 提案モデルは変分オートエンコーディングと潜在ディリクレ割当を組み合わせ、各タスクを埋め込み空間内のガウス分布の混合としてモデル化する。 このようなモデリングはタスク-テーマの混合を通じてタスクの明示的な表現を提供する。 経験的ベイズ推定のための変分推定法に基づく効率的な近似推定手法を提案する。 提案手法により得られたタスクの不確かさとタスク距離を,テストタスクにおける予測精度の相関図を用いて検証する。 また,メタ学習におけるタスク選択実験を行い,提案モデルから推定したタスク関連性がメタ学習アルゴリズムの促進に役立つことを示す。

We propose probabilistic task modelling -- a generative probabilistic model for collections of tasks used in meta-learning. The proposed model combines variational auto-encoding and latent Dirichlet allocation to model each task as a mixture of Gaussian distribution in an embedding space. Such modelling provides an explicit representation of a task through its task-theme mixture. We present an efficient approximation inference technique based on variational inference method for empirical Bayes parameter estimation. We perform empirical evaluations to validate the task uncertainty and task distance produced by the proposed method through correlation diagrams of the prediction accuracy on testing tasks. We also carry out experiments of task selection in meta-learning to demonstrate how the task relatedness inferred from the proposed model help to facilitate meta-learning algorithms.
翻訳日:2021-06-11 06:32:07 公開日:2021-06-09
# (参考訳) 単インスタンス深部生成プリミティブを用いた位相検索 [全文訳有]

Phase Retrieval using Single-Instance Deep Generative Prior ( http://arxiv.org/abs/2106.04812v1 )

ライセンス: CC BY 4.0
Kshitij Tayal, Raunak Manekar, Zhong Zhuang, David Yang, Vipin Kumar, Felix Hofmann, Ju Sun(参考訳) 位相探索のための深層学習手法はいくつか存在するが、そのほとんどは正確な支援情報なしで現実的なデータで失敗している。 複素数値結晶データによく作用する単一インスタンスの深部生成先行に基づく新しい手法を提案する。

Several deep learning methods for phase retrieval exist, but most of them fail on realistic data without precise support information. We propose a novel method based on single-instance deep generative prior that works well on complex-valued crystal data.
翻訳日:2021-06-11 06:10:58 公開日:2021-06-09
# (参考訳) 言語間AMR解析におけるバイリンガル情報の有用性 [全文訳有]

Making Better Use of Bilingual Information for Cross-Lingual AMR Parsing ( http://arxiv.org/abs/2106.04814v1 )

ライセンス: CC BY 4.0
Yitao Cai, Zhe Lin and Xiaojun Wan(参考訳) 抽象意味表現(abstract meaning representation, amr)は、自然言語の意味論を表す非循環グラフである。 以前の研究が示すように、AMRは最初英語用に設計されたが、他の言語のセマンティクスを表現することもできる。 しかし、予測されたAMRグラフの概念は具体的でないことがわかった。 概念の誤認は、英語のトークンとAMRの概念の関連性が高いためである、と我々は主張する。 そこで本研究では,より正確な概念を予測可能にするために,翻訳文と非英語文のバイリンガル入力を導入する。 さらに、デコーダが同時に英語のシーケンスを予測する必要のある補助タスクも導入する。 補助タスクは、対応する英語トークンが正確に何であるかをデコーダが理解するのに役立つ。 提案する言語横断型AMRパーサは,Smatch F1の10.6ポイントを突破した。 アブレーション研究は,提案するモジュールの有効性も示す。

Abstract Meaning Representation (AMR) is a rooted, labeled, acyclic graph representing the semantics of natural language. As previous works show, although AMR is designed for English at first, it can also represent semantics in other languages. However, they find that concepts in their predicted AMR graphs are less specific. We argue that the misprediction of concepts is due to the high relevance between English tokens and AMR concepts. In this work, we introduce bilingual input, namely the translated texts as well as non-English texts, in order to enable the model to predict more accurate concepts. Besides, we also introduce an auxiliary task, requiring the decoder to predict the English sequences at the same time. The auxiliary task can help the decoder understand what exactly the corresponding English tokens are. Our proposed cross-lingual AMR parser surpasses previous state-of-the-art parser by 10.6 points on Smatch F1 score. The ablation study also demonstrates the efficacy of our proposed modules.
翻訳日:2021-06-11 06:07:16 公開日:2021-06-09
# (参考訳) コンテキストレコメンデーションと低解像度カットプレーンアルゴリズム [全文訳有]

Contextual Recommendations and Low-Regret Cutting-Plane Algorithms ( http://arxiv.org/abs/2106.04819v1 )

ライセンス: CC BY 4.0
Sreenivas Gollapudi, Guru Guruganesh, Kostas Kollias, Pasin Manurangsi, Renato Paes Leme, Jon Schneider(参考訳) ナビゲーションエンジンやレコメンデーションシステムにおけるルーティングアプリケーションによって動機付けられたコンテキスト線形バンディットの変種について考察する。 隠れた$d$次元の値$w^*$を学びたいと思っています。 ラウンドごとに、可能なアクションのサブセット $\mathcal{x}_t \subseteq \mathbb{r}^d$ が示されます。 選択すれば(つまり) ユーザへの推奨) action $x_t$, we get utility $\langle x_t, w^* \rangle$, but only the identity of the best action $\arg\max_{x \in \mathcal{x}_t} \langle x, w^* \rangle$。 我々は、この問題のアルゴリズムを設計し、後悔する$O(d\log T)$と$\exp(O(d \log d))$を達成する。 これを達成するために、我々は、真点 $w^*$ と分離オラクルが返す超平面の合計距離である低い "regret" を持つ新しい切削平面アルゴリズムを設計した。 また、いくつかの推奨事項のリストを提供することができる変種についても検討しています。 この変種では、$O(d^2 \log d)$ regret と list size $\mathrm{poly}(d)$ のアルゴリズムを与える。 最後に,学習者が推薦よりも優れた行動の同一性のみを学習する,この問題の弱い変種に対して,ほぼ厳密なアルゴリズムを構築する。 この結果は凸幾何学における新しいアルゴリズム技術(凸集合の遠心に対するシュタイナーの公式の変種を含む)に依存している。

We consider the following variant of contextual linear bandits motivated by routing applications in navigational engines and recommendation systems. We wish to learn a hidden $d$-dimensional value $w^*$. Every round, we are presented with a subset $\mathcal{X}_t \subseteq \mathbb{R}^d$ of possible actions. If we choose (i.e. recommend to the user) action $x_t$, we obtain utility $\langle x_t, w^* \rangle$ but only learn the identity of the best action $\arg\max_{x \in \mathcal{X}_t} \langle x, w^* \rangle$. We design algorithms for this problem which achieve regret $O(d\log T)$ and $\exp(O(d \log d))$. To accomplish this, we design novel cutting-plane algorithms with low "regret" -- the total distance between the true point $w^*$ and the hyperplanes the separation oracle returns. We also consider the variant where we are allowed to provide a list of several recommendations. In this variant, we give an algorithm with $O(d^2 \log d)$ regret and list size $\mathrm{poly}(d)$. Finally, we construct nearly tight algorithms for a weaker variant of this problem where the learner only learns the identity of an action that is better than the recommendation. Our results rely on new algorithmic techniques in convex geometry (including a variant of Steiner's formula for the centroid of a convex set) which may be of independent interest.
翻訳日:2021-06-11 05:51:14 公開日:2021-06-09
# (参考訳) 談話のための多言語言語モデルの提案 [全文訳有]

Probing Multilingual Language Models for Discourse ( http://arxiv.org/abs/2106.04832v1 )

ライセンス: CC BY 4.0
Murathan Kurfal{\i}, Robert \"Ostling(参考訳) 事前学習された多言語言語モデルは、多言語自然言語処理において重要な構成要素となっている。 本稿では,言語間の談話レベルの知識の伝達方法を検討するために,そのようなモデルについて検討する。 これは、以前組み立てられたよりも幅広い談話レベルのタスクの体系的な評価によって行われる。 XLM-RoBERTaファミリーは、優れたモノリンガルモデルであると同時に、ゼロショット設定で比較的劣化が少ないことで、常に最高の性能を示す。 また, モデル蒸留が文表現の言語間移動を阻害する可能性も示唆した。 10の異なる家庭で合計22の言語で5つのタスクをカバーするテストスイートが、文レベルでの多言語パフォーマンスのための有用な評価プラットフォームになることを期待しています。

Pre-trained multilingual language models have become an important building block in multilingual natural language processing. In the present paper, we investigate a range of such models to find out how well they transfer discourse-level knowledge across languages. This is done with a systematic evaluation on a broader set of discourse-level tasks than has been previously been assembled. We find that the XLM-RoBERTa family of models consistently show the best performance, by simultaneously being good monolingual models and degrading relatively little in a zero-shot setting. Our results also indicate that model distillation may hurt the ability of cross-lingual transfer of sentence representations, while language dissimilarity at most has a modest effect. We hope that our test suite, covering 5 tasks with a total of 22 languages in 10 distinct families, will serve as a useful evaluation platform for multilingual performance at and beyond the sentence level.
翻訳日:2021-06-11 05:26:22 公開日:2021-06-09
# (参考訳) UniKeyphrase: キーワード予測のための統一抽出および生成フレームワーク [全文訳有]

UniKeyphrase: A Unified Extraction and Generation Framework for Keyphrase Prediction ( http://arxiv.org/abs/2106.04847v1 )

ライセンス: CC BY 4.0
Huanqin Wu, Wei Liu, Lei Li, Dan Nie, Tao Chen, Feng Zhang, Di Wang(参考訳) キーフレーズ予測(KP)タスクは、与えられた文書の主観を要約できるいくつかのキーフレーズを予測することを目的としている。 主流KP法は純粋に生成的アプローチと抽出と生成を伴う統合モデルに分類することができる。 しかし、これらの手法はキーフレーズ間の多様性を無視したり、暗黙的にタスク間の関係を弱く捉えるだけである。 本論文では,キーフレーズの抽出と生成を共同で学習する新しいエンドツーエンド学習フレームワークUniKeyphraseを提案する。 unikeyphraseでは、モデル構造とトレーニングプロセスの観点から、抽出と生成の間の潜在意味関係を十分に活用するために、積み重ね関係層とバガオブワード制約が提案されている。 KPベンチマークの実験は、我々の共同アプローチが主流の手法よりも大きなマージンで優れていることを示した。

Keyphrase Prediction (KP) task aims at predicting several keyphrases that can summarize the main idea of the given document. Mainstream KP methods can be categorized into purely generative approaches and integrated models with extraction and generation. However, these methods either ignore the diversity among keyphrases or only weakly capture the relation across tasks implicitly. In this paper, we propose UniKeyphrase, a novel end-to-end learning framework that jointly learns to extract and generate keyphrases. In UniKeyphrase, stacked relation layer and bag-of-words constraint are proposed to fully exploit the latent semantic relation between extraction and generation in the view of model structure and training process, respectively. Experiments on KP benchmarks demonstrate that our joint approach outperforms mainstream methods by a large margin.
翻訳日:2021-06-11 05:11:24 公開日:2021-06-09
# (参考訳) dravidian multimodality:タミルおよびマラヤラムにおけるマルチモーダル感情分析のためのデータセット

DravidianMultiModali ty: A Dataset for Multi-modal Sentiment Analysis in Tamil and Malayalam ( http://arxiv.org/abs/2106.04853v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi and Jishnu Parameswaran P.K and Premjith B and K.P Soman and Rahul Ponnusamy and Prasanna Kumar Kumaresan and Kingston Pal Thamburaj and John P. McCrae(参考訳) 人間のコミュニケーションは本質的にマルチモーダルで非同期である。 人間の感情や感情を分析することは、人工知能の新たな分野だ。 当社は、プロダクトやその他のトピックに関するソーシャルメディア上で、ローカル言語におけるマルチモーダルコンテンツの増加を目撃しています。 しかしながら、低リソースのDravidian言語で利用可能なマルチモーダルリソースは少ない。 本研究の目的は,タミル語とマラヤラム語のマルチモーダル感情分析データセットの構築である。 まず、YouTubeからTamilとMalayalamの製品または映画レビュービデオをダウンロードした。 次に、アノテーションを使ってビデオのキャプションを作成しました。 そして、ビデオに感情をラベル付けし、FleissのKappaを使ってアノテーション間の合意を検証した。 これはボランティアアノテーターによるタミルとマラヤラムのための最初のマルチモーダル感情分析データセットである。

Human communication is inherently multimodal and asynchronous. Analyzing human emotions and sentiment is an emerging field of artificial intelligence. We are witnessing an increasing amount of multimodal content in local languages on social media about products and other topics. However, there are not many multimodal resources available for under-resourced Dravidian languages. Our study aims to create a multimodal sentiment analysis dataset for the under-resourced Tamil and Malayalam languages. First, we downloaded product or movies review videos from YouTube for Tamil and Malayalam. Next, we created captions for the videos with the help of annotators. Then we labelled the videos for sentiment, and verified the inter-annotator agreement using Fleiss's Kappa. This is the first multimodal sentiment analysis dataset for Tamil and Malayalam by volunteer annotators.
翻訳日:2021-06-11 04:59:35 公開日:2021-06-09
# (参考訳) 新展開計画--制御・計画・強化学習における共通問題に対する幅ベースアルゴリズム [全文訳有]

Planning for Novelty: Width-Based Algorithms for Common Problems in Control, Planning and Reinforcement Learning ( http://arxiv.org/abs/2106.04866v1 )

ライセンス: CC BY 4.0
Nir Lipovetzky(参考訳) 幅に基づくアルゴリズムは、状態の新規性の一般的な定義を通じて解を求める。 これらのアルゴリズムは、古典的な計画において最先端のパフォーマンスをもたらすことが示されており、シミュレーションエンジンによって問題のダイナミクスが与えられるモデルベースおよびモデルフリーの設定にうまく適用されている。 幅ベースのアルゴリズムのパフォーマンスは、計画幅の概念を通じて理論的に理解され、ランタイムとメモリ消費の多項式保証を提供する。 本稿では,研究コミュニティ間のシナジーを促進するために,幅ベースの計画の領域をまとめ,現在と将来の研究方向について調査する。

Width-based algorithms search for solutions through a general definition of state novelty. These algorithms have been shown to result in state-of-the-art performance in classical planning, and have been successfully applied to model-based and model-free settings where the dynamics of the problem are given through simulation engines. Width-based algorithms performance is understood theoretically through the notion of planning width, providing polynomial guarantees on their runtime and memory consumption. To facilitate synergies across research communities, this paper summarizes the area of width-based planning, and surveys current and future research directions.
翻訳日:2021-06-11 04:58:34 公開日:2021-06-09
# (参考訳) ディープコールドブートアタックによるAESキーの復元 [全文訳有]

Recovering AES Keys with a Deep Cold Boot Attack ( http://arxiv.org/abs/2106.04876v1 )

ライセンス: CC BY 4.0
Itamar Zimerman, Eliya Nachmani, Lior Wolf(参考訳) コールドブート攻撃は、電源が停止された直後に壊れたランダムアクセスメモリを検査する。 ほとんどのビットは破損しているが、ランダムな位置にある多くのビットはそうではない。 多くの暗号方式の鍵はメモリに拡張され、固定された冗長性を持つ長い鍵になるため、しばしば復元される。 本研究では,AES鍵に対する攻撃を適用するために,深誤り訂正符号手法の新たな暗号版とSATソルバ方式を併用する。 AESは線形および微分暗号解析に抵抗するように設計されたRijndael S-box要素から構成されるが,本手法はニューラルメッセージパッシングネットワークによって実装された計算グラフとしてAES鍵スケジューリングの新たな形式化を提供する。 以上の結果から,本手法は攻撃方法の精度を極めて高いマージンで上回ることがわかった。

Cold boot attacks inspect the corrupted random access memory soon after the power has been shut down. While most of the bits have been corrupted, many bits, at random locations, have not. Since the keys in many encryption schemes are being expanded in memory into longer keys with fixed redundancies, the keys can often be restored. In this work, we combine a novel cryptographic variant of a deep error correcting code technique with a modified SAT solver scheme to apply the attack on AES keys. Even though AES consists of Rijndael S-box elements, that are specifically designed to be resistant to linear and differential cryptanalysis, our method provides a novel formalization of the AES key scheduling as a computational graph, which is implemented by a neural message passing network. Our results show that our methods outperform the state of the art attack methods by a very large margin.
翻訳日:2021-06-11 04:47:59 公開日:2021-06-09
# (参考訳) 確率最適化アルゴリズムのフラクタル構造と一般化特性

Fractal Structure and Generalization Properties of Stochastic Optimization Algorithms ( http://arxiv.org/abs/2106.04881v1 )

ライセンス: CC BY 4.0
Alexander Camuto, George Deligiannidis, Murat A. Erdogdu, Mert G\"urb\"uzbalaban, Umut \c{S}im\c{s}ekli, Lingjiong Zhu(参考訳) ディープラーニングの一般化を理解することは、過去10年間の統計的学習理論における大きな課題の1つだ。 近年の研究では、有意義な一般化境界を得るためにデータセットとトレーニングアルゴリズムを考慮に入れなければならないことが示されているが、データとアルゴリズムのどの特性が一般化性能を決定するのかは理論的には定かではない。 本研究では,動的システム理論の観点からこの問題にアプローチし,確率的最適化アルゴリズムをランダム反復関数系(IFS)として表現する。 力学系の文献でよく研究され、穏やかな仮定の下で、そのようなISFはフラクタル構造を持つ集合上でしばしば支持される不変測度でエルゴードであることが示される。 我々の主要な貢献として,確率的最適化アルゴリズムの一般化誤差は,その不変測度の根底にあるフラクタル構造の'複雑度'に基づいて限定可能であることを証明した。 力学系理論の結果を利用して、一般化誤差はアルゴリズムの選択(例えば、確率勾配勾配 - SGD)、アルゴリズムのハイパーパラメータ(例えば、ステップサイズ、バッチサイズ)、および問題の幾何学(例えば、損失のヘシアン)に明示的に関連付けることができることを示す。 我々はさらに,特定の問題(線形・ロジスティック回帰,隠れ層ニューラルネットワークなど)やアルゴリズム(sgdやプリコンディション型など)に対して,解析的な推定値を得ることを特化している。現代のニューラルネットワークでは,開発した境界を計算し,ニューラルネットワークの様々な実験で理論を支援できる効率的なアルゴリズムを開発する。

Understanding generalization in deep learning has been one of the major challenges in statistical learning theory over the last decade. While recent work has illustrated that the dataset and the training algorithm must be taken into account in order to obtain meaningful generalization bounds, it is still theoretically not clear which properties of the data and the algorithm determine the generalization performance. In this study, we approach this problem from a dynamical systems theory perspective and represent stochastic optimization algorithms as random iterated function systems (IFS). Well studied in the dynamical systems literature, under mild assumptions, such IFSs can be shown to be ergodic with an invariant measure that is often supported on sets with a fractal structure. As our main contribution, we prove that the generalization error of a stochastic optimization algorithm can be bounded based on the `complexity' of the fractal structure that underlies its invariant measure. Leveraging results from dynamical systems theory, we show that the generalization error can be explicitly linked to the choice of the algorithm (e.g., stochastic gradient descent -- SGD), algorithm hyperparameters (e.g., step-size, batch-size), and the geometry of the problem (e.g., Hessian of the loss). We further specialize our results to specific problems (e.g., linear/logistic regression, one hidden-layered neural networks) and algorithms (e.g., SGD and preconditioned variants), and obtain analytical estimates for our bound.For modern neural networks, we develop an efficient algorithm to compute the developed bound and support our theory with various experiments on neural networks.
翻訳日:2021-06-11 04:32:34 公開日:2021-06-09
# (参考訳) マルチスケールグラフニューラルネットワークによる連続体力学のシミュレーション [全文訳有]

Simulating Continuum Mechanics with Multi-Scale Graph Neural Networks ( http://arxiv.org/abs/2106.04900v1 )

ライセンス: CC BY 4.0
Mario Lino, Chris Cantwell, Anil A. Bharath, Stathi Fotiadis(参考訳) 1つ以上の偏微分方程式を数値的に解く連続体力学シミュレータは、科学や工学の多くの分野において必須のツールであるが、その性能はしばしば応用を制限している。 最近の機械学習のアプローチは時空間予測を加速する能力を示しているが、比較において適度な精度しか持たない。 ここでは、非定常連続体力学を推論するための新しいマルチスケールグラフニューラルネットワークモデルであるMultiScaleGNNを紹介する。 MultiScaleGNNは、物理領域を非構造化ノードの集合として表現し、1つ以上のグラフを構築し、それぞれが異なる空間解像度のスケールを符号化する。 これらのグラフ間の逐次的な学習メッセージパッシングにより、GNNがシステム状態をキャプチャして予測する能力が向上する。 グラフ表現を用いることで、MultiScaleGNNはグラフのエッジに誘導バイアスとして周期境界条件を課し、ノード位置への独立性を達成することができる。 本手法は, 対流問題と非圧縮性流体力学について実証する。 その結果,提案モデルは一様移流場から複素領域上の高次場へ一般化でき,レイノルズ数の範囲内の長期ナビエ・ストークス解を推算できることがわかった。 MultiScaleGNNで得られたシミュレーションは、トレーニングされたものよりも2~4桁高速である。

Continuum mechanics simulators, numerically solving one or more partial differential equations, are essential tools in many areas of science and engineering, but their performance often limits application in practice. Recent modern machine learning approaches have demonstrated their ability to accelerate spatio-temporal predictions, although, with only moderate accuracy in comparison. Here we introduce MultiScaleGNN, a novel multi-scale graph neural network model for learning to infer unsteady continuum mechanics. MultiScaleGNN represents the physical domain as an unstructured set of nodes, and it constructs one or more graphs, each of them encoding different scales of spatial resolution. Successive learnt message passing between these graphs improves the ability of GNNs to capture and forecast the system state in problems encompassing a range of length scales. Using graph representations, MultiScaleGNN can impose periodic boundary conditions as an inductive bias on the edges in the graphs, and achieve independence to the nodes' positions. We demonstrate this method on advection problems and incompressible fluid dynamics. Our results show that the proposed model can generalise from uniform advection fields to high-gradient fields on complex domains at test time and infer long-term Navier-Stokes solutions within a range of Reynolds numbers. Simulations obtained with MultiScaleGNN are between two and four orders of magnitude faster than the ones on which it was trained.
翻訳日:2021-06-11 04:31:18 公開日:2021-06-09
# (参考訳) DGA-Net Dynamic Gaussian Attention Network for Semantic Matching [全文訳有]

DGA-Net Dynamic Gaussian Attention Network for Sentence Semantic Matching ( http://arxiv.org/abs/2106.04905v1 )

ライセンス: CC BY 4.0
Kun Zhang, Guangyi Lv, Meng Wang, and Enhong Chen(参考訳) 文意味マッチングにはエージェントが2つの文間の意味的関係を決定する必要があるが、近年では表現学習技術の進歩や人間の行動のインスピレーションによって進歩が進んでいる。 これらの手法の中で、注意機構は重要な部分を効果的に選択することで重要な役割を果たす。 しかし、現在の注意法は静的な方法で重要な部分すべてに焦点を当てるか、1つの注意ステップで1つの重要な部分だけを動的に選択する。 そこで本稿では,現在の静的および動的アテンション手法の利点を組み合わせるために,新しい動的ガウス注意ネットワーク(DGA-Net)を設計する。 具体的には、まず事前訓練された言語モデルを用いて入力文を符号化し、大域的な視点から意味表現を構築する。 次に,動的ガウス的注意力(dga)を開発し,その重要部分と対応する局所的文脈を,詳細な視点から動的に把握する。 最後に,グローバル情報と詳細なローカル情報を組み合わせて,文の意味関係を包括的かつ正確に決定する。 2つの一般的な文意味マッチングタスクに関する大規模な実験により,提案したDGA-Netが注意機構の能力向上に有効であることを実証した。

Sentence semantic matching requires an agent to determine the semantic relation between two sentences, where much recent progress has been made by the advancement of representation learning techniques and inspiration of human behaviors. Among all these methods, attention mechanism plays an essential role by selecting important parts effectively. However, current attention methods either focus on all the important parts in a static way or only select one important part at one attention step dynamically, which leaves a large space for further improvement. To this end, in this paper, we design a novel Dynamic Gaussian Attention Network (DGA-Net) to combine the advantages of current static and dynamic attention methods. More specifically, we first leverage pre-trained language model to encode the input sentences and construct semantic representations from a global perspective. Then, we develop a Dynamic Gaussian Attention (DGA) to dynamically capture the important parts and corresponding local contexts from a detailed perspective. Finally, we combine the global information and detailed local information together to decide the semantic relation of sentences comprehensively and precisely. Extensive experiments on two popular sentence semantic matching tasks demonstrate that our proposed DGA-Net is effective in improving the ability of attention mechanism.
翻訳日:2021-06-11 04:13:24 公開日:2021-06-09
# (参考訳) モデル非依存なメタラーニングのためのメモリベース最適化手法

Memory-based Optimization Methods for Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2106.04911v1 )

ライセンス: CC BY 4.0
Bokun Wang, Zhuoning Yuan, Yiming Ying, Tianbao Yang(参考訳) 近年,モデルに依存しないメタラーニング (MAML) が注目されている。 しかし,MAMLの確率的最適化はまだ未熟である。 MAMLの既存のアルゴリズムは、メタモデルを更新するイテレーション毎に、多数のタスクと各サンプリングされたタスクのデータポイントをサンプリングして `episode' というアイデアに基づいている。 しかし、それらは必ずしも一定のミニバッチサイズでの収束を保証するものではないか、あるいは各イテレーションでより多くのタスクを処理する必要がある。 本稿では,mamlに対する効率的なメモリベース確率アルゴリズムの提案と,コンバージェンスエラーの低減について述べる。これは,タスク毎のサンプル数とタスク毎のサンプル数のみをサンプリングすることであり,(ii)クロスデバイス(w/クライアントサンプリング)とクロスサイロ(w/oクライアントサンプリング)の両方において,分散メモリベースの分散mamlアルゴリズムを提案する。 提案アルゴリズムの重要な特徴は、メタモデル以外のタスクごとに個別のパーソナライズされたモデル(メモリ)を維持し、各イテレーションに履歴更新を組み込んだモーメント法によるサンプリングされたタスクに対してのみ更新することである。 理論結果はMAMLの最適化理論を大幅に改善し、経験的な結果も理論を裏付ける。

Recently, model-agnostic meta-learning (MAML) has garnered tremendous attention. However, stochastic optimization of MAML is still immature. Existing algorithms for MAML are based on the ``episode" idea by sampling a number of tasks and a number of data points for each sampled task at each iteration for updating the meta-model. However, they either do not necessarily guarantee convergence with a constant mini-batch size or require processing a larger number of tasks at every iteration, which is not viable for continual learning or cross-device federated learning where only a small number of tasks are available per-iteration or per-round. This paper addresses these issues by (i) proposing efficient memory-based stochastic algorithms for MAML with a diminishing convergence error, which only requires sampling a constant number of tasks and a constant number of examples per-task per-iteration; (ii) proposing communication-effici ent distributed memory-based MAML algorithms for personalized federated learning in both the cross-device (w/ client sampling) and the cross-silo (w/o client sampling) settings. The key novelty of the proposed algorithms is to maintain an individual personalized model (aka memory) for each task besides the meta-model and only update them for the sampled tasks by a momentum method that incorporates historical updates at each iteration. The theoretical results significantly improve the optimization theory for MAML and the empirical results also corroborate the theory.
翻訳日:2021-06-11 03:46:53 公開日:2021-06-09
# (参考訳) PCAとGWOによる深部機能選択を用いた頸部細胞診 [全文訳有]

Cervical Cytology Classification Using PCA & GWO Enhanced Deep Features Selection ( http://arxiv.org/abs/2106.04919v1 )

ライセンス: CC BY 4.0
Hritam Basak, Rohit Kundu, Sukanta Chakraborty, Nibaran Das(参考訳) 子宮頸癌は世界でも最も致命的かつ一般的な疾患の1つである。 早期に診断すれば完全に治すことができるが、退屈で高価な検出方法により、集団検診は不可能である。 そこで本研究では, 細胞診画像分類における進化的最適化を用いたDeep Learningと特徴選択を利用した完全自動化フレームワークを提案する。 提案フレームワークは,いくつかの畳み込みニューラルネットワークモデルから深度特徴を抽出し,計算コストの低減と収束の高速化を図るために2段階の特徴低減手法を用いる。 cnnモデルから抽出された特徴は、分散の99%を保ちながら主成分分析により次元が減少する大きな特徴空間を形成する。 進化最適化アルゴリズムであるGrey Wolf Optimizerを用いて,非冗長で最適な特徴部分集合をこの特徴空間から選択し,分類性能を向上させる。 最後に、選択された機能サブセットを使用して、最終予測を生成するsvm分類器をトレーニングする。 Mendeley Liquid Based Cytology (4-class) データセット、Herlev Pap Smear (7-class) データセット、SIPaKMeD Pap Smear (5-class) データセットそれぞれ99.47%、98.32%、97.87%の分類精度を達成し、アプローチの信頼性を正当化する。 提案するアプローチに関連するコードは、https://github.com/d vlp-cmaterju/two-ste p-feature-enhancemen tにある。

Cervical cancer is one of the most deadly and common diseases among women worldwide. It is completely curable if diagnosed in an early stage, but the tedious and costly detection procedure makes it unviable to conduct population-wise screening. Thus, to augment the effort of the clinicians, in this paper, we propose a fully automated framework that utilizes Deep Learning and feature selection using evolutionary optimization for cytology image classification. The proposed framework extracts Deep feature from several Convolution Neural Network models and uses a two-step feature reduction approach to ensure reduction in computation cost and faster convergence. The features extracted from the CNN models form a large feature space whose dimensionality is reduced using Principal Component Analysis while preserving 99% of the variance. A non-redundant, optimal feature subset is selected from this feature space using an evolutionary optimization algorithm, the Grey Wolf Optimizer, thus improving the classification performance. Finally, the selected feature subset is used to train an SVM classifier for generating the final predictions. The proposed framework is evaluated on three publicly available benchmark datasets: Mendeley Liquid Based Cytology (4-class) dataset, Herlev Pap Smear (7-class) dataset, and the SIPaKMeD Pap Smear (5-class) dataset achieving classification accuracies of 99.47%, 98.32% and 97.87% respectively, thus justifying the reliability of the approach. The relevant codes for the proposed approach can be found in: https://github.com/D VLP-CMATERJU/Two-Ste p-Feature-Enhancemen t
翻訳日:2021-06-11 03:45:29 公開日:2021-06-09
# (参考訳) ランダム単位による事前学習モデルの拡張による神経教師あり領域適応 [全文訳有]

Neural Supervised Domain Adaptation by Augmenting Pre-trained Models with Random Units ( http://arxiv.org/abs/2106.04935v1 )

ライセンス: CC BY 4.0
Sara Meftah, Nasredine Semmar, Youssef Tamaazousti, Hassane Essafi, Fatiha Sadat(参考訳) ニューラルトランスファーラーニング(TL)は自然言語処理(NLP)において、特に低リソースのシナリオにおいて、多くのタスクで高いパフォーマンスを実現しているため、ユビキタスになりつつある。 特に、TLは高リソース領域から低リソース領域への貴重な知識の伝達にニューラルネットワーク適応に広く用いられている。 TLの標準的な微調整方式では、モデルは当初ソースドメインで事前訓練され、その後ターゲットドメインで微調整されるため、ソースドメインとターゲットドメインは同じアーキテクチャでトレーニングされる。 本稿では,そのようなスキームは,その効率性に拘わらず,大きな制限を負っているという解釈法を提示する。 実際には、新しいドメインに適応できるが、事前訓練されたニューロンは、ターゲットドメインに固有の特定のパターンを学ぶのに苦労する。 さらに,ソース領域とターゲット領域の関連度が高いにもかかわらず,隠れた負の伝達が引き起こされる可能性について考察した。 これらの問題に対処するため,我々は,正規化,重み付け,ランダム初期化単位を用いて事前学習したモデルを強化し,価値ある情報源知識を維持しつつ,適応性を高めることを提案する。 提案手法は,ニューラルドメインをニュースドメインからソーシャルメディアドメインに適応させるための標準的な微調整方式を4つのnlpタスク(part-of-speech tagging, chunking, named entity recognition, morphosyntactic tagging)で大幅に改善したことを示す。

Neural Transfer Learning (TL) is becoming ubiquitous in Natural Language Processing (NLP), thanks to its high performance on many tasks, especially in low-resourced scenarios. Notably, TL is widely used for neural domain adaptation to transfer valuable knowledge from high-resource to low-resource domains. In the standard fine-tuning scheme of TL, a model is initially pre-trained on a source domain and subsequently fine-tuned on a target domain and, therefore, source and target domains are trained using the same architecture. In this paper, we show through interpretation methods that such scheme, despite its efficiency, is suffering from a main limitation. Indeed, although capable of adapting to new domains, pre-trained neurons struggle with learning certain patterns that are specific to the target domain. Moreover, we shed light on the hidden negative transfer occurring despite the high relatedness between source and target domains, which may mitigate the final gain brought by transfer learning. To address these problems, we propose to augment the pre-trained model with normalised, weighted and randomly initialised units that foster a better adaptation while maintaining the valuable source knowledge. We show that our approach exhibits significant improvements to the standard fine-tuning scheme for neural domain adaptation from the news domain to the social media domain on four NLP tasks: part-of-speech tagging, chunking, named entity recognition and morphosyntactic tagging.
翻訳日:2021-06-11 03:28:11 公開日:2021-06-09
# (参考訳) グラフ埋め込みに対する対称空間:finsler-riemannianアプローチ [全文訳有]

Symmetric Spaces for Graph Embeddings: A Finsler-Riemannian Approach ( http://arxiv.org/abs/2106.04941v1 )

ライセンス: CC BY 4.0
Federico L\'opez, Beatrice Pozzetti, Steve Trettel, Michael Strube, Anna Wienhard(参考訳) 頂点埋め込みのセットとして忠実なグラフ表現を学ぶことは、幅広い機械学習アプリケーションにおける基本的な中間的ステップとなっている。 表現学習における対称空間を体系的に利用することを提案する。 これにより、リーマン最適化スキームに統合されたフィンスラー計量を用いることで、グラフ内の異種構造に適応する新しい手法を導入することができる。 組込みを分析し,データセットの構造特性を推測するツールを開発した。 実装では、対称空間の多彩な族であるジーゲル空間を選択する。 本手法は,様々な合成および実世界のデータセットにおけるグラフ再構成タスクの競合ベースラインを上回っている。 さらに,2つの下流タスク,レコメンダシステムとノード分類に適用可能性を示す。

Learning faithful graph representations as sets of vertex embeddings has become a fundamental intermediary step in a wide range of machine learning applications. We propose the systematic use of symmetric spaces in representation learning, a class encompassing many of the previously used embedding targets. This enables us to introduce a new method, the use of Finsler metrics integrated in a Riemannian optimization scheme, that better adapts to dissimilar structures in the graph. We develop a tool to analyze the embeddings and infer structural properties of the data sets. For implementation, we choose Siegel spaces, a versatile family of symmetric spaces. Our approach outperforms competitive baselines for graph reconstruction tasks on various synthetic and real-world datasets. We further demonstrate its applicability on two downstream tasks, recommender systems and node classification.
翻訳日:2021-06-11 02:52:34 公開日:2021-06-09
# (参考訳) 期待プログラミング [全文訳有]

Expectation Programming ( http://arxiv.org/abs/2106.04953v1 )

ライセンス: CC BY 4.0
Tim Reichelt, Adam Goli\'nski, Luke Ong, Tom Rainforth(参考訳) 確率的プログラミングのアイデアに基づいて,期待の計算を自動化する予測プログラミングフレームワーク(EPF)の概念を導入する。 確率的プログラムに類似して、予測プログラムは確率的構成と変数上の条件分布を定義する決定論的計算の混合からなる。 しかし、EPFにおける推論エンジンの焦点は、条件分布自体を近似するのではなく、プログラムの戻り値の期待結果を直接見積もることである。 この区別により、私たちが関心を持っている正確な期待に合わせた推論をすることで、標準的な確率的プログラミングパイプラインよりも大幅にパフォーマンスが向上します。 確率型プログラミング言語 Turing を拡張して,EPF の概念の特定のインスタンス化を実現し,いわゆるターゲット認識推論を自動実行可能にする。

Building on ideas from probabilistic programming, we introduce the concept of an expectation programming framework (EPF) that automates the calculation of expectations. Analogous to a probabilistic program, an expectation program is comprised of a mix of probabilistic constructs and deterministic calculations that define a conditional distribution over its variables. However, the focus of the inference engine in an EPF is to directly estimate the resulting expectation of the program return values, rather than approximate the conditional distribution itself. This distinction allows us to achieve substantial performance improvements over the standard probabilistic programming pipeline by tailoring the inference to the precise expectation we care about. We realize a particular instantiation of our EPF concept by extending the probabilistic programming language Turing to allow so-called target-aware inference to be run automatically, and show that this leads to significant empirical gains compared to conventional posterior-based inference.
翻訳日:2021-06-11 02:10:23 公開日:2021-06-09
# (参考訳) ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一 [全文訳有]

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games ( http://arxiv.org/abs/2106.04958v1 )

ライセンス: CC BY 4.0
Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu(参考訳) 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissors など)。 オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。 提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。

Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e.g., Rock-Paper-Scissors) . With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. We also show that many current diversity measures fall in one of the categories of BD or RD but not both. With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex \textit{Google Research Football} environment. The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in \textit{Google Research Football}.
翻訳日:2021-06-11 01:47:19 公開日:2021-06-09
# (参考訳) GP-ConvCNP:時系列データに基づく畳み込み条件付きニューラルプロセスのより良い一般化 [全文訳有]

GP-ConvCNP: Better Generalization for Convolutional Conditional Neural Processes on Time Series Data ( http://arxiv.org/abs/2106.04967v1 )

ライセンス: CC BY 4.0
Jens Petersen, Gregor K\"ohler, David Zimmerer, Fabian Isensee, Paul F. J\"ager, Klaus H. Maier-Hein(参考訳) ニューラルプロセス(英: Neural Processs、NP)は、関数上の分布をモデル化できる条件生成モデルのファミリーであり、複数のコンテキストポイントで条件付きテスト時に予測を行うことができる。 最近の畳み込み条件付き神経プロセス(convolutional conditional neural process, convcnp)は、先行技術よりもパフォーマンスが著しく向上しているが、時系列データに適用した場合に一般化に苦労することがある。 特に、それらは分布シフトに対して堅牢ではなく、観測されたパターンを将来への外挿に失敗する。 ガウス過程をモデルに組み込むことで、これを改善できると同時に、分散におけるパフォーマンスを向上させることができます。 追加の利点として、ガウス過程はNPファミリーの他のメンバーの重要な特徴であるモデルからサンプルする可能性を再導入する。

Neural Processes (NPs) are a family of conditional generative models that are able to model a distribution over functions, in a way that allows them to perform predictions at test time conditioned on a number of context points. A recent addition to this family, Convolutional Conditional Neural Processes (ConvCNP), have shown remarkable improvement in performance over prior art, but we find that they sometimes struggle to generalize when applied to time series data. In particular, they are not robust to distribution shifts and fail to extrapolate observed patterns into the future. By incorporating a Gaussian Process into the model, we are able to remedy this and at the same time improve performance within distribution. As an added benefit, the Gaussian Process reintroduces the possibility to sample from the model, a key feature of other members in the NP family.
翻訳日:2021-06-11 01:24:16 公開日:2021-06-09
# (参考訳) 弱攻撃的復号による瞬時文法誤り訂正 [全文訳有]

Instantaneous Grammatical Error Correction with Shallow Aggressive Decoding ( http://arxiv.org/abs/2106.04970v1 )

ライセンス: CC BY 4.0
Xin Sun, Tao Ge, Furu Wei, Houfeng Wang(参考訳) 本稿では,Shallow Aggressive Decoding (SAD) を提案し,即時文法誤り訂正(GEC)のための変換器のオンライン推論効率を向上させる。 SADは、GECのオンライン推論効率を2つの革新によって最適化する: 1) 計算並列性を改善するために、各ステップで常に1つのトークンだけをデコードするのではなく、できるだけ多くのトークンを並列にデコードする; 2) 推論中に計算コストを削減するために、バランスの取れたエンコーダ・デコーダの深さを持つ従来のトランスフォーマーアーキテクチャの代わりに浅いデコーダを使用する。 英語と中国語のgecベンチマークでの実験では、攻撃的なデコーディングは欲深いデコードと同じ予測をもたらすが、オンライン推論の大幅なスピードアップをもたらすことが示されている。 浅いデコーダと組み合わせることで、品質を損なうことなく、強力なトランスフォーマーベースラインよりも高いオンライン推論速度が得られる。 conll-14では66.4 f0.5、bea-19では72.9 f0.5、transformer-bigモデルでは約10倍のオンライン推論速度を持つが、他の言語にも容易に適用できる。 私たちのコードはhttps://github.com/A utoTemp/Shallow-Aggr essive-Decodingで利用可能です。

In this paper, we propose Shallow Aggressive Decoding (SAD) to improve the online inference efficiency of the Transformer for instantaneous Grammatical Error Correction (GEC). SAD optimizes the online inference efficiency for GEC by two innovations: 1) it aggressively decodes as many tokens as possible in parallel instead of always decoding only one token in each step to improve computational parallelism; 2) it uses a shallow decoder instead of the conventional Transformer architecture with balanced encoder-decoder depth to reduce the computational cost during inference. Experiments in both English and Chinese GEC benchmarks show that aggressive decoding could yield the same predictions as greedy decoding but with a significant speedup for online inference. Its combination with the shallow decoder could offer an even higher online inference speedup over the powerful Transformer baseline without quality loss. Not only does our approach allow a single model to achieve the state-of-the-art results in English GEC benchmarks: 66.4 F0.5 in the CoNLL-14 and 72.9 F0.5 in the BEA-19 test set with an almost 10x online inference speedup over the Transformer-big model, but also it is easily adapted to other languages. Our code is available at https://github.com/A utoTemp/Shallow-Aggr essive-Decoding.
翻訳日:2021-06-11 01:03:28 公開日:2021-06-09
# (参考訳) 量子ニューラルネットワークのジレンマ [全文訳有]

The dilemma of quantum neural networks ( http://arxiv.org/abs/2106.04975v1 )

ライセンス: CC BY 4.0
Yang Qian, Xinbiao Wang, Yuxuan Du, Xingyao Wu, Dacheng Tao(参考訳) 量子機械学習の中核は、より信頼性と解釈性を確保するために、従来のモデルよりも訓練性が高く、一般化誤差が低い量子モデルを開発することである。 最近の研究では、量子ニューラルネットワーク(QNN)が特定のデータセットでこの目標を達成する能力を持っていることが確認されている。 この点に関して、これらの利点がまだ現実世界のタスクで維持されているかどうかを理解することが非常に重要である。 系統的な数値実験により,現在のQNNは古典的学習モデルに対していかなるメリットも提供できないことを実証的に観察した。 具体的には、2つの重要なメッセージが送られます。 まず、QNNは、実世界のデータセットの一般化が不十分な、極めて限られた有効モデル能力に悩まされる。 第2に、QNNのトレーニング容易性は、古典的なシナリオとは対照的な正規化技術に敏感である。 これらの実証的な結果から、現在のQNNの役割を再考し、量子的優位性で現実の問題を解決するための新しいプロトコルを設計せざるを得ない。

The core of quantum machine learning is to devise quantum models with good trainability and low generalization error bound than their classical counterparts to ensure better reliability and interpretability. Recent studies confirmed that quantum neural networks (QNNs) have the ability to achieve this goal on specific datasets. With this regard, it is of great importance to understand whether these advantages are still preserved on real-world tasks. Through systematic numerical experiments, we empirically observe that current QNNs fail to provide any benefit over classical learning models. Concretely, our results deliver two key messages. First, QNNs suffer from the severely limited effective model capacity, which incurs poor generalization on real-world datasets. Second, the trainability of QNNs is insensitive to regularization techniques, which sharply contrasts with the classical scenario. These empirical results force us to rethink the role of current QNNs and to design novel protocols for solving real-world problems with quantum advantages.
翻訳日:2021-06-11 00:46:48 公開日:2021-06-09
# (参考訳) 協調型オンライン学習

Cooperative Online Learning ( http://arxiv.org/abs/2106.04982v1 )

ライセンス: CC BY 4.0
Tommaso R. Cesari, Riccardo Della Vecchia(参考訳) 本論文の予備的(かつ精査されていない)版では,エージェントのネットワークを用いた非同期オンライン学習環境について検討する。 それぞれの時間ステップで、エージェントのいくつかがアクティベートされ、予測を要求され、対応する損失を支払う。 いくつかのフィードバックがこれらのエージェントに公開され、後にネットワークを通じて伝達される。 完全, 包括的, 半包括的フィードバックの事例を考察する。 特に,フルとバンディットの両方のフィードバックケースに適用可能な遅延単一エージェント学習の削減を行い,両方の設定に対して後悔の保証を得ることを可能にした。 これらの結果をほぼ一致する下限で補完する。

In this preliminary (and unpolished) version of the paper, we study an asynchronous online learning setting with a network of agents. At each time step, some of the agents are activated, requested to make a prediction, and pay the corresponding loss. Some feedback is then revealed to these agents and is later propagated through the network. We consider the case of full, bandit, and semi-bandit feedback. In particular, we construct a reduction to delayed single-agent learning that applies to both the full and the bandit feedback case and allows to obtain regret guarantees for both settings. We complement these results with a near-matching lower bound.
翻訳日:2021-06-11 00:09:05 公開日:2021-06-09
# (参考訳) コンパイル可能性制約下におけるコード生成のためのエネルギーモデル [全文訳有]

Energy-Based Models for Code Generation under Compilability Constraints ( http://arxiv.org/abs/2106.04985v1 )

ライセンス: CC BY 4.0
Tomasz Korbak and Hady Elsahar and Marc Dymetman and Germ\'an Kruszewski(参考訳) ニューラル言語モデルはソースコードでうまくトレーニングすることができ、コード補完のようなアプリケーションに繋がる。 しかし、その汎用的自己回帰的自己超越目的は、構文的正当性やコンパイル可能性などのデータに存在する重要なグローバルなシーケンスレベル特徴を見落としている。 本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。 本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すエネルギーベースモデル(EBM)を定義する。 次に,kl適応分布政策勾配アルゴリズム(khalifa et al., 2021)を用いて,ebmに近い生成モデルを学習する。 提案手法は, 生成したサンプルの多様性や複雑さを犠牲にすることなく, コンパイル可能性を向上させることができることを示す実験を行った。

Neural language models can be successfully trained on source code, leading to applications such as code completion. However, their versatile autoregressive self-supervision objective overlooks important global sequence-level features that are present in the data such as syntactic correctness or compilability. In this work, we pose the problem of learning to generate compilable code as constraint satisfaction. We define an Energy-Based Model (EBM) representing a pre-trained generative model with an imposed constraint of generating only compilable sequences. We then use the KL-Adaptive Distributional Policy Gradient algorithm (Khalifa et al., 2021) to train a generative model approximating the EBM. We conduct experiments showing that our proposed approach is able to improve compilability rates without sacrificing diversity and complexity of the generated samples.
翻訳日:2021-06-11 00:08:12 公開日:2021-06-09
# (参考訳) CLCC:カラーコンテントのためのコントラストラーニング [全文訳有]

CLCC: Contrastive Learning for Color Constancy ( http://arxiv.org/abs/2106.04989v1 )

ライセンス: CC BY 4.0
Yi-Chen Lo, Chia-Che Chang, Hsuan-Chao Chiu, Yu-Hao Huang, Chia-Ping Chen, Yu-Lin Chang, Kevin Jou(参考訳) 本稿では,カラー一貫性のための新しいコントラスト学習フレームワークであるCLCCを提案する。 コントラスト学習は画像分類のための高品質な視覚表現の学習に応用されている。 画像分類に有用な表現を与える一つの重要な側面は、照度不変拡張を設計することである。 しかし、照度不変の仮定は、原画像が与えられた照度を推定することを目的としたカラーコンステンシータスクの性質と矛盾する。 そこで本研究では,新しいraw-domainカラー増色法を用いて,より優れたイルミナント依存特徴を学習するための効果的なコントラストペアを構築する。 nus-8データセットでは、強力なベースラインに対して7.5\%$の相対的改善を行い、モデルの複雑さを増すことなく、最先端のパフォーマンスを達成する。 さらに,gehlerデータセット上では,上位のディープラーニング法と比較して,パラメータが3\times$少ないという競合性能を実現している。 さらに重要なことは、我々のモデルは、照度が近い異なるシーンでより堅牢であることを示し、データスパース領域における最悪のケースエラーを2,8.7 %削減する。

In this paper, we present CLCC, a novel contrastive learning framework for color constancy. Contrastive learning has been applied for learning high-quality visual representations for image classification. One key aspect to yield useful representations for image classification is to design illuminant invariant augmentations. However, the illuminant invariant assumption conflicts with the nature of the color constancy task, which aims to estimate the illuminant given a raw image. Therefore, we construct effective contrastive pairs for learning better illuminant-dependent features via a novel raw-domain color augmentation. On the NUS-8 dataset, our method provides $17.5\%$ relative improvements over a strong baseline, reaching state-of-the-art performance without increasing model complexity. Furthermore, our method achieves competitive performance on the Gehler dataset with $3\times$ fewer parameters compared to top-ranking deep learning methods. More importantly, we show that our model is more robust to different scenes under close proximity of illuminants, significantly reducing $28.7\%$ worst-case error in data-sparse regions.
翻訳日:2021-06-10 23:47:33 公開日:2021-06-09
# (参考訳) Tangoに2つ必要な - 深層学習のためのMixup [全文訳有]

It Takes Two to Tango: Mixup for Deep Metric Learning ( http://arxiv.org/abs/2106.04990v1 )

ライセンス: CC BY 4.0
Shashanka Venkataramanan, Bill Psomas, Yannis Avrithis, Ewa Kijak, Laurent Amsaleg, Konstantinos Karantzalos(参考訳) メトリクス学習は、類似クラスの埋め込みが近くになるように差別的な表現を学ぶことを含み、異なるクラスの埋め込みは遠くまで押し出されます。 最先端の手法は主に高度な損失関数や鉱業戦略に焦点を当てている。 一方、メトリック学習の損失は、一度に2つ以上の例を考える。 一方,分類のための現代的データ拡張手法では,一度に2つ以上の例を考察する。 2つのアイデアの組み合わせは未研究である。 本研究では,2つ以上のサンプルと対応するターゲットラベルを一度に補間する強力なデータ拡張手法であるmixupを用いて,このギャップを解消し,表現を改善することを目的とする。 この課題は、分類とは異なり、メトリック学習で使われる損失関数は例に加算されないため、対象ラベルを補間するという考えは単純ではないため、難しい。 私たちの知識を最大限に活用するために、深層メトリック学習のためのサンプルとターゲットラベルの混合を調査した最初の人物です。 我々は,既存のメトリック学習損失関数を包含する一般化された定式化を開発し,Metric MixやMetrixを導入して,ミックスアップに対応するように修正する。 入力,中間表現,埋め込みを混合することで,4つのベンチマークデータセットにおける表現が大幅に改善され,最先端のメトリック学習手法を上回っていることを示す。

Metric learning involves learning a discriminative representation such that embeddings of similar classes are encouraged to be close, while embeddings of dissimilar classes are pushed far apart. State-of-the-art methods focus mostly on sophisticated loss functions or mining strategies. On the one hand, metric learning losses consider two or more examples at a time. On the other hand, modern data augmentation methods for classification consider two or more examples at a time. The combination of the two ideas is under-studied. In this work, we aim to bridge this gap and improve representations using mixup, which is a powerful data augmentation approach interpolating two or more examples and corresponding target labels at a time. This task is challenging because, unlike classification, the loss functions used in metric learning are not additive over examples, so the idea of interpolating target labels is not straightforward. To the best of our knowledge, we are the first to investigate mixing examples and target labels for deep metric learning. We develop a generalized formulation that encompasses existing metric learning loss functions and modify it to accommodate for mixup, introducing Metric Mix, or Metrix. We show that mixing inputs, intermediate representations or embeddings along with target labels significantly improves representations and outperforms state-of-the-art metric learning methods on four benchmark datasets.
翻訳日:2021-06-10 23:31:04 公開日:2021-06-09
# (参考訳) 損失関数に基づく二階jensen不等式とその粒子変動推論への応用

Loss function based second-order Jensen inequality and its application to particle variational inference ( http://arxiv.org/abs/2106.05010v1 )

ライセンス: CC BY 4.0
Futoshi Futami, Tomoharu Iwata, Naonori Ueda, Issei Sato, and Masashi Sugiyama(参考訳) 後続分布による確率関数の期待値として得られたベイズモデル平均化は,予測,不確実性の評価,モデル選択に広く用いられている。 後方分布の情報を効率的に捉えるための様々なアプローチが開発されており、その1つは、アンサンブル学習と同じ方法で個々のモデルの多様性を確保するために相互作用を伴う一連のモデルの最適化である。 代表的なアプローチは粒子変動推論 (pvi) であり、モデルの集合を後続分布に対する経験的近似として用いる。 PVIは各モデルを反復的に更新し、最適化されたモデルの多様性を保証する。 しかし、その有望な性能にもかかわらず、この反発の理論的理解と一般化能力との関係は未だ不明である。 本稿では,PAC-ベイジアン解析の観点からこの問題に対処する。 まず、損失関数に基づく反発項を持つ新しい二階ジェンセン不等式を提供する。 反発項により、標準のジェンセン不等式よりも厳密である。 次に,新しい一般化誤差バウンドを導出し,モデルの多様性を増すことによりその誤差を低減できることを示す。 最後に、一般化誤差を直接的に最適化する新しいPVIを導出する。 数値実験により,提案したPVIの性能は既存手法と良好に比較できることを示した。

Bayesian model averaging, obtained as the expectation of a likelihood function by a posterior distribution, has been widely used for prediction, evaluation of uncertainty, and model selection. Various approaches have been developed to efficiently capture the information in the posterior distribution; one such approach is the optimization of a set of models simultaneously with interaction to ensure the diversity of the individual models in the same way as ensemble learning. A representative approach is particle variational inference (PVI), which uses an ensemble of models as an empirical approximation for the posterior distribution. PVI iteratively updates each model with a repulsion force to ensure the diversity of the optimized models. However, despite its promising performance, a theoretical understanding of this repulsion and its association with the generalization ability remains unclear. In this paper, we tackle this problem in light of PAC-Bayesian analysis. First, we provide a new second-order Jensen inequality, which has the repulsion term based on the loss function. Thanks to the repulsion term, it is tighter than the standard Jensen inequality. Then, we derive a novel generalization error bound and show that it can be reduced by enhancing the diversity of models. Finally, we derive a new PVI that optimizes the generalization error bound directly. Numerical experiments demonstrate that the performance of the proposed PVI compares favorably with existing methods in the experiment.
翻訳日:2021-06-10 23:12:59 公開日:2021-06-09
# (参考訳) 政策制約下における最適動的処理割り当て則の推定

Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraint ( http://arxiv.org/abs/2106.05031v1 )

ライセンス: CC BY 4.0
Shosei Sakaguchi(参考訳) 本稿では,動的処理代入問題に対する統計的決定について検討する。 多くの政策は、治療が複数の段階にわたって個人に順次割り当てられ、各段階における治療の効果は通常、以前の治療、過去の結果、観察された共変量に対して不均一である。 個別の履歴に基づいて各段階の個人に対する最適な治療割り当てを導く最適な動的処置規則を推定することを検討する。 本稿では,動的枠組みにおける実証的福祉最大化アプローチを提案する。 本手法は実験または準実験によるパネルデータから最適動的処理則を推定する。 本稿では,各段階の処理割当問題を後方帰納によって解き,各段階の動的処理割当問題全体を同時に解く2つの推定法を提案する。 提案手法の最低ケース平均福祉率について有限サンプル上限を導出し,$n^{-1/2}$-minimax収束率を示す。 また、時間的予算/容量制約を組み込むために同時推定法を変更する。

This paper studies statistical decisions for dynamic treatment assignment problems. Many policies involve dynamics in their treatment assignments where treatments are sequentially assigned to individuals across multiple stages and the effect of treatment at each stage is usually heterogeneous with respect to the prior treatments, past outcomes, and observed covariates. We consider estimating an optimal dynamic treatment rule that guides the optimal treatment assignment for each individual at each stage based on the individual's history. This paper proposes an empirical welfare maximization approach in a dynamic framework. The approach estimates the optimal dynamic treatment rule from panel data taken from an experimental or quasi-experimental study. The paper proposes two estimation methods: one solves the treatment assignment problem at each stage through backward induction, and the other solves the whole dynamic treatment assignment problem simultaneously across all stages. We derive finite-sample upper bounds on the worst-case average welfare-regrets for the proposed methods and show $n^{-1/2}$-minimax convergence rates. We also modify the simultaneous estimation method to incorporate intertemporal budget/capacity constraints.
翻訳日:2021-06-10 23:11:44 公開日:2021-06-09
# (参考訳) 複雑原因の操作:調停の実際的展望 [全文訳有]

Operationalizing Complex Causes:A Pragmatic View of Mediation ( http://arxiv.org/abs/2106.05074v1 )

ライセンス: CC0 1.0
Limor Gultchin, David S. Watson, Matt J. Kusner, Ricardo Silva(参考訳) 複雑な対象(テキスト,画像,ゲノムなど)に対する因果応答推定の問題について検討する。 この設定では、古典的な \emph{atomic} の介入がしばしば利用できない(例えば、文字、ピクセル、DNA塩基対)。 代わりに、間接的な介入や\emph{crude}介入(例えば、書き込みプログラムへの登録、シーンの変更、遺伝子治療の適用など)しかアクセスできません。 本研究では,この問題を形式化し,初期解を提供する。 候補媒介者の収集を前提として、(a)粗介入の因果反応を予測するための2段階の方法、(b)粗介入の媒介者を特定するための試験手順を提案する。 シミュレーションと実世界のインスパイアされた実例を用いて, 新たな治療体制の限られたデータを用いて, 粗介入の効果を効率的に推定できることを実証した。

We examine the problem of causal response estimation for complex objects (e.g., text, images, genomics). In this setting, classical \emph{atomic} interventions are often not available (e.g., changes to characters, pixels, DNA base-pairs). Instead, we only have access to indirect or \emph{crude} interventions (e.g., enrolling in a writing program, modifying a scene, applying a gene therapy). In this work, we formalize this problem and provide an initial solution. Given a collection of candidate mediators, we propose (a) a two-step method for predicting the causal responses of crude interventions; and (b) a testing procedure to identify mediators of crude interventions. We demonstrate, on a range of simulated and real-world-inspired examples, that our approach allows us to efficiently estimate the effect of crude interventions with limited data from new treatment regimes.
翻訳日:2021-06-10 23:10:40 公開日:2021-06-09
# (参考訳) ディープハフ変換を用いた半教師付きレーン検出 [全文訳有]

Semi-supervised lane detection with Deep Hough Transform ( http://arxiv.org/abs/2106.05094v1 )

ライセンス: CC BY 4.0
Yancong Lin, Silvia-Laura Pintea, Jan van Gemert(参考訳) レーン検出に関する現在の研究は、大規模な手動注釈付きデータセットに依存している。 私たちは、巨大な安価で手に入らないデータを活用することでアノテーションへの依存を減らす。 本研究では,ハフ空間におけるレーンの幾何学的知識を利用した新たな損失関数を提案する。 レーンを別々のチャネルに分割することで、単純なグローバルマックスプールを通じて各レーンをローカライズすることができます。 最大値の位置はレーンのレイアウトを符号化し、強度はレーンが存在する確率を示す。 最大ビンの対数確率の最大化は、ニューラルネットワークがラベルなしで車線を見つけるのに役立つ。 CULane と TuSimple のデータセットから,提案したHough Transform の損失は,大量の未ラベル画像から学習することで,性能を著しく向上することを示す。

Current work on lane detection relies on large manually annotated datasets. We reduce the dependency on annotations by leveraging massive cheaply available unlabelled data. We propose a novel loss function exploiting geometric knowledge of lanes in Hough space, where a lane can be identified as a local maximum. By splitting lanes into separate channels, we can localize each lane via simple global max-pooling. The location of the maximum encodes the layout of a lane, while the intensity indicates the the probability of a lane being present. Maximizing the log-probability of the maximal bins helps neural networks find lanes without labels. On the CULane and TuSimple datasets, we show that the proposed Hough Transform loss improves performance significantly by learning from large amounts of unlabelled images.
翻訳日:2021-06-10 22:52:43 公開日:2021-06-09
# (参考訳) 脳活動からの自己監督深度再構築 [全文訳有]

More than meets the eye: Self-supervised depth reconstruction from brain activity ( http://arxiv.org/abs/2106.05113v1 )

ライセンス: CC BY 4.0
Guy Gaziv, Michal Irani(参考訳) 過去数年間、深層学習ツールを用いたfMRI脳波記録から観察された自然画像の再構成において、顕著な進歩が見られた。 ここでは初めて、観測された2次元自然画像の高密度3次元深度マップがfMRI脳波記録から直接復元可能であることを示す。 自然画像の未知深度マップを推定するために,オフザシェルフ法を用いる。 これは、(i)fMRIスキャナー(fMRI記録を"ペアドデータ"として参照する画像)で被験者に提示される少数の画像と、(ii)fMRI記録のない非常に多数の自然画像("アンペアドデータ")の両方に適用される。 推定深度マップは、fMRIから直接深度再構成を訓練するための補助的再構成基準として使用される。 本稿では,奥行きのみの回復と共同画像深度RGBD回復の2つのアプローチを提案する。 利用可能な「ペア化」トレーニングデータ(fMRIのイメージ)の数は少ないため、多くの「ペア化」データ(fMRIのない自然画像と深度マップ)の自己教師付きサイクル一貫性トレーニングを通じて、トレーニングデータを充実させる。 これは、新たに定義され、訓練されたDepthベースの知覚的類似度尺度を再構築基準として用いる。 fMRIから直接の深度マップの予測は、再構成画像からの間接的回復よりも優れていることを示す。 さらに, 早期大脳皮質視覚野からの活性化が深度再構成の結果を支配することを示し, 深度情報チューニングの度合いでfMRIボクセルを特徴付ける方法を提案する。 この作業は、デコードされた情報の重要な層を追加し、現在の視覚脳デコード能力のエンベロープを拡張する。

In the past few years, significant advancements were made in reconstruction of observed natural images from fMRI brain recordings using deep-learning tools. Here, for the first time, we show that dense 3D depth maps of observed 2D natural images can also be recovered directly from fMRI brain recordings. We use an off-the-shelf method to estimate the unknown depth maps of natural images. This is applied to both: (i) the small number of images presented to subjects in an fMRI scanner (images for which we have fMRI recordings - referred to as "paired" data), and (ii) a very large number of natural images with no fMRI recordings ("unpaired data"). The estimated depth maps are then used as an auxiliary reconstruction criterion to train for depth reconstruction directly from fMRI. We propose two main approaches: Depth-only recovery and joint image-depth RGBD recovery. Because the number of available "paired" training data (images with fMRI) is small, we enrich the training data via self-supervised cycle-consistent training on many "unpaired" data (natural images & depth maps without fMRI). This is achieved using our newly defined and trained Depth-based Perceptual Similarity metric as a reconstruction criterion. We show that predicting the depth map directly from fMRI outperforms its indirect sequential recovery from the reconstructed images. We further show that activations from early cortical visual areas dominate our depth reconstruction results, and propose means to characterize fMRI voxels by their degree of depth-information tuning. This work adds an important layer of decoded information, extending the current envelope of visual brain decoding capabilities.
翻訳日:2021-06-10 22:43:20 公開日:2021-06-09
# (参考訳) Alpha-Divergence変分推論のための混合重み最適化 [全文訳有]

Mixture weights optimisation for Alpha-Divergence Variational Inference ( http://arxiv.org/abs/2106.05114v1 )

ライセンス: CC BY 4.0
Kam\'elia Daudel and Randal Douc(参考訳) 本稿では,変分推論のための$\alpha$-divergence最小化手法について述べる。 より正確には、混合成分パラメータの基本的な分布に関する情報なしで、任意の混合モデルの混合重量を最適化するアルゴリズムに興味がある。 すべての$\alpha \neq 1$に対して定義されるPower Descentはそのようなアルゴリズムであり、$\alpha <1$のときの最適混合重みへの収束の完全な証明を確立する。 $\alpha \to 1$ のとき、$\alpha$-divergence は広く使われているKullback-Leibler を復元するので、Power Descent を $\alpha = 1$ の場合に拡張し、エントロピックミラー Descent を得ることを示す。 これにより、パワー・ディクセントとエントロピック・ミラー・ディクセントの関連性を調べることができる: 1次近似は、$O(1/N)$収束率を証明する新しいアルゴリズムであるRenyi Descentを導入することができる。 最後に,偏りのないパワー降下とバイアス付きレーニー降下の挙動を数値的に比較し,一方のアルゴリズムの利点について考察する。

This paper focuses on $\alpha$-divergence minimisation methods for Variational Inference. More precisely, we are interested in algorithms optimising the mixture weights of any given mixture model, without any information on the underlying distribution of its mixture components parameters. The Power Descent, defined for all $\alpha \neq 1$, is one such algorithm and we establish in our work the full proof of its convergence towards the optimal mixture weights when $\alpha <1$. Since the $\alpha$-divergence recovers the widely-used forward Kullback-Leibler when $\alpha \to 1$, we then extend the Power Descent to the case $\alpha = 1$ and show that we obtain an Entropic Mirror Descent. This leads us to investigate the link between Power Descent and Entropic Mirror Descent: first-order approximations allow us to introduce the Renyi Descent, a novel algorithm for which we prove an $O(1/N)$ convergence rate. Lastly, we compare numerically the behavior of the unbiased Power Descent and of the biased Renyi Descent and we discuss the potential advantages of one algorithm over the other.
翻訳日:2021-06-10 22:29:56 公開日:2021-06-09
# (参考訳) 深部クラスタリングに基づくFair Outlier Detection [全文訳有]

Deep Clustering based Fair Outlier Detection ( http://arxiv.org/abs/2106.05127v1 )

ライセンス: CC BY 4.0
Hanyu Song, Peizhao Li, Hongfu Liu(参考訳) 本稿では,教師なし異常検出に関する公平性の問題に着目する。 従来のアルゴリズムは、アルゴリズムの公正性のための特定の設計を持たず、暗黙的にデータをエンコードし、統計バイアスを伝播させ、社会的関心を高めることができる。 このような不公平さを正し、潜在的外れ値候補の公平なセットを提供するため、学習可能な表現をセンシティブな属性にサブグループ不変にしつつ、有効性最大化のよい表現を学習する深層クラスタリングベースのフェア外れ値検出(dcfod)を提案する。 クラスタリングと外れ値検出の結合性と相互性を考慮すると、深層クラスタリングを利用して、固有のクラスタ構造と外構造インスタンスを発見する。 一方、敵対的トレーニングは、フェアネス適応のインスタンスの敏感なパターンを消去する。 動的重み付けモジュールは,外れ値からの負の影響を緩和しながら,帰納可能性の寄与を再強調する。 提案手法は,17個の外乱検出アルゴリズムと比較した8つのデータセットの実験により実証され,外乱検出の妥当性と,外乱検出における2種類の公正性の概念の両方において,常に優れた性能を達成している。

In this paper, we focus on the fairness issues regarding unsupervised outlier detection. Traditional algorithms, without a specific design for algorithmic fairness, could implicitly encode and propagate statistical bias in data and raise societal concerns. To correct such unfairness and deliver a fair set of potential outlier candidates, we propose Deep Clustering based Fair Outlier Detection (DCFOD) that learns a good representation for utility maximization while enforcing the learnable representation to be subgroup-invariant on the sensitive attribute. Considering the coupled and reciprocal nature between clustering and outlier detection, we leverage deep clustering to discover the intrinsic cluster structure and out-of-structure instances. Meanwhile, an adversarial training erases the sensitive pattern for instances for fairness adaptation. Technically, we propose an instance-level weighted representation learning strategy to enhance the joint deep clustering and outlier detection, where the dynamic weight module re-emphasizes contributions of likely-inliers while mitigating the negative impact from outliers. Demonstrated by experiments on eight datasets comparing to 17 outlier detection algorithms, our DCFOD method consistently achieves superior performance on both the outlier detection validity and two types of fairness notions in outlier detection.
翻訳日:2021-06-10 21:55:44 公開日:2021-06-09
# (参考訳) 応力検出における自動特徴選択のための量子アニール [全文訳有]

Quantum Annealing for Automated Feature Selection in Stress Detection ( http://arxiv.org/abs/2106.05134v1 )

ライセンス: CC BY 4.0
Rajdeep Kumar Nath, Himanshu Thapliyal, Travis S. Humble(参考訳) 本稿では,QA(Quantum Annealing)を用いた生理信号プールからの特徴部分集合の自動選択手法を提案する。 ケーススタディとして、ストレス検出のための最適な特徴サブセットを選択する際に、QAに基づく特徴選択手法の有効性を検討する。 特徴は足部EDA、手指EDA、心電図、呼吸の4つの信号源から抽出される。 提案手法は,生理的信号から抽出した特徴変数を2次二次モデルに埋め込む。 特徴変数と対象変数とのピアソン相関係数を用いて特徴変数のバイアスを算出する。 2つの特徴変数を連結するエッジの重みは、2つの特徴変数間のピアソン相関係数を用いて計算される。 その後、D-Waveのclique samplerを用いて2次二次モデルからcliqueをサンプリングする。 基礎となる解は複数の良い解を得るために再サンプリングされ、最適解として最低エネルギーの傾斜が返される。 提案手法は, 応力検出に広く用いられている特徴選択手法と比較した。 その結果,QAに基づく特徴部分選択は古典的手法と同等に行われた。 しかし、限られた訓練データなどのデータ不確実性条件下では、最適な特徴を選択するための量子アニールの性能は影響を受けず、古典的な特徴選択技術では顕著な性能低下が見られる。 予備結果は、特にデータ不確実性条件下での機械学習分類器のトレーニングフェーズの最適化における量子アニーリングの期待を示す。

We present a novel methodology for automated feature subset selection from a pool of physiological signals using Quantum Annealing (QA). As a case study, we will investigate the effectiveness of QA-based feature selection techniques in selecting the optimal feature subset for stress detection. Features are extracted from four signal sources: foot EDA, hand EDA, ECG, and respiration. The proposed method embeds the feature variables extracted from the physiological signals in a binary quadratic model. The bias of the feature variable is calculated using the Pearson correlation coefficient between the feature variable and the target variable. The weight of the edge connecting the two feature variables is calculated using the Pearson correlation coefficient between two feature variables in the binary quadratic model. Subsequently, D-Wave's clique sampler is used to sample cliques from the binary quadratic model. The underlying solution is then re-sampled to obtain multiple good solutions and the clique with the lowest energy is returned as the optimal solution. The proposed method is compared with commonly used feature selection techniques for stress detection. Results indicate that QA-based feature subset selection performed equally as that of classical techniques. However, under data uncertainty conditions such as limited training data, the performance of quantum annealing for selecting optimum features remained unaffected, whereas a significant decrease in performance is observed with classical feature selection techniques. Preliminary results show the promise of quantum annealing in optimizing the training phase of a machine learning classifier, especially under data uncertainty conditions.
翻訳日:2021-06-10 21:40:07 公開日:2021-06-09
# (参考訳) augvic:低リソースnmtでバイテキストを活用 [全文訳有]

AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT ( http://arxiv.org/abs/2106.05141v1 )

ライセンス: CC BY 4.0
Tasnim Mohiuddin, M Saiful Bari, Shafiq Joty(参考訳) Neural Machine Translation (NMT)の成功は、大きなbitextトレーニングコーパスの可用性に大きく依存している。 低リソース言語対にそのような大きなコーパスがないため、NMTシステムは性能が劣ることが多い。 特有な単言語データはしばしば役立つが、それを取得することは、特に低リソース言語にとって非常に高価である。 さらに、bitext(train/test)とモノリンガルデータのドメインミスマッチはパフォーマンスを低下させる可能性がある。 このような問題を緩和するために、我々は低リソースNMTのための新しいデータ拡張フレームワークであるAUGVICを提案し、このフレームワークは、余分なモノリンガルデータを明示的に使用することなく、与えられたbitextのビジナルサンプルを利用する。 ドメイン内のbitextデータをより細かいレベル制御で多様化することができる。 異なるドメインからのデータからなる4つの低リソース言語ペアに関する広範な実験を通して、我々の手法は、余分なドメイン内モノリンガルデータを使用する従来のバックトランスレーションに匹敵することを示した。 AUGVICから生成された合成並列データと余分な単言語データとを組み合わせると、さらなる改善が達成される。 AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和する。 AUGVICの様々なコンポーネントのコントリビューションを理解するために、我々は詳細なフレームワーク分析を行う。

The success of Neural Machine Translation (NMT) largely depends on the availability of large bitext training corpora. Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. Extra relevant monolingual data often helps, but acquiring it could be quite expensive, especially for low-resource languages. Moreover, domain mismatch between bitext (train/test) and monolingual data might degrade the performance. To alleviate such issues, we propose AUGVIC, a novel data augmentation framework for low-resource NMT which exploits the vicinal samples of the given bitext without using any extra monolingual data explicitly. It can diversify the in-domain bitext data with finer level control. Through extensive experiments on four low-resource language pairs comprising data from different domains, we have shown that our method is comparable to the traditional back-translation that uses extra in-domain monolingual data. When we combine the synthetic parallel data generated from AUGVIC with the ones from the extra monolingual data, we achieve further improvements. We show that AUGVIC helps to attenuate the discrepancies between relevant and distant-domain monolingual data in traditional back-translation. To understand the contributions of different components of AUGVIC, we perform an in-depth framework analysis.
翻訳日:2021-06-10 21:32:22 公開日:2021-06-09
# (参考訳) 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 [全文訳有]

Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting ( http://arxiv.org/abs/2106.05144v1 )

ライセンス: CC BY-SA 4.0
Pau Riba, Adri\`a Molina, Lluis Gomez, Oriol Ramos-Terrades and Josep Llad\'os(参考訳) 本稿では,単語文字列と単語画像エンコーダを同時に学習するためのランキングベースの目的関数の利用について検討・評価する。 ユーザが定義した関連度スコアに従ってランク付けされた検索リストを期待する検索フレームワークを検討する。 単語スポッティング問題の文脈では、クエリ文字列から文字列編集距離に応じて関連スコアが設定されている。 本稿では,手書き語と実シーン語の両方の単語スポッティングにおいて,提案モデルの競合性能を実験的に実証する。 クエリ・バイ・例の単語スポッティングの結果も提供していますが、この研究の主な焦点ではありません。

In this paper, we explore and evaluate the use of ranking-based objective functions for learning simultaneously a word string and a word image encoder. We consider retrieval frameworks in which the user expects a retrieval list ranked according to a defined relevance score. In the context of a word spotting problem, the relevance score has been set according to the string edit distance from the query string. We experimentally demonstrate the competitive performance of the proposed model on query-by-string word spotting for both, handwritten and real scene word images. We also provide the results for query-by-example word spotting, although it is not the main focus of this work.
翻訳日:2021-06-10 21:13:40 公開日:2021-06-09
# (参考訳) 医用画像分類における再考伝達学習 [全文訳有]

Rethink Transfer Learning in Medical Image Classification ( http://arxiv.org/abs/2106.05152v1 )

ライセンス: CC BY 4.0
Le Peng, Hengyue Liang, Taihui Li, Ju Sun(参考訳) 深層畳み込みニューラルネットワーク(DCNN)を用いた伝達学習(TL)は医用画像分類(MIC)において成功している。 MICは一般的にDCNNの下位層で学習される低層および中層機能にのみ依存するため、現在のプラクティスは混乱している。 この直感に従うと、MICにおけるTLの現在の戦略を疑問視する。 本稿では,異なるtl戦略を用いて,胸部x線データ集合の分類のための浅層と深層ネットワークの実験的比較を行った。 私たちは、ディープモデルは必ずしも好ましくないことに気付き、微調整されたディープモデルは、特にデータ貧弱な状況において、ほとんどの場合、最高のパフォーマンスを得る。 project webpage: https://github.com/s un-umn/transfer-lear ning-in-medical-imag ing keywords: transfer learning, medical image classification, feature hierarchy, medical imaging, evaluation metrics, unbalanced data

Transfer learning (TL) with deep convolutional neural networks (DCNNs) has proved successful in medical image classification (MIC). However, the current practice is puzzling, as MIC typically relies only on low- and/or mid-level features that are learned in the bottom layers of DCNNs. Following this intuition, we question the current strategies of TL in MIC. In this paper, we perform careful experimental comparisons between shallow and deep networks for classification on two chest x-ray datasets, using different TL strategies. We find that deep models are not always favorable, and finetuning truncated deep models almost always yields the best performance, especially in data-poor regimes. Project webpage: https://github.com/s un-umn/Transfer-Lear ning-in-Medical-Imag ing Keywords: Transfer learning, Medical image classification, Feature hierarchy, Medical imaging, Evaluation metrics, Imbalanced data
翻訳日:2021-06-10 21:02:49 公開日:2021-06-09
# (参考訳) 帯域フィードバックを用いた制約付き最適化のためのリアプノフ法 [全文訳有]

A Lyapunov-Based Methodology for Constrained Optimization with Bandit Feedback ( http://arxiv.org/abs/2106.05165v1 )

ライセンス: CC BY 4.0
Semih Cayci, Yilin Zheng, Atilla Eryilmaz(参考訳) オンライン広告、契約採用、および無線スケジューリングを含む幅広いアプリケーションにおいて、コントローラは、各アクションによってランダムに消費される利用可能なリソースに対する厳格な予算制約と、意思決定に重要な運用上の制限を課す確率的可能性制約によって制約される。 本研究では、各アクションが未知の共同分布からランダムな報酬、コスト、ペナルティを返し、意思決定者は、総コストにb$、時間平均ペナルティに確率的制約を課す予算制約の下で、総報酬を最大化することを目的としている。 我々は、Lyapunov最適化手法に基づく新しい低複雑さアルゴリズムである${\tt LyOn}$を提案し、それが$O(\sqrt{B\log B})$ regretおよび$O(\log B/B)$ constraint-violation を達成することを証明した。 計算コストの低い${\tt LyOn}$の急激な性能境界は、リアプノフに基づくアルゴリズム設計手法が制約付き帯域最適化問題を解くのに有効であることを示唆している。

In a wide variety of applications including online advertising, contractual hiring, and wireless scheduling, the controller is constrained by a stringent budget constraint on the available resources, which are consumed in a random amount by each action, and a stochastic feasibility constraint that may impose important operational limitations on decision-making. In this work, we consider a general model to address such problems, where each action returns a random reward, cost, and penalty from an unknown joint distribution, and the decision-maker aims to maximize the total reward under a budget constraint $B$ on the total cost and a stochastic constraint on the time-average penalty. We propose a novel low-complexity algorithm based on Lyapunov optimization methodology, named ${\tt LyOn}$, and prove that it achieves $O(\sqrt{B\log B})$ regret and $O(\log B/B)$ constraint-violation . The low computational cost and sharp performance bounds of ${\tt LyOn}$ suggest that Lyapunov-based algorithm design methodology can be effective in solving constrained bandit optimization problems.
翻訳日:2021-06-10 20:48:19 公開日:2021-06-09
# (参考訳) 統計的学習における最小ペナルティの使用について

On the Use of Minimum Penalties in Statistical Learning ( http://arxiv.org/abs/2106.05172v1 )

ライセンス: CC BY 4.0
Ben Sherwood and Bradley S. Price(参考訳) 現代の多変量機械学習と統計手法は、結果変数間の関連に関する事前知識を活用しながら、関心のパラメータを推定する。 関係の推定を可能にする方法は、通常、他のタイプのモデルにスケールしない多変量回帰における誤差共分散行列によって行われる。 本稿では,多変量回帰モデルに関連する回帰係数と,軽度仮定を用いた結果変数の関係を同時に推定するMinPENフレームワークを提案する。 minpenフレームワークは、最小機能に基づく新しいペナルティを使用して、応答間の検出された関係を利用する。 推定値を得るのに必要な非凸最適化の解法として, 工法の現状を一般化する反復アルゴリズムを提案する。 高次元収束率、モデル選択整合性、ポスト選択推論のためのフレームワークなどの理論的結果を提供する。 提案するminpenフレームワークを他の指数関数ファミリー損失関数に拡張し,複数の二項応答に着目した。 チューニングパラメータの選択も処理される。 最後に、このフレームワークの有限なサンプル特性を示すために、シミュレーションと2つのデータ例を示す。

Modern multivariate machine learning and statistical methodologies estimate parameters of interest while leveraging prior knowledge of the association between outcome variables. The methods that do allow for estimation of relationships do so typically through an error covariance matrix in multivariate regression which does not scale to other types of models. In this article we proposed the MinPEN framework to simultaneously estimate regression coefficients associated with the multivariate regression model and the relationships between outcome variables using mild assumptions. The MinPen framework utilizes a novel penalty based on the minimum function to exploit detected relationships between responses. An iterative algorithm that generalizes current state of the art methods is proposed as a solution to the non-convex optimization that is required to obtain estimates. Theoretical results such as high dimensional convergence rates, model selection consistency, and a framework for post selection inference are provided. We extend the proposed MinPen framework to other exponential family loss functions, with a specific focus on multiple binomial responses. Tuning parameter selection is also addressed. Finally, simulations and two data examples are presented to show the finite sample properties of this framework.
翻訳日:2021-06-10 19:05:56 公開日:2021-06-09
# (参考訳) 入射変位場を用いた幾何一貫性ニューラル形状表現 [全文訳有]

Geometry-Consistent Neural Shape Representation with Implicit Displacement Fields ( http://arxiv.org/abs/2106.05187v1 )

ライセンス: CC BY-SA 4.0
Wang Yifan, Lukas Rahmann, Olga Sorkine-Hornung(参考訳) 詳細な3次元幾何学のための新しい表現である暗黙の変位場を示す。 本手法は, 従来の表面変形法, 変位マッピングにヒントを得て, 複素曲面を平滑な基底面として, ベース方向に沿った変位を表現し, 高周波信号が低周波信号によって幾何的に拘束されるような周波数ベース形状分解を行う。 重要なことに、この絡み合いは、構造によって固有の周波数階層を持つアーキテクチャ設計が整ったため、教師なしである。 暗黙的な変位場表面再構成と細部移動を探索し,優れた表現力,トレーニング安定性,一般化性を示す。

We present implicit displacement fields, a novel representation for detailed 3D geometry. Inspired by a classic surface deformation technique, displacement mapping, our method represents a complex surface as a smooth base surface plus a displacement along the base's normal directions, resulting in a frequency-based shape decomposition, where the high frequency signal is constrained geometrically by the low frequency signal. Importantly, this disentanglement is unsupervised thanks to a tailored architectural design that has an innate frequency hierarchy by construction. We explore implicit displacement field surface reconstruction and detail transfer and demonstrate superior representational power, training stability and generalizability.
翻訳日:2021-06-10 19:04:58 公開日:2021-06-09
# (参考訳) DIGRAC:フロー不均衡を伴うグラフクラスタリング

DIGRAC: Digraph Clustering with Flow Imbalance ( http://arxiv.org/abs/2106.05194v1 )

ライセンス: CC BY 4.0
Yixuan He and Gesine Reinert and Mihai Cucuringu(参考訳) ノードクラスタリングは、ネットワーク分析において強力なツールである。 本稿では,拡張性のあるDIMPA(Directed Mixed Path Aggregation)方式を用いたグラフニューラルネットワークフレームワークを提案する。 この方法は、中間ステップなしで埋め込み生成とクラスタリングを組み合わせたエンドツーエンドである。 文献の標準的なアプローチとは対照的に,本論文では方向性はニュアサンスとして扱うのではなく,主信号を含む。 特に,最近導入されたカットフロー不均衡尺度は方向性と密接に関連しており,スペクトル法やクラスタラベルを使わずにカットフロー不均衡を最適化している。 有向確率ブロックモデルと実世界データを異なるスケールで組み合わせた合成データの実験結果から,本手法が有向クラスタリングにおいて,広範囲のノイズと疎度レベル,およびグラフ構造に対して,最先端の結果が得られることを示した。

Node clustering is a powerful tool in the analysis of networks. Here, we introduce a graph neural network framework with a novel scalable Directed Mixed Path Aggregation(DIMPA) scheme to obtain node embeddings for directed networks in a self-supervised manner, including a novel probabilistic imbalance loss. The method is end-to-end in combining embedding generation and clustering without an intermediate step. In contrast to standard approaches in the literature, in this paper, directionality is not treated as a nuisance, but rather contains the main signal. In particular, we leverage the recently introduced cut flow imbalance measure, which is tightly related to directionality; cut flow imbalance is optimized without resorting to spectral methods or cluster labels. Experimental results on synthetic data, in the form of directed stochastic block models and real-world data at different scales, demonstrate that our method attains state-of-the-art results on directed clustering, for a wide range of noise and sparsity levels, as well as graph structures.
翻訳日:2021-06-10 18:46:47 公開日:2021-06-09
# (参考訳) 非凸問題におけるトラップ回避 [全文訳有]

Avoiding Traps in Nonconvex Problems ( http://arxiv.org/abs/2106.05206v1 )

ライセンス: CC BY 4.0
Sean Deyo and Veit Elser(参考訳) 反復射影法は、制約集合が凸でないときに非解に閉じ込められることがある。 この動作を避けるために2種類のパラメータが利用可能であり、本研究は両方の例を示す。 ハイパーパラメータと呼ばれる最初のパラメータには、イテレーションルール自体の定義に現れるパラメータが含まれています。 第2の種は、制約集合の定義におけるメトリックパラメータを含み、解決すべき問題が2つ以上の変数を持つ場合に生じる特徴である。 例を通して、両パラメータを適切に調整し、観察された振る舞いをヒューリスティックに解釈することの重要性を示す。

Iterative projection methods may become trapped at non-solutions when the constraint sets are nonconvex. Two kinds of parameters are available to help avoid this behavior and this study gives examples of both. The first kind of parameter, called a hyperparameter, includes any kind of parameter that appears in the definition of the iteration rule itself. The second kind comprises metric parameters in the definition of the constraint sets, a feature that arises when the problem to be solved has two or more kinds of variables. Through examples we show the importance of properly tuning both kinds of parameters and offer heuristic interpretations of the observed behavior.
翻訳日:2021-06-10 18:45:29 公開日:2021-06-09
# (参考訳) 物体検出器における蒸留像分類器 [全文訳有]

Distilling Image Classifiers in Object Detectors ( http://arxiv.org/abs/2106.05209v1 )

ライセンス: CC BY 4.0
Shuxuan Guo and Jose M. Alvarez and Mathieu Salzmann(参考訳) 知識蒸留は、より強力な教師の知識を活用することで、コンパクトな学生ネットワークの性能を向上させるためのシンプルで効果的な方法である。 それにもかかわらず、知識蒸留文学は、生徒と教師が同じ課題に取り組むシナリオに限定されている。 本稿では,アーキテクチャだけでなくタスク間での知識伝達の問題について検討する。 そこで本研究では,物体検出の事例について検討し,標準検出器-検出器蒸留法に従わず,分類器-検出器間知識伝達フレームワークを導入する。 特に, 分類教師を活用して, 検出者の認識精度と位置推定性能を向上させる手法を提案する。 バックボーンの異なるいくつかの検出器に対する実験は、我々のアプローチの有効性を実証し、最先端の検出器対検出器蒸留法より優れていることを示した。

Knowledge distillation constitutes a simple yet effective way to improve the performance of a compact student network by exploiting the knowledge of a more powerful teacher. Nevertheless, the knowledge distillation literature remains limited to the scenario where the student and the teacher tackle the same task. Here, we investigate the problem of transferring knowledge not only across architectures but also across tasks. To this end, we study the case of object detection and, instead of following the standard detector-to-detector distillation approach, introduce a classifier-to-detect or knowledge transfer framework. In particular, we propose strategies to exploit the classification teacher to improve both the detector's recognition accuracy and localization performance. Our experiments on several detectors with different backbones demonstrate the effectiveness of our approach, allowing us to outperform the state-of-the-art detector-to-detector distillation methods.
翻訳日:2021-06-10 18:35:29 公開日:2021-06-09
# (参考訳) 医療画像における教師なし異常検出のための暗黙的フィールド学習 [全文訳有]

Implicit field learning for unsupervised anomaly detection in medical images ( http://arxiv.org/abs/2106.05214v1 )

ライセンス: CC BY 4.0
Sergio Naval Marimont and Giacomo Tarroni(参考訳) 暗黙的フィールド画像表現に基づく医用画像の非教師なし分布検出法を提案する。 本手法では,組織型プロキシ上での空間座標と確率のマッピングという形で,自己デコーダフィードフォワードニューラルネットワークを用いて健全な画像の分布を学習する。 推論時には、学習した分布を用いて、所定のテスト画像、復元、すなわち、検索を行う。 入力画像と最大限に一致しているが、健康な分布に属する画像。 復元画像に対するモデルにより予測されたボクセルワイズ確率を用いて異常を局所化する。 脳MR画像上におけるグリオーマの非教師的局在化を課題とし,VAEによる他の異常検出法と比較した。 結果から,提案手法は高い性能(VAEベースの代替手段として平均DICE 0.640 vs 0.518)を示し,計算時間もかなり少ないことがわかった。

We propose a novel unsupervised out-of-distribution detection method for medical images based on implicit fields image representations. In our approach, an auto-decoder feed-forward neural network learns the distribution of healthy images in the form of a mapping between spatial coordinates and probabilities over a proxy for tissue types. At inference time, the learnt distribution is used to retrieve, from a given test image, a restoration, i.e. an image maximally consistent with the input one but belonging to the healthy distribution. Anomalies are localized using the voxel-wise probability predicted by our model for the restored image. We tested our approach in the task of unsupervised localization of gliomas on brain MR images and compared it to several other VAE-based anomaly detection methods. Results show that the proposed technique substantially outperforms them (average DICE 0.640 vs 0.518 for the best performing VAE-based alternative) while also requiring considerably less computing time.
翻訳日:2021-06-10 18:20:49 公開日:2021-06-09
# (参考訳) 児童交通画像からの学校識別を支援する機械学習パイプライン [全文訳有]

A machine learning pipeline for aiding school identification from child trafficking images ( http://arxiv.org/abs/2106.05215v1 )

ライセンス: CC BY 4.0
Sumit Mukherjee, Tina Sederholm, Anthony C. Roman, Ria Sankar, Sherrie Caltagirone, Juan Lavista Ferres(参考訳) 世界中の深刻な問題で交通機関の子供。 毎年、世界中で400万人以上の児童売買の被害者がおり、その多くは子供の性的搾取を目的としている。 英国警察と児童虐待防止を専門とする非営利団体Global Emancipation Networkの協力を得て, インターセプト画像からの子どもの識別を支援する概念実証機械学習パイプラインを開発した。 本研究は,学校の制服を着用している子どもたちが出身校を特定するイメージに焦点を当てる。 機械学習パイプラインが存在しない場合、この膨大な時間と労働集約的なタスクは、法執行機関によって手作業で行われる。 そこで,学校識別プロセスの自動化により,児童識別のこの部分の速度に大きな影響を与えることを期待する。 提案するパイプラインは,2つの機械学習モデルから構成される。i) 子供のイメージが学校の制服を含むかどうかを識別し,ii) 異なる学校の制服アイテム(シャツ,セーター,ブレザーの色/テキストなど)の属性を識別する。 データ収集,ラベル付け,モデル開発,検証プロセス,およびモデル予測を用いた効率的な学校探索戦略について述べる。

Child trafficking in a serious problem around the world. Every year there are more than 4 million victims of child trafficking around the world, many of them for the purposes of child sexual exploitation. In collaboration with UK Police and a non-profit focused on child abuse prevention, Global Emancipation Network, we developed a proof-of-concept machine learning pipeline to aid the identification of children from intercepted images. In this work, we focus on images that contain children wearing school uniforms to identify the school of origin. In the absence of a machine learning pipeline, this hugely time consuming and labor intensive task is manually conducted by law enforcement personnel. Thus, by automating aspects of the school identification process, we hope to significantly impact the speed of this portion of child identification. Our proposed pipeline consists of two machine learning models: i) to identify whether an image of a child contains a school uniform in it, and ii) identification of attributes of different school uniform items (such as color/texture of shirts, sweaters, blazers etc.). We describe the data collection, labeling, model development and validation process, along with strategies for efficient searching of schools using the model predictions.
翻訳日:2021-06-10 18:12:20 公開日:2021-06-09
# (参考訳) 時空間データモデリングのためのクロスノードフェデレーショングラフニューラルネットワーク [全文訳有]

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling ( http://arxiv.org/abs/2106.05223v1 )

ライセンス: CC BY 4.0
Chuizheng Meng, Sirisha Rambhatla, Yan Liu(参考訳) センサー、ウェアラブル、IoT(Internet of Things)デバイスのネットワークから生成される膨大な量のデータは、エッジ計算とライセンシング(データアクセス)の問題のため、分散データの時空間構造を活用する高度なモデリング技術の必要性を強調している。 連立学習(FL)は直接的なデータ共有や交換を必要とせずにモデルトレーニングのフレームワークとして登場したが、予測能力を改善するために複雑な時空間依存関係を効果的にモデル化することは依然として未解決の問題である。 一方で、最先端の時空間予測モデルでは、データ共有の制約を無視して、データへの非破壊的なアクセスを想定している。 このギャップを埋めるために、クロスノードフェデレーショングラフニューラルネットワーク(CNFGNN)というフェデレーション時空間モデルを提案し、グラフニューラルネットワーク(GNN)ベースのアーキテクチャをノード間のフェデレーション学習の制約の下で明示的に符号化し、ノードのネットワーク内のデータが各ノード上でローカルに生成され、分散化され続ける。 cnfgnnは、デバイス上の時間的ダイナミクスモデリングとサーバ上の空間的ダイナミクスを分離して動作し、交互最適化を利用して通信コストを削減し、エッジデバイスでの計算を容易にする。 トラヒックフロー予測タスクの実験から,CNFGNNはエッジデバイスに余分な計算コストを伴わずに,トランスダクティブとインダクティブの両方の学習環境で最高の予測性能を達成し,通信コストを抑えた。

Vast amount of data generated from networks of sensors, wearables, and the Internet of Things (IoT) devices underscores the need for advanced modeling techniques that leverage the spatio-temporal structure of decentralized data due to the need for edge computation and licensing (data access) issues. While federated learning (FL) has emerged as a framework for model training without requiring direct data sharing and exchange, effectively modeling the complex spatio-temporal dependencies to improve forecasting capabilities still remains an open problem. On the other hand, state-of-the-art spatio-temporal forecasting models assume unfettered access to the data, neglecting constraints on data sharing. To bridge this gap, we propose a federated spatio-temporal model -- Cross-Node Federated Graph Neural Network (CNFGNN) -- which explicitly encodes the underlying graph structure using graph neural network (GNN)-based architecture under the constraint of cross-node federated learning, which requires that data in a network of nodes is generated locally on each node and remains decentralized. CNFGNN operates by disentangling the temporal dynamics modeling on devices and spatial dynamics on the server, utilizing alternating optimization to reduce the communication cost, facilitating computations on the edge devices. Experiments on the traffic flow forecasting task show that CNFGNN achieves the best forecasting performance in both transductive and inductive learning settings with no extra computation cost on edge devices, while incurring modest communication cost.
翻訳日:2021-06-10 18:05:52 公開日:2021-06-09
# (参考訳) トランスフォーマーはグラフ表現で本当に悪いのか? [全文訳有]

Do Transformers Really Perform Bad for Graph Representation? ( http://arxiv.org/abs/2106.05234v1 )

ライセンス: CC BY 4.0
Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen and Tie-Yan Liu(参考訳) トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなど、多くの領域で支配的な選択となっている。 しかし、グラフレベルの予測で人気のあるリーダーボードでは、主流のgnnに比べて競争力は得られていない。 したがって、トランスフォーマーがグラフ表現学習のためにどのように機能するかは謎のままである。 本稿では,標準トランスフォーマーアーキテクチャ上に構築されたgraphormerを提示することで,この謎を解決し,特に最近のogb大規模課題において,幅広いグラフ表現学習タスクにおいて優れた結果が得られることを示す。 グラフでトランスフォーマーを利用するための重要な洞察は、グラフの構造情報をモデルに効果的にエンコードする必要性である。 そこで本稿では,グラフ構造化データのモデル化を支援するため,単純な構造符号化手法を提案する。 さらに,グラフマーの表現力を数学的に特徴付け,グラフの構造情報を符号化する方法によって,多くのGNN変種がグラフマーの特別な事例としてカバーできることを示す。

The Transformer architecture has become a dominant choice in many domains, such as natural language processing and computer vision. Yet, it has not achieved competitive performance on popular leaderboards of graph-level prediction compared to mainstream GNN variants. Therefore, it remains a mystery how Transformers could perform well for graph representation learning. In this paper, we solve this mystery by presenting Graphormer, which is built upon the standard Transformer architecture, and could attain excellent results on a broad range of graph representation learning tasks, especially on the recent OGB Large-Scale Challenge. Our key insight to utilizing Transformer in the graph is the necessity of effectively encoding the structural information of a graph into the model. To this end, we propose several simple yet effective structural encoding methods to help Graphormer better model graph-structured data. Besides, we mathematically characterize the expressive power of Graphormer and exhibit that with our ways of encoding the structural information of graphs, many popular GNN variants could be covered as the special cases of Graphormer.
翻訳日:2021-06-10 17:49:56 公開日:2021-06-09
# (参考訳) 密結合クラスタ探索のための局所アルゴリズム [全文訳有]

Local Algorithms for Finding Densely Connected Clusters ( http://arxiv.org/abs/2106.05245v1 )

ライセンス: CC BY 4.0
Peter Macgregor and He Sun(参考訳) 局所グラフクラスタリングは大規模グラフを解析するための重要なアルゴリズム手法であり、多くのデータサイエンスの分野で広く応用されている。 ほとんどの(ローカルな)グラフクラスタリングアルゴリズムの目的は、低コンダクタンスの頂点集合を見つけることであるが、現実のデータセットを分析する際にクラスタ間の相互接続の重要性を強調する最近の一連の研究がある。 この研究の行に続いて、我々は、その相互接続とグラフの他の部分との関係に関して定義された頂点集合のペアを見つけるための局所アルゴリズムについて研究する。 我々の分析の鍵は、多重集合の構造を縮小グラフ内の1つの頂点集合に関連付ける新しい還元手法である。 多くの潜在的なアプリケーションの中で、我々のアルゴリズムは、interstate Disputes Dataset と US Migration Dataset の密結合クラスタを復元することに成功した。

Local graph clustering is an important algorithmic technique for analysing massive graphs, and has been widely applied in many research fields of data science. While the objective of most (local) graph clustering algorithms is to find a vertex set of low conductance, there has been a sequence of recent studies that highlight the importance of the inter-connection between clusters when analysing real-world datasets. Following this line of research, in this work we study local algorithms for finding a pair of vertex sets defined with respect to their inter-connection and their relationship with the rest of the graph. The key to our analysis is a new reduction technique that relates the structure of multiple sets to a single vertex set in the reduced graph. Among many potential applications, we show that our algorithms successfully recover densely connected clusters in the Interstate Disputes Dataset and the US Migration Dataset.
翻訳日:2021-06-10 17:30:08 公開日:2021-06-09
# (参考訳) 多視点表現学習のためのデータソースとしての生成モデル

Generative Models as a Data Source for Multiview Representation Learning ( http://arxiv.org/abs/2106.05258v1 )

ライセンス: CC BY 4.0
Ali Jahanian, Xavier Puig, Yonglong Tian, Phillip Isola(参考訳) 生成モデルは、訓練されたデータとほとんど区別がつかないような、非常にリアルな画像を生成することができる。 十分な生成モデルがあれば、まだデータセットが必要なのでしょうか? 本研究では,データから直接ではなく,ブラックボックス生成モデルから汎用視覚表現を学習する。 トレーニングデータにアクセスできないオフザシェルフイメージジェネレータが与えられた場合、このジェネレータによって出力されるサンプルから表現をトレーニングする。 この設定に適用可能な表現学習手法をいくつか比較し,同じ意味コンテンツの複数の「ビュー」を生成するために,ジェネレータの潜在空間を用いる。 対照的な手法では、このマルチビューデータは自然に正のペア(潜時空間に近く)と負のペア(潜時空間に遠く離れている)を識別することができる。 得られた表現は実データから直接学習した表現に匹敵するが、優れた性能は適用されたサンプリング戦略と訓練方法に注意を要する。 生成モデルはデータセットの圧縮された組織化されたコピーと見なすことができ、より多くの"モデル動物園"が増殖し、データセットがますます扱いにくくなり、欠落し、あるいはプライベートになる未来を想像する。 本稿では,このような未来において視覚表現学習を扱うためのいくつかの手法を提案する。 コードはプロジェクトのページでリリースされています。

Generative models are now capable of producing highly realistic images that look nearly indistinguishable from the data on which they are trained. This raises the question: if we have good enough generative models, do we still need datasets? We investigate this question in the setting of learning general-purpose visual representations from a black-box generative model rather than directly from data. Given an off-the-shelf image generator without any access to its training data, we train representations from the samples output by this generator. We compare several representation learning methods that can be applied to this setting, using the latent space of the generator to generate multiple "views" of the same semantic content. We show that for contrastive methods, this multiview data can naturally be used to identify positive pairs (nearby in latent space) and negative pairs (far apart in latent space). We find that the resulting representations rival those learned directly from real data, but that good performance requires care in the sampling strategy applied and the training method. Generative models can be viewed as a compressed and organized copy of a dataset, and we envision a future where more and more "model zoos" proliferate while datasets become increasingly unwieldy, missing, or private. This paper suggests several techniques for dealing with visual representation learning in such a future. Code is released on our project page: https://ali-design.g ithub.io/GenRep/
翻訳日:2021-06-10 16:36:47 公開日:2021-06-09
# (参考訳) Bayesian Attention Belief Networks [全文訳有]

Bayesian Attention Belief Networks ( http://arxiv.org/abs/2106.05251v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Xinjie Fan, Bo Chen, Mingyuan Zhou(参考訳) 注意に基づくニューラルネットワークは、幅広いタスクで最先端の結果を得ています。 このようなモデルの多くは決定論的注意を必要とするが、確率的注意は最適化の困難さや複雑なモデル設計のためにあまり探求されない。 本稿では,非正規化注意重みをガンマ分布の階層構造でモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークと,決定論的-上向き-下向き構造でワイブル分布を積み重ねたエンコーダネットワークを紹介する。 結果のオートエンコーディングネットワークは、変分下界を持つ微分可能な方法で最適化することができる。 事前訓練されたモデルを含む決定論的注意を持つ任意のモデルを、提案されているベイズ注意信念ネットワークに変換するのは簡単である。 様々な言語理解タスクにおいて,本手法は,精度,不確実性推定,ドメイン間の一般化,敵の攻撃に対する堅牢性において,決定論的注意と最先端の確率的注意を上回っていることを示す。 さらに,本手法がニューラルマシン翻訳および視覚的質問応答に適用可能であることを示し,本手法を様々な注意課題に組み込むことの可能性を示した。

Attention-based neural networks have achieved state-of-the-art results on a wide range of tasks. Most such models use deterministic attention while stochastic attention is less explored due to the optimization difficulties or complicated model design. This paper introduces Bayesian attention belief networks, which construct a decoder network by modeling unnormalized attention weights with a hierarchy of gamma distributions, and an encoder network by stacking Weibull distributions with a deterministic-upward -stochastic-downward structure to approximate the posterior. The resulting auto-encoding networks can be optimized in a differentiable way with a variational lower bound. It is simple to convert any models with deterministic attention, including pretrained ones, to the proposed Bayesian attention belief networks. On a variety of language understanding tasks, we show that our method outperforms deterministic attention and state-of-the-art stochastic attention in accuracy, uncertainty estimation, generalization across domains, and robustness to adversarial attacks. We further demonstrate the general applicability of our method on neural machine translation and visual question answering, showing great potential of incorporating our method into various attention-related tasks.
翻訳日:2021-06-10 16:00:02 公開日:2021-06-09
# Phraseformer: Transformer と Graph Embedding を用いたマルチモーダルキーフレーズ抽出

Phraseformer: Multimodal Key-phrase Extraction using Transformer and Graph Embedding ( http://arxiv.org/abs/2106.04939v1 )

ライセンス: Link先を確認
Narjes Nikzad-Khasmakhi, Mohammad-Reza Feizi-Derakhshi, Meysam Asgari-Chenaghlu, Mohammad-Ali Balafar, Ali-Reza Feizi-Derakhshi, Taymaz Rahkar-Farshi, Majid Ramezani, Zoleikha Jahanbakhsh-Nagadeh, Elnaz Zafarani-Moattar, Mehrdad Ranjbar-Khadivi(参考訳) 背景: キーワード抽出は自然言語処理の分野で人気のある研究トピックである。 キーワードは文書の中で最も重要な情報を記述する用語である。 研究者が直面している主な問題は、ドキュメントからコアキーワードを効率的に正確に抽出する方法である。 しかし,従来のキーワード抽出手法ではテキストとグラフの特徴が活用されているため,これらの特徴を適切に学習し組み合わせることのできるモデルが不足している。 方法:本論文では,変換器とグラフ埋め込み技術を用いたマルチモーダルなキーフレーズ抽出手法であるPhraseformerを開発した。 Phraseformerでは、各キーワード候補は、テキストと構造学習表現の連結であるベクトルによって提示される。 PhraseformerはBERTやExEmといった最近の研究の利点を利用して両方の表現を保存する。 また、フレーズフォーマは、キーフレーズ抽出タスクを分類タスクを用いて解決されたシーケンスラベリング問題として扱う。 結果: Inspec, SemEval2010, SemEval 2017の3つのデータセット上でのPhraseformerの性能をF1スコアで解析した。 また,inspec データセット上の phraseformer メソッドにおける異なる分類器の性能について検討する。 実験の結果,3つのデータセットに対して phraseformer 法の有効性が示された。 さらに、ランダムフォレスト分類器は全ての分類器の中で最高F1スコアを得る。 結論: bert と exem の組み合わせがより意味があり、単語の意味をよりよく表現できるという事実から。 したがって、 phraseformer は単一モダリティメソッドを大幅に上回っている。

Background: Keyword extraction is a popular research topic in the field of natural language processing. Keywords are terms that describe the most relevant information in a document. The main problem that researchers are facing is how to efficiently and accurately extract the core keywords from a document. However, previous keyword extraction approaches have utilized the text and graph features, there is the lack of models that can properly learn and combine these features in a best way. Methods: In this paper, we develop a multimodal Key-phrase extraction approach, namely Phraseformer, using transformer and graph embedding techniques. In Phraseformer, each keyword candidate is presented by a vector which is the concatenation of the text and structure learning representations. Phraseformer takes the advantages of recent researches such as BERT and ExEm to preserve both representations. Also, the Phraseformer treats the key-phrase extraction task as a sequence labeling problem solved using classification task. Results: We analyze the performance of Phraseformer on three datasets including Inspec, SemEval2010 and SemEval 2017 by F1-score. Also, we investigate the performance of different classifiers on Phraseformer method over Inspec dataset. Experimental results demonstrate the effectiveness of Phraseformer method over the three datasets used. Additionally, the Random Forest classifier gain the highest F1-score among all classifiers. Conclusions: Due to the fact that the combination of BERT and ExEm is more meaningful and can better represent the semantic of words. Hence, Phraseformer significantly outperforms single-modality methods.
翻訳日:2021-06-10 15:34:22 公開日:2021-06-09
# 非自己回帰機械翻訳における順序非依存クロスエントロピー

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2106.05093v1 )

ライセンス: Link先を確認
Cunxiao Du and Zhaopeng Tu and Jing Jiang(参考訳) 完全非自己回帰型翻訳(NAT)モデルに対して,注文非依存型クロスエントロピー(OaXE)という新たなトレーニング目標を提案する。 OaXEは標準的なクロスエントロピー損失を改善して単語の並べ替えの効果を改善する。 具体的には、OaXEは単語順序誤差のペナルティを除去し、モデル予測とターゲットトークンの最適な一致に基づいてクロスエントロピー損失を算出する。 ログ損失は、不正な参照に対して非常に敏感であるため、クロスエントロピー初期化とロストランケーションを利用して、モデルが検索空間のよい部分にフォーカスすることを保証する。 大規模なWMTベンチマーク実験により、OaXEは翻訳性能を大幅に改善し、完全なNATモデルのための新しい技術状態が設定された。 さらに分析した結果、OaXEはトークンの繰り返しを減らし、予測信頼度を増大させることで、マルチモーダリティ問題を緩和することを示した。 私たちのコード、データ、トレーニングされたモデルはhttps://github.com/t encent-ailab/ICML21_ OAXE.comで利用可能です。

We propose a new training objective named order-agnostic cross entropy (OaXE) for fully non-autoregressive translation (NAT) models. OaXE improves the standard cross-entropy loss to ameliorate the effect of word reordering, which is a common source of the critical multimodality problem in NAT. Concretely, OaXE removes the penalty for word order errors, and computes the cross entropy loss based on the best possible alignment between model predictions and target tokens. Since the log loss is very sensitive to invalid references, we leverage cross entropy initialization and loss truncation to ensure the model focuses on a good part of the search space. Extensive experiments on major WMT benchmarks show that OaXE substantially improves translation performance, setting new state of the art for fully NAT models. Further analyses show that OaXE alleviates the multimodality problem by reducing token repetitions and increasing prediction confidence. Our code, data, and trained models are available at https://github.com/t encent-ailab/ICML21_ OAXE.
翻訳日:2021-06-10 15:33:58 公開日:2021-06-09
# 対話型学習

Interaction-Grounded Learning ( http://arxiv.org/abs/2106.04887v1 )

ライセンス: Link先を確認
Tengyang Xie, John Langford, Paul Mineiro, Ida Momennejad(参考訳) 義肢を考えて、ユーザーの制御信号に適応するよう学習する。 そこで本研究では,学習者の目標が環境と相互作用することであり,学習者の方針を最適化するための接地や明示的な報酬を伴わないインタラクション・グラウンド学習を提案する。 このような問題は、明示的な報酬を必要とする一般的なRL解を避ける。 学習エージェントは、多次元のコンテキストベクトルを観察し、アクションをとり、多次元のフィードバックベクトルを観察する。 この多次元フィードバックベクトルは明確な報奨情報を持たない。 成功するためには、アルゴリズムはフィードバックベクトルを評価する方法を学び、潜在報酬信号を発見し、それを監視せずに方針を定めなければならない。 対話型学習環境において,ある自然な仮定により,学習者は潜在報酬を発見し,その相互作用を成功させるための方針を定めることができることを示す。 提案手法の有効性を実証するための理論的保証と概念実証評価を提供する。

Consider a prosthetic arm, learning to adapt to its user's control signals. We propose Interaction-Grounded Learning for this novel setting, in which a learner's goal is to interact with the environment with no grounding or explicit reward to optimize its policies. Such a problem evades common RL solutions which require an explicit reward. The learning agent observes a multidimensional context vector, takes an action, and then observes a multidimensional feedback vector. This multidimensional feedback vector has no explicit reward information. In order to succeed, the algorithm must learn how to evaluate the feedback vector to discover a latent reward signal, with which it can ground its policies without supervision. We show that in an Interaction-Grounded Learning setting, with certain natural assumptions, a learner can discover the latent reward and ground its policy for successful interaction. We provide theoretical guarantees and a proof-of-concept empirical evaluation to demonstrate the effectiveness of our proposed approach.
翻訳日:2021-06-10 15:33:01 公開日:2021-06-09
# Random Arrival Times を用いた非パラメトリック確率列アサインメント

Non-Parametric Stochastic Sequential Assignment With Random Arrival Times ( http://arxiv.org/abs/2106.04944v1 )

ライセンス: Link先を確認
Danial Dervovic, Parisa Hassanzadeh, Samuel Assefa, Prashant Reddy(参考訳) ジョブがランダムな時間に到達し、ランダムな値を仮定する問題を考える。 各ジョブが到着すると、意思決定者は、一定期間に最大$n$のジョブしか受け付けないという制約により、ジョブを受け付けるか否かを即座に判断し、報酬としてオファーの価値を得る必要がある。 意思決定者は、求人プロセスの独立した実現に100万ドルしかアクセスできない。 本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。 さらに、NPSAアルゴリズムによって返される期待報酬が、M$が大きくなるにつれて、最適性に収束することを示す。 本研究では,このアルゴリズムが合成データや公開不正検出データセットに実証的に有効であることを示す。

We consider a problem wherein jobs arrive at random times and assume random values. Upon each job arrival, the decision-maker must decide immediately whether or not to accept the job and gain the value on offer as a reward, with the constraint that they may only accept at most $n$ jobs over some reference time period. The decision-maker only has access to $M$ independent realisations of the job arrival process. We propose an algorithm, Non-Parametric Sequential Allocation (NPSA), for solving this problem. Moreover, we prove that the expected reward returned by the NPSA algorithm converges in probability to optimality as $M$ grows large. We demonstrate the effectiveness of the algorithm empirically on synthetic data and on public fraud-detection datasets, from where the motivation for this work is derived.
翻訳日:2021-06-10 15:32:46 公開日:2021-06-09
# ソフトマックスの信頼と不確実性を理解する

Understanding Softmax Confidence and Uncertainty ( http://arxiv.org/abs/2106.04972v1 )

ライセンス: Link先を確認
Tim Pearce, Alexandra Brintrup, Jun Zhu(参考訳) トレーニング分布から遠く離れたデータで予測する場合、ニューラルネットワークは不確実性を高めることができない、としばしば言及される。 しかし、不確実性のプロキシとしてsoftmax confidenceを使用することは、例えばout-of-distribution( ood)検出のような、このためにのみテストするタスクにおいて、ささやかな成功を収める。 本稿では,この矛盾を解明し,ソフトマックスの信頼度とてんかんの不確実性との相関を助長する2つの暗黙バイアスを同定する:(1)最適な決定境界構造,2)ディープネットワークのフィルタリング効果について述べる。 ソフトマックス信頼に関する低次元直観が誤解を招く理由を説明している。 診断実験は、ソフトマックスの信頼性が失敗する理由を定量化し、外挿が最終層表現におけるトレーニングデータとOODデータの重複よりも少ないことを発見した。 事前訓練/微調整ネットワークは、この重複を減らす。

It is often remarked that neural networks fail to increase their uncertainty when predicting on data far from the training distribution. Yet naively using softmax confidence as a proxy for uncertainty achieves modest success in tasks exclusively testing for this, e.g., out-of-distribution (OOD) detection. This paper investigates this contradiction, identifying two implicit biases that do encourage softmax confidence to correlate with epistemic uncertainty: 1) Approximately optimal decision boundary structure, and 2) Filtering effects of deep networks. It describes why low-dimensional intuitions about softmax confidence are misleading. Diagnostic experiments quantify reasons softmax confidence can fail, finding that extrapolations are less to blame than overlap between training and OOD data in final-layer representations. Pre-trained/fine-tun ed networks reduce this overlap.
翻訳日:2021-06-10 15:32:35 公開日:2021-06-09
# 独立したメカニズム分析、新しい概念?

Independent mechanism analysis, a new concept? ( http://arxiv.org/abs/2106.05200v1 )

ライセンス: Link先を確認
Luigi Gresele, Julius von K\"ugelgen, Vincent Stimper, Bernhard Sch\"olkopf, Michel Besserve(参考訳) 独立成分分析(Independent component analysis)は、教師なし表現学習のための原則化されたフレームワークを提供する。 残念ながら、混合が非線形である場合、統計的独立性だけでは問題が十分に制約されないため、モデルは証明可能でない。 Identifiabilityは、通常観察される変数が生成プロセスに含まれる設定で回復することができる。 代替経路を調査し,その代わりに,因果関係の分野において活用される独立因果機構の原理を反映した仮定を検討する。 具体的には、それぞれのソースが混合プロセスに独立に影響を及ぼすと考えることによって、我々のアプローチを動機付けている。 これにより、独立メカニズム分析と呼ばれるフレームワークが生まれます。 我々は,非線形ブラインド音源分離における非識別性問題の多くを回避できるという理論的,実証的な証拠を提供する。

Independent component analysis provides a principled framework for unsupervised representation learning, with solid theory on the identifiability of the latent code that generated the data, given only observations of mixtures thereof. Unfortunately, when the mixing is nonlinear, the model is provably nonidentifiable, since statistical independence alone does not sufficiently constrain the problem. Identifiability can be recovered in settings where additional, typically observed variables are included in the generative process. We investigate an alternative path and consider instead including assumptions reflecting the principle of independent causal mechanisms exploited in the field of causality. Specifically, our approach is motivated by thinking of each source as independently influencing the mixing process. This gives rise to a framework which we term independent mechanism analysis. We provide theoretical and empirical evidence that our approach circumvents a number of nonidentifiability issues arising in nonlinear blind source separation.
翻訳日:2021-06-10 15:32:19 公開日:2021-06-09
# ビデオからの非線形ダイナミクスの閉形式支配方程式の発見

Uncovering Closed-form Governing Equations of Nonlinear Dynamics from Videos ( http://arxiv.org/abs/2106.04776v1 )

ライセンス: Link先を確認
Lele Luan, Yang Liu, Hao Sun(参考訳) データから分析モデルを蒸留することは、非線形ダイナミクスの理解と予測を前進させる可能性がある。 観測された系状態(例えば軌道時系列)に基づく制御方程式の発見は、幅広い非線形力学での成功を明らかにしたが、生のビデオから直接閉形式方程式を明らかにすることは、まだ未解決の課題である。 そこで本研究では,ビデオ中の移動物体のダイナミクスを規定する方程式の数学的構造を明らかにするために,エンドツーエンドの教師なしディープラーニングフレームワークを提案する。 Such an architecture consists of (1) an encoder-decoder network that learns low-dimensional spatial/pixel coordinates of the moving object, (2) a learnable Spatial-Physical Transformation component that creates mapping between the extracted spatial/pixel coordinates and the latent physical states of dynamics, and (3) a numerical integrator-based sparse regression module that uncovers the parsimonious closed-form governing equations of learned physical states and, meanwhile, serves as a constraint to the autoencoder. 提案手法の有効性は,動画中の移動物体によって表される様々な非線形力学系の制御方程式を明らかにすることで実証された。 結果として得られた計算フレームワークは,ビデオのみ利用可能なフレキシブルでアクセス可能なセンシング環境において,相互解釈可能なモデルの発見を可能にする。

Distilling analytical models from data has the potential to advance our understanding and prediction of nonlinear dynamics. Although discovery of governing equations based on observed system states (e.g., trajectory time series) has revealed success in a wide range of nonlinear dynamics, uncovering the closed-form equations directly from raw videos still remains an open challenge. To this end, we introduce a novel end-to-end unsupervised deep learning framework to uncover the mathematical structure of equations that governs the dynamics of moving objects in videos. Such an architecture consists of (1) an encoder-decoder network that learns low-dimensional spatial/pixel coordinates of the moving object, (2) a learnable Spatial-Physical Transformation component that creates mapping between the extracted spatial/pixel coordinates and the latent physical states of dynamics, and (3) a numerical integrator-based sparse regression module that uncovers the parsimonious closed-form governing equations of learned physical states and, meanwhile, serves as a constraint to the autoencoder. The efficacy of the proposed method is demonstrated by uncovering the governing equations of a variety of nonlinear dynamical systems depicted by moving objects in videos. The resulting computational framework enables discovery of parsimonious interpretable model in a flexible and accessible sensing environment where only videos are available.
翻訳日:2021-06-10 15:31:32 公開日:2021-06-09
# 知識蒸留:良い先生は忍耐強く一貫性がある

Knowledge distillation: A good teacher is patient and consistent ( http://arxiv.org/abs/2106.05237v1 )

ライセンス: Link先を確認
Lucas Beyer, Xiaohua Zhai, Am\'elie Royer, Larisa Markeeva, Rohan Anil, Alexander Kolesnikov(参考訳) 最先端のパフォーマンスを実現する大規模モデルと実用的なアプリケーションで手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。 本稿では,この問題に対処し,これらの2種類のモデル間のギャップを著しく橋渡しする。 経験的調査を通じて,我々は必ずしも新しい手法を提案するのではなく,最先端の大規模モデルを実用的に手頃な価格で提供するための,堅牢で効果的なレシピの特定に努めている。 我々は, 知識蒸留を正しく行うと, 大規模モデルのサイズを減少させる強力なツールとなり, その性能を損なうことなく実現できることを実証する。 特に,蒸留の有効性に大きな影響を与える暗黙的な設計選択があることが明らかになった。 私たちの重要な貢献は、これらのデザインの選択を明示的に識別することです。 我々は、包括的実証研究により、幅広いビジョンデータセットに関する説得力のある結果を実証し、特にImageNetの最先端のResNet-50モデルを入手し、82.8\%のトップ1精度を実現した。

There is a growing discrepancy in computer vision between large-scale models that achieve state-of-the-art performance and models that are affordable in practical applications. In this paper we address this issue and significantly bridge the gap between these two types of models. Throughout our empirical investigation we do not aim to necessarily propose a new method, but strive to identify a robust and effective recipe for making state-of-the-art large scale models affordable in practice. We demonstrate that, when performed correctly, knowledge distillation can be a powerful tool for reducing the size of large models without compromising their performance. In particular, we uncover that there are certain implicit design choices, which may drastically affect the effectiveness of distillation. Our key contribution is the explicit identification of these design choices, which were not previously articulated in the literature. We back up our findings by a comprehensive empirical study, demonstrate compelling results on a wide range of vision datasets and, in particular, obtain a state-of-the-art ResNet-50 model for ImageNet, which achieves 82.8\% top-1 accuracy.
翻訳日:2021-06-10 15:31:14 公開日:2021-06-09
# 非iidデータを用いたフェデレーション学習のための分類器校正

No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data ( http://arxiv.org/abs/2106.05001v1 )

ライセンス: Link先を確認
Mi Luo, Fei Chen, Dapeng Hu, Yifan Zhang, Jian Liang, Jiashi Feng(参考訳) 実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。 これに対応するために、既存の作業の多くは、ローカル最適化の正規化や、サーバでのモデルアグリゲーションスキームの改善を含む。 他の作品でも、公開データセットを共有したり、未発表のクラスのトレーニングを補完したり、ある程度のパーソナライゼーションを導入するためにサンプルを合成したりしている。 効果はあるものの、データの不均一性が深い分類モデルの各層に与える影響を深く理解していない。 本稿では,異なる層で学習した表現を実験的に解析することにより,このギャップを埋める。 その結果,(1)分類器の偏りが他の層よりも大きいこと,(2)分類器の校正後の校正により分類性能が著しく向上すること,などが判明した。 そこで本研究では,近似ガウス混合モデルからサンプリングされた仮想表現を用いて分類器を調整する,仮想表現付き分類器キャリブレーション(ccvr)と呼ばれる新しい簡易アルゴリズムを提案する。 実験の結果,CCVRはCIFAR-10,CIFAR-100,C INIC-10など,一般的なフェデレーション学習ベンチマークにおいて最先端の性能を発揮することが示された。 非IIDデータによるフェデレーション学習の今後の研究に、私たちのシンプルな効果的な方法が光を当てることを願っています。

A central challenge in training classification models in the real-world federated system is learning with non-IID data. To cope with this, most of the existing works involve enforcing regularization in local optimization or improving the model aggregation scheme at the server. Other works also share public datasets or synthesized samples to supplement the training of under-represented classes or introduce a certain level of personalization. Though effective, they lack a deep understanding of how the data heterogeneity affects each layer of a deep classification model. In this paper, we bridge this gap by performing an experimental analysis of the representations learned by different layers. Our observations are surprising: (1) there exists a greater bias in the classifier than other layers, and (2) the classification performance can be significantly improved by post-calibrating the classifier after federated training. Motivated by the above findings, we propose a novel and simple algorithm called Classifier Calibration with Virtual Representations (CCVR), which adjusts the classifier using virtual representations sampled from an approximated gaussian mixture model. Experimental results demonstrate that CCVR achieves state-of-the-art performance on popular federated learning benchmarks including CIFAR-10, CIFAR-100, and CINIC-10. We hope that our simple yet effective method can shed some light on the future research of federated learning with non-IID data.
翻訳日:2021-06-10 15:30:56 公開日:2021-06-09
# I don't Need $\mathbf{u}$: Identably non-Linear ICA Without Side Information

I Don't Need $\mathbf{u}$: Identifiable Non-Linear ICA Without Side Information ( http://arxiv.org/abs/2106.05238v1 )

ライセンス: Link先を確認
Matthew Willetts, Brooks Paige(参考訳) 本稿では,非線形icaモデルに対する新しいアプローチを提案する。 近年,非線形ICAに対して,同定可能性の反響が深い生成モデルに現れている。 しかしながら、これらの先行研究は、十分に形式的な補助的な観測セットである $\mathbf{u}$ へのアクセスを前提としている。 ここでは、この側情報がない場合に、どのように識別可能性が得られるかを示す。 これまでの理論的結果は、無限フレキシブルな普遍関数近似器の存在下での同定可能な非線形ICAの不可能性を確立してきたが、ここでは、深い生成モデルの特定のパラメータ化の本質的な有限なモデリング能力に依存する。 特に,従来の識別可能なモデルと一致するモデル構造である潜在空間でクラスタリングを行う生成モデルに注目するが,学習したクラスタリングは補助情報の合成形式を提供する。 我々は,VAE,合成データセット,画像データセットを用いて提案手法を評価し,学習されたクラスタリングが効果的に機能することを発見した。

In this work we introduce a new approach for identifiable non-linear ICA models. Recently there has been a renaissance in identifiability results in deep generative models, not least for non-linear ICA. These prior works, however, have assumed access to a sufficiently-informa tive auxiliary set of observations, denoted $\mathbf{u}$. We show here how identifiability can be obtained in the absence of this side-information, rendering possible fully-unsupervised identifiable non-linear ICA. While previous theoretical results have established the impossibility of identifiable non-linear ICA in the presence of infinitely-flexible universal function approximators, here we rely on the intrinsically-finite modelling capacity of any particular chosen parameterisation of a deep generative model. In particular, we focus on generative models which perform clustering in their latent space -- a model structure which matches previous identifiable models, but with the learnt clustering providing a synthetic form of auxiliary information. We evaluate our proposals using VAEs, on synthetic and image datasets, and find that the learned clusterings function effectively: deep generative models with latent clusterings are empirically identifiable, to the same degree as models which rely on side information.
翻訳日:2021-06-10 15:30:34 公開日:2021-06-09
# 多面クラスタリング可変オートエンコーダ

Multi-Facet Clustering Variational Autoencoders ( http://arxiv.org/abs/2106.05241v1 )

ライセンス: Link先を確認
Fabian Falck, Haoting Zhang, Matthew Willetts, George Nicholson, Christopher Yau, Christopher C Holmes(参考訳) ディープクラスタリングでは、データの単一パーティションを見つけることに重点を置いている。 しかし、画像のような高次元データは通常、クラスタリング可能な複数の興味深い特徴を特徴付ける。 例えば、背景に対するオブジェクトのイメージは、オブジェクトの形状と、背景の色によって別々にクラスタ化することができる。 本稿では,MFCVAE(Multi-Facet Clustering Variational Autoencoders)を導入し,複数のクラスタリングを同時に学習し,完全な教師なしとエンドツーエンドの訓練を行う。 MFCVAEは漸進的に訓練されたはしごアーキテクチャを使用し、高い安定性を実現する。 ELBOをカテゴリー的変動後分布に対して解析的に最適化する新たな理論的結果を提供し、初期の影響力のある理論的研究を補正する。 画像ベンチマークでは、我々のアプローチがデータの各側面をアンタングル的に分離し、クラスタ化することを示した。 また, 潜在空間の構成性, サンプル生成の制御など, モデルの他の利点も示している。

Work in deep clustering focuses on finding a single partition of data. However, high-dimensional data, such as images, typically feature multiple interesting characteristics one could cluster over. For example, images of objects against a background could be clustered over the shape of the object and separately by the colour of the background. In this paper, we introduce Multi-Facet Clustering Variational Autoencoders (MFCVAE), a novel class of variational autoencoders with a hierarchy of latent variables, each with a Mixture-of-Gaussians prior, that learns multiple clusterings simultaneously, and is trained fully unsupervised and end-to-end. MFCVAE uses a progressively-traine d ladder architecture which leads to highly stable performance. We provide novel theoretical results for optimising the ELBO analytically with respect to the categorical variational posterior distribution, and corrects earlier influential theoretical work. On image benchmarks, we demonstrate that our approach separates out and clusters over different aspects of the data in a disentangled manner. We also show other advantages of our model: the compositionality of its latent space and that it provides controlled generation of samples.
翻訳日:2021-06-10 15:30:13 公開日:2021-06-09
# 多言語トランスフォーマーモデルによる性差の自動検出

Automatic Sexism Detection with Multilingual Transformer Models ( http://arxiv.org/abs/2106.04908v1 )

ライセンス: Link先を確認
Sch\"utz Mina, Boeck Jaqueline, Liakhovets Daria, Slijep\v{c}evi\'c Djordje, Kirchknopf Armin, Hecht Manuel, Bogensperger Johannes, Schlarb Sven, Schindler Alexander, Zeppelzauer Matthias(参考訳) 近年、性差別はソーシャルネットワークでますます大きな問題となっている。 IberleF 2021におけるSexism Identification in Social NeTworks(EXIST)の最初の共有タスクは、自然言語処理(NLP)分野における国際コンペティションであり、機械学習手法を適用してソーシャルメディアコンテンツにおける性差別を自動的に識別することを目的としている。 これにより、セクシズム検出は、粗い(バイナリ)分類問題と、複数のタイプのセクシズムコンテンツ(支配、ステレオタイピング、客観化など)を区別するきめ細かい分類タスクとして定式化される。 本稿では,AIT_FHSTPチームの両タスクに対するEXIST2021ベンチマークにおける貢献について述べる。 課題を解決するために,マルチリンガルBERTとXLM-Rをベースとした2つの多言語トランスフォーマーモデルを適用した。本手法では,トランスフォーマーを性差別的コンテンツの検出に適応させる2つの戦略を用いて,追加データによる教師なし事前学習,追加データと拡張データによる教師付き微調整を行った。 両方のタスクにおいて、最高のモデルはXLM-Rで、EXISTデータと追加のデータセットと提供されたデータセットの微調整を教師なしで事前トレーニングします。 2進分類(タスク1)のベストランは、マクロF1スコアが0.7752、ベンチマークで5位、マルチクラス分類(タスク2)のベストスコアが6位、マクロF1スコアが0.5589である。

Sexism has become an increasingly major problem on social networks during the last years. The first shared task on sEXism Identification in Social neTworks (EXIST) at IberLEF 2021 is an international competition in the field of Natural Language Processing (NLP) with the aim to automatically identify sexism in social media content by applying machine learning methods. Thereby sexism detection is formulated as a coarse (binary) classification problem and a fine-grained classification task that distinguishes multiple types of sexist content (e.g., dominance, stereotyping, and objectification). This paper presents the contribution of the AIT_FHSTP team at the EXIST2021 benchmark for both tasks. To solve the tasks we applied two multilingual transformer models, one based on multilingual BERT and one based on XLM-R. Our approach uses two different strategies to adapt the transformers to the detection of sexist content: first, unsupervised pre-training with additional data and second, supervised fine-tuning with additional and augmented data. For both tasks our best model is XLM-R with unsupervised pre-training on the EXIST data and additional datasets and fine-tuning on the provided dataset. The best run for the binary classification (task 1) achieves a macro F1-score of 0.7752 and scores 5th rank in the benchmark; for the multiclass classification (task 2) our best submission scores 6th rank with a macro F1-score of 0.5589.
翻訳日:2021-06-10 15:29:56 公開日:2021-06-09
# 両側軌跡追跡によるデュアルモダリティ車両異常検出

Dual-Modality Vehicle Anomaly Detection via Bilateral Trajectory Tracing ( http://arxiv.org/abs/2106.05003v1 )

ライセンス: Link先を確認
Jingyuan Chen, Guanchen Ding, Yuchen Yang, Wenwei Han, Kangmin Xu, Tianyi Gao, Zhe Zhang, Wanping Ouyang, Hao Cai, Zhenzhong Chen(参考訳) 交通異常検出は知的交通システム(ITS)において重要な役割を担っている。 このタスクの主な課題は、高度に多様化した異常なシーンと変光条件にある。 多くの研究は、均質な天候やシーンの異常を特定できたが、複雑な問題に対処することには至らなかった。 本稿では,異常車両のロバスト検出のための2次元モジュラー化手法を提案する。 我々は,背景モデリング,検出による車両追跡,マスク構築,関心領域(ROI)のバックトラッキング,二重モード追跡という,統合された異常検出フレームワークを導入した。 具体的には、動き情報をフィルタリングするために背景モデルを採用し、静的情報を残して後続の車両を検知した。 車両検出・追跡モジュールには, YOLOv5とマルチスケールトラッキングを採用し, 異常の局所化を行った。 さらに,道路の識別とマスク取得のために,フレーム差と追跡結果を利用した。 さらに,複数の類似度推定指標を導入し,バックトラッキングにより異常期間を短縮した。 最後に, 時間を改善するために, 二重モダリティバイラテラルトレーシングモジュールを提案した。 nvidia 2021 ai city challengeのトラック4テストセットで行われた実験では、0.9302 f1-scoreと3.4039 root mean square error(rmse)の結果が得られた。

Traffic anomaly detection has played a crucial role in Intelligent Transportation System (ITS). The main challenges of this task lie in the highly diversified anomaly scenes and variational lighting conditions. Although much work has managed to identify the anomaly in homogenous weather and scene, few resolved to cope with complex ones. In this paper, we proposed a dual-modality modularized methodology for the robust detection of abnormal vehicles. We introduced an integrated anomaly detection framework comprising the following modules: background modeling, vehicle tracking with detection, mask construction, Region of Interest (ROI) backtracking, and dual-modality tracing. Concretely, we employed background modeling to filter the motion information and left the static information for later vehicle detection. For the vehicle detection and tracking module, we adopted YOLOv5 and multi-scale tracking to localize the anomalies. Besides, we utilized the frame difference and tracking results to identify the road and obtain the mask. In addition, we introduced multiple similarity estimation metrics to refine the anomaly period via backtracking. Finally, we proposed a dual-modality bilateral tracing module to refine the time further. The experiments conducted on the Track 4 testset of the NVIDIA 2021 AI City Challenge yielded a result of 0.9302 F1-Score and 3.4039 root mean square error (RMSE), indicating the effectiveness of our framework.
翻訳日:2021-06-10 15:28:48 公開日:2021-06-09
# 教師付きコントラスト学習を用いた文埋め込み

Sentence Embeddings using Supervised Contrastive Learning ( http://arxiv.org/abs/2106.04791v1 )

ライセンス: Link先を確認
Danqi Liao(参考訳) 文を固定された高密度ベクトルにエンコードする文の埋め込みは、様々なNLPタスクやシステムにおいて重要な役割を果たしている。 文の埋め込みを構築する方法は、Quick-Thoughtsのような教師なし学習とInferSentのような教師なし学習を含む。 事前学習されたnlpモデルの成功により、snliおよびマルチnliデータ上で事前学習されたbertが最先端の文埋め込みを生成し、様々な評価ベンチマークで以前の文埋め込みメソッドよりも優れていることが最近の研究で示されている。 本稿では,教師付きコントラスト学習によって文埋め込みを構築する新しい手法を提案する。 具体的には,SNLIデータ上のBERTを微調整し,教師付きクロスエントロピー損失と教師付きコントラスト損失を併用した。 SBERTと同様の教師付きクロスエントロピー損失でのみ微調整を行うベースラインと比較して,教師付きコントラスト法はセマンティックテキスト類似度(STS)ベンチマークで平均2.8%,各種文転送タスクで平均1.05%改善する。

Sentence embeddings encode sentences in fixed dense vectors and have played an important role in various NLP tasks and systems. Methods for building sentence embeddings include unsupervised learning such as Quick-Thoughts and supervised learning such as InferSent. With the success of pretrained NLP models, recent research shows that fine-tuning pretrained BERT on SNLI and Multi-NLI data creates state-of-the-art sentence embeddings, outperforming previous sentence embeddings methods on various evaluation benchmarks. In this paper, we propose a new method to build sentence embeddings by doing supervised contrastive learning. Specifically our method fine-tunes pretrained BERT on SNLI data, incorporating both supervised crossentropy loss and supervised contrastive loss. Compared with baseline where fine-tuning is only done with supervised cross-entropy loss similar to current state-of-the-art method SBERT, our supervised contrastive method improves 2.8% in average on Semantic Textual Similarity (STS) benchmarks and 1.05% in average on various sentence transfer tasks.
翻訳日:2021-06-10 15:28:01 公開日:2021-06-09
# パイプラインゴール指向ダイアログシステムの連系最適化

Joint System-Wise Optimization for Pipeline Goal-Oriented Dialog System ( http://arxiv.org/abs/2106.04835v1 )

ライセンス: Link先を確認
Zichuan Lin, Jing Huang, Bowen Zhou, Xiaodong He, Tengyu Ma(参考訳) 最近の研究 (takanobu et al., 2020) は対話システムにおけるシステム評価を提案し、先行研究における個々のコンポーネント(nlu、ポリシーなど)の改善は必ずしもシステム評価におけるパイプラインシステムに利益をもたらすものではないことを見出した。 そこで本研究では,パイプライン・ダイアログ・システムのための新しい結合系最適化手法を提案する。 まず,NLUトレーニングのラベル付けプロセスを自動化する新しいデータ拡張手法を提案する。 第2に,poisson分布を用いた新しい確率的政策パラメータ化法を提案する。 第3に,成功ダイアログの探索を支援する報奨ボーナスを提案する。 当社のアプローチは,高信らの競合パイプラインシステムよりも優れています。 (2020年)自動システム評価における12%の成功率と、標準マルチドメインベンチマークデータセットであるmultiwoz 2.1での人間評価における16%の成功率の大きなマージンと、dstc9による最新の最先端のエンドツーエンドトレーニングモデルよりも優れている。

Recent work (Takanobu et al., 2020) proposed the system-wise evaluation on dialog systems and found that improvement on individual components (e.g., NLU, policy) in prior work may not necessarily bring benefit to pipeline systems in system-wise evaluation. To improve the system-wise performance, in this paper, we propose new joint system-wise optimization techniques for the pipeline dialog system. First, we propose a new data augmentation approach which automates the labeling process for NLU training. Second, we propose a novel stochastic policy parameterization with Poisson distribution that enables better exploration and offers a principled way to compute policy gradient. Third, we propose a reward bonus to help policy explore successful dialogs. Our approaches outperform the competitive pipeline systems from Takanobu et al. (2020) by big margins of 12% success rate in automatic system-wise evaluation and of 16% success rate in human evaluation on the standard multi-domain benchmark dataset MultiWOZ 2.1, and also outperform the recent state-of-the-art end-to-end trained model from DSTC9.
翻訳日:2021-06-10 15:27:42 公開日:2021-06-09
# 遠隔言語のためのunmtにおいて言語間埋め込みは必須である:英語からインドール語への事例研究

Crosslingual Embeddings are Essential in UNMT for Distant Languages: An English to IndoAryan Case Study ( http://arxiv.org/abs/2106.04995v1 )

ライセンス: Link先を確認
Tamali Banerjee, Rudra Murthy V, Pushpak Bhattacharyya(参考訳) 教師なしニューラルネットワーク翻訳(UNMT)の最近の進歩は、教師なしと教師なしの機械翻訳性能のギャップを最小化している。 しかし、遠方の言語ペアでは状況は大きく異なる。 語彙重複の欠如と英語とインド・アーリア語間の構文類似性の低さは、既存のUNMTシステムでは翻訳品質の低下につながる。 本稿では,unmtモデルの埋め込み層を言語間埋め込みで初期化すると,ランダムに初期化する既存のアプローチに比べてbleuスコアが大幅に向上することを示す。 さらに、静的な埋め込み(埋め込み層重みを凍結する)は、トレーニング中の埋め込み層重みを更新する(非静的)よりも向上する。 3つの言語ペアに対してマスキングシーケンストシーケンス(mass)とデノージングオートエンコーダ(dae)unmtアプローチを用いて実験を行った。 提案されている言語間埋め込み初期化は、英語-ヒンディー語、英語-ベンガル語、英語-グジャラーティのベースラインよりも最大10倍の改善をもたらす。 本分析は, 言語間埋め込みの重要性, アプローチの比較, システムの改善範囲について述べる。

Recent advances in Unsupervised Neural Machine Translation (UNMT) have minimized the gap between supervised and unsupervised machine translation performance for closely related language pairs. However, the situation is very different for distant language pairs. Lack of lexical overlap and low syntactic similarities such as between English and Indo-Aryan languages leads to poor translation quality in existing UNMT systems. In this paper, we show that initializing the embedding layer of UNMT models with cross-lingual embeddings shows significant improvements in BLEU score over existing approaches with embeddings randomly initialized. Further, static embeddings (freezing the embedding layer weights) lead to better gains compared to updating the embedding layer weights during training (non-static). We experimented using Masked Sequence to Sequence (MASS) and Denoising Autoencoder (DAE) UNMT approaches for three distant language pairs. The proposed cross-lingual embedding initialization yields BLEU score improvement of as much as ten times over the baseline for English-Hindi, English-Bengali, and English-Gujarati. Our analysis shows the importance of cross-lingual embedding, comparisons between approaches, and the scope of improvements in these systems.
翻訳日:2021-06-10 15:27:20 公開日:2021-06-09
# 時間的健康事象予測のためのハイパーボリック埋め込みを用いた自己教師付きグラフ学習

Self-Supervised Graph Learning with Hyperbolic Embedding for Temporal Health Event Prediction ( http://arxiv.org/abs/2106.04751v1 )

ライセンス: Link先を確認
Chang Lu, Chandan K. Reddy, Yue Ning(参考訳) 電子健康記録(ehr)は、現代の医療システムにおいて、患者の入院情報を病院に記録するために多用されている。 データ駆動型アプローチの多くは、ehrの時間的特徴を用いて特定の疾患、寛解時間、患者の診断を予測している。 しかしながら、既存の予測モデルは、時間的な出来事に対する教師付きトレーニングにおいて、ラベルの欠如のために、EHRデータを完全に活用できない。 さらに、既存の作品が汎用的でパーソナライズされた解釈性を同時に提供することは困難である。 これらの課題に対処するために,まず,階層構造における医用コード表現を事前学習するための情報フローを有する双曲的埋め込み手法を提案する。 これらの事前学習された表現をグラフニューラルネットワークに組み込んで疾患の合併症を検出し、特定の疾患や入院の寄与度を計算するマルチレベル注意法を設計し、パーソナライズされた解釈性を高める。 我々は,EHRデータを完全に活用し,医療領域の知識を活用するために,階層強化された履歴予測プロキシタスクを自己指導型学習フレームワークに提示する。 我々は、我々のモデルの有効性を検証するために、広く利用されているEHRデータセットに関する包括的な実験とケーススタディを行う。 その結果,予測課題と解釈能力の両方におけるモデルの強みが示された。

Electronic Health Records (EHR) have been heavily used in modern healthcare systems for recording patients' admission information to hospitals. Many data-driven approaches employ temporal features in EHR for predicting specific diseases, readmission times, or diagnoses of patients. However, most existing predictive models cannot fully utilize EHR data, due to an inherent lack of labels in supervised training for some temporal events. Moreover, it is hard for existing works to simultaneously provide generic and personalized interpretability. To address these challenges, we first propose a hyperbolic embedding method with information flow to pre-train medical code representations in a hierarchical structure. We incorporate these pre-trained representations into a graph neural network to detect disease complications, and design a multi-level attention method to compute the contributions of particular diseases and admissions, thus enhancing personalized interpretability. We present a new hierarchy-enhanced historical prediction proxy task in our self-supervised learning framework to fully utilize EHR data and exploit medical domain knowledge. We conduct a comprehensive set of experiments and case studies on widely used publicly available EHR datasets to verify the effectiveness of our model. The results demonstrate our model's strengths in both predictive tasks and interpretable abilities.
翻訳日:2021-06-10 15:26:28 公開日:2021-06-09
# 摂動応答曲線を用いた深部ニューラルネットワークの一般化予測

Predicting Deep Neural Network Generalization with Perturbation Response Curves ( http://arxiv.org/abs/2106.04765v1 )

ライセンス: Link先を確認
Yair Schiff, Brian Quanz, Payel Das, Pin-Yu Chen(参考訳) ディープラーニングの分野は、さまざまな予測タスクにおける人間のようなパフォーマンスの実証的な証拠に富んでいる。 しかし、これらの成功にもかかわらず、最近のPGDL(Predicting Generalization in Deep Learning) NeurIPS 2020コンペティションは、より堅牢で効率的なネットワーク一般化対策の必要性を示唆している。 本研究では,訓練ネットワークの一般化能力を評価するための新しいフレームワークを提案する。 我々は,トレーニングサンプルの摂動レベルを変化させる関数として,与えられたネットワークの精度変化をキャプチャするpr曲線を用いる。 これらのPR曲線から一般化能力を捉える新しい統計を導出する。 具体的には、Gini係数とPalta比(所得不平等の測定)にインスパイアされたGi-scoreとPal-scoreの2つの新しい手法を導入する。 本フレームワークをクラス内およびクラス間混合に応用し,PGDLコンペティションにおける課題の大部分に対する最先端の指標よりも優れた予測スコアを得た。 さらに,我々のフレームワークと提案した統計値を用いて,トレーニングされたネットワークが,回転や変換などのパラメトリックな入力変換にどの程度不変であるかを推定できることを示す。 したがって、これらの一般化ギャップ予測統計は、ある摂動に不変な最適なネットワークアーキテクチャとハイパーパラメータを選択する有用な手段を提供する。

The field of Deep Learning is rich with empirical evidence of human-like performance on a variety of prediction tasks. However, despite these successes, the recent Predicting Generalization in Deep Learning (PGDL) NeurIPS 2020 competition suggests that there is a need for more robust and efficient measures of network generalization. In this work, we propose a new framework for evaluating the generalization capabilities of trained networks. We use perturbation response (PR) curves that capture the accuracy change of a given network as a function of varying levels of training sample perturbation. From these PR curves, we derive novel statistics that capture generalization capability. Specifically, we introduce two new measures for accurately predicting generalization gaps: the Gi-score and Pal-score, that are inspired by the Gini coefficient and Palma ratio (measures of income inequality), that accurately predict generalization gaps. Using our framework applied to intra and inter class sample mixup, we attain better predictive scores than the current state-of-the-art measures on a majority of tasks in the PGDL competition. In addition, we show that our framework and the proposed statistics can be used to capture to what extent a trained network is invariant to a given parametric input transformation, such as rotation or translation. Therefore, these generalization gap prediction statistics also provide a useful means for selecting the optimal network architectures and hyperparameters that are invariant to a certain perturbation.
翻訳日:2021-06-10 15:26:08 公開日:2021-06-09
# 実践的な機械学習の安全性: 調査とプライマー

Practical Machine Learning Safety: A Survey and Primer ( http://arxiv.org/abs/2106.04823v1 )

ライセンス: Link先を確認
Sina Mohseni and Haotao Wang and Zhiding Yu and Chaowei Xiao and Zhangyang Wang and Jay Yadawa(参考訳) 自動運転車のような安全クリティカルなアプリケーションにおける機械学習(ML)アルゴリズムのオープンワールド展開は、解釈可能性、検証可能性、パフォーマンス制限など、さまざまなML脆弱性に対処する必要がある。 一般化エラーを低減し、ドメイン適応を実現し、外れ値の例や敵攻撃を検出するために、新しいモデルとトレーニングテクニックを提案することにより、MLの信頼性を改善するためのさまざまなアプローチを検討する。 本稿では,MLアルゴリズムの安全性と信頼性を向上させる実用的なML手法をレビューし,整理する。 我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術と安全戦略をマッピングし、研究ギャップと有望な解決策について議論する。

The open-world deployment of Machine Learning (ML) algorithms in safety-critical applications such as autonomous vehicles needs to address a variety of ML vulnerabilities such as interpretability, verifiability, and performance limitations. Research explores different approaches to improve ML dependability by proposing new models and training techniques to reduce generalization error, achieve domain adaptation, and detect outlier examples and adversarial attacks. In this paper, we review and organize practical ML techniques that can improve the safety and dependability of ML algorithms and therefore ML-based software. Our organization maps state-of-the-art ML techniques to safety strategies in order to enhance the dependability of the ML algorithm from different aspects, and discuss research gaps as well as promising solutions.
翻訳日:2021-06-10 15:25:45 公開日:2021-06-09
# 時系列データを用いた異常検出のための深層産業転向学習に向けて

Towards Deep Industrial Transfer Learning for Anomaly Detection on Time Series Data ( http://arxiv.org/abs/2106.04920v1 )

ライセンス: Link先を確認
Benjamin Maschler, Tim Knodel and Michael Weyrich(参考訳) ディープラーニングは、時間変動データセットのパフォーマンス異常検出を約束するが、適切なトレーニングデータセットの可用性の低下と頻繁なタスクの変更に悩まされている。 ディープトランスファー学習は、異なるタスクや場所から以前の知識に基づいて構築されたアルゴリズムを緩和する。 本稿では,時系列データセットにおける異常検出のためのモジュール型ディープラーニングアルゴリズムについて述べる。 産業応用の特殊環境における知識の伝達という、深い産業移転学習に対する根本的な妥当性を証明するために、離散的な製造プロセスからデータセットを徹底的にテストする。

Deep learning promises performant anomaly detection on time-variant datasets, but greatly suffers from low availability of suitable training datasets and frequently changing tasks. Deep transfer learning offers mitigation by letting algorithms built upon previous knowledge from different tasks or locations. In this article, a modular deep learning algorithm for anomaly detection on time series datasets is presented that allows for an easy integration of such transfer learning capabilities. It is thoroughly tested on a dataset from a discrete manufacturing process in order to prove its fundamental adequacy towards deep industrial transfer learning - the transfer of knowledge in industrial applications' special environment.
翻訳日:2021-06-10 15:25:32 公開日:2021-06-09
# 中間的特徴の観点による説明の一般的アプローチ

A general approach for Explanations in terms of Middle Level Features ( http://arxiv.org/abs/2106.05037v1 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Roberto Prevete(参考訳) 今日では、機械学習(ML)システムをより理解しやすく、一般ユーザーに信頼することへの関心が高まっている。 したがって、人間に理解可能なMLシステム行動の説明を生成することは、eXplainable Artificial Intelligence (XAI)の急速に成長する研究領域によって対処される、科学と技術の中心的な問題である。 近年,より優れた説明を創出するための新たな方向性が,ユーザにとってよい説明が何かを考えれば,ユーザ中心の説明を提供することのできるXAIソリューションの開発に向けられつつある。 本稿では,機械学習システムの動作を,異なる入力特徴,すなわち,ユーザが背景知識や目標に応じて選択できる入力特性からなる説明で説明することができるような,XAIの汎用的アプローチを活用することを提案する。 そこで,本稿では,(1)ユーザに対してより高度で理解可能な入力特性を表す入力特徴量を用いて説明文を構築すること,(2)異なるタイプのmlfに適用すること,というxaiの一般的なアプローチを提案する。 2つの異なるデータセットで実験を行い, 3種類のmlfを用いて実験を行った。 結果は好意的に思える。

Nowadays, it is growing interest to make Machine Learning (ML) systems more understandable and trusting to general users. Thus, generating explanations for ML system behaviours that are understandable to human beings is a central scientific and technological issue addressed by the rapidly growing research area of eXplainable Artificial Intelligence (XAI). Recently, it is becoming more and more evident that new directions to create better explanations should take into account what a good explanation is to a human user, and consequently, develop XAI solutions able to provide user-centred explanations. This paper suggests taking advantage of developing an XAI general approach that allows producing explanations for an ML system behaviour in terms of different and user-selected input features, i.e., explanations composed of input properties that the human user can select according to his background knowledge and goals. To this end, we propose an XAI general approach which is able: 1) to construct explanations in terms of input features that represent more salient and understandable input properties for a user, which we call here Middle-Level input Features (MLFs), 2) to be applied to different types of MLFs. We experimentally tested our approach on two different datasets and using three different types of MLFs. The results seem encouraging.
翻訳日:2021-06-10 15:25:21 公開日:2021-06-09
# ランダムウォークによる多層ネットワーク探索:オフライン最適化からオンライン学習へ

Multi-layered Network Exploration via Random Walks: From Offline Optimization to Online Learning ( http://arxiv.org/abs/2106.05065v1 )

ライセンス: Link先を確認
Xutong Liu, Jinhang Zuo, Xiaowei Chen, Wei Chen, John C.S. Lui(参考訳) 多層ネットワーク探索(mulane)問題は、多くのアプリケーションから抽象化された重要な問題である。 MuLaNEには複数のネットワーク層があり、各ノードは重みを持ち、各レイヤはランダムウォークによって探索される。 mulaneタスクは、ランダムウォークによって訪問される一意ノードの総重量を最大化するために、各ネットワーク層に合計ランダムウォーク予算$b$を割り当てることである。 我々はこの問題をオフライン最適化からオンライン学習まで体系的に研究する。 ネットワーク構造とノード重みが知られているオフライン最適化設定のために,重なり合うネットワークに対するgreedy based constant-ratio approximationアルゴリズムと,重複しないネットワークに対するgreedyまたはdynamic-programming based optimal solutionsを提供する。 オンライン学習設定では、ネットワーク構造やノード重みは当初は知られていない。 我々は,複数ラウンドの予算配分を最適化しながらランダムウォーク関連パラメータとノード重み付けを学習し,対数的後悔境界を達成できることを示すために,組合せ型マルチアームバンディットフレームワークと設計アルゴリズムを適用した。 最後に,実世界のソーシャルネットワークデータセットを用いて理論的結果を検証する実験を行った。

Multi-layered network exploration (MuLaNE) problem is an important problem abstracted from many applications. In MuLaNE, there are multiple network layers where each node has an importance weight and each layer is explored by a random walk. The MuLaNE task is to allocate total random walk budget $B$ into each network layer so that the total weights of the unique nodes visited by random walks are maximized. We systematically study this problem from offline optimization to online learning. For the offline optimization setting where the network structure and node weights are known, we provide greedy based constant-ratio approximation algorithms for overlapping networks, and greedy or dynamic-programming based optimal solutions for non-overlapping networks. For the online learning setting, neither the network structure nor the node weights are known initially. We adapt the combinatorial multi-armed bandit framework and design algorithms to learn random walk related parameters and node weights while optimizing the budget allocation in multiple rounds, and prove that they achieve logarithmic regret bounds. Finally, we conduct experiments on a real-world social network dataset to validate our theoretical results.
翻訳日:2021-06-10 15:25:01 公開日:2021-06-09
# PEBBLE:リラベル経験と教師なし事前学習によるフィードバック効率の良いインタラクティブ強化学習

PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training ( http://arxiv.org/abs/2106.05091v1 )

ライセンス: Link先を確認
Kimin Lee, Laura Smith, Pieter Abbeel(参考訳) 複雑な目的を強化学習(RL)エージェントに展開することはしばしば困難であり、十分な情報的かつ提供が容易な報酬関数を巧妙に設計する。 ヒューマン・イン・ザ・ループ(Human-in-the-loop)のRL法では、実践者は代わりに適切なフィードバックを通じてエージェントを対話的に教えることができる。 本研究は、このプロセスをよりサンプリングとフィードバック効率を高めることを目的としている。 本稿では,フィードバックとオフ・ポリティカル・ラーニングの強みを活かした,オフ・ポリティカルでインタラクティブなrlアルゴリズムを提案する。 具体的には,教師の2つの行動クリップ間の好みを積極的に問うことで報酬モデルを学び,エージェントを訓練する。 政治以外の学習を可能にするため、報酬モデルが変化すると、エージェントの過去の経験をすべて解放する。 さらに、教師なし探索でエージェントを事前訓練することで、クエリのマイル数を大幅に増加させることを示す。 提案手法は,従来考えられていたよりも複雑なタスクを学習できることを実証し,ロコモーションやロボット操作の多種多様さを実証した。 また,本手法は,報酬の活用を効果的に防止し,標準的な報酬関数で特定が難しい新しい行動を学ぶために,リアルタイムなフィードバックを利用することができることを示す。

Conveying complex objectives to reinforcement learning (RL) agents can often be difficult, involving meticulous design of reward functions that are sufficiently informative yet easy enough to provide. Human-in-the-loop RL methods allow practitioners to instead interactively teach agents through tailored feedback; however, such approaches have been challenging to scale since human feedback is very expensive. In this work, we aim to make this process more sample- and feedback-efficient. We present an off-policy, interactive RL algorithm that capitalizes on the strengths of both feedback and off-policy learning. Specifically, we learn a reward model by actively querying a teacher's preferences between two clips of behavior and use it to train an agent. To enable off-policy learning, we relabel all the agent's past experience when its reward model changes. We additionally show that pre-training our agents with unsupervised exploration substantially increases the mileage of its queries. We demonstrate that our approach is capable of learning tasks of higher complexity than previously considered by human-in-the-loop methods, including a variety of locomotion and robotic manipulation skills. We also show that our method is able to utilize real-time human feedback to effectively prevent reward exploitation and learn new behaviors that are difficult to specify with standard reward functions.
翻訳日:2021-06-10 15:24:41 公開日:2021-06-09
# ニューラルネットワークにおけるゴースト:無限次元ヌル空間の存在、構造、役割

Ghosts in Neural Networks: Existence, Structure and Role of Infinite-Dimensional Null Space ( http://arxiv.org/abs/2106.04770v1 )

ライセンス: Link先を確認
Sho Sonoda, Isao Ishikawa, Masahiro Ikeda(参考訳) オーバーパラメトリゼーションは、ディープラーニング研究で著しく成功した。 本研究では、過度にパラメータ化されたニューラルネットワーク、すなわちニューラルネットワークやゴーストのパラメータにおけるヌル成分の見過ごされているが重要な側面について検討する。 ディープラーニングは明確に正規化されていないため、典型的なディープラーニングソリューションにはヌル成分が含まれている。 本稿では,ニューラルネットワークの一般クラスに対するヌル空間の構造定理を提案する。 具体的には、任意のヌル要素はリッジレット変換の線形結合によって一意に書けることを示す。 一般に、任意の与えられた作用素の零空間を完全に特徴づけるのは難しい。 したがって、構造定理はニューラルネットワークパラメータの複雑なランドスケープを理解する上で大きな利点となる。 応用として、深層学習の一般化性能における幽霊の役割について論じる。

Overparametrization has been remarkably successful for deep learning studies. This study investigates an overlooked but important aspect of overparametrized neural networks, that is, the null components in the parameters of neural networks, or the ghosts. Since deep learning is not explicitly regularized, typical deep learning solutions contain null components. In this paper, we present a structure theorem of the null space for a general class of neural networks. Specifically, we show that any null element can be uniquely written by the linear combination of ridgelet transforms. In general, it is quite difficult to fully characterize the null space of an arbitrarily given operator. Therefore, the structure theorem is a great advantage for understanding a complicated landscape of neural network parameters. As applications, we discuss the roles of ghosts on the generalization performance of deep learning.
翻訳日:2021-06-10 15:24:17 公開日:2021-06-09
# 時変系における非線形ホークス過程

Nonlinear Hawkes Processes in Time-Varying System ( http://arxiv.org/abs/2106.04844v1 )

ライセンス: Link先を確認
Feng Zhou, Quyu Kong, Yixuan Zhang, Cheng Feng, Jun Zhu(参考訳) ホークス過程は、自己と相互引用現象をモデル化する能力を持つ点過程のクラスである。 古典的なホークス過程は幅広い応用をカバーしているが、その表現能力はパラメトリック、線形、等質の3つの重要な仮説によって制限されている。 最近の研究はこれらの制限を別々に解決しようと試みている。 この研究は、フレキシブルな状態スイッチング・ホークス過程、すなわち状態プロセスが点プロセスと相互作用するために組み込まれているフレキシブルで非線形で非均一な変種を提案することによって、3つの仮定を同時に克服することを目的としている。 提案したモデルは,時間変化システムに適用可能なホークスプロセスを実現する。 推定には、遅延変数拡張法を用いて、2つの効率的なベイズ推論アルゴリズムを設計する:ギブスサンプリングと平均場変動推論、そして解析的反復的更新により、後部を推定する。 実験では,最先端の競争相手に比べて優れた性能を示す。

Hawkes processes are a class of point processes that have the ability to model the self- and mutual-exciting phenomena. Although the classic Hawkes processes cover a wide range of applications, their expressive ability is limited due to three key hypotheses: parametric, linear and homogeneous. Recent work has attempted to address these limitations separately. This work aims to overcome all three assumptions simultaneously by proposing the flexible state-switching Hawkes processes: a flexible, nonlinear and nonhomogeneous variant where a state process is incorporated to interact with the point processes. The proposed model empowers Hawkes processes to be applied to time-varying systems. For inference, we utilize the latent variable augmentation technique to design two efficient Bayesian inference algorithms: Gibbs sampler and mean-field variational inference, with analytical iterative updates to estimate the posterior. In experiments, our model achieves superior performance compared to the state-of-the-art competitors.
翻訳日:2021-06-10 15:24:06 公開日:2021-06-09
# 完全微分可能なモデル発見

Fully differentiable model discovery ( http://arxiv.org/abs/2106.04886v1 )

ライセンス: Link先を確認
Gert-Jan Both, Remy Kusters(参考訳) モデル発見はデータセットの下の微分方程式を自律的に発見することを目的としている。 物理インフォームドニューラルネットワーク(PINN)に基づくアプローチは大きな可能性を秘めているが、方程式を明示的に学習する完全微分可能なモデルはまだ解明されていない。 本稿では,ニューラルネットワークに基づくサロゲートとスパースベイズ学習(SBL)を組み合わせたアプローチを提案する。 まず,ピンをマルチタスクモデルとして再解釈し,不確実性を用いたマルチタスク学習を適用することで,ベイズ回帰手法を含む自然なフレームワークとなることを示す。 次に、SBLを用いて頑健なモデル探索アルゴリズムを構築し、様々なデータセットで示す。 同時に,マルチタスク・アプローチにより確率的近似器の利用が可能となり,単粒子データから密度モデルを直接学習するために正規化フローを用いた概念実証を行う。 我々の研究は、PINNを様々なタイプのニューラルネットワークアーキテクチャに拡張し、ニューラルネットワークベースのサロゲートをベイズパラメータ推論のリッチフィールドに接続する。

Model discovery aims at autonomously discovering differential equations underlying a dataset. Approaches based on Physics Informed Neural Networks (PINNs) have shown great promise, but a fully-differentiable model which explicitly learns the equation has remained elusive. In this paper we propose such an approach by combining neural network based surrogates with Sparse Bayesian Learning (SBL). We start by reinterpreting PINNs as multitask models, applying multitask learning using uncertainty, and show that this leads to a natural framework for including Bayesian regression techniques. We then construct a robust model discovery algorithm by using SBL, which we showcase on various datasets. Concurrently, the multitask approach allows the use of probabilistic approximators, and we show a proof of concept using normalizing flows to directly learn a density model from single particle data. Our work expands PINNs to various types of neural network architectures, and connects neural network-based surrogates to the rich field of Bayesian parameter inference.
翻訳日:2021-06-10 15:23:50 公開日:2021-06-09
# 政策ファインタニング: ブリッジング サンプル効率の良いオフラインとオンライン強化学習

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning ( http://arxiv.org/abs/2106.04895v1 )

ライセンス: Link先を確認
Tengyang Xie, Nan Jiang, Huan Wang, Caiming Xiong, Yu Bai(参考訳) 最近の理論的研究は、サンプル効率強化学習(RL)を、環境(オンラインRL)でインタラクティブに学習するか、オフラインデータセット(オフラインRL)から学習するかの2つの設定で広範囲にわたって研究している。 しかし、この2つの設定で最適に近いポリシーを学ぶ既存のアルゴリズムと理論は、かなり異なり、切り離されている。 このギャップを埋めるために,本論文は,学習者が「参照ポリシー」$\mu$を,ある意味での最適ポリシー$\pi_\star$に近づけることができるオンラインRLという,政策微調整の理論的研究を開始する。 我々は、エピソディックマルコフ決定プロセス(mdps)におけるポリシーの微調整問題を、$s$状態、$a$アクション、地平線長$h$で検討する。 このアルゴリズムは、$\mu$(H^3SC^\star/\varepsilon^2)$で、$\widetilde{O}(H^3SC^\star/\varepsilon^2)$で、$C^\star$は$\mu$と$\pi_\star$の間の単一政治集中係数である。 このオフライン結果は、この設定でサンプルの複雑さを低く抑える最初の結果であり、最近のオフラインrlのオープン質問を解決します。 次に、環境を適応的に探索できるものを含む任意のポリシー微調整アルゴリズムに対して、$\Omega(H^3S\min\{C^\star, A\}/\varepsilon^2)$サンプル複雑性を低くする。 つまり、おそらく驚くべきことに、最適なポリシー微調整アルゴリズムはオフラインの削減か、$\mu$を使用しない純粋にオンラインのRLアルゴリズムである。 最後に、バニラのオフライン削減と純粋にオンラインのrlアルゴリズムよりも優れたサンプル複雑さを実現する、ポリシの微調整のための新しいハイブリッドオフライン/オンラインアルゴリズムを設計。

Recent theoretical work studies sample-efficient reinforcement learning (RL) extensively in two settings: learning interactively in the environment (online RL), or learning from an offline dataset (offline RL). However, existing algorithms and theories for learning near-optimal policies in these two settings are rather different and disconnected. Towards bridging this gap, this paper initiates the theoretical study of policy finetuning, that is, online RL where the learner has additional access to a "reference policy" $\mu$ close to the optimal policy $\pi_\star$ in a certain sense. We consider the policy finetuning problem in episodic Markov Decision Processes (MDPs) with $S$ states, $A$ actions, and horizon length $H$. We first design a sharp offline reduction algorithm -- which simply executes $\mu$ and runs offline policy optimization on the collected dataset -- that finds an $\varepsilon$ near-optimal policy within $\widetilde{O}(H^3SC^\star/\varepsilon^2)$ episodes, where $C^\star$ is the single-policy concentrability coefficient between $\mu$ and $\pi_\star$. This offline result is the first that matches the sample complexity lower bound in this setting, and resolves a recent open question in offline RL. We then establish an $\Omega(H^3S\min\{C^\star, A\}/\varepsilon^2)$ sample complexity lower bound for any policy finetuning algorithm, including those that can adaptively explore the environment. This implies that -- perhaps surprisingly -- the optimal policy finetuning algorithm is either offline reduction or a purely online RL algorithm that does not use $\mu$. Finally, we design a new hybrid offline/online algorithm for policy finetuning that achieves better sample complexity than both vanilla offline reduction and purely online RL algorithms, in a relaxed setting where $\mu$ only satisfies concentrability partially up to a certain time step.
翻訳日:2021-06-10 15:23:34 公開日:2021-06-09
# oracleクエリによるマージンベースのクラスタリカバリについて

On Margin-Based Cluster Recovery with Oracle Queries ( http://arxiv.org/abs/2106.04913v1 )

ライセンス: Link先を確認
Marco Bressan, Nicol\`o Cesa-Bianchi, Silvio Lattanzi, Andrea Paudice(参考訳) 私たちは、n$ポイントのセットとoracleが“これら2つのポイントは同じクラスタ内にあるか? タスクは、可能な限り少数のクエリを使用して、正確にすべてのクラスタをリカバリすることです。 まず、特に、以前の研究で使われたマージン、古典的なSVMマージン、センターベースのクラスタリングの安定性の標準概念をキャプチャするクラスタ間のマージンの単純だが一般的な概念を導入する。 そして、マージンの仮定の下で、さまざまな設定で、$O(\log n)$クエリのみを使用して、すべてのクラスタを正確に回復するアルゴリズムを設計します。 ユークリッドの場合、$\mathbb{r}^m$ は任意の凸クラスタを多項式時間で回復するアルゴリズムであり、既存のアルゴリズムの最も低いクエリを$\theta(m^m)$ factor で与える。 一般の擬距離空間では、クラスターが凸でない場合や、形状の概念が存在しない場合、$O(\log n)$クエリバウンドを達成し、空間のパッキング数の関数として証明可能な準最適であるアルゴリズムを与える。 最後に、二項概念クラスによって実現されたクラスタリングに対して、$O(\log n)$クエリによる回復可能性の組合せ的特徴付けを行い、ユークリッド空間における多くの概念クラスに対して、この特徴付けが我々のマージン条件に等しいことを示す。 その結果,クラスタマージンとアクティブクラスタリカバリ可能性との深い関係が示された。

We study an active cluster recovery problem where, given a set of $n$ points and an oracle answering queries like "are these two points in the same cluster?", the task is to recover exactly all clusters using as few queries as possible. We begin by introducing a simple but general notion of margin between clusters that captures, as special cases, the margins used in previous work, the classic SVM margin, and standard notions of stability for center-based clusterings. Then, under our margin assumptions we design algorithms that, in a variety of settings, recover all clusters exactly using only $O(\log n)$ queries. For the Euclidean case, $\mathbb{R}^m$, we give an algorithm that recovers arbitrary convex clusters, in polynomial time, and with a number of queries that is lower than the best existing algorithm by $\Theta(m^m)$ factors. For general pseudometric spaces, where clusters might not be convex or might not have any notion of shape, we give an algorithm that achieves the $O(\log n)$ query bound, and is provably near-optimal as a function of the packing number of the space. Finally, for clusterings realized by binary concept classes, we give a combinatorial characterization of recoverability with $O(\log n)$ queries, and we show that, for many concept classes in Euclidean spaces, this characterization is equivalent to our margin condition. Our results show a deep connection between cluster margins and active cluster recoverability.
翻訳日:2021-06-10 15:22:51 公開日:2021-06-09
# 共同ワッサーシュタイン距離最小化による領域不変表現の学習

Learning Domain Invariant Representations by Joint Wasserstein Distance Minimization ( http://arxiv.org/abs/2106.04923v1 )

ライセンス: Link先を確認
L\'eo And\'eol, Yusei Kawakami, Yuichiro Wada, Takafumi Kanamori, Klaus-Robert M\"uller, Gr\'egoire Montavon(参考訳) トレーニングデータのドメインシフトは、機械学習の実践的な応用において一般的なもので、例えば、データが異なるソースからやってくるときに発生する。 理想的には、mlモデルは、例えばドメイン不変表現を学習することによって、これらのシフトとは独立に機能すべきである。 さらに、ソースに関するプライバシー上の懸念もドメイン不変表現を必要とする。 本研究では,結合分布上のwasserstein距離によって測定されるリンク領域不変表現を,クロスエントロピー分類器と新しいドメイン批判に基づく実践的半教師付き学習対象に導出する理論的な結果を提供する。 定量的実験により、提案手法が実際にそのような不変表現(2つの領域間)を学習できることが示され、後者は既存の手法と比較して、両方の領域での予測精度の高いモデルもサポートしている。

Domain shifts in the training data are common in practical applications of machine learning, they occur for instance when the data is coming from different sources. Ideally, a ML model should work well independently of these shifts, for example, by learning a domain-invariant representation. Moreover, privacy concerns regarding the source also require a domain-invariant representation. In this work, we provide theoretical results that link domain invariant representations -- measured by the Wasserstein distance on the joint distributions -- to a practical semi-supervised learning objective based on a cross-entropy classifier and a novel domain critic. Quantitative experiments demonstrate that the proposed approach is indeed able to practically learn such an invariant representation (between two domains), and the latter also supports models with higher predictive accuracy on both domains, comparing favorably to existing techniques.
翻訳日:2021-06-10 15:22:24 公開日:2021-06-09
# スパース高次相互作用モデルに対する高速・高能率選択推論

Fast and More Powerful Selective Inference for Sparse High-order Interaction Model ( http://arxiv.org/abs/2106.04929v1 )

ライセンス: Link先を確認
Diptesh Das, Vo Nguyen Le Duy, Hiroyuki Hanada, Koji Tsuda, Ichiro Takeuchi(参考訳) 診断などの高い意思決定を自動化するには、高い解釈性と信頼性のモデルが必要である。 本研究では,優れた予測能力を有する解釈可能な信頼性モデルの一つとして,Sparse High-order Interaction Model (SHIM)について考察する。 しかし、統計的に有意な高次相互作用を見つけることは、組合せ効果の固有高次元のため困難である。 データ駆動モデリングのもう1つの問題は「チェリーピッキング」 a.k.a の効果である。 選択バイアス。 我々の主な貢献は、高次相互作用モデルへの選択的推論のために最近開発されたパラメトリックプログラミングアプローチを拡張することである。 桜の木の露光的探索(すべての相互作用の可能性)は、小さな問題であっても、困難で実用的ではない。 効率的な刈り取り戦略を導入し,合成データと実データの両方を用いて,提案手法の計算効率と統計的パワーを実証した。

Automated high-stake decision-making such as medical diagnosis requires models with high interpretability and reliability. As one of the interpretable and reliable models with good prediction ability, we consider Sparse High-order Interaction Model (SHIM) in this study. However, finding statistically significant high-order interactions is challenging due to the intrinsic high dimensionality of the combinatorial effects. Another problem in data-driven modeling is the effect of "cherry-picking" a.k.a. selection bias. Our main contribution is to extend the recently developed parametric programming approach for selective inference to high-order interaction models. Exhaustive search over the cherry tree (all possible interactions) can be daunting and impractical even for a small-sized problem. We introduced an efficient pruning strategy and demonstrated the computational efficiency and statistical power of the proposed method using both synthetic and real data.
翻訳日:2021-06-10 15:22:10 公開日:2021-06-09
# 未知パラメータによる最短変化検出:一定の複雑さとほぼ最適性

Quickest change detection with unknown parameters: Constant complexity and near optimality ( http://arxiv.org/abs/2106.05061v1 )

ライセンス: Link先を確認
Firas Jarboui, Viannet Perchet(参考訳) 我々は,変更前の分布と変更後の分布のパラメータが不明な,最も早い変化検出問題を考える。 追加の仮定がなければ、最適な解は、目的のminimaxとロバストな変種に依存するため、扱いにくいものではない。 その結果、実用的な用途(経済学、医療、メンテナンスなど)には変更点が遅すぎる可能性がある。 利用可能な定数複雑性技法は一般に、非常に特定の確率分布と、あるいは非常に正確な追加知識に深く依存し、緩和された問題の解法である。 我々は、最適解の理論的漸近性を利用して、より複雑なマルコフ設定に適応した~in~$\mathcal{o}(1)$を実行する、ほぼ最適性能に近い新しいスケーラブルな近似アルゴリズムを導出する全く異なるアプローチを考える。

We consider the quickest change detection problem where both the parameters of pre- and post- change distributions are unknown, which prevents the use of classical simple hypothesis testing. Without additional assumptions, optimal solutions are not tractable as they rely on some minimax and robust variant of the objective. As a consequence, change points might be detected too late for practical applications (in economics, health care or maintenance for instance). Available constant complexity techniques typically solve a relaxed version of the problem, deeply relying on very specific probability distributions and/or some very precise additional knowledge. We consider a totally different approach that leverages the theoretical asymptotic properties of optimal solutions to derive a new scalable approximate algorithm with near optimal performance that runs~in~$\mathcal{O}(1)$, adapted to even more complex Markovian settings.
翻訳日:2021-06-10 15:21:57 公開日:2021-06-09
# ex uno plures: 1つのモデルをサブネットワークのアンサンブルに分割する

Ex uno plures: Splitting One Model into an Ensemble of Subnetworks ( http://arxiv.org/abs/2106.04767v1 )

ライセンス: Link先を確認
Zhilu Zhang, Vianne R. Gao, Mert R. Sabuncu(参考訳) モンテカルロ(MC)ドロップアウトは、高容量深層ニューラルネットワークモデルの精度と信頼性校正を改善するための、シンプルで効率的なアンサンブル手法である。 しかし、MCドロップアウトはディープアンサンブルのようなより計算集約的な手法ほど効果的ではない。 この性能ギャップは、MCドロップアウトアンサンブルにおける個々のモデルの比較的低い品質と多様性の欠如に起因する。 これらの問題は、結合トレーニングやドロップアウトモデルの実質的なパラメータ共有にまで遡ることができる。 この観点から,我々はサブネットワークのアンサンブルを計算するための戦略を提案し,それぞれがプルーニング戦略を用いて計算され,独立に訓練された非重複ドロップアウトマスクに対応する。 提案手法は,mcドロップアウトに類似した計算効率を持ちながら,精度と不確実性の両方において,標準ディープアンサンブルと同等の性能を発揮することを示す。 最後に、CIFAR10/100、CUB200、Tiny-Imagenetなどのコンピュータビジョンデータセットを用いて、サブネットワークのアンサンブルがニューラルネットワークを効率的にアンサンブルする最近提案されたアプローチよりも一貫して優れていることを実験的に示す。

Monte Carlo (MC) dropout is a simple and efficient ensembling method that can improve the accuracy and confidence calibration of high-capacity deep neural network models. However, MC dropout is not as effective as more compute-intensive methods such as deep ensembles. This performance gap can be attributed to the relatively poor quality of individual models in the MC dropout ensemble and their lack of diversity. These issues can in turn be traced back to the coupled training and substantial parameter sharing of the dropout models. Motivated by this perspective, we propose a strategy to compute an ensemble of subnetworks, each corresponding to a non-overlapping dropout mask computed via a pruning strategy and trained independently. We show that the proposed subnetwork ensembling method can perform as well as standard deep ensembles in both accuracy and uncertainty estimates, yet with a computational efficiency similar to MC dropout. Lastly, using several computer vision datasets like CIFAR10/100, CUB200, and Tiny-Imagenet, we experimentally demonstrate that subnetwork ensembling also consistently outperforms recently proposed approaches that efficiently ensemble neural networks.
翻訳日:2021-06-10 15:21:07 公開日:2021-06-09
# プロキシデータによるニューラルネットワーク検索の高速化

Accelerating Neural Architecture Search via Proxy Data ( http://arxiv.org/abs/2106.04784v1 )

ライセンス: Link先を確認
Byunggook Na, Jisoo Mok, Hyeokjun Choe, Sungroh Yoon(参考訳) ニューラルアーキテクチャサーチ(NAS)への関心が高まっているにもかかわらず、NASの計算コストは研究者にとって障害となっている。 そこで我々は,検索性能を犠牲にすることなく,対象データの代表的なサブセットであるプロキシデータを用いたnasのコスト削減を提案する。 NAS-Bench-1shot1で提供されるNASアルゴリズムの既存の選択方法の評価では、NASに必ずしも適していないことが判明し、新しい選択方法が必要である。 データエントロピーによって様々な選択法を用いて構築されたプロキシデータを解析し,nas用に調整された新しいプロキシデータ選択法を提案する。 この効果を実証的に示すために,多様なデータセット,検索空間,NASアルゴリズムの徹底的な実験を行った。 その結果、提案した選択型NASアルゴリズムは、データセット全体を用いて得られたものと競合するアーキテクチャを発見する。 提案された選択でDARTSを実行するには、CIFAR-10で40分、単一のGPUでImageNetで7.5時間しか必要ありません。 さらに、提案した選択を用いてImageNetで検索したアーキテクチャが逆CIFAR-10に転送されると、最先端のテストエラー2.4\%が得られる。 私たちのコードはhttps://github.com/n abk89/NAS-with-Proxy -dataで利用可能です。

Despite the increasing interest in neural architecture search (NAS), the significant computational cost of NAS is a hindrance to researchers. Hence, we propose to reduce the cost of NAS using proxy data, i.e., a representative subset of the target data, without sacrificing search performance. Even though data selection has been used across various fields, our evaluation of existing selection methods for NAS algorithms offered by NAS-Bench-1shot1 reveals that they are not always appropriate for NAS and a new selection method is necessary. By analyzing proxy data constructed using various selection methods through data entropy, we propose a novel proxy data selection method tailored for NAS. To empirically demonstrate the effectiveness, we conduct thorough experiments across diverse datasets, search spaces, and NAS algorithms. Consequently, NAS algorithms with the proposed selection discover architectures that are competitive with those obtained using the entire dataset. It significantly reduces the search cost: executing DARTS with the proposed selection requires only 40 minutes on CIFAR-10 and 7.5 hours on ImageNet with a single GPU. Additionally, when the architecture searched on ImageNet using the proposed selection is inversely transferred to CIFAR-10, a state-of-the-art test error of 2.4\% is yielded. Our code is available at https://github.com/n abk89/NAS-with-Proxy -data.
翻訳日:2021-06-10 15:20:47 公開日:2021-06-09
# CoAtNet: すべてのデータサイズに対するコンボリューションとアテンションの結婚

CoAtNet: Marrying Convolution and Attention for All Data Sizes ( http://arxiv.org/abs/2106.04803v1 )

ライセンス: Link先を確認
Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan(参考訳) トランスフォーマーはコンピュータビジョンへの関心が高まっているが、いまだに最先端の畳み込みネットワークに遅れをとっている。 本研究では,トランスフォーマーはモデルキャパシティが大きくなる傾向にあるが,正しい帰納バイアスの欠如により,畳み込みネットワークよりも一般化が悪くなることを示した。 両アーキテクチャの強みを効果的に結合するために,(1)奥行き方向の畳み込みと自己愛着は,単純な相対的注意によって自然に統一できる,(2)垂直に畳み込み層と注意層を原則的に積み重ねる,という2つの重要な洞察から構築されたハイブリッドモデルであるcoatnets(「コートネット」と発音する)を提案する。 実験の結果、CoAtNetはさまざまなデータセットにまたがる異なるリソース制約の下で最先端のパフォーマンスを実現していることがわかった。 例えば、CoAtNetは86.0%のImageNet Top-1精度を余分なデータなしで達成し、89.77%が追加のJFTデータを使用し、畳み込みネットワークとトランスフォーマーの両方の先行技術を上回っている。 特に、ImageNet-21Kから13Mの画像で事前トレーニングされた場合、CoAtNetは88.56%のトップ-1の精度を達成し、23倍少ないデータを使用しながら、JFTから3Mの画像で事前トレーニングされたViT-hugeと一致する。

Transformers have attracted increasing interests in computer vision, but they still fall behind state-of-the-art convolutional networks. In this work, we show that while Transformers tend to have larger model capacity, their generalization can be worse than convolutional networks due to the lack of the right inductive bias. To effectively combine the strengths from both architectures, we present CoAtNets(pronounced "coat" nets), a family of hybrid models built from two key insights:(1) depthwise Convolution and self-Attention can be naturally unified via simple relative attention; (2) vertically stacking convolution layers and attention layers in a principled way is surprisingly effective in improving generalization, capacity and efficiency. Experiments show that our CoAtNets achieve state-of-the-art performance under different resource constraints across various datasets. For example, CoAtNet achieves 86.0% ImageNet top-1 accuracy without extra data, and 89.77% with extra JFT data, outperforming prior arts of both convolutional networks and Transformers. Notably, when pre-trained with 13M images fromImageNet-21K, our CoAtNet achieves 88.56% top-1 accuracy, matching ViT-huge pre-trained with 300M images from JFT while using 23x less data.
翻訳日:2021-06-10 15:20:26 公開日:2021-06-09
# 地域検索とグローバル検索の併用による追跡: 目標意識に基づくアプローチ

Tracking by Joint Local and Global Search: A Target-aware Attention based Approach ( http://arxiv.org/abs/2106.04840v1 )

ライセンス: Link先を確認
Xiao Wang, Jin Tang, Bin Luo, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) tracking-by-detectio nは、単一のオブジェクト追跡のための非常に人気のあるフレームワークで、各フレームのローカル検索ウィンドウ内でターゲットオブジェクトを検索しようとする。 しかし、このようなローカル検索機構は単純なビデオではうまく機能するが、重い閉塞や速い動きといった極めて困難なシナリオにトラッカーを敏感にする。 本稿では,新しい汎用的目標認識アテンション機構(tanet)を提案し,ロバスト追跡のための局所的・グローバル共同探索を行うためのトラッキング・バイ・プローブ・フレームワークと統合する。 具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらを連結してデコーダネットワークに供給し、ターゲットを意識したグローバルアテンションマップを生成する。 より重要なことは、より良い注意力予測のために敵の訓練に頼ることである。 外観と運動判別器ネットワークは、空間的および時間的視点における一貫性を確保するように設計されている。 追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。 短期追跡ベンチマークと長期追跡ベンチマークの併用実験により,アルゴリズムの有効性が検証された。 この論文のプロジェクトページは \url{https://sites.google .com/view/globalatte ntiontracking/home/e xtend} にある。

Tracking-by-detectio n is a very popular framework for single object tracking which attempts to search the target object within a local search window for each frame. Although such local search mechanism works well on simple videos, however, it makes the trackers sensitive to extremely challenging scenarios, such as heavy occlusion and fast motion. In this paper, we propose a novel and general target-aware attention mechanism (termed TANet) and integrate it with tracking-by-detectio n framework to conduct joint local and global search for robust tracking. Specifically, we extract the features of target object patch and continuous video frames, then we concatenate and feed them into a decoder network to generate target-aware global attention maps. More importantly, we resort to adversarial training for better attention prediction. The appearance and motion discriminator networks are designed to ensure its consistency in spatial and temporal views. In the tracking procedure, we integrate the target-aware attention with multiple trackers by exploring candidate search regions for robust tracking. Extensive experiments on both short-term and long-term tracking benchmark datasets all validated the effectiveness of our algorithm. The project page of this paper can be found at \url{https://sites.google .com/view/globalatte ntiontracking/home/e xtend}.
翻訳日:2021-06-10 15:19:54 公開日:2021-06-09
# 乳幼児の異常動作の同定に向けて : 身体部位に基づく予測と可視化の枠組み

Towards Explainable Abnormal Infant Movements Identification: A Body-part Based Prediction and Visualisation Framework ( http://arxiv.org/abs/2106.04966v1 )

ライセンス: Link先を確認
Kevin D. McCay, Edmond S. L. Ho, Dimitrios Sakkos, Wai Lok Woo, Claire Marcroft, Patricia Dulson, Nicholas D. Embleton(参考訳) 脳性麻痺 (CP) の早期診断は, 疾患の発症を促進する鍵となる。 一般運動評価(GMA)のような診断ツールは早期診断において有望な結果をもたらしてきたが、これらの手技は困難である。 本稿では,gmaに基づく幼児の身体運動の自動分類のための新しい枠組みを提案する。 提案するフレームワークセグメントは,GMA時空間に付随するFidgety Movements (FM) の存在を検出するための特徴を抽出した。 これらの特徴は、分類決定に最も貢献する身体部分を特定し、ユーザへの視覚的フィードバックを提供する関連身体部分セグメントを強調するために使用される。 提案手法の分類性能を文献の他の手法と定量的に比較し,可視化の妥当性を定性的に評価した。 実験結果から,提案手法は同一の手法よりも頑健に動作し,同時に関連する視理解性が得られた。

Providing early diagnosis of cerebral palsy (CP) is key to enhancing the developmental outcomes for those affected. Diagnostic tools such as the General Movements Assessment (GMA), have produced promising results in early diagnosis, however these manual methods can be laborious. In this paper, we propose a new framework for the automated classification of infant body movements, based upon the GMA, which unlike previous methods, also incorporates a visualization framework to aid with interpretability. Our proposed framework segments extracted features to detect the presence of Fidgety Movements (FMs) associated with the GMA spatiotemporally. These features are then used to identify the body-parts with the greatest contribution towards a classification decision and highlight the related body-part segment providing visual feedback to the user. We quantitatively compare the proposed framework's classification performance with several other methods from the literature and qualitatively evaluate the visualization's veracity. Our experimental results show that the proposed method performs more robustly than comparable techniques in this setting whilst simultaneously providing relevant visual interpretability.
翻訳日:2021-06-10 15:19:35 公開日:2021-06-09
# 組合せ最適化問題の効率的な能動探索

Efficient Active Search for Combinatorial Optimization Problems ( http://arxiv.org/abs/2106.05126v1 )

ライセンス: Link先を確認
Andr\'e Hottung, Yeong-Dae Kwon, Kevin Tierney(参考訳) 近年,強化学習による逐次決定過程における解構築を学習する組合せ最適化問題に対する機械学習手法が数多く提案されている。 これらの方法は、サンプリングやビーム検索のような検索戦略と簡単に組み合わせることができるが、強力な検索ガイダンスを提供するハイレベルな検索手順に統合するのは簡単ではない。 Belloなど。 (2016) では, 強化学習を用いて, 単インスタンスに対して(訓練された)モデルの重みを調整する能動探索を提案する。 アクティブ検索は実装は簡単だが、各テストインスタンスのモデル重みの調整は非常に時間とメモリ集約的であるため、最先端のメソッドと競合しない。 モデル重みを更新する代わりに、探索中にパラメータのサブセットだけを更新する3つの効率的なアクティブ検索戦略を提案し、評価する。 提案手法は, 与えられたモデルの探索性能を著しく向上し, コンビネート問題に基づく機械学習手法よりも優れており, 容量付き車両経路問題において, 有名なヒューリスティックソルバ lkh3 を上回っている。 最後に、(効率的な)アクティブ検索により、学習したモデルが、トレーニング中に見たものよりもずっと大きいインスタンスを効果的に解決できることを示す。

Recently numerous machine learning based methods for combinatorial optimization problems have been proposed that learn to construct solutions in a sequential decision process via reinforcement learning. While these methods can be easily combined with search strategies like sampling and beam search, it is not straightforward to integrate them into a high-level search procedure offering strong search guidance. Bello et al. (2016) propose active search, which adjusts the weights of a (trained) model with respect to a single instance at test time using reinforcement learning. While active search is simple to implement, it is not competitive with state-of-the-art methods because adjusting all model weights for each test instance is very time and memory intensive. Instead of updating all model weights, we propose and evaluate three efficient active search strategies that only update a subset of parameters during the search. The proposed methods offer a simple way to significantly improve the search performance of a given model and outperform state-of-the-art machine learning based methods on combinatorial problems, even surpassing the well-known heuristic solver LKH3 on the capacitated vehicle routing problem. Finally, we show that (efficient) active search enables learned models to effectively solve instances that are much larger than those seen during training.
翻訳日:2021-06-10 15:18:37 公開日:2021-06-09
# 重み付きサンプルからのガウス混合推定

Gaussian Mixture Estimation from Weighted Samples ( http://arxiv.org/abs/2106.05109v1 )

ライセンス: Link先を確認
Daniel Frisch and Uwe D. Hanebeck(参考訳) ガウス混合密度のパラメータを、与えられた加重サンプルの集合を最もよく表す成分数で推定することを検討する。 重み付き成分を持つ連続領域上のディラック混合密度を離散的ディラック混合密度と見なして、サンプルの密度解釈を採用する。 したがって、ガウス混合フィッティングは密度再近似と見なされる。 計算を高速化するために,サンプル位置だけでなく,対応する重みも適切に考慮した予測最大化法を提案する。 文献の手法では重みを正しく扱えないことが示され、誤った推定がなされた。 これは単純な反例で示される。 提案手法は,非重み付きサンプルに対する標準ガウス混合推定器と同じ計算負荷の任意の次元で動作する。

We consider estimating the parameters of a Gaussian mixture density with a given number of components best representing a given set of weighted samples. We adopt a density interpretation of the samples by viewing them as a discrete Dirac mixture density over a continuous domain with weighted components. Hence, Gaussian mixture fitting is viewed as density re-approximation. In order to speed up computation, an expectation-maximiza tion method is proposed that properly considers not only the sample locations, but also the corresponding weights. It is shown that methods from literature do not treat the weights correctly, resulting in wrong estimates. This is demonstrated with simple counterexamples. The proposed method works in any number of dimensions with the same computational load as standard Gaussian mixture estimators for unweighted samples.
翻訳日:2021-06-10 15:18:14 公開日:2021-06-09
# 2層ニューラルネットワークにおけるハームレスオーバーパラメトリゼーション

Harmless Overparametrization in Two-layer Neural Networks ( http://arxiv.org/abs/2106.04795v1 )

ライセンス: Link先を確認
Huiyuan Wang and Wei Lin(参考訳) アクティブパラメータ数がサンプルサイズより大きい過パラメータ化されたニューラルネットワークは、現代のディープラーニングの実践において非常に効果的である。 しかし、古典的観点からは、最適推定と予測に十分であるパラメータははるかに少ないが、過パラメータ化は明示的な正規化が存在する場合でも有害である。 この矛盾を解消するために,超パラメータreluネットワークの一般化理論を,スケールド変分ノルムに基づく明示的正則化器を組み込むことで提示する。 興味深いことに、この正規化子は勾配に基づく最適化の角度からリッジと同値であるが、モデルの複雑さを制御する点で群lassoに似ている。 このリッジ-ラッソ双対性を利用して、オーバーパラメトリゼーションは一般に2層ReLUネットワークに無害であることを示す。 特に、過パラメトリゼーション推定器は対数係数まで極小最適である。 対照的に、超パラメータランダム特徴モデルは次元の呪いに苦しめられ、従って最適でないことを示した。

Overparametrized neural networks, where the number of active parameters is larger than the sample size, prove remarkably effective in modern deep learning practice. From the classical perspective, however, much fewer parameters are sufficient for optimal estimation and prediction, whereas overparametrization can be harmful even in the presence of explicit regularization. To reconcile this conflict, we present a generalization theory for overparametrized ReLU networks by incorporating an explicit regularizer based on the scaled variation norm. Interestingly, this regularizer is equivalent to the ridge from the angle of gradient-based optimization, but is similar to the group lasso in terms of controlling model complexity. By exploiting this ridge-lasso duality, we show that overparametrization is generally harmless to two-layer ReLU networks. In particular, the overparametrized estimators are minimax optimal up to a logarithmic factor. By contrast, we show that overparametrized random feature models suffer from the curse of dimensionality and thus are suboptimal.
翻訳日:2021-06-10 15:17:50 公開日:2021-06-09
# 統計的信頼を有するネットワーク上の拡散源同定

Diffusion Source Identification on Networks with Statistical Confidence ( http://arxiv.org/abs/2106.04800v1 )

ライセンス: Link先を確認
Quinlan Dawkins, Tianxi Li, Haifeng Xu(参考訳) ネットワーク上の拡散源の同定は、噂の制御やウイルスの識別を含む幅広い分野のアプリケーションにおいて、基本的な重要性の問題である。 この問題は近年大きな注目を集めているが、ほとんどの研究は極めて制限的な設定にのみ焦点を合わせており、より現実的なネットワークに対する理論的保証を欠いている。 拡散源同定のための統計的枠組みを導入し,仮説テストに着想を得た信頼セット推論手法を開発した。 提案手法は,ネットワーク構造に対する制約的な仮定を伴わずに,任意の信頼度でソースノードを確実にカバーするノードの小さなサブセットを効率よく生成する。 さらに,ネットワークトポロジに基づく推論手順と,スケーラビリティを著しく向上させる確率的特性に対して,マルチモンテカルロ戦略を提案する。 我々の知る限り、これは一般ネットワークにおける理論的保証として実用的に有用な最初の拡散源同定法である。 我々は,よく知られたランダムネットワークモデルと都市間のモビリティネットワークの広範な合成実験を通じて,このアプローチを実証する。

Diffusion source identification on networks is a problem of fundamental importance in a broad class of applications, including rumor controlling and virus identification. Though this problem has received significant recent attention, most studies have focused only on very restrictive settings and lack theoretical guarantees for more realistic networks. We introduce a statistical framework for the study of diffusion source identification and develop a confidence set inference approach inspired by hypothesis testing. Our method efficiently produces a small subset of nodes, which provably covers the source node with any pre-specified confidence level without restrictive assumptions on network structures. Moreover, we propose multiple Monte Carlo strategies for the inference procedure based on network topology and the probabilistic properties that significantly improve the scalability. To our knowledge, this is the first diffusion source identification method with a practically useful theoretical guarantee on general networks. We demonstrate our approach via extensive synthetic experiments on well-known random network models and a mobility network between cities concerning the COVID-19 spreading.
翻訳日:2021-06-10 15:17:33 公開日:2021-06-09
# コミュニティ検出のためのストリーミング信条伝播

Streaming Belief Propagation for Community Detection ( http://arxiv.org/abs/2106.04805v1 )

ライセンス: Link先を確認
Yuchen Wu, MohammadHossein Bateni, Andre Linhares, Filipe Miguel Goncalves de Almeida, Andrea Montanari, Ashkan Norouzi-Fard, Jakab Tardos(参考訳) コミュニティ検出問題では、ネットワークのノードを少数の親密な"コミュニティ"にクラスタ化する必要がある。 単純な確率的ブロックモデルに基づくコミュニティ検出の基本的な統計的限界を特徴づける手法が,近年かなり進歩している。 しかし、現実世界のアプリケーションでは、ネットワーク構造は通常動的であり、時間とともにノードが結合する。 この設定では、各ノードの到着時に限られた数の更新のみを実行するための検出アルゴリズムが望まれる。 標準的な投票手法はこの制約を満たすが、最適にネットワーク情報を利用するかどうかは不明である。 本稿では,ストリーミング確率ブロックモデル(StSBM)と呼ぶ,時間とともに成長するネットワークのシンプルなモデルを提案する。 このモデルでは、投票アルゴリズムには基本的な制限があることを示す。 また,ストリームBP (Stream belief-proagation) アプローチを開発し,一定の状況下で最適性を証明した。 合成および実データに関する理論的知見を検証する。

The community detection problem requires to cluster the nodes of a network into a small number of well-connected "communities". There has been substantial recent progress in characterizing the fundamental statistical limits of community detection under simple stochastic block models. However, in real-world applications, the network structure is typically dynamic, with nodes that join over time. In this setting, we would like a detection algorithm to perform only a limited number of updates at each node arrival. While standard voting approaches satisfy this constraint, it is unclear whether they exploit the network information optimally. We introduce a simple model for networks growing over time which we refer to as streaming stochastic block model (StSBM). Within this model, we prove that voting algorithms have fundamental limitations. We also develop a streaming belief-propagation (StreamBP) approach, for which we prove optimality in certain regimes. We validate our theoretical findings on synthetic and real data.
翻訳日:2021-06-10 15:17:16 公開日:2021-06-09
# 線形混合モデルに対するベイズブースティング

Bayesian Boosting for Linear Mixed Models ( http://arxiv.org/abs/2106.04862v1 )

ライセンス: Link先を確認
Boyao Zhang, Colin Griesbach, Cora Kim, Nadia M\"uller-Voggel, Elisabeth Bergherr(参考訳) ブースティング法は, 統計的学習において, 変数選択の特徴から高次元データを扱うために広く用いられている。 しかし、これらの手法には、分散や信頼区間などのパラメータの精度を推定する簡単な方法が欠けており、ベイズ推定のような従来の統計手法によって達成できる。 本稿では,線形混合モデルに対するブースティングとベイズモデルを組み合わせた,ランダム効果の不確かさ推定を可能にする新しい推定手法であるbayesboostを提案する。 一方, この手法は, ベイズ推論の欠点を克服し, 強化手法の利点を生かして, 共変量選択の厳密かつ曖昧なガイドラインを提示する。 ベイズ推論の実装は、条件付きAIC(cAIC)のようなモデル選択基準のランダム性をもたらすため、大域的な最小値ではなく安定化された領域に焦点を当てたcAICベースのモデル選択基準も提案する。 この新しいアプローチの有効性は、シミュレーションや、不快な音を聴きながら脳のメカニズムに焦点を当てた神経生理学の分野のデータ例を通して観察することができる。

Boosting methods are widely used in statistical learning to deal with high-dimensional data due to their variable selection feature. However, those methods lack straightforward ways to construct estimators for the precision of the parameters such as variance or confidence interval, which can be achieved by conventional statistical methods like Bayesian inference. In this paper, we propose a new inference method "BayesBoost" that combines boosting and Bayesian for linear mixed models to make the uncertainty estimation for the random effects possible on the one hand. On the other hand, the new method overcomes the shortcomings of Bayesian inference in giving precise and unambiguous guidelines for the selection of covariates by benefiting from boosting techniques. The implementation of Bayesian inference leads to the randomness of model selection criteria like the conditional AIC (cAIC), so we also propose a cAIC-based model selection criteria that focus on the stabilized regions instead of the global minimum. The effectiveness of the new approach can be observed via simulation and in a data example from the field of neurophysiology focussing on the mechanisms in the brain while listening to unpleasant sounds.
翻訳日:2021-06-10 15:17:03 公開日:2021-06-09
# 多項式魔法! プライベートデータ生成のためのエルマイト多項式

Polynomial magic! Hermite polynomials for private data generation ( http://arxiv.org/abs/2106.05042v1 )

ライセンス: Link先を確認
Mijung Park, Margarita Vinaroz, Mohammad-Amin Charusaie, Frederik Harder(参考訳) カーネル平均埋め込みは確率測度を比較するのに有用なツールである。 その有用性にもかかわらず、カーネル平均埋め込みは無限次元の特徴を考慮しており、微分的にプライベートなデータ生成の文脈では処理が困難である。 最近の研究は、有限次元のランダム特徴を用いたカーネル平均データ分布の埋め込みを近似し、特徴の感度を解析的に抽出できるようにする。 さらに重要なことに、このアプローチは、他の既知の民営化手法(DP-SGDなど)と比較して、プライバシコストを大幅に削減する。 しかし、要求されるランダムな特徴の数は過度に高く、しばしば1万から10万に増加し、近似カーネルの平均埋め込みの感度が悪化する。 感度を向上させるために,ランダムな特徴をHermite多項式の特徴に置き換えることを提案する。 ランダムな特徴とは異なり、Hermite多項式の特徴は順序づけられ、低次の特徴は高次の特徴よりも分布に関するより多くの情報を含んでいる。 したがって、比較的低い次数のエルミート多項式の特徴は、ランダムな特徴の数に比べてデータ分布の平均埋め込みをより正確に近似することができる。 その結果、Hermite多項式の特徴を用いて、複数の不均一な表型データセットと複数の画像ベンチマークデータセットでテストした場合、生成データの品質と多様性を反映したプライバシーと精度のトレードオフを大幅に改善した。

Kernel mean embedding is a useful tool to compare probability measures. Despite its usefulness, kernel mean embedding considers infinite-dimensional features, which are challenging to handle in the context of differentially private data generation. A recent work proposes to approximate the kernel mean embedding of data distribution using finite-dimensional random features, where the sensitivity of the features becomes analytically tractable. More importantly, this approach significantly reduces the privacy cost, compared to other known privatization methods (e.g., DP-SGD), as the approximate kernel mean embedding of the data distribution is privatized only once and can then be repeatedly used during training of a generator without incurring any further privacy cost. However, the required number of random features is excessively high, often ten thousand to a hundred thousand, which worsens the sensitivity of the approximate kernel mean embedding. To improve the sensitivity, we propose to replace random features with Hermite polynomial features. Unlike the random features, the Hermite polynomial features are ordered, where the features at the low orders contain more information on the distribution than those at the high orders. Hence, a relatively low order of Hermite polynomial features can more accurately approximate the mean embedding of the data distribution compared to a significantly higher number of random features. As a result, using the Hermite polynomial features, we significantly improve the privacy-accuracy trade-off, reflected in the high quality and diversity of the generated data, when tested on several heterogeneous tabular datasets, as well as several image benchmark datasets.
翻訳日:2021-06-10 15:16:45 公開日:2021-06-09
# EF21: 新しい、よりシンプルで、理論的に良く、より高速なエラーフィードバック

EF21: A New, Simpler, Theoretically Better, and Practically Faster Error Feedback ( http://arxiv.org/abs/2106.05203v1 )

ライセンス: Link先を確認
Peter Richt\'arik and Igor Sokolov and Ilyas Fatkhullin(参考訳) エラーフィードバック(EF、英: Error feedback)は、Top-$k$のような契約型通信圧縮機構を用いて強化された教師あり機械学習モデルの分散トレーニングにおいて、非常に一般的な収束安定化機構である。 seide et al (2014) によってヒューリスティックとして初めて提案されたefは、最近まで理論的な理解に抵抗した [stich et al., 2018, alistarh et al., 2018]。 しかし、i) 単一ノード設定のみに適用する、i) 勾配の大域的有界性のような非常に強く、しばしば不合理な仮定に依存する、または、a-プリオリをチェックできない反復的依存的な仮定、またはiii) 追加の非バイアス圧縮器を導入して通信コストを増大させる、これらの問題を回避できる。 この作業では、EF21と呼ばれる新しいEFメカニズムを提案し、分析することで、これらの欠陥をすべて修正します。 我々の理論分析は、標準仮定のみに依存し、分散異種データ設定で機能し、より良い、より有意義な速度をもたらす。 特に、ef21 が滑らかな非凸問題に対して高速な $o(1/t)$ 収束率を享受していることが証明され、境界勾配を仮定した $o(1/t^{2/3})$ の以前の限界を上回った。 我々はさらに,非バイアス圧縮機に依存しないef型手法における最初の線形収束結果であるpl関数の高速線形速度に改良する。 EFにはスプリームが支配する多くのアプリケーションがあるので、私たちの2021の変種であるEF21は、コミュニケーション効率のよい分散学習の実践に大きな影響を与えると信じています。

Error feedback (EF), also known as error compensation, is an immensely popular convergence stabilization mechanism in the context of distributed training of supervised machine learning models enhanced by the use of contractive communication compression mechanisms, such as Top-$k$. First proposed by Seide et al (2014) as a heuristic, EF resisted any theoretical understanding until recently [Stich et al., 2018, Alistarh et al., 2018]. However, all existing analyses either i) apply to the single node setting only, ii) rely on very strong and often unreasonable assumptions, such global boundedness of the gradients, or iterate-dependent assumptions that cannot be checked a-priori and may not hold in practice, or iii) circumvent these issues via the introduction of additional unbiased compressors, which increase the communication cost. In this work we fix all these deficiencies by proposing and analyzing a new EF mechanism, which we call EF21, which consistently and substantially outperforms EF in practice. Our theoretical analysis relies on standard assumptions only, works in the distributed heterogeneous data setting, and leads to better and more meaningful rates. In particular, we prove that EF21 enjoys a fast $O(1/T)$ convergence rate for smooth nonconvex problems, beating the previous bound of $O(1/T^{2/3})$, which was shown a bounded gradients assumption. We further improve this to a fast linear rate for PL functions, which is the first linear convergence result for an EF-type method not relying on unbiased compressors. Since EF has a large number of applications where it reigns supreme, we believe that our 2021 variant, EF21, can a large impact on the practice of communication efficient distributed learning.
翻訳日:2021-06-10 15:16:08 公開日:2021-06-09
# 可変損失関数によるGANの実現

Realizing GANs via a Tunable Loss Function ( http://arxiv.org/abs/2106.05232v1 )

ライセンス: Link先を確認
Gowtham R. Kurri, Tyler Sypherd, and Lalitha Sankar(参考訳) 我々は、様々な$f$-GANとIntegrated Probability Metric based GANs(制約付き判別器セットの下で)を補間する、$\alpha \in (0,\infty]$でパラメータ化された調整可能なGAN($\alpha$-GAN)を導入する。 教師付き損失関数、すなわち、調整可能な損失関数である$\alpha$-lossを用いて、$\alpha$-GANを構築する。 我々は、$\alpha$-GAN は、最初に \ "{O}sterriecher (1996) によって提案され、後に Liese と Vajda (2006) によって研究された有本発散と密接に関連していることを示す。 我々は、$\alpha$-GANを導入するという全体論的理解は、勾配の消失とモード崩壊の問題に対処する実用的な利益をもたらすと仮定する。

We introduce a tunable GAN, called $\alpha$-GAN, parameterized by $\alpha \in (0,\infty]$, which interpolates between various $f$-GANs and Integral Probability Metric based GANs (under constrained discriminator set). We construct $\alpha$-GAN using a supervised loss function, namely, $\alpha$-loss, which is a tunable loss function capturing several canonical losses. We show that $\alpha$-GAN is intimately related to the Arimoto divergence, which was first proposed by \"{O}sterriecher (1996), and later studied by Liese and Vajda (2006). We posit that the holistic understanding that $\alpha$-GAN introduces will have practical benefits of addressing both the issues of vanishing gradients and mode collapse.
翻訳日:2021-06-10 15:15:33 公開日:2021-06-09
# 抽出眼特徴に基づくニューラルアーキテクチャを用いた低分解能イメージングシステムにおける迷路推定の効率化

An Efficient Point of Gaze Estimator for Low-Resolution Imaging Systems Using Extracted Ocular Features Based Neural Architecture ( http://arxiv.org/abs/2106.05106v1 )

ライセンス: Link先を確認
Atul Sahay and Imon Mukherjee and Kavi Arya(参考訳) ユーザの目は、ヒューマン・コンピュータ・インタラクション(HCI)研究の手段として重要な手段を提供する。 視線の推定から、一定期間画面を見ているユーザーの注意力の測定まで、hci応用の利点は、時間とともに拡大している。 視線追跡システムは、身体障害者が補助的、対話的なツールとして組み込むことができ、限られたコミュニケーションのセットしか持たない人には最適である。 本論文の3つの目的は-1である。 目のさまざまな側面を眼の特徴セットとして学習し、Webカメラ等の低解像度のベースシステムを介して、画面上の11.31{\deg}視覚範囲に表示される9つの位置でユーザの視線を予測するニューラルネットワークベースのアーキテクチャを導入する。 2.3kのインスタンスセットを82.36%、f1_scoreが82.2%、f1_scoreが3.aの精度スコアで導出した21名(男性17名、女性4名)のユーザケーススタディでも検証される、リアルタイムに得られた粗い教師付き特徴集合の収集。 提案する視線追跡モデルの有効性と妥当性を実験的に検証した。

A user's eyes provide means for Human Computer Interaction (HCI) research as an important modal. The time to time scientific explorations of the eye has already seen an upsurge of the benefits in HCI applications from gaze estimation to the measure of attentiveness of a user looking at a screen for a given time period. The eye tracking system as an assisting, interactive tool can be incorporated by physically disabled individuals, fitted best for those who have eyes as only a limited set of communication. The threefold objective of this paper is - 1. To introduce a neural network based architecture to predict users' gaze at 9 positions displayed in the 11.31{\deg} visual range on the screen, through a low resolution based system such as a webcam in real time by learning various aspects of eyes as an ocular feature set. 2.A collection of coarsely supervised feature set obtained in real time which is also validated through the user case study presented in the paper for 21 individuals ( 17 men and 4 women ) from whom a 35k set of instances was derived with an accuracy score of 82.36% and f1_score of 82.2% and 3.A detailed study over applicability and underlying challenges of such systems. The experimental results verify the feasibility and validity of the proposed eye gaze tracking model.
翻訳日:2021-06-10 15:15:15 公開日:2021-06-09
# NeRFの詳細: ビュー合成のためのサンプルの学習

NeRF in detail: Learning to sample for view synthesis ( http://arxiv.org/abs/2106.05264v1 )

ライセンス: Link先を確認
Relja Arandjelovi\'c, Andrew Zisserman(参考訳) neural radiance fields (nerf) 法は印象的な新規なビュー合成性能を示している。 中心となるアプローチは、ニューラルネットワークを光線に沿ってサンプリングされた点にクエリして、サンプリングされた点の密度と色を取得し、この情報をレンダリング方程式を用いて統合することである。 密度サンプリングは計算的に禁止されているため、粗大なサンプリングを行うのが一般的な方法である。 この作業では、バニラ粗大なアプローチの明確な制限に対処します -- ヒューリスティックで、手元にあるタスクのエンドツーエンドをトレーニングしていないことに基づいています。 本稿では、サンプルの提案とそのネットワークにおける重要性を学習し、そのニューラルアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを提案する。 提案モジュールをスクラッチからトレーニングすることは、監督の欠如により不安定になり得るため、効果的な事前訓練戦略も推進される。 NeRF-ID(NeRF in detail)と呼ばれるこの手法は、NeRFとBlenderベンチマークの最先端技術、および実際のLLFF-NeRFのシーンにおける同等以上のパフォーマンスを実現する。 さらに、予測されたサンプル重要度を活用することにより、レンダリング品質を著しく犠牲にすることなく、25%の計算の節約が達成できる。

Neural radiance fields (NeRF) methods have demonstrated impressive novel view synthesis performance. The core approach is to render individual rays by querying a neural network at points sampled along the ray to obtain the density and colour of the sampled points, and integrating this information using the rendering equation. Since dense sampling is computationally prohibitive, a common solution is to perform coarse-to-fine sampling. In this work we address a clear limitation of the vanilla coarse-to-fine approach -- that it is based on a heuristic and not trained end-to-end for the task at hand. We introduce a differentiable module that learns to propose samples and their importance for the fine network, and consider and compare multiple alternatives for its neural architecture. Training the proposal module from scratch can be unstable due to lack of supervision, so an effective pre-training strategy is also put forward. The approach, named `NeRF in detail' (NeRF-ID), achieves superior view synthesis quality over NeRF and the state-of-the-art on the synthetic Blender benchmark and on par or better performance on the real LLFF-NeRF scenes. Furthermore, by leveraging the predicted sample importance, a 25% saving in computation can be achieved without significantly sacrificing the rendering quality.
翻訳日:2021-06-10 15:14:52 公開日:2021-06-09
# キャッチフレーズ:文化参照の自動検出

Catchphrase: Automatic Detection of Cultural References ( http://arxiv.org/abs/2106.04830v1 )

ライセンス: Link先を確認
Nir Sweed, Dafna Shahaf(参考訳) snowcloneはカスタマイズ可能なphrasalテンプレートで、複数の認識されたバリエーションで実現することができる。 例えば ``* is the new *" (Orange is the new black, 40 is the new 30)。 スノークロスはソーシャルメディアで広く使われている。 本稿では,pop-culture quotesを起源とするスノークローネについて検討し,テキスト中の文化参照を自動的に検出することを目的としている。 我々は,ポップカルチャーの引用文とそれに対応するスノークローンの使用状況とトレーニングモデルの新しい公開データセットを紹介する。 リアルタイムに参照を自動的に検出してマークするインターネットブラウザプラグインであるcatchphraseのコードを公開し,そのパフォーマンスをユーザスタディで検証する。 文化的な参照をよりよく理解できるように支援する以外に、雪だるまの検出はパラフレーズ化の仕事を補完し、情報伝達のダイナミクスに関する社会科学における長年の課題に取り組むのに役立つことを願っている。

A snowclone is a customizable phrasal template that can be realized in multiple, instantly recognized variants. For example, ``* is the new *" (Orange is the new black, 40 is the new 30). Snowclones are extensively used in social media. In this paper, we study snowclones originating from pop-culture quotes; our goal is to automatically detect cultural references in text. We introduce a new, publicly available data set of pop-culture quotes and their corresponding snowclone usages and train models on them. We publish code for Catchphrase, an internet browser plugin to automatically detect and mark references in real-time, and examine its performance via a user study. Aside from assisting people to better comprehend cultural references, we hope that detecting snowclones can complement work on paraphrasing and help to tackle long-standing questions in social science about the dynamics of information propagation.
翻訳日:2021-06-10 15:14:06 公開日:2021-06-09
# MICE:マレー語、インドネシア語、中国語、英語の多言語感情コーパス

MICE: A Crosslinguistic Emotion Corpus in Malay, Indonesian, Chinese and English ( http://arxiv.org/abs/2106.04831v1 )

ライセンス: Link先を確認
Ng Bee Chin, Yosephine Susanto and Erik Cambria(参考訳) MICEは、現在進行中の4つの言語における感情語コーパスである。 本研究には,感情語コーパスと感情語サーベイの2つのセクションがある。 第1部では、各4言語について感情データがどのように培養されるかを説明し、非常に予備的なデータを提示する。 インドネシア語では6,657人,中国語では3,347人,英語では8,683人であった。 現在、コーパスの評価と二重チェックを行い、これらの感情表現の分布についてさらなる分析を行っている。 第2部 感情語調査は、オンライン言語調査で、話者が感情語を基本的な感情カテゴリに割り当てた方法、価値と強度の評価、そして全ての回答者の伝記情報を集めた。

MICE is a corpus of emotion words in four languages which is currently working progress. There are two sections to this study, Part I: Emotion word corpus and Part II: Emotion word survey. In Part 1, the method of how the emotion data is culled for each of the four languages will be described and very preliminary data will be presented. In total, we identified 3,750 emotion expressions in Malay, 6,657 in Indonesian, 3,347 in Mandarin Chinese and 8,683 in English. We are currently evaluating and double checking the corpus and doing further analysis on the distribution of these emotion expressions. Part II Emotion word survey involved an online language survey which collected information on how speakers assigned the emotion words into basic emotion categories, the rating for valence and intensity as well as biographical information of all the respondents.
翻訳日:2021-06-10 15:13:48 公開日:2021-06-09
# Fragmented and Valuable: 食品ツイートの感傷的変化に続き

Fragmented and Valuable: Following Sentiment Changes in Food Tweets ( http://arxiv.org/abs/2106.04903v1 )

ライセンス: Link先を確認
Maija K\=ale and Mat\=iss Rikters(参考訳) ラトビア語における食のツイートで表される匂い、味、温度に関する感情と頻度を分析した。 食品関係のメンタルマップにおける味覚・味覚・温度の役割をより深く把握するために, 相互排他的であることが判明した「味」や「健康」といったカテゴリーを検討した。 これらのカテゴリーに関連する単語の発生頻度を解析した結果,食品の談話全体は「味」によって浸透し,「健康」のカテゴリーは比較的小さかった。 最後に,食事のツイートに反映される匂い,味覚,温度の季節性などの時間的側面を追跡できるかどうかを,時間的ダイナミクスの分析で確認した。 食事ツイートにおける嗅覚・味覚・温度に関するソーシャルメディアコンテンツの構成を理解することで、食品文化・季節性・温度との関係、嗅覚関連感情の表現能力の制限、食事の健康性に関する議論における味覚のパラダイムの欠如といった研究をさらに発展させることができる。

We analysed sentiment and frequencies related to smell, taste and temperature expressed by food tweets in the Latvian language. To get a better understanding of the role of smell, taste and temperature in the mental map of food associations, we looked at such categories as 'tasty' and 'healthy', which turned out to be mutually exclusive. By analysing the occurrence frequency of words associated with these categories, we discovered that food discourse overall was permeated by `tasty' while the category of 'healthy' was relatively small. Finally, we used the analysis of temporal dynamics to see if we can trace seasonality or other temporal aspects in smell, taste and temperature as reflected in food tweets. Understanding the composition of social media content with relation to smell, taste and temperature in food tweets allows us to develop our work further - on food culture/seasonality and its relation to temperature, on our limited capacity to express smell-related sentiments, and the lack of the paradigm of taste in discussing food healthiness.
翻訳日:2021-06-10 15:13:34 公開日:2021-06-09
# 自然言語処理を用いた短い会話文の自動タグ付け

Auto-tagging of Short Conversational Sentences using Natural Language Processing Methods ( http://arxiv.org/abs/2106.04959v1 )

ライセンス: Link先を確認
\c{S}\"ukr\"u Ozan, D. Emre Ta\c{s}ar(参考訳) 本研究では,ドメイン固有の文を自動的にタグ付けする手法を提案する。 トレーニングデータは、企業の顧客代表者とウェブサイト訪問者とのチャットから抽出された短い会話文からなる。 約14万の訪問者入力を10の基本的なカテゴリに手作業でタグ付けし,その後,有意義な対話を生成可能なチャットボットアプリケーションの開発という究極の目標に向けて,トランスフォーマーベースの言語モデルで使用する予定だ。 我々は3つの異なる最先端モデルを検討し,自動タグ付け機能を報告した。 変換器(BERT)モデルによる双方向エンコーダ表現で最高の性能を実現した。 これらの実験で使用されるモデルの実装は、GitHubリポジトリからクローンすることができ、同様の自動タグ問題に対して、多くの労力なしでテストできます。

In this study, we aim to find a method to auto-tag sentences specific to a domain. Our training data comprises short conversational sentences extracted from chat conversations between company's customer representatives and web site visitors. We manually tagged approximately 14 thousand visitor inputs into ten basic categories, which will later be used in a transformer-based language model with attention mechanisms for the ultimate goal of developing a chatbot application that can produce meaningful dialogue. We considered three different state-of-the-art models and reported their auto-tagging capabilities. We achieved the best performance with the bidirectional encoder representation from transformers (BERT) model. Implementation of the models used in these experiments can be cloned from our GitHub repository and tested for similar auto-tagging problems without much effort.
翻訳日:2021-06-10 15:13:15 公開日:2021-06-09
# パーソナリティ検出のための心理言語三部グラフネットワーク

Psycholinguistic Tripartite Graph Network for Personality Detection ( http://arxiv.org/abs/2106.04963v1 )

ライセンス: Link先を確認
Tao Yang, Feifan Yang, Haolan Ouyang, Xiaojun Quan(参考訳) オンライン投稿からの人格検出に関する最近の研究の多くは、多言語的なディープニューラルネットワークを採用して、自分の言語使用と心理的特徴とのつながりを明らかにする可能性のある精神言語的知識を活用せずに、ポストを表現し、データ駆動で予測モデルを構築する。 本稿では,三部グラフネットワークとBERTグラフ初期化器からなる心理言語的知識に基づく三部グラフネットワークTrigNetを提案する。 グラフネットワークは、異種三部グラフを構築することによって、心理言語解析のためのコンピュータ機器liwcから構造心理学的知識を注入する。 グラフ初期化子は、グラフノードの初期埋め込みを提供するために使用される。 グラフ学習における計算コストを削減するため,三部グラフ内の隣接する相手間でのみメッセージを送信する新しいフローグラフアテンションネットワーク(GAT)を提案する。 tripartite graphの恩恵を受けたtrignetは、ドメイン知識を利用する新しい方法である心理的な観点から、ポスト情報を集約することができる。 2つのデータセットの大規模な実験により、TrigNetは既存の最先端モデルを平均F1で3.47と2.10ポイント上回っている。 さらに、フローgatは、設定時の元のgatと比較して、フロップおよびメモリ測度をそれぞれ38%および32%削減する。

Most of the recent work on personality detection from online posts adopts multifarious deep neural networks to represent the posts and builds predictive models in a data-driven manner, without the exploitation of psycholinguistic knowledge that may unveil the connections between one's language usage and his psychological traits. In this paper, we propose a psycholinguistic knowledge-based tripartite graph network, TrigNet, which consists of a tripartite graph network and a BERT-based graph initializer. The graph network injects structural psycholinguistic knowledge from LIWC, a computerized instrument for psycholinguistic analysis, by constructing a heterogeneous tripartite graph. The graph initializer is employed to provide initial embeddings for the graph nodes. To reduce the computational cost in graph learning, we further propose a novel flow graph attention network (GAT) that only transmits messages between neighboring parties in the tripartite graph. Benefiting from the tripartite graph, TrigNet can aggregate post information from a psychological perspective, which is a novel way of exploiting domain knowledge. Extensive experiments on two datasets show that TrigNet outperforms the existing state-of-art model by 3.47 and 2.10 points in average F1. Moreover, the flow GAT reduces the FLOPS and Memory measures by 38% and 32%, respectively, in comparison to the original GAT in our setting.
翻訳日:2021-06-10 15:13:03 公開日:2021-06-09
# 野生におけるテキストからSQL:スタック交換データに基づく自然発生データセット

Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack Exchange Data ( http://arxiv.org/abs/2106.05006v1 )

ライセンス: Link先を確認
Moshe Hazoom, Vibhor Malik and Ben Bogin(参考訳) 自然言語理解システムの訓練と評価のためだけに,自然発話と論理形態のペアからなる,最も利用可能な意味構文解析データセットが収集された。 結果として、人間が必要とするデータや興味のあるデータについて尋ねる自然な発話の豊かさや多様性は一切含まない。 本研究では,Stack ExchangeのWebサイトで実際の使用状況から収集した12,023対の発話とSQLクエリを備えたデータセットであるSEDEをリリースする。 これらのペアには、他のセマンティック解析データセットにはほとんど反映されていない様々な現実的課題が含まれており、実世界のクエリにより適した部分的クエリ節の比較に基づく評価基準を提案し、SEDEの性能と他の一般的なデータセットとの差が大きいことを示す。

Most available semantic parsing datasets, comprising of pairs of natural utterances and logical forms, were collected solely for the purpose of training and evaluation of natural language understanding systems. As a result, they do not contain any of the richness and variety of natural-occurring utterances, where humans ask about data they need or are curious about. In this work, we release SEDE, a dataset with 12,023 pairs of utterances and SQL queries collected from real usage on the Stack Exchange website. We show that these pairs contain a variety of real-world challenges which were rarely reflected so far in any other semantic parsing dataset, propose an evaluation metric based on comparison of partial query clauses that is more suitable for real-world queries, and conduct experiments with strong baselines, showing a large gap between the performance on SEDE compared to other common datasets.
翻訳日:2021-06-10 15:12:43 公開日:2021-06-09
# 顧客関係管理ソフトウェアにおける自然言語処理技術の利用に関する事例研究

Case Studies on using Natural Language Processing Techniques in Customer Relationship Management Software ( http://arxiv.org/abs/2106.05160v1 )

ライセンス: Link先を確認
\c{S}\"ukr\"u Ozan(参考訳) 顧客関係管理(CRM)データベースに格納されたテキストコーパスは、データマイニングやセグメンテーションにどのように使用できるのか? この質問に答えるために、我々は自然言語処理(nlp)の文学、例えば単語埋め込み、そしてrecurrent neural networks(rnn)のようなディープラーニングの文学で一般的に使われる技術手法の状態を継承した。 我々は,2009年から2020年の間に,インターネット広告コンサルタント代理店の顧客代表者によって取られたCRMシステムからのテキストを使用。 我々は、対応するテキストコーパスを用いて単語埋め込みを訓練し、これらの単語埋め込みが直接データマイニングに使用できるだけでなく、long short term memory(lstm)ユニットで構築されたディープラーニングフレームワークであるrnnアーキテクチャでもより包括的なセグメンテーション目的に使用できることを示した。 その結果、CRMの構造化されたテキストデータは、非常に貴重な情報をマイニングするために利用でき、問題定義が適切に構築され、ソリューションメソッドが便利に実装されたら、CRMは有用なNLP機能を備えることができることが証明された。

How can a text corpus stored in a customer relationship management (CRM) database be used for data mining and segmentation? In order to answer this question we inherited the state of the art methods commonly used in natural language processing (NLP) literature, such as word embeddings, and deep learning literature, such as recurrent neural networks (RNN). We used the text notes from a CRM system which are taken by customer representatives of an internet ads consultancy agency between years 2009 and 2020. We trained word embeddings by using the corresponding text corpus and showed that these word embeddings can not only be used directly for data mining but also be used in RNN architectures, which are deep learning frameworks built with long short term memory (LSTM) units, for more comprehensive segmentation objectives. The results prove that structured text data in a CRM can be used to mine out very valuable information and any CRM can be equipped with useful NLP features once the problem definitions are properly built and the solution methods are conveniently implemented.
翻訳日:2021-06-10 15:12:29 公開日:2021-06-09
# 言語間指導強化による自然言語理解のための多言語表現の学習

Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision ( http://arxiv.org/abs/2106.05166v1 )

ライセンス: Link先を確認
Yinpeng Guo, Liangyou Li, Xin Jiang and Qun Liu(参考訳) 近年,自然言語処理の重要課題である多言語表現の学習において,事前学習型多言語モデルが大きな可能性を秘めている。 先行作品は一般的に、tlm(conneau and lample, 2019)に続く単一の混合注意(ma)モジュールを使用して、言語内および言語間における文脈を等価かつ同時に対応している。 本稿では,MAの代替として,DA(Decomposed attention)と呼ばれるネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成され、それぞれ言語内および言語間監督をモデル化する。 さらに,学習中の言語適応型再重み付け戦略を導入し,モデルの性能をさらに向上させる。 様々な言語間自然言語理解(NLU)タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。

Recently, pre-training multilingual language models has shown great potential in learning multilingual representation, a crucial topic of natural language processing. Prior works generally use a single mixed attention (MA) module, following TLM (Conneau and Lample, 2019), for attending to intra-lingual and cross-lingual contexts equivalently and simultaneously. In this paper, we propose a network named decomposed attention (DA) as a replacement of MA. The DA consists of an intra-lingual attention (IA) and a cross-lingual attention (CA), which model intralingual and cross-lingual supervisions respectively. In addition, we introduce a language-adaptive re-weighting strategy during training to further boost the model's performance. Experiments on various cross-lingual natural language understanding (NLU) tasks show that the proposed architecture and learning strategy significantly improve the model's cross-lingual transferability.
翻訳日:2021-06-10 15:12:09 公開日:2021-06-09
# 教師は何をするのか? 将来の講演の予測

What Would a Teacher Do? Predicting Future Talk Moves ( http://arxiv.org/abs/2106.05249v1 )

ライセンス: Link先を確認
Ananya Ganesh, Martha Palmer, and Katharina Kann(参考訳) 自然言語処理(NLP)の最近の進歩は、教室での学習の仕方を変える能力を持っている。 今日の教室における技術統合の増大と合わせて、質問応答と対話処理技術を活用したNLPシステムは、生徒のエンゲージメントと学習を促進するために、教室の議論に参加する個人教師や参加者として機能する。 この目標に向けて,学業生産型講演(APT)の授業談話フレームワークを用いて,最高の学習体験を実現するための戦略を学習する。 本稿では,新たなタスクであるfuture talk move prediction(ftmp)について紹介する。このタスクは,対話の履歴と対応する会話の移動について,aptの発話戦略であるnext talk moveを予測することによって構成する。 さらに、このタスクのニューラルネットワークモデルを導入し、複数のベースラインを大きなマージンで上回ります。 最後に、FTMPにおけるモデルの性能と人的性能を比較し、両者の類似点をいくつか示す。

Recent advances in natural language processing (NLP) have the ability to transform how classroom learning takes place. Combined with the increasing integration of technology in today's classrooms, NLP systems leveraging question answering and dialog processing techniques can serve as private tutors or participants in classroom discussions to increase student engagement and learning. To progress towards this goal, we use the classroom discourse framework of academically productive talk (APT) to learn strategies that make for the best learning experience. In this paper, we introduce a new task, called future talk move prediction (FTMP): it consists of predicting the next talk move -- an utterance strategy from APT -- given a conversation history with its corresponding talk moves. We further introduce a neural network model for this task, which outperforms multiple baselines by a large margin. Finally, we compare our model's performance on FTMP to human performance and show several similarities between the two.
翻訳日:2021-06-10 15:11:54 公開日:2021-06-09
# sharp: ゆるい服装の人々の形状認識再構築

SHARP: Shape-Aware Reconstruction of People In Loose Clothing ( http://arxiv.org/abs/2106.04778v1 )

ライセンス: Link先を確認
Sai Sagar Jinka, Rohan Chacko, Astitva Srivastava, Avinash Sharma, P.J. Narayanan(参考訳) 単眼画像からの3次元人体再構築は、コンピュータビジョンにおいて興味深い問題であり、複数の領域で広く応用されている。 本稿では,モノクロ画像から,ゆるい服装の3D人物の詳細な形状と外観を正確に復元する,エンドツーエンドのトレーニング可能なネットワークであるSHARPを提案する。 本研究では,布モデルの非パラメトリックピール深度マップ表現に先立って,パラメトリック物体の分散かつ効率的な融合を提案する。 パラメトリックボディは2つの方法でモデルに制約を課す: まず、ネットワークは衣服に拘束されない幾何学的に一貫した身体部分を保持し、次に、剥離した深度マップの予測を改善する身体形状コンテキストを提供する。 これにより、入力画像が与えられた場合、SHARPは2Dマップ上でのL1ロスだけで、きめ細かな3D幾何学的詳細を復元できる。 公開されているClos3DおよびTHumanデータセット上でSHARPを評価し、最先端のアプローチに優れた性能を報告した。

3D human body reconstruction from monocular images is an interesting and ill-posed problem in computer vision with wider applications in multiple domains. In this paper, we propose SHARP, a novel end-to-end trainable network that accurately recovers the detailed geometry and appearance of 3D people in loose clothing from a monocular image. We propose a sparse and efficient fusion of a parametric body prior with a non-parametric peeled depth map representation of clothed models. The parametric body prior constraints our model in two ways: first, the network retains geometrically consistent body parts that are not occluded by clothing, and second, it provides a body shape context that improves prediction of the peeled depth maps. This enables SHARP to recover fine-grained 3D geometrical details with just L1 losses on the 2D maps, given an input image. We evaluate SHARP on publicly available Cloth3D and THuman datasets and report superior performance to state-of-the-art approaches.
翻訳日:2021-06-10 15:11:38 公開日:2021-06-09
# 歪んだリファインメントによるポイントクラウドアップサンプリング

Point Cloud Upsampling via Disentangled Refinement ( http://arxiv.org/abs/2106.04779v1 )

ライセンス: Link先を確認
Ruihui Li, Xianzhi Li, Pheng-Ann Heng, and Chi-Wing Fu(参考訳) 3Dスキャンによって生成された点雲は、しばしばスパース、非均一、ノイズである。 最近のアップサンプリング手法は、分布の均一性と近接面の両面を達成しつつ、高密度な点集合を1つのネットワークで生成することを目的としている。 タスクを再考した後、その多目的性に基づいてタスクを切り離し、2つのカスケードサブネットワーク、高密度ジェネレータ、空間精錬器を定式化する。 高密度発生器は底面を大まかに記述した粗いが濃密な出力を推定し、空間精製器は各点の位置を調整して粗い出力をさらに微調整する。 具体的には,粗い特徴マップを進化させるために,局所的および大域的精錬単位を空間的精錬器で設計する。 また,空間精錬機では,各点オフセットベクトルを回帰して粗い出力を微調整する。 合成データと実スキャンデータの両方の定性的および定量的な結果から,本手法の最先端性を示す。

Point clouds produced by 3D scanning are often sparse, non-uniform, and noisy. Recent upsampling approaches aim to generate a dense point set, while achieving both distribution uniformity and proximity-to-surface , and possibly amending small holes, all in a single network. After revisiting the task, we propose to disentangle the task based on its multi-objective nature and formulate two cascaded sub-networks, a dense generator and a spatial refiner. The dense generator infers a coarse but dense output that roughly describes the underlying surface, while the spatial refiner further fine-tunes the coarse output by adjusting the location of each point. Specifically, we design a pair of local and global refinement units in the spatial refiner to evolve a coarse feature map. Also, in the spatial refiner, we regress a per-point offset vector to further adjust the coarse outputs in fine-scale. Extensive qualitative and quantitative results on both synthetic and real-scanned datasets demonstrate the superiority of our method over the state-of-the-arts.
翻訳日:2021-06-10 15:11:23 公開日:2021-06-09
# 認識指向顔画像品質評価のための深部微小ネットワーク

Deep Tiny Network for Recognition-Oriented Face Image Quality Assessment ( http://arxiv.org/abs/2106.04852v1 )

ライセンス: Link先を確認
Baoyun Peng, Min Liu, Heng Yang, Zhaoning Zhang, Dongsheng Li(参考訳) 近年の顔認識は、深層畳み込みニューラルネットワーク(CNN)によって大きな進歩を遂げている。 多くの顔認識(FR)のシナリオでは、顔画像は大きな変分を含むシーケンスから取得される。 これらの変化は、主に低品質の顔画像に影響され、認識性能の不安定性を引き起こす。 これまで、ビデオからフレームを選択するアドホックな方法や、複数の歪みの特定の組み合わせのみを考慮に入れた顔画像品質評価(fiqa)手法に重点を置いてきた。 本研究では,画像品質評価 (iqa) とfrを直接リンクする,効率的な非参照画像品質評価手法を提案する。 より具体的には、参照することなく画質を評価するための新しい測定方法を提案する。 提案した品質測定に基づいて,データから品質予測関数を学習する深層顔品質ネットワーク(tinyFQnet)を提案する。 IJB-B と YTF という2つの古典的ビデオベース(テンプレートベース)のベンチマークで提案手法の評価を行った。 大規模な実験により, 小型FQnetは他よりもはるかに小さいが, 提案手法は, 有効性および効率性の観点から, 最先端品質評価法より優れていることがわかった。

Face recognition has made significant progress in recent years due to deep convolutional neural networks (CNN). In many face recognition (FR) scenarios, face images are acquired from a sequence with huge intra-variations. These intra-variations, which are mainly affected by the low-quality face images, cause instability of recognition performance. Previous works have focused on ad-hoc methods to select frames from a video or use face image quality assessment (FIQA) methods, which consider only a particular or combination of several distortions. In this work, we present an efficient non-reference image quality assessment for FR that directly links image quality assessment (IQA) and FR. More specifically, we propose a new measurement to evaluate image quality without any reference. Based on the proposed quality measurement, we propose a deep Tiny Face Quality network (tinyFQnet) to learn a quality prediction function from data. We evaluate the proposed method for different powerful FR models on two classical video-based (or template-based) benchmark: IJB-B and YTF. Extensive experiments show that, although the tinyFQnet is much smaller than the others, the proposed method outperforms state-of-the-art quality assessment methods in terms of effectiveness and efficiency.
翻訳日:2021-06-10 15:11:04 公開日:2021-06-09
# 群同変畳み込みにおける学習対称性の爆発

Exploiting Learned Symmetries in Group Equivariant Convolutions ( http://arxiv.org/abs/2106.04914v1 )

ライセンス: Link先を確認
Attila Lengyel, Jan C. van Gemert(参考訳) 群同変畳み込み(gconvs)は、畳み込みニューラルネットワークを様々な変換群に同変させることができるが、追加のパラメータと計算コストで実現できる。 本稿では,gconvsが学習したフィルタパラメータを調査し,その条件が高度に冗長になることを示す。 GConvsは, 等分散性を保ちながら, 奥行き分離可能な畳み込みに効率的に分解でき, 2つのデータセットの性能とデータ効率が向上することを示す。 すべてのコードはgithub.com/Attila94/ SepGrouPyで公開されている。

Group Equivariant Convolutions (GConvs) enable convolutional neural networks to be equivariant to various transformation groups, but at an additional parameter and compute cost. We investigate the filter parameters learned by GConvs and find certain conditions under which they become highly redundant. We show that GConvs can be efficiently decomposed into depthwise separable convolutions while preserving equivariance properties and demonstrate improved performance and data efficiency on two datasets. All code is publicly available at github.com/Attila94/ SepGrouPy.
翻訳日:2021-06-10 15:10:46 公開日:2021-06-09
# 自己教師付き機能強化: 教師付き学習への内部プリテキストタスクの適用

Self-supervised Feature Enhancement: Applying Internal Pretext Task to Supervised Learning ( http://arxiv.org/abs/2106.04921v1 )

ライセンス: Link先を確認
Yuhang Yang, Zilin Ding, Xuan Cheng, Xiaomin Wang, Ming Liu(参考訳) 従来の自己教師付き学習では、高レベルのセマンティックな視覚表現をエンコードするために、外部のプリテキストタスク(画像またはビデオベースのタスク)を使用するCNNが必要である。 本稿では,CNN内の特徴変換を,自己教師型タスクである「emph{internal pretext task」を構築するための監視信号とみなすことができることを示す。 そして、このようなタスクを教師付き学習の強化に適用することができる。 具体的には、まず異なるチャネルを破棄して内部特徴マップを変換し、その後、破棄されたチャネルを識別するための追加の内部前提タスクを定義する。 CNNは、自己監督ラベルとオリジナルラベルの組み合わせによって生成されるジョイントラベルを予測するために訓練される。 そうすることで、よりリッチな機能情報のマイニングを期待しながら、どのチャネルが欠けているのかをCNNに知らせることができます。 広範な実験により、我々のアプローチは様々なモデルやデータセットに有効であることが示された。 そして、無視できる計算オーバーヘッドしか発生していないことに注意してください。 さらに、我々の手法は他の手法と互換性があり、より良い結果が得られる。

Traditional self-supervised learning requires CNNs using external pretext tasks (i.e., image- or video-based tasks) to encode high-level semantic visual representations. In this paper, we show that feature transformations within CNNs can also be regarded as supervisory signals to construct the self-supervised task, called \emph{internal pretext task}. And such a task can be applied for the enhancement of supervised learning. Specifically, we first transform the internal feature maps by discarding different channels, and then define an additional internal pretext task to identify the discarded channels. CNNs are trained to predict the joint labels generated by the combination of self-supervised labels and original labels. By doing so, we let CNNs know which channels are missing while classifying in the hope to mine richer feature information. Extensive experiments show that our approach is effective on various models and datasets. And it's worth noting that we only incur negligible computational overhead. Furthermore, our approach can also be compatible with other methods to get better results.
翻訳日:2021-06-10 15:10:36 公開日:2021-06-09
# 教師付き学習をさらに改善するための機能変換の自己監督

Self-supervision of Feature Transformation for Further Improving Supervised Learning ( http://arxiv.org/abs/2106.04922v1 )

ライセンス: Link先を確認
Zilin Ding, Yuhang Yang, Xuan Cheng, Xiaomin Wang, Ming Liu(参考訳) 近年,ラベルの自動構築による自己教師付き学習が,教師付き学習の強化に応用されている。 従来の自己教師付きプリテキストタスクは入力に基づいているため、追加のトレーニングオーバーヘッドが発生する可能性がある。 本稿では,CNNの機能を自己スーパービジョンにも活用できることを見出した。 したがって、少量のトレーニングオーバーヘッドだけを必要とする \emph{feature-based pretext task} を創造的に設計する。 私たちのタスクでは、さまざまな機能領域を捨てて、これらの異なる機能を区別するためにモデルをトレーニングします。 また,教師付き学習における機能ベースプリテキストタスクを十分に活用するために,マルチクラス化子を含む新しい学習フレームワークを提案する。 オリジナルレーベルは機能変換の自己監督を通じてジョイントレーベルに拡張される。 自己管理タスクによって提供されるセマンティック情報により、このアプローチはCNNをより効果的に訓練することができる。 様々な教師付き学習タスクに関する広範囲な実験により,本手法の精度向上と幅広い適用性が示された。

Self-supervised learning, which benefits from automatically constructing labels through pre-designed pretext task, has recently been applied for strengthen supervised learning. Since previous self-supervised pretext tasks are based on input, they may incur huge additional training overhead. In this paper we find that features in CNNs can be also used for self-supervision. Thus we creatively design the \emph{feature-based pretext task} which requires only a small amount of additional training overhead. In our task we discard different particular regions of features, and then train the model to distinguish these different features. In order to fully apply our feature-based pretext task in supervised learning, we also propose a novel learning framework containing multi-classifiers for further improvement. Original labels will be expanded to joint labels via self-supervision of feature transformations. With more semantic information provided by our self-supervised tasks, this approach can train CNNs more effectively. Extensive experiments on various supervised learning tasks demonstrate the accuracy improvement and wide applicability of our method.
翻訳日:2021-06-10 15:10:21 公開日:2021-06-09
# リアルタイムエゴセントリックオブジェクトセグメンテーション: thu-readラベリングとベンチマーク結果

Real Time Egocentric Object Segmentation: THU-READ Labeling and Benchmarking Results ( http://arxiv.org/abs/2106.04957v1 )

ライセンス: Link先を確認
E. Gonzalez-Sosa, G. Robledo, D. Gonzalez-Morin, P. Perez-Garcia and A. Villegas(参考訳) エゴセントリックセグメンテーションは、mr(mixed reality)アプリケーションの可能性から、コンピュータビジョンコミュニティの近年の関心を集めている。 以前の作品の多くは、自我中心の人体の部分(主に手)の分割に焦点が当てられていたが、自我中心の物体にはほとんど注意が払われていない。 そこで本稿では,RGB-D THU-READデータセットから2124個の画像のサブセットを意味的にラベル付けする手法を提案する。 また,リアルタイムセマンティックセグメンテーションネットワークであるThundernetによるベンチマーク結果を報告する。

Egocentric segmentation has attracted recent interest in the computer vision community due to their potential in Mixed Reality (MR) applications. While most previous works have been focused on segmenting egocentric human body parts (mainly hands), little attention has been given to egocentric objects. Due to the lack of datasets of pixel-wise annotations of egocentric objects, in this paper we contribute with a semantic-wise labeling of a subset of 2124 images from the RGB-D THU-READ Dataset. We also report benchmarking results using Thundernet, a real-time semantic segmentation network, that could allow future integration with end-to-end MR applications.
翻訳日:2021-06-10 15:10:05 公開日:2021-06-09
# 画像分類のための有意位置に基づく注意ネットワーク

Salient Positions based Attention Network for Image Classification ( http://arxiv.org/abs/2106.04996v1 )

ライセンス: Link先を確認
Sheng Fang, Kaiyu Li, Zhe Li(参考訳) セルフ・アテンション・メカニズムは、長期依存のモデリングの最も重要な利点とコンピュータビジョンのタスクのバリエーションから広く注目を集めており、非局所ブロックは入力特徴マップのグローバル依存のモデル化を試みる。 グローバルなコンテキスト情報を集めるには、この数年間で広く研究されてきた膨大な量のメモリとコンピューティングリソースが必要になる。 しかし、自己注意スキームにはさらなる問題がある: グローバルスコープから収集された全ての情報は、文脈モデリングに役立ちますか? 私たちの知る限り、この問題に焦点をあてた研究はほとんどない。 どちらの質問も対象とし,本論文では,注意マップと親和行列に関する興味深い観察から着想を得た,注目度に基づく注意スキームspanetを提案する。 これらの観察は、自己意識の理解を深める上で有益であると考えています。 SPANetは、アテンションマップコンピューティングに参加するために限られた数のサレントポイントだけを選択するために、サレント位置選択アルゴリズムを使用する。 このアプローチは、多くのメモリやコンピューティングリソースを犠牲にするだけでなく、入力された特徴写像の変換から肯定的な情報を抽出しようとする。 本実装では,一般視覚画像とは全く異なるチャネル高次元の特徴写像を考慮し,特徴写像の2乗パワーをチャネル次元に沿って位置のサリエンシーメトリックとして捉える。 一般に、非局所ブロック法とは異なり、スパネットは空間次元ではなくチャネル次元に沿って、選択された位置のみを使用して文脈情報をモデル化する。 ソースコードはhttps://github.com/l ikyoo/spanetで入手できます。

The self-attention mechanism has attracted wide publicity for its most important advantage of modeling long dependency, and its variations in computer vision tasks, the non-local block tries to model the global dependency of the input feature maps. Gathering global contextual information will inevitably need a tremendous amount of memory and computing resources, which has been extensively studied in the past several years. However, there is a further problem with the self-attention scheme: is all information gathered from the global scope helpful for the contextual modelling? To our knowledge, few studies have focused on the problem. Aimed at both questions this paper proposes the salient positions-based attention scheme SPANet, which is inspired by some interesting observations on the attention maps and affinity matrices generated in self-attention scheme. We believe these observations are beneficial for better understanding of the self-attention. SPANet uses the salient positions selection algorithm to select only a limited amount of salient points to attend in the attention map computing. This approach will not only spare a lot of memory and computing resources, but also try to distill the positive information from the transformation of the input feature maps. In the implementation, considering the feature maps with channel high dimensions, which are completely different from the general visual image, we take the squared power of the feature maps along the channel dimension as the saliency metric of the positions. In general, different from the non-local block method, SPANet models the contextual information using only the selected positions instead of all, along the channel dimension instead of space dimension. Our source code is available at https://github.com/l ikyoo/SPANet.
翻訳日:2021-06-10 15:09:52 公開日:2021-06-09
# 攻撃不変特徴による敵対的事例に対する防御に向けて

Towards Defending against Adversarial Examples via Attack-Invariant Features ( http://arxiv.org/abs/2106.05036v1 )

ライセンス: Link先を確認
Dawei Zhou, Tongliang Liu, Bo Han, Nannan Wang, Chunlei Peng, Xinbo Gao(参考訳) ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 その敵意の強固さは、敵意の例を生かして改善することができる。 しかし、連続的に進化する攻撃を考えると、見かけるタイプの敵の例で訓練されたモデルは一般的に、見えないタイプの敵の例にうまく一般化できない。 そこで本研究では,セマンティックな分類情報を保持する攻撃に対して,一般化可能な不変特徴を学習することにより,敵対的ノイズを取り除くことを提案する。 具体的には, 逆雑音から不変特徴を分離する逆特徴学習機構を提案する。 攻撃-不変特徴のエンコード空間で正規化項が提案されており、見られている種類の攻撃と目に見えない攻撃の間のバイアス問題に対処する。 経験的評価により,本手法は従来の最先端手法と比較して,特に認識できないタイプの攻撃や適応攻撃に対して,より優れた保護を提供できることが示された。

Deep neural networks (DNNs) are vulnerable to adversarial noise. Their adversarial robustness can be improved by exploiting adversarial examples. However, given the continuously evolving attacks, models trained on seen types of adversarial examples generally cannot generalize well to unseen types of adversarial examples. To solve this problem, in this paper, we propose to remove adversarial noise by learning generalizable invariant features across attacks which maintain semantic classification information. Specifically, we introduce an adversarial feature learning mechanism to disentangle invariant features from adversarial noise. A normalization term has been proposed in the encoded space of the attack-invariant features to address the bias issue between the seen and unseen types of attacks. Empirical evaluations demonstrate that our method could provide better protection in comparison to previous state-of-the-art approaches, especially against unseen types of attacks and adaptive attacks.
翻訳日:2021-06-10 15:09:27 公開日:2021-06-09
# 位置保存注意による有能な物体ランク付け

Salient Object Ranking with Position-Preserved Attention ( http://arxiv.org/abs/2106.05047v1 )

ライセンス: Link先を確認
Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu, Deng Cai and Xiaofei He(参考訳) インスタンスセグメンテーションは、オブジェクトが画像のどこにいるかを検出するが、それらの関係を理解するのは難しい。 私たちは典型的な関係、相対的な正当性に注意を払う。 密接に関連するタスクであるsalient object detectionは、複数のオブジェクトを識別するのは難しいが、視覚的なsalient領域をハイライトするバイナリマップを予測する。 後処理による2つのタスクの直接結合もパフォーマンスの低下につながる。 現在、相対的正当性の研究が欠如しており、コンテンツ対応画像トリミング、ビデオ要約、画像ラベリングといった実用的応用が制限されている。 本稿では,検出された各対象の順位を視覚的な順に割り当てるsaient object ranking (sor)タスクについて検討する。 本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。 このフレームワークはインスタンスセグメンテーションと適切なオブジェクトランキングを同時に処理する。 このフレームワークでは、sorブランチは独立で柔軟性があり、異なる検出メソッドと連携できるため、プラグインとして簡単に使用できます。 また、SORブランチ用に調整されたPPAモジュールも導入する。 位置埋め込みステージと特徴相互作用ステージで構成される。 正当性比較における位置の重要性を考慮すると、ROIプーリング動作における物体の絶対座標を保存し、第1段階における意味的特徴と位置情報を融合する。 特徴対話の段階では,提案の文脈化表現の獲得に注意機構を適用し,相対的な順位の予測を行う。 ASRデータセットで大規模な実験が行われた。 ベルとホイッスルがなければ,提案手法は従来の最先端手法よりも優れる。 コードは一般公開される予定だ。

Instance segmentation can detect where the objects are in an image, but hard to understand the relationship between them. We pay attention to a typical relationship, relative saliency. A closely related task, salient object detection, predicts a binary map highlighting a visually salient region while hard to distinguish multiple objects. Directly combining two tasks by post-processing also leads to poor performance. There is a lack of research on relative saliency at present, limiting the practical applications such as content-aware image cropping, video summary, and image labeling. In this paper, we study the Salient Object Ranking (SOR) task, which manages to assign a ranking order of each detected object according to its visual saliency. We propose the first end-to-end framework of the SOR task and solve it in a multi-task learning fashion. The framework handles instance segmentation and salient object ranking simultaneously. In this framework, the SOR branch is independent and flexible to cooperate with different detection methods, so that easy to use as a plugin. We also introduce a Position-Preserved Attention (PPA) module tailored for the SOR branch. It consists of the position embedding stage and feature interaction stage. Considering the importance of position in saliency comparison, we preserve absolute coordinates of objects in ROI pooling operation and then fuse positional information with semantic features in the first stage. In the feature interaction stage, we apply the attention mechanism to obtain proposals' contextualized representations to predict their relative ranking orders. Extensive experiments have been conducted on the ASR dataset. Without bells and whistles, our proposed method outperforms the former state-of-the-art method significantly. The code will be released publicly available.
翻訳日:2021-06-10 15:09:13 公開日:2021-06-09
# EPIC-KITCHENS-100行動認識のための強力な映像変換器の訓練に向けて

Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition ( http://arxiv.org/abs/2106.05058v1 )

ライセンス: Link先を確認
Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Zhurong Xia, Mingqian Tang, Nong Sang, Marcelo H. Ang Jr(参考訳) 近年の視覚変換器の研究の急増により、画像認識、ポイントクラウド分類、ビデオ理解など、様々な挑戦的なコンピュータビジョン応用の可能性が示された。 本稿では,epic-kitchens-100アクション認識データセット上でより強固な映像ビジョントランスフォーマーをトレーニングする実験結果を示す。 具体的には,拡張や解像度,初期化といった映像ビジョントランスフォーマーのトレーニング技術について検討する。 トレーニングレシピでは、EPIC-KITCHENS-100データセットの検証セット上で、単一のViViTモデルで47.4\%のパフォーマンスを実現し、元の論文で報告された結果よりも3.4%向上した。 ビデオトランスフォーマーは動詞-名詞行動予測タスクにおける名詞の予測に特に優れていることがわかった。 これにより、ビデオトランスの全体的な動作予測精度は、畳み込みよりも顕著に高い。 驚くべきことに、最高のビデオトランスフォーマーでさえ、動詞予測の畳み込みネットワークを過小評価している。 そこで我々は,ビデオビジョントランスフォーマーといくつかの畳み込みビデオネットワークを組み合わせることで,EPIC-KITCHENS-100 Action Recognitionコンペティションにソリューションを提示する。

With the recent surge in the research of vision transformers, they have demonstrated remarkable potential for various challenging computer vision applications, such as image recognition, point cloud classification as well as video understanding. In this paper, we present empirical results for training a stronger video vision transformer on the EPIC-KITCHENS-100 Action Recognition dataset. Specifically, we explore training techniques for video vision transformers, such as augmentations, resolutions as well as initialization, etc. With our training recipe, a single ViViT model achieves the performance of 47.4\% on the validation set of EPIC-KITCHENS-100 dataset, outperforming what is reported in the original paper by 3.4%. We found that video transformers are especially good at predicting the noun in the verb-noun action prediction task. This makes the overall action prediction accuracy of video transformers notably higher than convolutional ones. Surprisingly, even the best video transformers underperform the convolutional networks on the verb prediction. Therefore, we combine the video vision transformers and some of the convolutional video networks and present our solution to the EPIC-KITCHENS-100 Action Recognition competition.
翻訳日:2021-06-10 15:08:49 公開日:2021-06-09
# ST++: 半教師付きセマンティックセグメンテーションで自己学習作業を改善する

ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2106.05095v1 )

ライセンス: Link先を確認
Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) 本稿では, 半教師付きセグメンテーションにおいて, 自己学習, シンプルながら人気のあるフレームワークを, よりよく機能させることができるかを検討する。 半教師付きセッティングの中核的な問題は、ラベルなしデータの有効かつ効率的な利用にあるため、ラベルなしデータの多様性と硬さの増加は、パフォーマンス向上に不可欠である。 この事実に気付き、我々は、このタスクのために、ラベルのないデータ(すなわちst)に適切な強いデータ拡張を組み合わせた、最も単純な自己学習方式を採用することを提案している。 さらに,偽のラベル付き画像の悪影響を軽減するために,より信頼性の高いラベル付き画像の選択と優先順位付けにより選択的に再トレーニングを行う高度な自己学習フレームワーク(st++)を提案する。 その結果、st++は半教師付きモデルの性能を大幅に向上させ、pascal voc 2012とcityscapesベンチマークで既存のメソッドを大きく上回った。 全体として、この単純でシンプルなフレームワークが、将来の作業の強力なベースラインや競合となることを期待しています。 コードはhttps://github.com/L iheYoung/ST-PlusPlus で入手できる。

In this paper, we investigate if we could make the self-training -- a simple but popular framework -- work better for semi-supervised segmentation. Since the core issue in semi-supervised setting lies in effective and efficient utilization of unlabeled data, we notice that increasing the diversity and hardness of unlabeled data is crucial to performance improvement. Being aware of this fact, we propose to adopt the most plain self-training scheme coupled with appropriate strong data augmentations on unlabeled data (namely ST) for this task, which surprisingly outperforms previous methods under various settings without any bells and whistles. Moreover, to alleviate the negative impact of the wrongly pseudo labeled images, we further propose an advanced self-training framework (namely ST++), that performs selective re-training via selecting and prioritizing the more reliable unlabeled images. As a result, the proposed ST++ boosts the performance of semi-supervised model significantly and surpasses existing methods by a large margin on the Pascal VOC 2012 and Cityscapes benchmark. Overall, we hope this straightforward and simple framework will serve as a strong baseline or competitor for future works. Code is available at https://github.com/L iheYoung/ST-PlusPlus .
翻訳日:2021-06-10 15:08:29 公開日:2021-06-09
# 自然画像における接地帰納バイアス:データの変動から生じる不変性

Grounding inductive biases in natural images:invariance stems from variations in data ( http://arxiv.org/abs/2106.05121v1 )

ライセンス: Link先を確認
Diane Bouchacourt, Mark Ibrahim, Ari S. Morcos(参考訳) 非知覚的かつ潜在的に分布外サンプルをうまく処理するためには、機械学習モデルが入力の変動要因に影響を与える変換に関して予測可能な応答を持つことが望ましい。 不変性は手作業によるデータ拡張によって一般的に達成されるが、実際のデータのバリエーションを説明する標準的なデータ拡張アドレス変換は可能か? 先行研究は合成データに焦点を当ててきたが,本稿では,実データ集合であるimagenetにおける変動要因を特徴付け,標準残差ネットワークと最近提案されたvision transformerの両要因のばらつきについて検討する。 標準拡張は、残差ネットワークのような畳み込みアーキテクチャに組み込まれた(ほぼ)翻訳不変性にもかかわらず、翻訳がパフォーマンス改善の大部分を取り戻すことで、翻訳とスケールの正確な組み合わせに依存していることを示している。 実際、スケールと変換の不変性は、明らかに異なる帰納的バイアスにもかかわらず、残留ネットワークと視覚トランスフォーマーモデル間で類似していることがわかった。 トレーニングデータ自体が分散の主な原因であり、データの増大は学習した不変性をさらに増大させるだけであることを示す。 興味深いことに、トレーニングプロセスから得られた不変性は、私たちが見つけた変化のImageNet要因と一致しています。 最後に、ImageNetの変動の主な要因は外見に大きく関係しており、各クラスに特有のものであることを発見した。

To perform well on unseen and potentially out-of-distribution samples, it is desirable for machine learning models to have a predictable response with respect to transformations affecting the factors of variation of the input. Invariance is commonly achieved through hand-engineered data augmentation, but do standard data augmentations address transformations that explain variations in real data? While prior work has focused on synthetic data, we attempt here to characterize the factors of variation in a real dataset, ImageNet, and study the invariance of both standard residual networks and the recently proposed vision transformer with respect to changes in these factors. We show standard augmentation relies on a precise combination of translation and scale, with translation recapturing most of the performance improvement -- despite the (approximate) translation invariance built in to convolutional architectures, such as residual networks. In fact, we found that scale and translation invariance was similar across residual networks and vision transformer models despite their markedly different inductive biases. We show the training data itself is the main source of invariance, and that data augmentation only further increases the learned invariances. Interestingly, the invariances brought from the training process align with the ImageNet factors of variation we found. Finally, we find that the main factors of variation in ImageNet mostly relate to appearance and are specific to each class.
翻訳日:2021-06-10 15:08:08 公開日:2021-06-09
# pcnet:マルチスペクトルおよびマルチモーダル画像登録のための構造類似性向上手法

PCNet: A Structure Similarity Enhancement Method for Multispectral and Multimodal Image Registration ( http://arxiv.org/abs/2106.05124v1 )

ライセンス: Link先を確認
Si-Yuan Cao, Hui-Liang Shen, Lun Luo, Shu-Jie Chen, and Chunguang Li(参考訳) マルチスペクトルおよびマルチモーダル画像処理は、コンピュータビジョンと計算写真の分野で重要である。 取得したマルチスペクトルおよびマルチモーダルデータは、画像装置の交替または移動により一般に不整合であるため、画像登録手順が必要である。 非線形強度と勾配変動のため、マルチスペクトルまたはマルチモーダル画像の登録は困難である。 そこで本研究では,この課題に対処するために,構造類似性を高め,非線形強度と勾配変動を緩和する位相合同ネットワーク(pcnet)を提案する。 画像は、ネットワークが生成する類似性強化機能を使用してアライメントすることができる。 PCNetは相整合の指導のもと構築される。 このネットワークは、位相合同理論に従って改良された学習可能なガボールカーネルを伴う3つの学習可能な層を含む。 これまでの知識のおかげで、PCNetは非常に軽量であり、非常に少量のマルチスペクトルデータをトレーニングすることができる。 pcnetは完全に畳み込みであると見なすことができ、任意のサイズの入力を受けることができる。 トレーニングが完了すると、PCNetはRGB/NIRやフラッシュ/フラッシュフラッシュ画像などの様々なマルチスペクトルおよびマルチモーダルデータに適用できる。 実験の結果、PCNetはPCNetと比較して数百倍のパラメータを持つディープラーニングベースアルゴリズムなど、現在の最先端の登録アルゴリズムよりも優れていることが示された。 類似性強化トレーニングのおかげで、PCNetは元の位相同期アルゴリズムより2/3少ない機能チャネルで性能を向上する。

Multispectral and multimodal image processing is important in the community of computer vision and computational photography. As the acquired multispectral and multimodal data are generally misaligned due to the alternation or movement of the image device, the image registration procedure is necessary. The registration of multispectral or multimodal image is challenging due to the non-linear intensity and gradient variation. To cope with this challenge, we propose the phase congruency network (PCNet), which is able to enhance the structure similarity and alleviate the non-linear intensity and gradient variation. The images can then be aligned using the similarity enhanced features produced by the network. PCNet is constructed under the guidance of the phase congruency prior. The network contains three trainable layers accompany with the modified learnable Gabor kernels according to the phase congruency theory. Thanks to the prior knowledge, PCNet is extremely light-weight and can be trained on quite a small amount of multispectral data. PCNet can be viewed to be fully convolutional and hence can take input of arbitrary sizes. Once trained, PCNet is applicable on a variety of multispectral and multimodal data such as RGB/NIR and flash/no-flash images without additional further tuning. Experimental results validate that PCNet outperforms current state-of-the-art registration algorithms, including the deep-learning based ones that have the number of parameters hundreds times compared to PCNet. Thanks to the similarity enhancement training, PCNet outperforms the original phase congruency algorithm with two-thirds less feature channels.
翻訳日:2021-06-10 15:07:46 公開日:2021-06-09
# 効率的な映像オブジェクトセグメンテーションのためのメモリカバレッジ向上による時空間ネットワーク再考

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation ( http://arxiv.org/abs/2106.05210v1 )

ライセンス: Link先を確認
Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,映像オブジェクトセグメンテーションの文脈における時空間対応のモデル化に,単純かつ効果的な手法を提案する。 既存のアプローチと異なり、すべてのオブジェクトのマスク機能を再エンコードすることなく、フレーム間で直接対応を確立することで、非常に効率的で堅牢なフレームワークを実現します。 これらの対応により、現在のクエリフレームの各ノードは、過去の特徴を連想的に集約することで推測される。 我々は,集計プロセスを投票問題とみなし,既存の内積親和性は,クエリに関係なく,メモリノードの小さな(固定された)サブセットが支配するメモリ使用率の低下につながることを見出した。 この現象に照らして, 負の2乗ユークリッド距離を用いてアフィニティを計算することを提案する。 すべてのメモリノードがコントリビュートする機会があることを検証し、その多角化投票がメモリ効率と推論精度の両方に有益であることを実験的に示した。 通信ネットワークのシナジーと多彩な投票作業の相乗効果は、DAVISとYouTubeVOSのデータセットにおいて、新たな最先端の結果を達成すると同時に、ベルやホイッスルのない複数のオブジェクトに対して、20以上のFPSで大幅に高速に実行される。

This paper presents a simple yet effective approach to modeling space-time correspondences in the context of video object segmentation. Unlike most existing approaches, we establish correspondences directly between frames without re-encoding the mask features for every object, leading to a highly efficient and robust framework. With the correspondences, every node in the current query frame is inferred by aggregating features from the past in an associative fashion. We cast the aggregation process as a voting problem and find that the existing inner-product affinity leads to poor use of memory with a small (fixed) subset of memory nodes dominating the votes, regardless of the query. In light of this phenomenon, we propose using the negative squared Euclidean distance instead to compute the affinities. We validated that every memory node now has a chance to contribute, and experimentally showed that such diversified voting is beneficial to both memory efficiency and inference accuracy. The synergy of correspondence networks and diversified voting works exceedingly well, achieves new state-of-the-art results on both DAVIS and YouTubeVOS datasets while running significantly faster at 20+ FPS for multiple objects without bells and whistles.
翻訳日:2021-06-10 15:07:24 公開日:2021-06-09
# 時間的相互作用を伴う半教師付き3次元ハンドオブジェクトポーズ推定

Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time ( http://arxiv.org/abs/2106.05266v1 )

ライセンス: Link先を確認
Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang(参考訳) 1枚の画像から3d手とオブジェクトのポーズを推定することは、非常に難しい問題である。手とオブジェクトは相互作用の間、しばしば自己閉塞され、3dアノテーションは、人間が1枚の画像から地面に直接ラベルを付けることができないため、希少である。 これらの課題に取り組むため,我々は半教師付き学習を用いて3次元手と物体のポーズを推定する統一フレームワークを提案する。 我々は,手とオブジェクトの表現を変換器で明示的な文脈推論を行う,共同学習フレームワークを構築した。 画像中の限られた3Dアノテーションを超えて、大規模な手オブジェクトビデオにおける空間的時間的一貫性を半教師付き学習における擬似ラベル生成の制約として活用する。 本手法は,実世界の課題データセットにおけるハンドポーズ推定を改善するだけでなく,インスタンス単位の接地率の少ないオブジェクトポーズを実質的に改善する。 大規模な多様なビデオのトレーニングによって、当社のモデルは複数のドメイン外のデータセットをまたいでより汎用化できます。 プロジェクトページとコード:https://stevenlsw.g ithub.io/Semi-Hand-O bject

Estimating 3D hand and object pose from a single image is an extremely challenging problem: hands and objects are often self-occluded during interactions, and the 3D annotations are scarce as even humans cannot directly label the ground-truths from a single image perfectly. To tackle these challenges, we propose a unified framework for estimating the 3D hand and object poses with semi-supervised learning. We build a joint learning framework where we perform explicit contextual reasoning between hand and object representations by a Transformer. Going beyond limited 3D annotations in a single image, we leverage the spatial-temporal consistency in large-scale hand-object videos as a constraint for generating pseudo labels in semi-supervised learning. Our method not only improves hand pose estimation in challenging real-world dataset, but also substantially improve the object pose which has fewer ground-truths per instance. By training with large-scale diverse videos, our model also generalizes better across multiple out-of-domain datasets. Project page and code: https://stevenlsw.gi thub.io/Semi-Hand-Ob ject
翻訳日:2021-06-10 15:07:02 公開日:2021-06-09
# 文脈帯域における固定予算ベストアーム同定:静的適応アルゴリズム

Fixed-Budget Best-Arm Identification in Contextual Bandits: A Static-Adaptive Algorithm ( http://arxiv.org/abs/2106.04763v1 )

ライセンス: Link先を確認
MohammadJavad Azizi, Branislav Kveton and Mohammad Ghavamzadeh(参考訳) 固定予算設定における文脈的バンディットにおけるbest-arm identification(bai)の問題について検討する。 段階的に進行し,各段階における最適アームの固定分数を除去できる汎用逐次除去アルゴリズムを提案する。 この設計は静的および適応的な割り当ての強みを生かしている。 このアルゴリズムを線形モデルで解析し,先行研究よりも優れた誤差境界を求める。 また,一般化線形モデル (glms) にも適用し,その誤差を限定した。 これは固定予算設定におけるGLMに対する最初のBAIアルゴリズムである。 我々の膨大な数値実験により、我々のアルゴリズムは芸術の状態を上回ります。

We study the problem of best-arm identification (BAI) in contextual bandits in the fixed-budget setting. We propose a general successive elimination algorithm that proceeds in stages and eliminates a fixed fraction of suboptimal arms in each stage. This design takes advantage of the strengths of static and adaptive allocations. We analyze the algorithm in linear models and obtain a better error bound than prior work. We also apply it to generalized linear models (GLMs) and bound its error. This is the first BAI algorithm for GLMs in the fixed-budget setting. Our extensive numerical experiments show that our algorithm outperforms the state of art.
翻訳日:2021-06-10 15:05:38 公開日:2021-06-09
# 対向訓練におけるニューラルネットワークの記憶効果について

Towards the Memorization Effect of Neural Networks in Adversarial Training ( http://arxiv.org/abs/2106.04794v1 )

ライセンス: Link先を確認
Han Xu, Xiaorui Liu, Wentao Wang, Wenbiao Ding, Zhongqin Wu, Zitao Liu, Anil Jain, Jiliang Tang(参考訳) 近年の研究では、‘記憶’は、最適性能を達成するための超パラメータディープニューラルネットワーク(dnn)の重要な要素の一つであることが示唆されている。 具体的には、完全に取り付けられたDNNは、多くの非定型サンプルのラベルを記憶し、その記憶を一般化し、非定型サンプルを正しく分類し、より良いテスト性能を享受することができる。 一方,非典型的サンプルのラベルや非典型的サンプルを記憶することで,非典型的トレーニングアルゴリズムによって最適化されたDNNでも完璧なトレーニング性能が得られる。 しかし、敵対的に訓練されたモデルは常に不十分な一般化に苦しんでおり、比較的クリーンな精度とテストセットの堅牢性は低い。 本研究は,非典型的サンプルの記憶が,非典型的サンプルにおけるDNNの精度向上に有効であるだけでなく,非典型的サンプルの記憶が典型的サンプル上でのDNNのパフォーマンスを損なうことさえない,という2つの重要な知見を明らかにするものである。 これら2つの知見に基づき, 対人訓練を円滑に行うことにより, 「<harmful'」非定型サンプルの適合を回避し, 「`benign'非定型サンプルの適合度を極力高めることができる良性適応訓練(BAT)を提案する。 CIFAR100 や Tiny~ImageNet などのベンチマークデータセットにおいて,BAT の有効性を検証し,ベースライン手法よりもクリーンな精度とロバスト性トレードオフを向上できることを示す。

Recent studies suggest that ``memorization'' is one important factor for overparameterized deep neural networks (DNNs) to achieve optimal performance. Specifically, the perfectly fitted DNNs can memorize the labels of many atypical samples, generalize their memorization to correctly classify test atypical samples and enjoy better test performance. While, DNNs which are optimized via adversarial training algorithms can also achieve perfect training performance by memorizing the labels of atypical samples, as well as the adversarially perturbed atypical samples. However, adversarially trained models always suffer from poor generalization, with both relatively low clean accuracy and robustness on the test set. In this work, we study the effect of memorization in adversarial trained DNNs and disclose two important findings: (a) Memorizing atypical samples is only effective to improve DNN's accuracy on clean atypical samples, but hardly improve their adversarial robustness and (b) Memorizing certain atypical samples will even hurt the DNN's performance on typical samples. Based on these two findings, we propose Benign Adversarial Training (BAT) which can facilitate adversarial training to avoid fitting ``harmful'' atypical samples and fit as more ``benign'' atypical samples as possible. In our experiments, we validate the effectiveness of BAT, and show it can achieve better clean accuracy vs. robustness trade-off than baseline methods, in benchmark datasets such as CIFAR100 and Tiny~ImageNet.
翻訳日:2021-06-10 15:05:31 公開日:2021-06-09
# データ効率強化学習のための事前学習表現

Pretraining Representations for Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2106.04799v1 )

ライセンス: Link先を確認
Max Schwarzer, Nitarshan Rajkumar, Michael Noukhovitch, Ankesh Anand, Laurent Charlin, Devon Hjelm, Philip Bachman, Aaron Courville(参考訳) データ効率は、深層強化学習の重要な課題である。 非ラベルデータを使用してエンコーダをプリトレーニングし、少量のタスク固有のデータに微調整することで、この問題に対処します。 基礎となるMDPの様々な側面を捉える学習表現を促進するために、潜在力学モデリングと教師なしゴール条件RLを組み合わせた。 atariゲーム上での10万ステップのインタラクション(人間体験の2時間に相当する)に制限された場合、オフライン表現の事前トレーニングとタスク固有の微調整を組み合わせた前作業を大幅に上回り、より多くのデータを必要とする他の事前トレーニング方法と比較する。 我々のアプローチは、より大きなモデルと組み合わせることで、より多様なタスク指向の観察データとともに、atariの人間レベルのパフォーマンスとデータ効率を最高の設定で提示する、特に有望さを示しています。 この作業に関連するコードはhttps://github.com/m ila-iqia/sgiで提供します。

Data efficiency is a key challenge for deep reinforcement learning. We address this problem by using unlabeled data to pretrain an encoder which is then finetuned on a small amount of task-specific data. To encourage learning representations which capture diverse aspects of the underlying MDP, we employ a combination of latent dynamics modelling and unsupervised goal-conditioned RL. When limited to 100k steps of interaction on Atari games (equivalent to two hours of human experience), our approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning, and compares favourably with other pretraining methods that require orders of magnitude more data. Our approach shows particular promise when combined with larger models as well as more diverse, task-aligned observational data -- approaching human-level performance and data-efficiency on Atari in our best setting. We provide code associated with this work at https://github.com/m ila-iqia/SGI.
翻訳日:2021-06-10 15:04:59 公開日:2021-06-09
# EMFlow:EMとDeep Flowモデルによる遅延空間のデータインプット

EMFlow: Data Imputation in Latent Space via EM and Deep Flow Models ( http://arxiv.org/abs/2106.04804v1 )

ライセンス: Link先を確認
Qi Ma and Sujit K. Ghosh(参考訳) 高次元の不完全なデータは、幅広いシステムで見ることができる。 データマイニング技術や機械学習アルゴリズムの大部分が完全な観測を必要とするため、データ計算は下流分析に不可欠である。 本研究では,期待最大化(em)アルゴリズムのオンライン版を通じて潜在空間におけるインプテーションを行い,正規化フロー(nf)を介して潜在空間とデータ空間を接続する,emflowと呼ばれるインプテーション手法を導入する。 EMFlowの推論は反復的であり、オンラインEMとNFのパラメータを更新する。 多変量および画像データセットの大規模な実験結果から,提案したEMFlowは計算精度と収束速度の両面で競合手法よりも優れた性能を示した。

High dimensional incomplete data can be found in a wide range of systems. Due to the fact that most of the data mining techniques and machine learning algorithms require complete observations, data imputation is vital for down-stream analysis. In this work, we introduce an imputation approach, called EMFlow, that performs imputation in an latent space via an online version of Expectation-Maximiza tion (EM) algorithm and connects the latent space and the data space via the normalizing flow (NF). The inference of EMFlow is iterative, involving updating the parameters of online EM and NF alternatively. Extensive experimental results on multivariate and image datasets show that the proposed EMFlow has superior performance to competing methods in terms of both imputation quality and convergence speed.
翻訳日:2021-06-10 15:04:44 公開日:2021-06-09
# オンラインAutoMLのためのChaCha

ChaCha for Online AutoML ( http://arxiv.org/abs/2106.04815v1 )

ライセンス: Link先を確認
Qingyun Wu, Chi Wang, John Langford, Paul Mineiro, Marco Rossi(参考訳) オンライン学習環境におけるハイパーパラメータのオンライン選択のためのChaCha(Champion-Chal lengers)アルゴリズムを提案する。 ChaChaは、チャンピオンを決定するプロセスと、サンプルの複雑性境界に基づいて、時間の経過とともに‘生きた’挑戦者のセットをスケジューリングする。 チャンピオンに基づいたアプリケーション依存のオラクルによって最適な設定が考慮に入れられた後、サブ線形後悔が保証される。 経験的に、ChaChaは、成果化とハイパーパラメータ決定を最適化する際に、幅広いデータセットにわたって優れたパフォーマンスを提供する。

We propose the ChaCha (Champion-Challenger s) algorithm for making an online choice of hyperparameters in online learning settings. ChaCha handles the process of determining a champion and scheduling a set of `live' challengers over time based on sample complexity bounds. It is guaranteed to have sublinear regret after the optimal configuration is added into consideration by an application-dependen t oracle based on the champions. Empirically, we show that ChaCha provides good performance across a wide array of datasets when optimizing over featurization and hyperparameter decisions.
翻訳日:2021-06-10 15:04:30 公開日:2021-06-09
# 教師の信頼できない対人蒸留

Reliable Adversarial Distillation with Unreliable Teachers ( http://arxiv.org/abs/2106.04928v1 )

ライセンス: Link先を確認
Jianing Zhu, Jiangchao Yao, Bo Han, Jingfeng Zhang, Tongliang Liu, Gang Niu, Jingren Zhou, Jianliang Xu, Hongxia Yang(参考訳) 普通蒸留では、学生ネットワークは予め訓練された教師ネットワークから与えられたソフトラベル(sls)で訓練され、学生は元のハードラベルよりもslsが強いため教師に改善されると予想されている。 しかし、敵対的堅牢性を考えると、教師は信頼できなくなり、敵対的蒸留は役に立たないかもしれない: 教師は自身の敵対的データで事前訓練されており、教師は生徒が問い合わせた全ての敵的データでも良いことを要求しすぎる。 そこで本稿では,教師を信頼する代わりに,一部学生を信頼する,信頼できる内省的逆境蒸留(iad)を提案する。 特に、IADは、自然データ(ND)と対応する逆データ(AD)のクエリが与えられた3つのケースを区別する: (a) 教師がADが得意で、そのSLが完全に信頼されている; (b) 教師がNDが得意だがADが得意でない場合は、そのSLが部分的に信頼されており、また、学生も自身のSLを考慮に入れている; (c) 生徒は独自のSLのみに依存している。 対向的堅牢性の観点から,教員に対するIADの有効性を実証する実験を行った。

In ordinary distillation, student networks are trained with soft labels (SLs) given by pretrained teacher networks, and students are expected to improve upon teachers since SLs are stronger supervision than the original hard labels. However, when considering adversarial robustness, teachers may become unreliable and adversarial distillation may not work: teachers are pretrained on their own adversarial data, and it is too demanding to require that teachers are also good at every adversarial data queried by students. Therefore, in this paper, we propose reliable introspective adversarial distillation (IAD) where students partially instead of fully trust their teachers. Specifically, IAD distinguishes between three cases given a query of a natural data (ND) and the corresponding adversarial data (AD): (a) if a teacher is good at AD, its SL is fully trusted; (b) if a teacher is good at ND but not AD, its SL is partially trusted and the student also takes its own SL into account; (c) otherwise, the student only relies on its own SL. Experiments demonstrate the effectiveness of IAD for improving upon teachers in terms of adversarial robustness.
翻訳日:2021-06-10 15:04:21 公開日:2021-06-09
# 逆正則化によるパラメータ雑音に対するネットワーク感度

Network insensitivity to parameter noise via adversarial regularization ( http://arxiv.org/abs/2106.05009v1 )

ライセンス: Link先を確認
Julian B\"ucher, Fynn Faber, Dylan R. Muir(参考訳) ニューロモルフィックニューラルネットワークプロセッサは、メモリ上のメムリスタの計算クロスバーアレイの形で、またはサブスレッショルドアナログと混合信号ASICの形で、NNベースのMLタスクの計算密度とエネルギー効率に大きな利点を約束する。 しかし、これらの技術は、プロセスの変化と固有のデバイス物理のため、計算の非理想性に富んでいる。 これにより、デプロイされたモデルにパラメータノイズを導入することで、プロセッサにデプロイされたネットワークのタスクパフォーマンスが低下する。 各デバイスをキャリブレーションしたり、各プロセッサのネットワークを個別にトレーニングしたりすることは可能だが、これらのアプローチは高価で商用展開には実用的ではない。 そのため、ネットワークアーキテクチャやパラメータの結果として、パラメータ変動に対して本質的に堅牢なネットワークをトレーニングするためには、別の方法が必要である。 本稿では,学習中にネットワークパラメータを攻撃し,パラメータ変動に直面した推論時のロバストな性能を向上する新しい対向ネットワーク最適化アルゴリズムを提案する。 提案手法では,重みの摂動に対するネットワークの感受性を示す正規化項を導入する。 提案手法は, ドロップアウト, 重みの平滑化, トレーニング中のパラメータノイズの導入など, パラメータ不感性を生成するための従来の手法と比較する。 提案手法は,ターゲットパラメータの変動に対してより堅牢で,ランダムパラメータの変動に対して等しく堅牢なモデルを生成する。 提案手法では, 他の手法と比較して, 重み損失景観の平坦な場所において, ネットワークがパラメータの摂動に対する感受性が低いことを強調する。 我々の研究は、計算非理想性に苦しむデバイスを推論するためにニューラルネットワークアーキテクチャをデプロイするアプローチを提供し、パフォーマンスの損失を最小限に抑える。 ...

Neuromorphic neural network processors, in the form of compute-in-memory crossbar arrays of memristors, or in the form of subthreshold analog and mixed-signal ASICs, promise enormous advantages in compute density and energy efficiency for NN-based ML tasks. However, these technologies are prone to computational non-idealities, due to process variation and intrinsic device physics. This degrades the task performance of networks deployed to the processor, by introducing parameter noise into the deployed model. While it is possible to calibrate each device, or train networks individually for each processor, these approaches are expensive and impractical for commercial deployment. Alternative methods are therefore needed to train networks that are inherently robust against parameter variation, as a consequence of network architecture and parameters. We present a new adversarial network optimisation algorithm that attacks network parameters during training, and promotes robust performance during inference in the face of parameter variation. Our approach introduces a regularization term penalising the susceptibility of a network to weight perturbation. We compare against previous approaches for producing parameter insensitivity such as dropout, weight smoothing and introducing parameter noise during training. We show that our approach produces models that are more robust to targeted parameter variation, and equally robust to random parameter variation. Our approach finds minima in flatter locations in the weight-loss landscape compared with other approaches, highlighting that the networks found by our technique are less sensitive to parameter perturbation. Our work provides an approach to deploy neural network architectures to inference devices that suffer from computational non-idealities, with minimal loss of performance. ...
翻訳日:2021-06-10 15:03:57 公開日:2021-06-09
# ベイジアンベルマン作用素

Bayesian Bellman Operators ( http://arxiv.org/abs/2106.05012v1 )

ライセンス: Link先を確認
Matthew Fellows, Kristian Hartikainen, Shimon Whiteson(参考訳) ベイズ強化学習(RL)の新たな視点を導入し、既存のアプローチでは遷移分布やQ-関数よりも後方を推測するが、ベルマン作用素の不確かさを特徴付ける。 当社のbayesian bellman operator(bbo)フレームワークは、ブートストラップが導入されたとき、モデルフリーアプローチが実際にベルマン演算子の後方を推測し、値関数ではないという洞察によって動機付けられたものです。 本稿では,BBOを用いてモデルフリーベイズRLの厳密な理論的解析を行い,その関係性をよりよく理解する。 ベイズ解は近似推論が使用されるときでさえ、頻繁な rl 解と一致し、収束性が成り立つ条件が導かれることが証明される。 実証的に、BBOフレームワークから派生したアルゴリズムは、最先端の正規化アクター批判アルゴリズムが破滅的に失敗する継続的制御タスクを解くことができる洗練された深層探査特性を持つことを示した。

We introduce a novel perspective on Bayesian reinforcement learning (RL); whereas existing approaches infer a posterior over the transition distribution or Q-function, we characterise the uncertainty in the Bellman operator. Our Bayesian Bellman operator (BBO) framework is motivated by the insight that when bootstrapping is introduced, model-free approaches actually infer a posterior over Bellman operators, not value functions. In this paper, we use BBO to provide a rigorous theoretical analysis of model-free Bayesian RL to better understand its relationshipto established frequentist RL methodologies. We prove that Bayesian solutions are consistent with frequentist RL solutions, even when approximate inference isused, and derive conditions for which convergence properties hold. Empirically, we demonstrate that algorithms derived from the BBO framework have sophisticated deep exploration properties that enable them to solve continuous control tasks at which state-of-the-art regularised actor-critic algorithms fail catastrophically
翻訳日:2021-06-10 15:03:26 公開日:2021-06-09
# アーリーエグジットネットワークによる適応推論:設計,課題,方向性

Adaptive Inference through Early-Exit Networks: Design, Challenges and Directions ( http://arxiv.org/abs/2106.05022v1 )

ライセンス: Link先を確認
Stefanos Laskaridis, Alexandros Kouris, Nicholas D. Lane(参考訳) DNNは、手作りやNASベースの手法によって、効率的なモデル設計の進歩により、ますます過度にパラメータ化されつつある。 すべての入力が同じ量の計算を必要とするわけではないので、適応的推論は効率的なデプロイメントの限界を押し上げるための顕著なアプローチとして注目を集めている。 特に、早期終了ネットワークは、実行時に各入力サンプルの計算深度を調整し、他の効率最適化に相補的な性能向上を提供する、新たな方向を構成する。 本稿では,アーリーエグゼクティブネットワークの設計手法をその重要なコンポーネントに分解し,その設計手法の最近の進歩について調査する。 また、他の効率的な推論ソリューションと早期に競合する立場をとり、この分野の研究における現在の課題と最も有望な今後の方向性についての洞察を提供する。

DNNs are becoming less and less over-parametrised due to recent advances in efficient model design, through careful hand-crafted or NAS-based methods. Relying on the fact that not all inputs require the same amount of computation to yield a confident prediction, adaptive inference is gaining attention as a prominent approach for pushing the limits of efficient deployment. Particularly, early-exit networks comprise an emerging direction for tailoring the computation depth of each input sample at runtime, offering complementary performance gains to other efficiency optimisations. In this paper, we decompose the design methodology of early-exit networks to its key components and survey the recent advances in each one of them. We also position early-exiting against other efficient inference solutions and provide our insights on the current challenges and most promising future directions for research in the field.
翻訳日:2021-06-10 15:03:09 公開日:2021-06-09
# オフライン逆強化学習

Offline Inverse Reinforcement Learning ( http://arxiv.org/abs/2106.05068v1 )

ライセンス: Link先を確認
Firas Jarboui, Vianney Perchet(参考訳) オフラインRLの目的は、固定探索データセットが利用可能で、追加の観測をサンプリングすることが不可能である場合(典型的には、この操作がコストがかかるか倫理的な問題を引き起こす場合)に最適なポリシーを学ぶことである。 この問題を解決するために、オフ・シェルフのアプローチでは、適切に定義されたコスト関数(または提供されたデータセットに対する評価)が必要となる。 この問題を回避するためには、探索的データセットに加えて、専門家にいくつかの最適なデモンストレーションを求めるのが妥当な方法だ。 目的は最適な政策を学習することである。 専門家の潜伏コスト関数です 現在のソリューションは、行動クローニング問題(探索データを利用しない)または強化された模倣学習問題(専門家から利用可能な探索軌道を識別する固定コスト関数を使用する)を解決する。 オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築する。 得られたポリシーは、前述の複数のOpenAIジム環境におけるソリューションよりも優れていた。

The objective of offline RL is to learn optimal policies when a fixed exploratory demonstrations data-set is available and sampling additional observations is impossible (typically if this operation is either costly or rises ethical questions). In order to solve this problem, off the shelf approaches require a properly defined cost function (or its evaluation on the provided data-set), which are seldom available in practice. To circumvent this issue, a reasonable alternative is to query an expert for few optimal demonstrations in addition to the exploratory data-set. The objective is then to learn an optimal policy w.r.t. the expert's latent cost function. Current solutions either solve a behaviour cloning problem (which does not leverage the exploratory data) or a reinforced imitation learning problem (using a fixed cost function that discriminates available exploratory trajectories from expert ones). Inspired by the success of IRL techniques in achieving state of the art imitation performances in online settings, we exploit GAN based data augmentation procedures to construct the first offline IRL algorithm. The obtained policies outperformed the aforementioned solutions on multiple OpenAI gym environments.
翻訳日:2021-06-10 15:02:54 公開日:2021-06-09
# 文脈強化学習のための自己ペース文脈評価

Self-Paced Context Evaluation for Contextual Reinforcement Learning ( http://arxiv.org/abs/2106.05110v1 )

ライセンス: Link先を確認
Theresa Eimer, Andr\'e Biedenkapp, Frank Hutter, Marius Lindauer(参考訳) 強化学習(rl)は、ある環境において一つの問題を解決するために多くの進歩を遂げてきたが、問題の見当たらないバリエーションに一般化する学習方針は依然として困難である。 問題領域のそのような事例について学習する際のサンプル効率を向上させるために,SPaCE(Self-Paced Context Evaluation)を提案する。 自己ペース学習に基づいて、 \spc は計算オーバーヘッドが少なくて自動的に \task curricula online を生成する。 この目的のために、SPaCEはトレーニング中に状態値に含まれる情報を活用して、トレーニングパフォーマンスを加速し、改善し、同じ問題領域から新しいインスタンスに一般化する。 それでも、SPaCEは問題領域とは独立であり、状態値関数近似を持つ任意のRLエージェントに適用される。 SPaCEの2つの環境における異なる値ベースRLエージェントの学習を高速化し、より優れた一般化能力を示し、ラウンドロビンやSPDRLのような単純なアプローチと比較して最大10倍の学習速度を示す。

Reinforcement learning (RL) has made a lot of advances for solving a single problem in a given environment; but learning policies that generalize to unseen variations of a problem remains challenging. To improve sample efficiency for learning on such instances of a problem domain, we present Self-Paced Context Evaluation (SPaCE). Based on self-paced learning, \spc automatically generates \task curricula online with little computational overhead. To this end, SPaCE leverages information contained in state values during training to accelerate and improve training performance as well as generalization capabilities to new instances from the same problem domain. Nevertheless, SPaCE is independent of the problem domain at hand and can be applied on top of any RL agent with state-value function approximation. We demonstrate SPaCE's ability to speed up learning of different value-based RL agents on two environments, showing better generalization capabilities and up to 10x faster learning compared to naive approaches such as round robin or SPDRL, as the closest state-of-the-art approach.
翻訳日:2021-06-10 15:02:35 公開日:2021-06-09
# 事前訓練されたエンコーダは必要なだけ

Pretrained Encoders are All You Need ( http://arxiv.org/abs/2106.05139v1 )

ライセンス: Link先を確認
Mina Khan, P Srivatsa, Advait Rane, Shriram Chenniappa, Rishabh Anand, Sherjil Ozair, and Pattie Maes(参考訳) データ効率と一般化は、ディープラーニングと深層強化学習の重要な課題であり、多くのモデルが大規模でドメイン固有で高価なデータセットでトレーニングされている。 大規模未処理データセットでトレーニングされた自己教師型モデルは、さまざまな設定への転送に成功している。 atariにおける状態表現学習のための事前学習された画像表現と時空間的注意を用いて検討する。 また, 自己教師あり手法, コントラスト予測符号化, 時空間的コントラスト学習, 強化法を用いて, 微調整された事前学習表現を探索する。 その結果、事前学習された表現は、ドメイン固有データに基づいて訓練された最先端の自己管理手法と同等であることがわかった。 事前制約された表現は、データと計算効率の良い状態表現を出力する。 https://github.com/P AL-ML/PEARL_v1

Data-efficiency and generalization are key challenges in deep learning and deep reinforcement learning as many models are trained on large-scale, domain-specific, and expensive-to-label datasets. Self-supervised models trained on large-scale uncurated datasets have shown successful transfer to diverse settings. We investigate using pretrained image representations and spatio-temporal attention for state representation learning in Atari. We also explore fine-tuning pretrained representations with self-supervised techniques, i.e., contrastive predictive coding, spatio-temporal contrastive learning, and augmentations. Our results show that pretrained representations are at par with state-of-the-art self-supervised methods trained on domain-specific data. Pretrained representations, thus, yield data and compute-efficient state representations. https://github.com/P AL-ML/PEARL_v1
翻訳日:2021-06-10 15:02:17 公開日:2021-06-09
# 隣接コントラスト学習のオンライン患者モニタリングへの応用

Neighborhood Contrastive Learning Applied to Online Patient Monitoring ( http://arxiv.org/abs/2106.05142v1 )

ライセンス: Link先を確認
Hugo Y\`eche, Gideon Dresdner, Francesco Locatello, Matthias H\"user, Gunnar R\"atsch(参考訳) 重篤なケアユニット(ICU)は、重篤な患者をオンライン監視する手段として、機械学習をますます求めている。 機械学習では、オンラインモニタリングはしばしば教師付き学習問題として定式化される。 近年、コントラスト学習アプローチは、競合する教師付きベンチマークよりも有望な改善を示している。 これらの方法は、オンライン監視に当てはまらない画像データのために開発された、十分に理解されたデータ拡張技術に依存している。 本研究では,この制限を,近隣コントラスト学習(NCL)と呼ばれる新しいコントラスト学習目標を用いて時系列データ拡張手法を補足することで克服する。 本研究の目的は, 状態情報を維持しながら各患者から連続した時間セグメントを明示的にグループ化することである。 本実験は,医用時間帯にコントラスト法を適用した既存の作業よりも顕著な改善を示した。

Intensive care units (ICU) are increasingly looking towards machine learning for methods to provide online monitoring of critically ill patients. In machine learning, online monitoring is often formulated as a supervised learning problem. Recently, contrastive learning approaches have demonstrated promising improvements over competitive supervised benchmarks. These methods rely on well-understood data augmentation techniques developed for image data which do not apply to online monitoring. In this work, we overcome this limitation by supplementing time-series data augmentation techniques with a novel contrastive learning objective which we call neighborhood contrastive learning (NCL). Our objective explicitly groups together contiguous time segments from each patient while maintaining state-specific information. Our experiments demonstrate a marked improvement over existing work applying contrastive methods to medical time-series.
翻訳日:2021-06-10 15:02:05 公開日:2021-06-09
# XBNet : 極端に強化されたニューラルネットワーク

XBNet : An Extremely Boosted Neural Network ( http://arxiv.org/abs/2106.05239v1 )

ライセンス: Link先を確認
Tushar Sarkar(参考訳) ニューラルネットワークは、画像、テキスト、ビデオ、オーディオといった非構造化データを処理する上で非常に堅牢であることが証明されている。 しかし、それらの性能は表データに及ばないことが観察されているため、そのようなシナリオではツリーベースモデルが好まれる。 グラフデータの一般的なモデルは、高効率で広く使用されている機械学習手法である木を増木し、ニューラルネットワークと比較して優れた解釈性を提供する。 本稿では,木をベースとしたモデルとニューラルネットワークのモデルを組み合わせて,新たな最適化手法であるBoosted Gradient Descent for Tabular Dataを用いてトレーニングした堅牢なアーキテクチャを構築することを目的とした,新しいアーキテクチャXBNetについて述べる。

Neural networks have proved to be very robust at processing unstructured data like images, text, videos, and audio. However, it has been observed that their performance is not up to the mark in tabular data; hence tree-based models are preferred in such scenarios. A popular model for tabular data is boosted trees, a highly efficacious and extensively used machine learning method, and it also provides good interpretability compared to neural networks. In this paper, we describe a novel architecture XBNet, which tries to combine tree-based models with that of neural networks to create a robust architecture trained by using a novel optimization technique, Boosted Gradient Descent for Tabular Data which increases its interpretability and performance.
翻訳日:2021-06-10 15:01:56 公開日:2021-06-09
# TempoRL: いつ行動するかを学ぶ

TempoRL: Learning When to Act ( http://arxiv.org/abs/2106.05262v1 )

ライセンス: Link先を確認
Andr\'e Biedenkapp and Raghu Rajan and Frank Hutter and Marius Lindauer(参考訳) 強化学習は環境との相互作用を通じて行動を学ぶための強力なアプローチである。 しかしながら、振る舞いは通常、観察に基づいて適切なアクションが選択される純粋にリアクティブな方法で学習される。 この形式では、いつ新しい決定を行う必要があるかを学ぶことは困難である。 これは学習を非効率にし、特に様々な細かい制御と粗い制御を必要とする環境において。 これを解決するために,エージェントが状態のアクションを選択するだけでなく,そのアクションにどれくらいの期間コミットするかを判断するプロアクティブ設定を提案する。 当社のtemporlアプローチでは、状態間のスキップ接続を導入し、同じアクションをスキップで繰り返すためのスキップポリシを学びます。 我々は,従来型および深層rl環境におけるtemporlの有効性を実証し,提案手法がvailla q-learningより1桁早く成功したポリシーを学習できることを示した。

Reinforcement learning is a powerful approach to learn behaviour through interactions with an environment. However, behaviours are usually learned in a purely reactive fashion, where an appropriate action is selected based on an observation. In this form, it is challenging to learn when it is necessary to execute new decisions. This makes learning inefficient, especially in environments that need various degrees of fine and coarse control. To address this, we propose a proactive setting in which the agent not only selects an action in a state but also for how long to commit to that action. Our TempoRL approach introduces skip connections between states and learns a skip-policy for repeating the same action along these skips. We demonstrate the effectiveness of TempoRL on a variety of traditional and deep RL environments, showing that our approach is capable of learning successful policies up to an order of magnitude faster than vanilla Q-learning.
翻訳日:2021-06-10 15:01:43 公開日:2021-06-09
# RealTranS:畳み込み重み変換器を用いたエンドツーエンド同時音声翻訳

RealTranS: End-to-End Simultaneous Speech Translation with Convolutional Weighted-Shrinking Transformer ( http://arxiv.org/abs/2106.04833v1 )

ライセンス: Link先を確認
Xingshan Zeng, Liangyou Li, Qun Liu(参考訳) ある言語の音声を直接、他の言語のテキストにリアルタイムで翻訳するエンドツーエンド同時音声翻訳(sst)は、多くのシナリオで有用であるが、十分に検討されていない。 本稿では,SSTのエンドツーエンドモデルであるRealTranSを提案する。 音声とテキスト間のモダリティギャップを埋めるために、RealTranSは、音声モデルのためのインターリーブ畳み込み層と一方向トランスフォーマー層で入力音声を徐々にダウンサンプリングし、重み付け収縮操作とセマンティックエンコーダで音声特徴をテキスト空間にマッピングする。 また,同時シナリオにおけるモデル性能向上のために,縮小品質向上のための空白ペナルティと,復号時に局所的な復号化を可能にするWait-K-Stride-N戦略を提案する。 パブリックデータセットと広く使用されているデータセットの実験によると、Wait-K-Stride-N戦略によるRealTranSは、さまざまなレイテンシ設定でのケースドモデルだけでなく、従来のエンドツーエンドモデルよりもパフォーマンスが優れている。

End-to-end simultaneous speech translation (SST), which directly translates speech in one language into text in another language in real-time, is useful in many scenarios but has not been fully investigated. In this work, we propose RealTranS, an end-to-end model for SST. To bridge the modality gap between speech and text, RealTranS gradually downsamples the input speech with interleaved convolution and unidirectional Transformer layers for acoustic modeling, and then maps speech features into text space with a weighted-shrinking operation and a semantic encoder. Besides, to improve the model performance in simultaneous scenarios, we propose a blank penalty to enhance the shrinking quality and a Wait-K-Stride-N strategy to allow local reranking during decoding. Experiments on public and widely-used datasets show that RealTranS with the Wait-K-Stride-N strategy outperforms prior end-to-end models as well as cascaded models in diverse latency settings.
翻訳日:2021-06-10 15:00:51 公開日:2021-06-09
# 教師なし自動音声認識 : レビュー

Unsupervised Automatic Speech Recognition: A Review ( http://arxiv.org/abs/2106.04897v1 )

ライセンス: Link先を確認
Hanan Aldarmaki, Asad Ullah, Nazar Zaki(参考訳) 自動音声認識(ASR)システムは、手書き音声を多量に書き起こすと優れた性能を達成するために訓練することができるが、大きなラベル付きデータセットは興味のあるすべての言語で取得することが困難または高価である。 本稿では,音声信号の教師なしセグメンテーション,音声セグメントからテキストへの教師なしマッピング,名目上のラベル付きサンプルを用いた半教師なしモデルなど,完全に教師なしASRにつながる可能性のあるモデルやアイデアを特定するために,研究文献をレビューする。 本研究の目的は,音声データだけで学習できることの限界を特定し,音声認識の最小要件を理解することである。 これらの制限の特定は、低リソース言語のためのASR開発におけるリソースと労力の最適化に役立つだろう。

Automatic Speech Recognition (ASR) systems can be trained to achieve remarkable performance given large amounts of manually transcribed speech, but large labeled data sets can be difficult or expensive to acquire for all languages of interest. In this paper, we review the research literature to identify models and ideas that could lead to fully unsupervised ASR, including unsupervised segmentation of the speech signal, unsupervised mapping from speech segments to text, and semi-supervised models with nominal amounts of labeled examples. The objective of the study is to identify the limitations of what can be learned from speech data alone and to understand the minimum requirements for speech recognition. Identifying these limitations would help optimize the resources and efforts in ASR development for low-resource languages.
翻訳日:2021-06-10 15:00:32 公開日:2021-06-09
# 日本語音声認識のためのニューラルアーキテクチャと学習法の比較研究

A Comparative Study on Neural Architectures and Training Methods for Japanese Speech Recognition ( http://arxiv.org/abs/2106.05111v1 )

ライセンス: Link先を確認
Shigeki Karita, Yotaro Kubo, Michiel Adriaan Unico Bacchiani, Llion Jones(参考訳) エンド・ツー・エンド(E2E)モデリングは、特に日本語の音声認識(ASR)において、日本語の単語ベースのトークン化は自明なものではなく、文字列を直接モデル化できるため有利である。 本稿では, 最新のE2Eモデリング技術に注目し, 比較実験により, 文字ベース日本語ASRの性能について検討する。 これらの結果は,長期記憶(LSTM)とコンバータモデルと接続性時間的分類,トランスデューサ,注意に基づく損失関数の相対的優位性を理解するために分析・議論された。 さらに,データ拡張(種別),変動騒音注入,指数的移動平均といった最近の訓練手法の効果について検討した。 本論文で得られた最適構成は, 自発日本語コーパス(CSJ) eval1, eval2, eval3タスクでそれぞれ4.1%, 3.2%, 3.5%の文字誤り率を達成した。 また、コンフォーマトランスデューサの効率性により、計算効率も高いことが示されている。

End-to-end (E2E) modeling is advantageous for automatic speech recognition (ASR) especially for Japanese since word-based tokenization of Japanese is not trivial, and E2E modeling is able to model character sequences directly. This paper focuses on the latest E2E modeling techniques, and investigates their performances on character-based Japanese ASR by conducting comparative experiments. The results are analyzed and discussed in order to understand the relative advantages of long short-term memory (LSTM), and Conformer models in combination with connectionist temporal classification, transducer, and attention-based loss functions. Furthermore, the paper investigates on effectivity of the recent training techniques such as data augmentation (SpecAugment), variational noise injection, and exponential moving average. The best configuration found in the paper achieved the state-of-the-art character error rates of 4.1%, 3.2%, and 3.5% for Corpus of Spontaneous Japanese (CSJ) eval1, eval2, and eval3 tasks, respectively. The system is also shown to be computationally efficient thanks to the efficiency of Conformer transducers.
翻訳日:2021-06-10 15:00:18 公開日:2021-06-09
# 未経験深層学習と制約付き生成対向ネットワークを用いた高速計算ゴーストイメージング

Fast Computational Ghost Imaging using Unpaired Deep Learning and a Constrained Generative Adversarial Network ( http://arxiv.org/abs/2106.04822v1 )

ライセンス: Link先を確認
Fatemeh Alishahi and Amirhossein Mohajerin-Ariaei(参考訳) 高速深層学習に基づくゴーストイメージングでは,低SNRゴースト画像の高信号対雑音比(SNR)画像コピーを得るのに,この未ペアトレーニングが唯一の選択肢となりうる。 本稿では,ペアトレーニング画像の欠如時に計算ゴースト画像を活用するための深層学習の能力について検討する。 本稿では, 高速ゴーストイメージングを高速に実現し, 拘束されたワッサーシュタイン生成逆数ネットワークを用いて, 高精細画像から高速ゴースト画像の再構成を可能にする。 提案手法では,ゴーストコピーに忠実かつ関連性の高い高SNR画像を生成するために,目的関数を正規化する。 この正規化は、シャドウネットワークによって生成された低雑音多様体における再構成画像とかすかなゴースト画像との距離を測定する。 SNRが低いゴースト画像では,ネットワーク性能が特に重要であることが示されている。 提案したパイプラインは,SNR値がトレーニングセットのSNRに必ずしも等しいとは限らないゴースト画像から高品質な画像を再構成することができる。

The unpaired training can be the only option available for fast deep learning-based ghost imaging, where obtaining a high signal-to-noise ratio (SNR) image copy of each low SNR ghost image could be practically time-consuming and challenging. This paper explores the capabilities of deep learning to leverage computational ghost imaging when there is a lack of paired training images. The deep learning approach proposed here enables fast ghost imaging through reconstruction of high SNR images from faint and hastily shot ghost images using a constrained Wasserstein generative adversarial network. In the proposed approach, the objective function is regularized to enforce the generation of faithful and relevant high SNR images to the ghost copies. This regularization measures the distance between reconstructed images and the faint ghost images in a low-noise manifold generated by a shadow network. The performance of the constrained network is shown to be particularly important for ghost images with low SNR. The proposed pipeline is able to reconstruct high-quality images from the ghost images with SNR values not necessarily equal to the SNR of the training set.
翻訳日:2021-06-10 14:59:58 公開日:2021-06-09
# 逐次完全PETセグメント化のための時空間デュアルストリームニューラルネットワーク

Spatio-Temporal Dual-Stream Neural Network for Sequential Whole-Body PET Segmentation ( http://arxiv.org/abs/2106.04961v1 )

ライセンス: Link先を確認
Kai-Chieh Liang, Lei Bi, Ashnil Kumar, Michael Fulham, Jinman Kim(参考訳) 全身18f-フルオロデオキシグルコース(fdg)ポジトロントモグラフィ(pet)スキャンは、解剖学的画像で変化しない場合の治療反応を検出できるため、リンパ腫の治療反応の評価に最適なイメージングモードとみなされる。 全身PETにおけるリンパ腫のコンピュータ解析は、疾患の部位を時間とともに定量的に監視できるように、研究の自動セグメンテーションを必要とする。 最新のPET画像セグメンテーション手法は、注釈付きデータセットを活用して疾患プロセスに関する高レベルな特徴を導き出す能力から、畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、そのような方法は、1つの時間点からのPET画像に焦点をあて、他のスキャンからの情報を捨てたり、特定の臓器に向けられたりすることで、全身PET画像の複数の構造に注意を向けることができない。 本研究では, 逐次的全体PETスキャンのための時空間「デュアルストリーム」ニューラルネットワーク (ST-DSNN) を提案する。 我々のST-DSNNは、時間とともに行われたPET画像から画像の特徴を学習し、蓄積する。 蓄積された画像の特徴は、活動性リンパ腫の部位の同定を容易にするために、時間とともに一貫した臓器や構造を強化するために使用される。 その結果,本手法は最新のPET画像分割法よりも優れていた。

Sequential whole-body 18F-Fluorodeoxygluco se (FDG) positron emission tomography (PET) scans are regarded as the imaging modality of choice for the assessment of treatment response in the lymphomas because they detect treatment response when there may not be changes on anatomical imaging. Any computerized analysis of lymphomas in whole-body PET requires automatic segmentation of the studies so that sites of disease can be quantitatively monitored over time. State-of-the-art PET image segmentation methods are based on convolutional neural networks (CNNs) given their ability to leverage annotated datasets to derive high-level features about the disease process. Such methods, however, focus on PET images from a single time-point and discard information from other scans or are targeted towards specific organs and cannot cater for the multiple structures in whole-body PET images. In this study, we propose a spatio-temporal 'dual-stream' neural network (ST-DSNN) to segment sequential whole-body PET scans. Our ST-DSNN learns and accumulates image features from the PET images done over time. The accumulated image features are used to enhance the organs / structures that are consistent over time to allow easier identification of sites of active lymphoma. Our results show that our method outperforms the state-of-the-art PET image segmentation methods.
翻訳日:2021-06-10 14:59:39 公開日:2021-06-09
# 選択的高分解能を用いたアジャイル広視野イメージング

Agile wide-field imaging with selective high resolution ( http://arxiv.org/abs/2106.05082v1 )

ライセンス: Link先を確認
Lintao Peng, Liheng Bian, Tiexin Liu and Jun Zhang(参考訳) 広視野高分解能(hr)イメージングは航空偵察、地形図、安全監視などの様々な応用に不可欠である。 既存の技術では、フィールド全体のHR画像をキャプチャするために大規模な検出器アレイが必要であるため、複雑さとコストが高い。 本研究では,2つの検出器のみを必要とする選択的高分解能のアジャイルワイドフィールドイメージングフレームワークについて報告する。 自然の場面よりも前の統計的なスパーシティに基づいており、重要なターゲットはフィールド全体ではなく、小さな関心領域(roi)のみである。 この仮定では、短焦点カメラを用いて一定の低解像度で広視野を撮像し、長焦点カメラを用いてROIのHR画像を取得する。 リアルタイムにROIを自動的に特定するために,2台のカメラ間の大きな設定差(焦点,ホワイトバランスなど)に頑健で盲目な,効率的な深層学習に基づくマルチスケール登録手法を提案する。 登録された位置を用いて、ジンバルに搭載された長焦点カメラは、連続したHRイメージングのためのROIのリアルタイム追跡を可能にする。 我々は,概念実証装置を181グラムの重量で構築し,空中から地上までの監視を行う無人航空機に組み込むことで,新たなイメージング枠組みを実証した。 実験では、120$^{\circ}$ wide field-of-view (fov) と 0.45$mrad$ instantaneous fov が設定されている。

Wide-field and high-resolution (HR) imaging is essential for various applications such as aviation reconnaissance, topographic mapping and safety monitoring. The existing techniques require a large-scale detector array to capture HR images of the whole field, resulting in high complexity and heavy cost. In this work, we report an agile wide-field imaging framework with selective high resolution that requires only two detectors. It builds on the statistical sparsity prior of natural scenes that the important targets locate only at small regions of interests (ROI), instead of the whole field. Under this assumption, we use a short-focal camera to image wide field with a certain low resolution, and use a long-focal camera to acquire the HR images of ROI. To automatically locate ROI in the wide field in real time, we propose an efficient deep-learning based multiscale registration method that is robust and blind to the large setting differences (focal, white balance, etc) between the two cameras. Using the registered location, the long-focal camera mounted on a gimbal enables real-time tracking of the ROI for continuous HR imaging. We demonstrated the novel imaging framework by building a proof-of-concept setup with only 1181 gram weight, and assembled it on an unmanned aerial vehicle for air-to-ground monitoring. Experiments show that the setup maintains 120$^{\circ}$ wide field-of-view (FOV) with selective 0.45$mrad$ instantaneous FOV.
翻訳日:2021-06-10 14:59:15 公開日:2021-06-09
# 胸部X線画像生成・分割のための多段階GAN

A multi-stage GAN for multi-organ chest X-ray image generation and segmentation ( http://arxiv.org/abs/2106.05132v1 )

ライセンス: Link先を確認
Giorgio Ciano, Paolo Andreini, Tommaso Mazzierli, Monica Bianchini and Franco Scarselli(参考訳) X線画像の多臓器分割は、コンピュータ支援診断システムにおいて重要である。 しかし、最も先進的なセマンティックセグメンテーション手法は深層学習に依存し、大量のラベル付き画像を必要とする。 本稿では,その意味的ラベルとともに合成画像を生成でき,データ拡張にも使用可能な,生成型逆ネットワーク(gans)に基づく新しい多段生成アルゴリズムを提案する。 このメソッドの主な特徴は、他のアプローチとは異なり、生成はいくつかの段階で行われ、手順を単純化し、非常に小さなデータセットで使用できるようにすることである。 本手法は胸部X線画像のセグメンテーションで評価され,有望な結果を示した。 マルチステージアプローチは最先端を実現し、GANのトレーニングに非常に少ない画像を使用する場合、対応する単一ステージアプローチよりも優れる。

Multi-organ segmentation of X-ray images is of fundamental importance for computer aided diagnosis systems. However, the most advanced semantic segmentation methods rely on deep learning and require a huge amount of labeled images, which are rarely available due to both the high cost of human resources and the time required for labeling. In this paper, we present a novel multi-stage generation algorithm based on Generative Adversarial Networks (GANs) that can produce synthetic images along with their semantic labels and can be used for data augmentation. The main feature of the method is that, unlike other approaches, generation occurs in several stages, which simplifies the procedure and allows it to be used on very small datasets. The method has been evaluated on the segmentation of chest radiographic images, showing promising results. The multistage approach achieves state-of-the-art and, when very few images are used to train the GANs, outperforms the corresponding single-stage approach.
翻訳日:2021-06-10 14:58:52 公開日:2021-06-09
# 常にキャッチできる:シグネチャの有無に関わらず、逆のパッチ対象を検出する

We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature ( http://arxiv.org/abs/2106.05261v1 )

ライセンス: Link先を確認
Bin Liang and Jiachun Li and Jianjun Huang(参考訳) 近年,ディープラーニングに基づく物体検出は,敵パッチ攻撃に対して脆弱であることが証明されている。 特別に製作されたパッチを持った攻撃者は、物理的な世界でさえ最先端の人検知器、例えばYOLOから身を隠すことができる。 このような攻撃は、監視カメラから逃れるなど、深刻なセキュリティ上の脅威を引き起こす可能性がある。 本稿では,対象物検出に対する敵対的パッチ攻撃に対する検出問題について深く検討する。 まず、可視化説明の観点から、既存の敵パッチの活用可能なシグネチャを特定する。 高速シグネチャベースの防御手法を提案し,有効性を示した。 第2に,改良パッチ生成アルゴリズムの設計を行い,シグネチャベースの手法が将来出現する技術によってバイパスされるリスクを明らかにする。 新たに生成された敵パッチは、提案された署名ベースの防御を回避できる。 最後に,攻撃固有の事前知識ではなく,内部コンテンツセマンティクスの一貫性に基づく新たな署名非依存検出手法を提案する。 基本的直観は、対向物体が局所的に現れるが、入力画像で世界中に消えてしまうことである。 実験により,シグネチャ非依存手法が既存および改良された攻撃を効果的に検出できることが示されている。 また、攻撃固有の事前知識がなくても、予期せぬ攻撃やその他の種類の攻撃を検出する一般的な方法であることが証明されている。 提案する2つの検出方法は,異なるシナリオで適用可能であり,これらを組み合わせることで包括的に保護できると信じている。

Recently, the object detection based on deep learning has proven to be vulnerable to adversarial patch attacks. The attackers holding a specially crafted patch can hide themselves from the state-of-the-art person detectors, e.g., YOLO, even in the physical world. This kind of attack can bring serious security threats, such as escaping from surveillance cameras. In this paper, we deeply explore the detection problems about the adversarial patch attacks to the object detection. First, we identify a leverageable signature of existing adversarial patches from the point of the visualization explanation. A fast signature-based defense method is proposed and demonstrated to be effective. Second, we design an improved patch generation algorithm to reveal the risk that the signature-based way may be bypassed by the techniques emerging in the future. The newly generated adversarial patches can successfully evade the proposed signature-based defense. Finally, we present a novel signature-independen t detection method based on the internal content semantics consistency rather than any attack-specific prior knowledge. The fundamental intuition is that the adversarial object can appear locally but disappear globally in an input image. The experiments demonstrate that the signature-independen t method can effectively detect the existing and improved attacks. It has also proven to be a general method by detecting unforeseen and even other types of attacks without any attack-specific prior knowledge. The two proposed detection methods can be adopted in different scenarios, and we believe that combining them can offer a comprehensive protection.
翻訳日:2021-06-10 14:58:36 公開日:2021-06-09
# 自己改善型再合成計画

Self-Improved Retrosynthetic Planning ( http://arxiv.org/abs/2106.04880v1 )

ライセンス: Link先を確認
Junsu Kim, Sungsoo Ahn, Hankook Lee, Jinwoo Shin(参考訳) 再合成計画(Retrosynthetic Planning)は、標的分子を合成する反応経路を見つけるための化学の基本的な問題である。 近年,探索アルゴリズムは,ディープニューラルネットワーク(dnn)を用いて候補解の拡張,すなわち反応経路に新たな反応を加えることで,この問題に対する有望な結果を示している。 逆合成計画問題では、反応経路を(a)実世界の反応で表現し、(b)「構築ブロック」分子を使って実行可能なものとする必要があるが、dnnはそのような要求を完全に組み込むことなく反応経路を拡張する。 そこで本研究では,DNNを直接訓練し,望ましい特性を持つ反応経路を生成するためのエンドツーエンドフレームワークを提案する。 私たちの主なアイデアは、モデル自体が成功している軌道を模倣するようにトレーニングする自己改善手順に基づいています。 また, 前方反応モデルに基づく新しい反応増強手法を提案する。 提案手法は, 逆合成問題を86.84%から96.32%に改善し, 有効反応予測のためのDNNの性能を維持した。

Retrosynthetic planning is a fundamental problem in chemistry for finding a pathway of reactions to synthesize a target molecule. Recently, search algorithms have shown promising results for solving this problem by using deep neural networks (DNNs) to expand their candidate solutions, i.e., adding new reactions to reaction pathways. However, the existing works on this line are suboptimal; the retrosynthetic planning problem requires the reaction pathways to be (a) represented by real-world reactions and (b) executable using "building block" molecules, yet the DNNs expand reaction pathways without fully incorporating such requirements. Motivated by this, we propose an end-to-end framework for directly training the DNNs towards generating reaction pathways with the desirable properties. Our main idea is based on a self-improving procedure that trains the model to imitate successful trajectories found by itself. We also propose a novel reaction augmentation scheme based on a forward reaction model. Our experiments demonstrate that our scheme significantly improves the success rate of solving the retrosynthetic problem from 86.84% to 96.32% while maintaining the performance of DNN for predicting valid reactions.
翻訳日:2021-06-10 14:57:35 公開日:2021-06-09
# グラフの組合せ最適化を解くための二段階学習フレームワーク

A Bi-Level Framework for Learning to Solve Combinatorial Optimization on Graphs ( http://arxiv.org/abs/2106.04927v1 )

ライセンス: Link先を確認
Runzhong Wang, Zhigang Hua, Gan Liu, Jiayi Zhang, Junchi Yan, Feng Qi, Shuang Yang, Jun Zhou, Xiaokang Yang(参考訳) Combinatorial Optimization(CO)は、NPハードな性質を特徴とする長年にわたる挑戦的な研究トピックである。 伝統的にそのような問題は、通常高速だが解の質を犠牲にするヒューリスティックなアルゴリズムでほぼ解決される。 現在、組合せ最適化のための機械学習(MLCO)がトレンドとなっているが、ほとんどの既存のMLCOメソッドは、COの複雑さが高いMLモデルの容量によってほとんど制限される、エンドツーエンドのソリューションを直接学習することで、COを単一レベルの最適化として扱う。 本稿では,2つの世界の長所を結合するハイブリッドな手法を提案する。この手法では,グラフを最適化する上層学習手法とバイレベルフレームワークを開発する。 グラフのエッジの追加、削除、あるいは変更)は、最適化されたグラフ上で解く低レベルのヒューリスティックアルゴリズムと融合する。 このような二段階のアプローチは、元のハードCOでの学習を単純化し、モデル容量の需要を効果的に軽減することができる。 Directed Acyclic Graph scheduling, Graph Edit Distance, Hamiltonian Cycle ProblemなどのCO問題に対する実験と結果は、手作業で設計したヒューリスティックスやシングルレベルの学習方法に対する効果を示している。

Combinatorial Optimization (CO) has been a long-standing challenging research topic featured by its NP-hard nature. Traditionally such problems are approximately solved with heuristic algorithms which are usually fast but may sacrifice the solution quality. Currently, machine learning for combinatorial optimization (MLCO) has become a trending research topic, but most existing MLCO methods treat CO as a single-level optimization by directly learning the end-to-end solutions, which are hard to scale up and mostly limited by the capacity of ML models given the high complexity of CO. In this paper, we propose a hybrid approach to combine the best of the two worlds, in which a bi-level framework is developed with an upper-level learning method to optimize the graph (e.g. add, delete or modify edges in a graph), fused with a lower-level heuristic algorithm solving on the optimized graph. Such a bi-level approach simplifies the learning on the original hard CO and can effectively mitigate the demand for model capacity. The experiments and results on several popular CO problems like Directed Acyclic Graph scheduling, Graph Edit Distance and Hamiltonian Cycle Problem show its effectiveness over manually designed heuristics and single-level learning methods.
翻訳日:2021-06-10 14:57:13 公開日:2021-06-09
# 防御としての敵の攻撃

Attacking Adversarial Attacks as A Defense ( http://arxiv.org/abs/2106.04938v1 )

ライセンス: Link先を確認
Boxi Wu, Heng Pan, Li Shen, Jindong Gu, Shuai Zhao, Zhifeng Li, Deng Cai, Xiaofei He, Wei Liu(参考訳) 敵の攻撃が知覚不能な摂動を伴うディープニューラルネットワークを騙すことはよく知られている。 敵の訓練はモデルの堅牢性を大幅に向上させるが、防御の失敗例は広く存在する。 この研究では、敵の攻撃は小さな摂動にも弱いことが判明した。 すなわち、敵対的に訓練されたモデルでは、小さなランダムノイズを持つ敵の例を摂動することで、誤った予測を無効にすることができる。 様々な種類の最先端の攻撃を慎重に調べた結果、これらすべての攻撃は、異なる程度にこの欠陥があることがわかった。 この発見を悟り,より効果的な防御的摂動を造ることによる攻撃に対抗することを提案する。 我々の防御的摂動は、敵の訓練がより小さな局所的なリプシッツ性で地上のクラスを内乱するという利点を生かしている。 すべてのクラスを同時に攻撃することにより、より大きなリプシッツ性を持つ誤った予測を正解にすることができる。 実験実験と線形モデル理論解析の両方を用いて, 防御摂動を検証した。 CIFAR10では、4回のオートアタック攻撃に対して66.16%から72.66%に増加し、うち71.76%はスクエア攻撃に対して83.30%となった。 ImageNetでは、100ステップのPGD攻撃でFastATが33.18%から38.54%に改善された。

It is well known that adversarial attacks can fool deep neural networks with imperceptible perturbations. Although adversarial training significantly improves model robustness, failure cases of defense still broadly exist. In this work, we find that the adversarial attacks can also be vulnerable to small perturbations. Namely, on adversarially-traine d models, perturbing adversarial examples with a small random noise may invalidate their misled predictions. After carefully examining state-of-the-art attacks of various kinds, we find that all these attacks have this deficiency to different extents. Enlightened by this finding, we propose to counter attacks by crafting more effective defensive perturbations. Our defensive perturbations leverage the advantage that adversarial training endows the ground-truth class with smaller local Lipschitzness. By simultaneously attacking all the classes, the misled predictions with larger Lipschitzness can be flipped into correct ones. We verify our defensive perturbation with both empirical experiments and theoretical analyses on a linear model. On CIFAR10, it boosts the state-of-the-art model from 66.16% to 72.66% against the four attacks of AutoAttack, including 71.76% to 83.30% against the Square attack. On ImageNet, the top-1 robust accuracy of FastAT is improved from 33.18% to 38.54% under the 100-step PGD attack.
翻訳日:2021-06-10 14:56:52 公開日:2021-06-09
# 混合LSTMニューラルネットワークを用いた多段階電気自動車充電ステーション稼働予測

Multistep Electric Vehicle Charging Station Occupancy Prediction using Mixed LSTM Neural Networks ( http://arxiv.org/abs/2106.04986v1 )

ライセンス: Link先を確認
Tai-Yu Ma and S\'ebastien Faye(参考訳) 公共充電ステーションの占有率予測は、電気自動車(ev)オペレーターとユーザの不便を減らすスマート充電戦略を開発する上で重要な役割を果たす。 しかし、既存の研究は主に精度の低い従来の計量的手法や時系列法に基づいている。 本稿では,複数ステップの離散的な充電状態予測のための履歴充電状態シーケンスと時間関連特徴を併用した,新しい混合短期記憶ニューラルネットワークを提案する。 既存のLSTMネットワークとは異なり、提案モデルは異なるタイプの特徴を分離し、混合ニューラルネットワークアーキテクチャで異なる処理を行う。 このモデルは、イギリスのダンディー市のオープンデータポータルから得られたEV充電データに基づいて、最先端の機械学習とディープラーニングのアプローチと比較される。 その結果,提案手法は1ステップ (10分) に対して99.99%, 81.87%, 前方で6ステップ (1時間) の予測を精度良く行い, ベンチマーク手法を有意に上回った(1ステップ予測では+22.4%, 前方では+6.2%)。 モデルパラメータが予測精度に与える影響を評価するために感度解析を行う。

Public charging station occupancy prediction plays key importance in developing a smart charging strategy to reduce electric vehicle (EV) operator and user inconvenience. However, existing studies are mainly based on conventional econometric or time series methodologies with limited accuracy. We propose a new mixed long short-term memory neural network incorporating both historical charging state sequences and time-related features for multistep discrete charging occupancy state prediction. Unlike the existing LSTM networks, the proposed model separates different types of features and handles them differently with mixed neural network architecture. The model is compared to a number of state-of-the-art machine learning and deep learning approaches based on the EV charging data obtained from the open data portal of the city of Dundee, UK. The results show that the proposed method produces very accurate predictions (99.99% and 81.87% for 1 step (10 minutes) and 6 step (1 hour) ahead, respectively, and outperforms the benchmark approaches significantly (+22.4% for one-step-ahead prediction and +6.2% for 6 steps ahead). A sensitivity analysis is conducted to evaluate the impact of the model parameters on prediction accuracy.
翻訳日:2021-06-10 14:56:31 公開日:2021-06-09
# 初期化事項:ニューラルレコメンデーションシステムにおける正規化マニフォールドインフォームド初期化

Initialization Matters: Regularizing Manifold-informed Initialization for Neural Recommendation Systems ( http://arxiv.org/abs/2106.04993v1 )

ライセンス: Link先を確認
Yinan Zhang, Boyang Li, Yong Liu, Hao Wang, Chunyan Miao(参考訳) 適切な初期化はニューラルネットワークの最適化と一般化に不可欠である。 しかし、既存のほとんどのニューラルレコメンデーションシステムは、ユーザとアイテムの埋め込みをランダムに初期化する。 本研究では,ユーザとアイテムの埋め込みのための新しい初期化スキームであるlaplacian eigenmapsを提案する。 LEPORIDは、データ多様体上のマルチスケール近傍構造に関する情報を埋め込みに付与し、データ分布の尾に高い埋め込み分散を補う適応正規化を行う。 マトリックススパーシティを利用して、レポロイド埋め込みを効率的に計算することができる。 レポロイドを多種多様な神経推薦モデルで評価する。 単純なK-nearest-neighbor(K NN)法が神経レコメンデーションシステムより優れているという最近の驚くべき発見とは対照的に、LEPORIDで初期化された既存の神経システムは、KNNよりも同等以上のパフォーマンスを示すことが多い。 初期化の効果を最大化するために,LEPORIDを初期化した場合,従来のニューラルレコメンデータシステムと最先端のニューラルレコメンデータシステムを大きく上回るDLR(Dual-Loss Residual Recommendation)ネットワークを提案する。

Proper initialization is crucial to the optimization and the generalization of neural networks. However, most existing neural recommendation systems initialize the user and item embeddings randomly. In this work, we propose a new initialization scheme for user and item embeddings called Laplacian Eigenmaps with Popularity-based Regularization for Isolated Data (LEPORID). LEPORID endows the embeddings with information regarding multi-scale neighborhood structures on the data manifold and performs adaptive regularization to compensate for high embedding variance on the tail of the data distribution. Exploiting matrix sparsity, LEPORID embeddings can be computed efficiently. We evaluate LEPORID in a wide range of neural recommendation models. In contrast to the recent surprising finding that the simple K-nearest-neighbor (KNN) method often outperforms neural recommendation systems, we show that existing neural systems initialized with LEPORID often perform on par or better than KNN. To maximize the effects of the initialization, we propose the Dual-Loss Residual Recommendation (DLR2) network, which, when initialized with LEPORID, substantially outperforms both traditional and state-of-the-art neural recommender systems.
翻訳日:2021-06-10 14:56:10 公開日:2021-06-09
# ネットワーク上でのマルチカーネル表現学習

Multiple Kernel Representation Learning on Networks ( http://arxiv.org/abs/2106.05057v1 )

ライセンス: Link先を確認
Abdulkadir Celikkanat and Yanning Shen and Fragkiskos D. Malliaros(参考訳) 低次元空間におけるノード表現の学習は、リンク予測、ノード分類、可視化など、ネットワーク分析における多くの興味深い応用において重要なタスクである。 この問題に対する一般的なアプローチは、行列分解とランダムウォークベースモデルである。 本稿では,ノード表現の学習に向けて,両世界の長所をまとめることを目的とする。 特に,ネットワークのノードに関するランダムウォークに基づく情報を符号化する重み付き行列分解モデルを提案する。 この新しい定式化の利点は、正確な近接行列を認識せずにカーネル関数を利用することができ、既存の行列分解法をカーネルで表現し、それらの計算複雑性を軽減することができることである。 データ駆動方式でカーネル辞書の線形結合としてカーネルを学習する柔軟性を提供するマルチカーネル学習定式化によって、このアプローチを拡張する。 実世界のネットワーク上で実証的な評価を行い、提案モデルが下流機械学習タスクにおけるベースラインノード埋め込みアルゴリズムより優れていることを示す。

Learning representations of nodes in a low dimensional space is a crucial task with numerous interesting applications in network analysis, including link prediction, node classification, and visualization. Two popular approaches for this problem are matrix factorization and random walk-based models. In this paper, we aim to bring together the best of both worlds, towards learning node representations. In particular, we propose a weighted matrix factorization model that encodes random walk-based information about nodes of the network. The benefit of this novel formulation is that it enables us to utilize kernel functions without realizing the exact proximity matrix so that it enhances the expressiveness of existing matrix decomposition methods with kernels and alleviates their computational complexities. We extend the approach with a multiple kernel learning formulation that provides the flexibility of learning the kernel as the linear combination of a dictionary of kernels in data-driven fashion. We perform an empirical evaluation on real-world networks, showing that the proposed model outperforms baseline node embedding algorithms in downstream machine learning tasks.
翻訳日:2021-06-10 14:55:47 公開日:2021-06-09
# 混合整数プログラムのための擬似バックドアの学習

Learning Pseudo-Backdoors for Mixed Integer Programs ( http://arxiv.org/abs/2106.05080v1 )

ライセンス: Link先を確認
Aaron Ferber, Jialin Song, Bistra Dilkina, Yisong Yue(参考訳) 本研究では,混合整数プログラム(mip)を高速に解くための機械学習手法を提案する。 学習に基づくアプローチは、与えられた問題の分布において共通構造を柔軟に活用することで、組合せ最適化問題を解決する領域で成功している。 我々のアプローチは、これらの変数の分岐のみが最適な積分解と最適性の証明をもたらすような小さな変数の集合に対応する強いバックドアの概念から着想を得ている。 我々の疑似バックドアの概念は、変数の小さなセットに対応するので、それらの上で分岐するだけで(ソルバに依存することができる)より早く解くことができる。 強力なバックドアに対する擬似バックドアの重要な利点は、データ駆動の識別や予測に非常に適していることである。 提案手法は,学習用MIPインスタンスの集合から収集したラベル付きデータセットを用いて,提案した擬似バックドアの解法性能を推定する。 このモデルを使用して、同じ分布から新しいMIPインスタンス上の高品質な擬似バックドアを識別することができる。 一般化された独立集合問題に対する本手法の評価を行い,高品質な擬似バックドアを効率的に同定できることを見出した。 さらに,最先端のMIP解法であるGurobiに対する学習手法を比較し,その手法が解法の性能向上に有効であることを実証した。

We propose a machine learning approach for quickly solving Mixed Integer Programs (MIP) by learning to prioritize a set of decision variables, which we call pseudo-backdoors, for branching that results in faster solution times. Learning-based approaches have seen success in the area of solving combinatorial optimization problems by being able to flexibly leverage common structures in a given distribution of problems. Our approach takes inspiration from the concept of strong backdoors, which corresponds to a small set of variables such that only branching on these variables yields an optimal integral solution and a proof of optimality. Our notion of pseudo-backdoors corresponds to a small set of variables such that only branching on them leads to faster solve time (which can be solver dependent). A key advantage of pseudo-backdoors over strong backdoors is that they are much amenable to data-driven identification or prediction. Our proposed method learns to estimate the solver performance of a proposed pseudo-backdoor, using a labeled dataset collected on a set of training MIP instances. This model can then be used to identify high-quality pseudo-backdoors on new MIP instances from the same distribution. We evaluate our method on the generalized independent set problems and find that our approach can efficiently identify high-quality pseudo-backdoors. In addition, we compare our learned approach against Gurobi, a state-of-the-art MIP solver, demonstrating that our method can be used to improve solver performance.
翻訳日:2021-06-10 14:55:32 公開日:2021-06-09
# 最強の敵は誰だ? 深部RLにおける最適かつ効率的な侵入攻撃に向けて

Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion Attacks in Deep RL ( http://arxiv.org/abs/2106.05087v1 )

ライセンス: Link先を確認
Yanchao Sun, Ruijie Zheng, Yongyuan Liang, Furong Huang(参考訳) 強化学習(rl)エージェントの(いくつかの制約を含む)状態観察における最強/最適逆摂動下での最悪の性能評価は、rlエージェントの頑健性を理解する上で重要である。 しかし、最適な敵を見つけることは、最適な攻撃を見つけられるか、どれだけ効率的にそれを見つけるかという観点で、困難である。 敵意rlの既存の作品は、最強の敵を見つけられないヒューリスティックスベースの方法を使うか、または、最適な敵を見つけられるが大きな状態空間では難解になる可能性のある環境の一部としてそのエージェントを処理して、rlベースの敵意を直接訓練する。 本稿では, 最適政策摂動を探索するrlベース「管理者」と, 管理者からの指示に従って状態摂動を行う「アクタ」を有する新しい攻撃アルゴリズムを提案する。 俳優は標的攻撃を行う) 提案アルゴリズムであるPA-ADは,RLエージェントに対して理論的に最適であり,大または画素状態の環境における従来のRLベースの作業と比較して,効率を著しく向上する。 実験結果から,提案したPA-ADは,幅広い環境下での最先端攻撃手法よりも優れていた。 提案手法は,どのRLアルゴリズムにも容易に適用でき,ロバスト性を評価・改善することができる。

Evaluating the worst-case performance of a reinforcement learning (RL) agent under the strongest/optimal adversarial perturbations on state observations (within some constraints) is crucial for understanding the robustness of RL agents. However, finding the optimal adversary is challenging, in terms of both whether we can find the optimal attack and how efficiently we can find it. Existing works on adversarial RL either use heuristics-based methods that may not find the strongest adversary, or directly train an RL-based adversary by treating the agent as a part of the environment, which can find the optimal adversary but may become intractable in a large state space. In this paper, we propose a novel attacking algorithm which has an RL-based "director" searching for the optimal policy perturbation, and an "actor" crafting state perturbations following the directions from the director (i.e. the actor executes targeted attacks). Our proposed algorithm, PA-AD, is theoretically optimal against an RL agent and significantly improves the efficiency compared with prior RL-based works in environments with large or pixel state spaces. Empirical results show that our proposed PA-AD universally outperforms state-of-the-art attacking methods in a wide range of environments. Our method can be easily applied to any RL algorithms to evaluate and improve their robustness.
翻訳日:2021-06-10 14:55:07 公開日:2021-06-09
# データ駆動型普遍パラメータ依存型支配方程式発見のための正規形式オートエンコーダの学習

Learning normal form autoencoders for data-driven discovery of universal,parameter- dependent governing equations ( http://arxiv.org/abs/2106.05102v1 )

ライセンス: Link先を確認
Manu Kalia, Steven L. Brunton, Hil G.E. Meijer, Christoph Brune, J. Nathan Kutz(参考訳) 複素系は、自然界において標準的である少数の不安定性と分岐を示し、パラメトリック依存の関数としての普遍的なパターン形成特性をもたらす。 このようなパラメトリック不安定性は、数学的には普遍的アンフォールディング(un-foldings)または正規形式力学によって特徴づけられる。 中心多様体理論はそのような低次元の正規形式の存在を保証するが、それらを見つけることは長い挑戦のままである。 本研究では,その正準正規形を用いて力学系のパラメトリック依存を捉える座標変換を探索する深層学習オートエンコーダを導入し,パラメトリック依存と分岐構造の簡易表現を可能にした。 オートエンコーダは、潜在変数を所定の正規形式に従うように制約し、適切な座標変換を学ぶことができる。 本手法は, ホップ, ピッチフォーク, トランスクリティカル, および/またはサドルノード分岐に関連する, 多様な正規形の集合を捉えることができることを示す。 本手法は, モデル探索および低次モデリングのための深層学習手法において, 正規および普遍的な構造ブロックとして正規形式をどのように活用するかを示す。

Complex systems manifest a small number of instabilities and bifurcations that are canonical in nature, resulting in universal pattern forming characteristics as a function of some parametric dependence. Such parametric instabilities are mathematically characterized by their universal un-foldings, or normal form dynamics, whereby a parsimonious model can be used to represent the dynamics. Although center manifold theory guarantees the existence of such low-dimensional normal forms, finding them has remained a long standing challenge. In this work, we introduce deep learning autoencoders to discover coordinate transformations that capture the underlying parametric dependence of a dynamical system in terms of its canonical normal form, allowing for a simple representation of the parametric dependence and bifurcation structure. The autoencoder constrains the latent variable to adhere to a given normal form, thus allowing it to learn the appropriate coordinate transformation. We demonstrate the method on a number of example problems, showing that it can capture a diverse set of normal forms associated with Hopf, pitchfork, transcritical and/or saddle node bifurcations. This method shows how normal forms can be leveraged as canonical and universal building blocks in deep learning approaches for model discovery and reduced-order modeling.
翻訳日:2021-06-10 14:54:46 公開日:2021-06-09
# 長期制約付きオンライン凸最適化における後悔と累積制約違反解析

Regret and Cumulative Constraint Violation Analysis for Online Convex Optimization with Long Term Constraints ( http://arxiv.org/abs/2106.05135v1 )

ライセンス: Link先を確認
Xinlei Yi, Xiuxian Li, Tao Yang, Lihua Xie, Tianyou Chai, and Karl H. Johansson(参考訳) 本稿では,長期的制約を伴うオンライン凸最適化について考察する。 累積制約違反は、厳格な制約が違反した制約の効果を補償できる状況を排除する制約違反を計測するための指標として用いられる。 新たなアルゴリズムが最初に提案され、静的後悔に対する$\mathcal{O}(T^{\max\{c,1-c\}})$boundと累積制約違反に対する$\mathcal{O}(T^{(1-c)/2})$boundを実現している。 静的な後悔と累積的な制約違反境界は、損失関数が強い凸であるときに$\mathcal{O}(\log(T))$に還元され、既存の結果も改善される。 % コンパレータ列に対する後悔を拘束するために、任意のコンパレータ列に対する最適な後悔を達成するために、別のアルゴリズムが提案され、最適な$\mathcal{O}(\sqrt{T(1+P_T)})$ regret と $\mathcal{O}(\sqrt{T})$ cumulative constraint violation, ここで$P_T$はコンパレータ列のパス長である。 最後に, 理論結果の有効性を説明するため, 数値シミュレーションを行った。

This paper considers online convex optimization with long term constraints, where constraints can be violated in intermediate rounds, but need to be satisfied in the long run. The cumulative constraint violation is used as the metric to measure constraint violations, which excludes the situation that strictly feasible constraints can compensate the effects of violated constraints. A novel algorithm is first proposed and it achieves an $\mathcal{O}(T^{\max\{c,1-c\}})$ bound for static regret and an $\mathcal{O}(T^{(1-c)/2})$ bound for cumulative constraint violation, where $c\in(0,1)$ is a user-defined trade-off parameter, and thus has improved performance compared with existing results. Both static regret and cumulative constraint violation bounds are reduced to $\mathcal{O}(\log(T))$ when the loss functions are strongly convex, which also improves existing results. %In order to bound the regret with respect to any comparator sequence, In order to achieve the optimal regret with respect to any comparator sequence, another algorithm is then proposed and it achieves the optimal $\mathcal{O}(\sqrt{T(1+P_T)})$ regret and an $\mathcal{O}(\sqrt{T})$ cumulative constraint violation, where $P_T$ is the path-length of the comparator sequence. Finally, numerical simulations are provided to illustrate the effectiveness of the theoretical results.
翻訳日:2021-06-10 14:54:25 公開日:2021-06-09
# ニューラルアップフロー:粒子系液体の明瞭な分解能を高めるためのシーンフロー学習アプローチ

Neural UpFlow: A Scene Flow Learning Approach to Increase the Apparent Resolution of Particle-Based Liquids ( http://arxiv.org/abs/2106.05143v1 )

ライセンス: Link先を確認
Bruno Roy, Pierre Poulin, and Eric Paquette(参考訳) 本稿では,深層ニューラルネットワークを用いたシーンフロー推定に基づく高分解能液体の生成手法を提案する。 本手法は,低分解能粒子ベース液体シミュレーションのみで,小型・大規模の詳細を推測・合成する。 提案するネットワークは、畳み込み全体を通して固有の液体特性をエンコードするために近所の貢献を利用する。 また,新しいキーイベントトポロジカルアライメント制約に加えて,流体の最先端の双方向光フローソルバ法を用いて,様々なシミュレーション離散化から生成された液体間を補間する粒子ベースアプローチを提案する。 近所の貢献と相まって,epoch全体の推論モデルはシミュレーションの離散化における重要なギャップに関して重要な違いを報奨することができる。 未検証のシミュレーション環境に適用しても,この手法は高分解能な詳細情報を生成することができる。 この補間法と予測変位法を用いて, 入力液特性と予測運動を組み合わせることにより, 半ラグランジアン移流を推定する。 さらに,提案手法により,初期条件パラメータのサブセットによる大規模なシミュレーションデータセットの生成が容易になることを示す。

We present a novel up-resing technique for generating high-resolution liquids based on scene flow estimation using deep neural networks. Our approach infers and synthesizes small- and large-scale details solely from a low-resolution particle-based liquid simulation. The proposed network leverages neighborhood contributions to encode inherent liquid properties throughout convolutions. We also propose a particle-based approach to interpolate between liquids generated from varying simulation discretizations using a state-of-the-art bidirectional optical flow solver method for fluids in addition to a novel key-event topological alignment constraint. In conjunction with the neighborhood contributions, our loss formulation allows the inference model throughout epochs to reward important differences in regard to significant gaps in simulation discretizations. Even when applied in an untested simulation setup, our approach is able to generate plausible high-resolution details. Using this interpolation approach and the predicted displacements, our approach combines the input liquid properties with the predicted motion to infer semi-Lagrangian advection. We furthermore showcase how the proposed interpolation approach can facilitate generating large simulation datasets with a subset of initial condition parameters.
翻訳日:2021-06-10 14:53:50 公開日:2021-06-09
# グラフ粗大化によるグラフニューラルネットワークのスケールアップ

Scaling Up Graph Neural Networks Via Graph Coarsening ( http://arxiv.org/abs/2106.05150v1 )

ライセンス: Link先を確認
Zengfeng Huang, Shengzhong Zhang, Chong Xi, Tang Liu and Min Zhou(参考訳) グラフニューラルネットワークのスケーラビリティは、グラフ機械学習における大きな課題のひとつだ。 ノードの表現は、近隣ノードの表現ベクトルを前層から再帰的に集約・変換することによって計算されるので、受容場は指数関数的に増加し、標準的な確率最適化技術は非効率になる。 グラフフィルタの事前計算に基づくサンプリング手法や手法など、この問題を軽減するための様々なアプローチが提案されている。 本稿では,gnnのスケーラブルなトレーニングのためのグラフ粗さ化手法を提案する。これは汎用的で,非常にシンプルで,トレーニング時のサブリニアメモリと時間コストを持つ。 本稿では,粗化操作の効果に関する広範な理論的解析を行い,粗化方法の選択に関する有用なガイダンスを提供する。 興味深いことに、我々の理論解析は、粗大化を正規化の一種と見なすことができ、一般化を改善する可能性があることを示している。 最後に,実世界のデータセットにおける実験結果から,既成の粗大化法を単純に適用すれば,分類精度が著しく低下することなく,ノード数を最大10倍に削減できることがわかった。

Scalability of graph neural networks remains one of the major challenges in graph machine learning. Since the representation of a node is computed by recursively aggregating and transforming representation vectors of its neighboring nodes from previous layers, the receptive fields grow exponentially, which makes standard stochastic optimization techniques ineffective. Various approaches have been proposed to alleviate this issue, e.g., sampling-based methods and techniques based on pre-computation of graph filters. In this paper, we take a different approach and propose to use graph coarsening for scalable training of GNNs, which is generic, extremely simple and has sublinear memory and time costs during training. We present extensive theoretical analysis on the effect of using coarsening operations and provides useful guidance on the choice of coarsening methods. Interestingly, our theoretical analysis shows that coarsening can also be considered as a type of regularization and may improve the generalization. Finally, empirical results on real world datasets show that, simply applying off-the-shelf coarsening methods, we can reduce the number of nodes by up to a factor of ten without causing a noticeable downgrade in classification accuracy.
翻訳日:2021-06-10 14:53:33 公開日:2021-06-09
# シーケンス外計測による連続離散多重目標追跡

Continuous-discrete multiple target tracking with out-of-sequence measurements ( http://arxiv.org/abs/2106.04898v1 )

ライセンス: Link先を確認
\'Angel F. Garc\'ia-Fern\'andez, Wei Yi(参考訳) 本稿では、複数の目標追跡のための連続時間におけるOOS(out-of-sequence) 測定の最適ベイズ処理を導出する。 我々は,連続時間にモデル化されたマルチターゲットシステムについて,標準点目標モデルに則って分布する計測値を受け取る際に,その時間ステップで離散化することを検討する。 サンプリングされた時間ステップにおけるこのシステムに関するすべての情報は、すべての軌跡の集合の後方密度によって提供される。 この密度は連続離散軌道 poisson multi-bernoulli mixture (tpmbm) フィルタによって計算できる。 oos測定を受信すると、最適なベイズ処理は、oos測定時刻スタンプに軌道情報を追加して更新ステップを付加するレトロディクションステップを実行する。 OOS測定の更新後、後部はTPMBM形式で残存する。 また、軌道ポアソンマルチバーヌーリフィルタに基づく計算量的に軽量な代替手段を提供する。 OOS測定に対する2つの手法の有効性をシミュレーションにより評価した。

This paper derives the optimal Bayesian processing of an out-of-sequence (OOS) set of measurements in continuous-time for multiple target tracking. We consider a multi-target system modelled in continuous time that is discretised at the time steps when we receive the measurements, which are distributed according to the standard point target model. All information about this system at the sampled time steps is provided by the posterior density on the set of all trajectories. This density can be computed via the continuous-discrete trajectory Poisson multi-Bernoulli mixture (TPMBM) filter. When we receive an OOS measurement, the optimal Bayesian processing performs a retrodiction step that adds trajectory information at the OOS measurement time stamp followed by an update step. After the OOS measurement update, the posterior remains in TPMBM form. We also provide a computationally lighter alternative based on a trajectory Poisson multi-Bernoulli filter. The effectiveness of the two approaches to handle OOS measurements is evaluated via simulations.
翻訳日:2021-06-10 14:53:13 公開日:2021-06-09
# 疫学制約下におけるシークエンシャル意思決定における情報回避と過大評価

Information Avoidance and Overvaluation in Sequential Decision Making under Epistemic Constraints ( http://arxiv.org/abs/2106.04984v1 )

ライセンス: Link先を確認
Shuo Li, Matteo Pozzi(参考訳) 民事資産や制度の管理に関わる意思決定者は、通常、社会規則によって課される制約の下で行動する。 これらの制約の一部は、障害発生の確率とそれに対応するリスクとして、てんかん量と関連している。 センサーとインスペクタは制御プロセスをサポートする有用な情報を提供することができる(例)。 資産の維持プロセス)と、この情報の収集に関する決定は、そのコストと価値の分析に依存するべきである。 社会的規制が意思決定者と一致しない経済的な視点を符号化する場合、情報の価値(VoI)は否定的になりうるし、ほぼ無関係な情報は、これらの疫学的な制約の下で行動するエージェントに対して、重要な価値(肯定的または否定的)を持つこともある。 本稿では,これらの現象をIA(Information Avoidance)とIOV(Information OverValuation)と呼ぶ。 本稿では,部分可観測マルコフ決定過程 (pomdp) をモデル化し,有限状態制御 (fscs) による非最適政策を評価することにより,認識的制約の下での逐次的意思決定におけるvoiの評価方法を示す。 我々は,現在における情報収集の価値に着目し,シーケンシャルな情報収集の意義について述べるとともに,ia と iov がどのように関連しているかを考察する。

Decision makers involved in the management of civil assets and systems usually take actions under constraints imposed by societal regulations. Some of these constraints are related to epistemic quantities, as the probability of failure events and the corresponding risks. Sensors and inspectors can provide useful information supporting the control process (e.g. the maintenance process of an asset), and decisions about collecting this information should rely on an analysis of its cost and value. When societal regulations encode an economic perspective that is not aligned with that of the decision makers, the Value of Information (VoI) can be negative (i.e., information sometimes hurts), and almost irrelevant information can even have a significant value (either positive or negative), for agents acting under these epistemic constraints. We refer to these phenomena as Information Avoidance (IA) and Information OverValuation (IOV). In this paper, we illustrate how to assess VoI in sequential decision making under epistemic constraints (as those imposed by societal regulations), by modeling a Partially Observable Markov Decision Processes (POMDP) and evaluating non optimal policies via Finite State Controllers (FSCs). We focus on the value of collecting information at current time, and on that of collecting sequential information, we illustrate how these values are related and we discuss how IA and IOV can occur in those settings.
翻訳日:2021-06-10 14:53:01 公開日:2021-06-09
# 通信効率のよいSGD:ローカルSGDからワンショット平均化

Communication-effici ent SGD: From Local SGD to One-Shot Averaging ( http://arxiv.org/abs/2106.04759v1 )

ライセンス: Link先を確認
Artin Spiridonoff, Alex Olshevsky and Ioannis Ch. Paschalidis(参考訳) 複数の作業員を並列化することで,確率勾配降下 (sgd) の高速化を検討する。 同じデータセットが、sgdステップと中央サーバとの調整が可能な、n$ workers間で共有されていると仮定します。 全てのステップで確率勾配を平均化することで分散の線形化が可能であるが、これは労働者とサーバの間で多くの通信を必要とするため、並列化による利得を劇的に減少させることができる。 従来の文献で提案され分析されたローカルSGD法は、機械がそのような通信の間に多くのローカルステップを踏むべきであることを示唆している。 ローカルSGDの初期分析では、エラーが1/(NT)$に比例してスケールするために、$T$ローカル勾配ステップに対して$\Omega ( \sqrt{T} )$通信が必要であることが示されたが、これは一連の論文で連続的に改善され、現状では$\Omega \left( N \left( \mbox{ polynomial in log } (T) \right)$通信が必要である。 本稿では,反復数の増加に伴って通信頻度を小さくすることで,全体通信の少ないローカルSGD方式を提案する。 我々の分析によると、これは1/(NT)$のスケールのエラーを達成でき、多くの通信が$T$から完全に独立している。 特に、$\Omega(N)$通信が十分であることを示す。 実証的な証拠によると、この境界は、シミュレーションで$\sqrt{n}$ または $n^{3/4}$ の通信が線形速度アップを達成できないことを示すため、ほぼタイトである。 さらに, 最適解の任意の近傍における2倍の微分可能性を持つ軽微な仮定の下では, 1ラウンドの通信のみを用いるワンショット平均化は, 漸近的に最適収束率を達成できることを示す。

We consider speeding up stochastic gradient descent (SGD) by parallelizing it across multiple workers. We assume the same data set is shared among $N$ workers, who can take SGD steps and coordinate with a central server. While it is possible to obtain a linear reduction in the variance by averaging all the stochastic gradients at every step, this requires a lot of communication between the workers and the server, which can dramatically reduce the gains from parallelism. The Local SGD method, proposed and analyzed in the earlier literature, suggests machines should make many local steps between such communications. While the initial analysis of Local SGD showed it needs $\Omega ( \sqrt{T} )$ communications for $T$ local gradient steps in order for the error to scale proportionately to $1/(NT)$, this has been successively improved in a string of papers, with the state-of-the-art requiring $\Omega \left( N \left( \mbox{ polynomial in log } (T) \right) \right)$ communications. In this paper, we suggest a Local SGD scheme that communicates less overall by communicating less frequently as the number of iterations grows. Our analysis shows that this can achieve an error that scales as $1/(NT)$ with a number of communications that is completely independent of $T$. In particular, we show that $\Omega(N)$ communications are sufficient. Empirical evidence suggests this bound is close to tight as we further show that $\sqrt{N}$ or $N^{3/4}$ communications fail to achieve linear speed-up in simulations. Moreover, we show that under mild assumptions, the main of which is twice differentiability on any neighborhood of the optimal solution, one-shot averaging which only uses a single round of communication can also achieve the optimal convergence rate asymptotically.
翻訳日:2021-06-10 14:51:56 公開日:2021-06-09
# スパースデータから時空間力学を学ぶための物理埋め込み

Embedding Physics to Learn Spatiotemporal Dynamics from Sparse Data ( http://arxiv.org/abs/2106.04781v1 )

ライセンス: Link先を確認
Chengping Rao, Hao Sun, Yang Liu(参考訳) 非線形時空間力学系のモデリングは主に第一原理から導かれる偏微分方程式(PDE)に依存している。 しかし、気候システム、生化学反応、疫学など多くの未解明プロセスにおけるPDEの明示的な定式化は、まだ不確かか、あるいは部分的には分かっていない。 この課題に取り組むため,我々は,データ駆動方式で時空間力学の学習を容易にするために,既知の物理知識を残高の$\pi$-blockネットワークに強制的に組み込む新しい深層学習アーキテクチャを提案する。 物理学の強制的な埋め込み機構は、損失ペナルティに基づく物理学インフォームドニューラルネットワークとは根本的に異なり、ネットワークが与えられた物理に厳格に従うことを保証する。 数値実験により、物理を埋め込んだ学習パラダイムは、時空間力学を学ぶための顕著な正確性、堅牢性、解釈可能性、一般化性を持っていることが示された。

Modeling nonlinear spatiotemporal dynamical systems has primarily relied on partial differential equations (PDEs) that are typically derived from first principles. However, the explicit formulation of PDEs for many underexplored processes, such as climate systems, biochemical reaction and epidemiology, remains uncertain or partially unknown, where very sparse measurement data is yet available. To tackle this challenge, we propose a novel deep learning architecture that forcibly embedded known physics knowledge in a residual-recurrent $\Pi$-block network, to facilitate the learning of the spatiotemporal dynamics in a data-driven manner. The coercive embedding mechanism of physics, fundamentally different from physics-informed neural networks based on loss penalty, ensures the network to rigorously obey given physics. Numerical experiments demonstrate that the resulting learning paradigm that embeds physics possesses remarkable accuracy, robustness, interpretability and generalizability for learning spatiotemporal dynamics.
翻訳日:2021-06-10 14:51:01 公開日:2021-06-09
# 単一サーバのプライベートリニア変換: 共同プライバシケース

Single-Server Private Linear Transformation: The Joint Privacy Case ( http://arxiv.org/abs/2106.05220v1 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では,プライベート情報検索とプライベート線形計算の問題を一般化するPLT(Private Linear Transformation)の問題を紹介する。 PLTの問題には、1つ以上のリモートサーバが$K$メッセージを格納している(IDコピー)ことと、$D$サブセットの独立線形結合を$L$で計算したいユーザが含まれている。 ユーザの目的は、サーバから最小限の情報量をダウンロードし、計算に必要な$D$メッセージのIDを保護することで、計算を実行することである。 本研究では,計算に必要な$D$メッセージのIDを共同で保護しなければならない場合,PLT問題の単一サーバ設定に焦点を当てる。 必要となる$L$線形結合の係数行列が最大距離分離(MDS)符号を生成するかどうかによって、2つの異なるモデルを考える。 両方のモデルのキャパシティは$l/(k-d+l)$で与えられることが証明され、キャパシティはすべての実行可能ダウンロード率の上限として定義される。 逆証明は、線形代数的および情報理論的議論に基づいて、PLTスキームと線形符号の接続を確立する。 また、検討中の各モデルに対する達成可能性スキームも提示する。

This paper introduces the problem of Private Linear Transformation (PLT) which generalizes the problems of private information retrieval and private linear computation. The PLT problem includes one or more remote server(s) storing (identical copies of) $K$ messages and a user who wants to compute $L$ independent linear combinations of a $D$-subset of messages. The objective of the user is to perform the computation by downloading minimum possible amount of information from the server(s), while protecting the identities of the $D$ messages required for the computation. In this work, we focus on the single-server setting of the PLT problem when the identities of the $D$ messages required for the computation must be protected jointly. We consider two different models, depending on whether the coefficient matrix of the required $L$ linear combinations generates a Maximum Distance Separable (MDS) code. We prove that the capacity for both models is given by $L/(K-D+L)$, where the capacity is defined as the supremum of all achievable download rates. Our converse proofs are based on linear-algebraic and information-theoreti c arguments that establish connections between PLT schemes and linear codes. We also present an achievability scheme for each of the models being considered.
翻訳日:2021-06-10 14:50:44 公開日:2021-06-09
# シングルサーバのプライベートリニアトランスフォーメーション:個人のプライバシケース

Single-Server Private Linear Transformation: The Individual Privacy Case ( http://arxiv.org/abs/2106.05222v1 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では、個々のプライバシ保証を伴うシングルサーバのプライベートリニアトランスフォーメーション(PLT)問題を考察する。 この問題では、単一のサーバに格納された$K$メッセージのデータセットに属する$D$サブセットの独立線形結合を$L$で取得したいユーザが存在する。 目標は、計算に必要な各メッセージのアイデンティティを個別にプライベートに保ちながら、ダウンロードコストを最小限にすることである。 個々のプライバシー要件は、計算に必要な個々のメッセージのidがプライベートに保持されることを保証する。 これは、これらのアイデンティティ間の相関を含む計算に使用されるすべてのメッセージのアイデンティティ全体を保護する、共同プライバシーというより厳密な概念とは対照的である。 個人のプライバシーの概念は、幅広い実用的応用を捉えている。 例えば、データセットには個人に関する情報が含まれており、それぞれがデータアクセスパターンに対してプライバシーを保証する必要があります。 本稿では,必要線形変換を最大距離分離行列(MDS)に関連付ける設定に着目する。 特に、必要線形結合に関連する係数の行列がMDS符号の生成行列であることが要求される。 個々のプライバシに関して、pltの容量の上限を低く設定し、その容量をすべての達成可能なダウンロード率の上限と定義します。 一定の条件下では境界が固いことを示す。

This paper considers the single-server Private Linear Transformation (PLT) problem with individual privacy guarantees. In this problem, there is a user that wishes to obtain $L$ independent linear combinations of a $D$-subset of messages belonging to a dataset of $K$ messages stored on a single server. The goal is to minimize the download cost while keeping the identity of each message required for the computation individually private. The individual privacy requirement ensures that the identity of each individual message required for the computation is kept private. This is in contrast to the stricter notion of joint privacy that protects the entire set of identities of all messages used for the computation, including the correlations between these identities. The notion of individual privacy captures a broad set of practical applications. For example, such notion is relevant when the dataset contains information about individuals, each of them requires privacy guarantees for their data access patterns. We focus on the setting in which the required linear transformation is associated with a maximum distance separable (MDS) matrix. In particular, we require that the matrix of coefficients pertaining to the required linear combinations is the generator matrix of an MDS code. We establish lower and upper bounds on the capacity of PLT with individual privacy, where the capacity is defined as the supremum of all achievable download rates. We show that our bounds are tight under certain conditions.
翻訳日:2021-06-10 14:50:21 公開日:2021-06-09
# 間欠的音声回復

Intermittent Speech Recovery ( http://arxiv.org/abs/2106.05229v1 )

ライセンス: Link先を確認
Yu-Chen Lin, Tsun-An Hsieh, Kuo-Hsuan Hung, Cheng Yu, Harinath Garudadri, Yu Tsao, Tei-Wei Kuo(参考訳) 今日、iot(internet of things, モノのインターネット)デバイスの多くはバッテリーで駆動されており、メンテナンスにコストがかかり、深刻な環境汚染を引き起こす可能性がある。 これらの問題を避けるため、研究者はこれらの装置にエネルギーハーベッティング単位に基づくエネルギーシステムの利用を検討し始めている。 しかし、周囲のソースから得られる電力は基本的に小さく不安定であり、断続的な音声信号やビデオのストリーミングなどを含むIoTアプリケーションの動作中に頻繁に電源障害が発生する。 本稿では,自律型IoTデバイスから間欠的な音声信号を再構成するディープラーニングに基づく音声復元システムを提案する。 間欠的音声回復システム (ISR) は, 補間, 補間, 回復, 組み合わせの3段階からなる。 実験の結果,音声品質は最大707.1%向上し,音声認識能力は最大92.1%向上した。 ISRシステムでは、WERスコアも65.6%向上しています。 我々の知る限りでは、この研究は、自力でセンシングするIoTデバイスから間欠的な音声信号を再構築した最初の1つである。 これらの有望な結果は、自給式マイクロホンデバイスが弱いエネルギー源で機能するにもかかわらず、我々のisrシステムは、ほとんどの音声信号ベースのアプリケーションのパフォーマンスを維持できることを示唆している。

A large number of Internet of Things (IoT) devices today are powered by batteries, which are often expensive to maintain and may cause serious environmental pollution. To avoid these problems, researchers have begun to consider the use of energy systems based on energy-harvesting units for such devices. However, the power harvested from an ambient source is fundamentally small and unstable, resulting in frequent power failures during the operation of IoT applications involving, for example, intermittent speech signals and the streaming of videos. This paper presents a deep-learning-based speech recovery system that reconstructs intermittent speech signals from self-powered IoT devices. Our intermittent speech recovery system (ISR) consists of three stages: interpolation, recovery, and combination. The experimental results show that our recovery system increases speech quality by up to 707.1%, while increasing speech intelligibility by up to 92.1%. Most importantly, our ISR system also enhances the WER scores by up to 65.6%. To the best of our knowledge, this study is one of the first to reconstruct intermittent speech signals from self-powered-sensing IoT devices. These promising results suggest that even though self powered microphone devices function with weak energy sources, our ISR system can still maintain the performance of most speech-signal-based applications.
翻訳日:2021-06-10 14:50:01 公開日:2021-06-09
# 制御理論によるオンラインゲーム最適化:regret, Passivity, Poincar\'e Recurrenceの接続

Online Optimization in Games via Control Theory: Connecting Regret, Passivity and Poincar\'e Recurrence ( http://arxiv.org/abs/2106.04748v1 )

ライセンス: Link先を確認
Yun Kuen Cheung, Georgios Piliouras(参考訳) ゲームにおけるオンライン最適化と学習の制御理論的理解を,パスティビティの概念を通じて新たに提案する。 受動性は制御理論の基本的な概念であり、物理系のエネルギー保存と散逸を抽象化する。 これは、ゲームダイナミクスが属する一般的なフィードバックシステムを分析する標準的なツールとなった。 我々の出発点は、よく知られたReplicator Dynamicを含むFTRL(Continuous-time Follow-the-Regulariz ed-Leader)のダイナミクスが失われることである。 受動性であり、エネルギー散逸はない。 興味深いことに、通過性は有界後悔を意味し、制御理論の基本原理とオンライン最適化を結びつける。 ftrlにおけるエネルギー保存の観察は、単純な勾配構造を持つ基礎となるエネルギー関数を持つ、ロスレス学習ダイナミクスのファミリーを提示するきっかけとなる。 この族は凸結合の下で閉じている; 即ち、FTRL力学の凸結合は損失がなく、従って後悔している。 これにより,fox と shamma (games, 2013) のフレームワークを拡張して,ゲームダイナミクスのグローバルな漸近的安定性を証明できるだけでなく,poincar\'e の再現結果も実現できます。 直感的には、ロスレスゲーム(例) グラフィック定数ゲーム)はロスレス学習動的に結合され、相互接続もまたロスレスであり、振り子のようなエネルギー保存リカレント行動をもたらし、piliouras と shamma (soda, 2014) と mertikopoulos, papadimitriou and piliouras (soda, 2018) の結果を一般化する。

We present a novel control-theoretic understanding of online optimization and learning in games, via the notion of passivity. Passivity is a fundamental concept in control theory, which abstracts energy conservation and dissipation in physical systems. It has become a standard tool in analysis of general feedback systems, to which game dynamics belong. Our starting point is to show that all continuous-time Follow-the-Regulariz ed-Leader (FTRL) dynamics, which includes the well-known Replicator Dynamic, are lossless, i.e. it is passive with no energy dissipation. Interestingly, we prove that passivity implies bounded regret, connecting two fundamental primitives of control theory and online optimization. The observation of energy conservation in FTRL inspires us to present a family of lossless learning dynamics, each of which has an underlying energy function with a simple gradient structure. This family is closed under convex combination; as an immediate corollary, any convex combination of FTRL dynamics is lossless and thus has bounded regret. This allows us to extend the framework of Fox and Shamma (Games, 2013) to prove not just global asymptotic stability results for game dynamics, but Poincar\'e recurrence results as well. Intuitively, when a lossless game (e.g. graphical constant-sum game) is coupled with lossless learning dynamic, their interconnection is also lossless, which results in a pendulum-like energy-preserving recurrent behavior, generalizing the results of Piliouras and Shamma (SODA, 2014) and Mertikopoulos, Papadimitriou and Piliouras (SODA, 2018).
翻訳日:2021-06-10 14:49:41 公開日:2021-06-09
# (参考訳) AutoPtosis [全文訳有]

AutoPtosis ( http://arxiv.org/abs/2106.03905v2 )

ライセンス: CC BY 4.0
Abdullah Aleem, Manoj Prabhakar Nallabothula, Pete Setabutr, Joelle A. Hallak and Darvin Yi(参考訳) ブレファロプトーシス(英: blepharoptosis、通称:ptosis)は、上まぶたが垂れ下がったまぶたの状態である。 現在診断されているのは、時間を要する手作業による測定で、人的ミスを生じやすいことだ。 本稿では,ptosis の迅速な診断のために,解釈可能な結果を持つ人工知能システム autoptosis を提案する。 我々はイリノイ眼科データベースAtlas(I-ODA)から収集した多様なデータセットを用いて、予測のための堅牢な深層学習モデルを開発し、また、限界反射距離と虹彩比を計算する臨床的にインスピレーションを受けたモデルを開発した。 AutoPtosisは、同等のクラスバランスを持つ医師認証データに対して95.5%の精度を達成した。 提案手法は,ptosisの迅速かつタイムリーな診断に役立ち,医療システムの負担を大幅に軽減し,患者や診療所の貴重な資源を節約できる。

Blepharoptosis, or ptosis as it is more commonly referred to, is a condition of the eyelid where the upper eyelid droops. The current diagnosis for ptosis involves cumbersome manual measurements that are time-consuming and prone to human error. In this paper, we present AutoPtosis, an artificial intelligence based system with interpretable results for rapid diagnosis of ptosis. We utilize a diverse dataset collected from the Illinois Ophthalmic Database Atlas (I-ODA) to develop a robust deep learning model for prediction and also develop a clinically inspired model that calculates the marginal reflex distance and iris ratio. AutoPtosis achieved 95.5% accuracy on physician verified data that had an equal class balance. The proposed algorithm can help in the rapid and timely diagnosis of ptosis, significantly reduce the burden on the healthcare system, and save the patients and clinics valuable resources.
翻訳日:2021-06-10 13:22:53 公開日:2021-06-09
# (参考訳) アラビア医学テキストへの適用による大規模凸最適化問題に対する新しい非線形勾配法 [全文訳有]

Using a New Nonlinear Gradient Method for Solving Large Scale Convex Optimization Problems with an Application on Arabic Medical Text ( http://arxiv.org/abs/2106.04383v2 )

ライセンス: CC BY 4.0
Jaafar Hammoud and Ali Eisa and Natalia Dobrenko and Natalia Gusarova(参考訳) 勾配法には、信号処理、画像処理、動的システムなど、複数の分野の応用がある。 本稿では,2つの共役係数 HRM [2] と NHS [1] のハイブリッド化による探索方向の開発により,凸上二乗関数を解く非線形勾配法を提案する。 その結果, 対象関数が二次凸であれば, 標準問題の解法に適用し, 厳密解に達することで, 提案手法の有効性が証明された。 また,本論文では,提案手法の安定性と実行時間の面での効率性を証明したアラビア医療言語における名前付き実体問題への応用について述べる。

Gradient methods have applications in multiple fields, including signal processing, image processing, and dynamic systems. In this paper, we present a nonlinear gradient method for solving convex supra-quadratic functions by developing the search direction, that done by hybridizing between the two conjugate coefficients HRM [2] and NHS [1]. The numerical results proved the effectiveness of the presented method by applying it to solve standard problems and reaching the exact solution if the objective function is quadratic convex. Also presented in this article, an application to the problem of named entities in the Arabic medical language, as it proved the stability of the proposed method and its efficiency in terms of execution time.
翻訳日:2021-06-10 11:27:30 公開日:2021-06-09
# 2021年における依存パーサーの控えめなパレート最適化分析

A Modest Pareto Optimisation Analysis of Dependency Parsers in 2021 ( http://arxiv.org/abs/2106.04216v2 )

ライセンス: Link先を確認
Mark Anderson and Carlos G\'omez Rodr\'iguez(参考訳) 我々は、異なるパラダイムの3つの主要な依存関係パーサシステムを、その精度と効率の面で、小さく多様な言語のサブセットで評価する。 効率性に関心があるので、事前訓練された言語モデル(通常は巨大なネットワークであり、ほとんどの計算時間を構成する)や、それらのいずれかにトランスバース的に適用可能な拡張を伴わないコアパーサを評価します。 バイアフィン解析はバランスの取れたデフォルト選択として現れ、推論速度(ただしエネルギーコストをトレーニングしない)が優先される場合にシーケンスラベリング解析が望ましい。

We evaluate three leading dependency parser systems from different paradigms on a small yet diverse subset of languages in terms of their accuracy-efficiency Pareto front. As we are interested in efficiency, we evaluate core parsers without pretrained language models (as these are typically huge networks and would constitute most of the compute time) or other augmentations that can be transversally applied to any of them. Biaffine parsing emerges as a well-balanced default choice, with sequence-labelling parsing being preferable if inference speed (but not training energy cost) is the priority.
翻訳日:2021-06-10 10:51:10 公開日:2021-06-09
# sdgmnet:局所ディスクリプタ学習のための統計に基づく動的勾配変調

SDGMNet: Statistic-based Dynamic Gradient Modulation for Local Descriptor Learning ( http://arxiv.org/abs/2106.04434v2 )

ライセンス: Link先を確認
Jiayi Ma and Yuxin Deng(参考訳) 特殊ペアのバックプロパゲーション勾配をリスケールする三重項損失の修正は、局所ディスクリプタ学習において大きな進歩を遂げている。 しかし、現在の勾配変調戦略は主に静的であるため、トレーニングフェーズやデータセットの変更に悩まされる。 本稿では,局所記述子学習における三重項損失を改善するためにSDGMNetという動的勾配変調を提案する。 本手法のコアは,動的に推定される統計特性を持つ変調関数の定式化である。 まず,一般トリプレットベース損失の後方伝播に関する深い解析を行い,距離測定のための包含角度を導入する。 この基礎から、確率的勾配勾配勾配最適化における統計的に稀な個々の対の影響を緩和するためにオートフォーカス変調を用いており、確率的マージンは最適に到達すると考えられるシームズ対の勾配を減らし、パワー調整は負の対と正の対の総重量を均衡させる。 広範な実験により,新しいディスクリプタは,パッチ検証やマッチング,検索タスクなど,標準ベンチマークの以前の状態を超えることを実証した。

Modifications on triplet loss that rescale the back-propagated gradients of special pairs have made significant progress on local descriptor learning. However, current gradient modulation strategies are mainly static so that they would suffer from changes of training phases or datasets. In this paper, we propose a dynamic gradient modulation, named SDGMNet, to improve triplet loss for local descriptor learning. The core of our method is formulating modulation functions with statistical characteristics which are estimated dynamically. Firstly, we perform deep analysis on back propagation of general triplet-based loss and introduce included angle for distance measure. On this basis, auto-focus modulation is employed to moderate the impact of statistically uncommon individual pairs in stochastic gradient descent optimization; probabilistic margin cuts off the gradients of proportional Siamese pairs that are believed to reach the optimum; power adjustment balances the total weights of negative pairs and positive pairs. Extensive experiments demonstrate that our novel descriptor surpasses previous state-of-the-arts on standard benchmarks including patch verification, matching and retrieval tasks.
翻訳日:2021-06-10 10:51:00 公開日:2021-06-09
# 振り返らない:可逆性を考慮した強化学習のための自己監督型アプローチ

There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning ( http://arxiv.org/abs/2106.04480v2 )

ライセンス: Link先を確認
Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist(参考訳) 我々は,強化学習(RL)において,可逆的行動と不可逆的行動との区別を学習し,情報的意思決定を改善することを提案する。 理論的考察から, ランダムにサンプリングされた軌道イベントを時系列順にランク付けする, 単純なサロゲートタスクにより, 近似可逆性を学習できることが示唆された。 直感的には、同じ順序で常に観測される事象のペアは、不可逆的な一連の行動によって分離される。 同時に、イベントの時間的順序を学習することは、前もって経験から行動の可逆性を推定するために、完全に自己管理的な方法で行うことができる。 我々は,rlエージェントに可逆性を含む2つの異なる戦略,1つの探索戦略(rae)と1つの制御戦略(rac)を提案する。 本稿では,ソコバンゲームを含む,可逆性を考慮したエージェントの可能性を示す。 合成タスクでは、報酬関数にアクセスしなくても、決して失敗せず、相互作用の副作用をゼロにする制御ポリシーを学習できることが示される。

We propose to learn to distinguish reversible from irreversible actions for better informed decision-making in Reinforcement Learning (RL). From theoretical considerations, we show that approximate reversibility can be learned through a simple surrogate task: ranking randomly sampled trajectory events in chronological order. Intuitively, pairs of events that are always observed in the same order are likely to be separated by an irreversible sequence of actions. Conveniently, learning the temporal order of events can be done in a fully self-supervised way, which we use to estimate the reversibility of actions from experience, without any priors. We propose two different strategies that incorporate reversibility in RL agents, one strategy for exploration (RAE) and one strategy for control (RAC). We demonstrate the potential of reversibility-aware agents in several environments, including the challenging Sokoban game. In synthetic tasks, we show that we can learn control policies that never fail and reduce to zero the side-effects of interactions, even without access to the reward function.
翻訳日:2021-06-10 10:50:41 公開日:2021-06-09
# SynthRef:オブジェクトセグメンテーションのための合成参照式の生成

SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation ( http://arxiv.org/abs/2106.04403v2 )

ライセンス: Link先を確認
Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer and Xavier Giro-i-Nieto(参考訳) 近年のディープラーニングの進歩は、言語誘導ビデオオブジェクトセグメンテーションのような視覚的接地タスクに大きな進歩をもたらした。 しかし、これらのタスクのための大規模なデータセットの収集は、アノテーション時間の観点からは高価であり、ボトルネックである。 そこで本研究では,画像(あるいはビデオフレーム)における対象オブジェクトに対する合成参照表現を生成するSynthRefという新しい手法を提案し,ビデオオブジェクトセグメンテーションのための合成参照表現を用いて,最初の大規模データセットを提示・配布する。 我々の実験は、合成参照表現を用いてトレーニングすることにより、追加のアノテーションコストを伴わずに、異なるデータセットをまたいでモデルを一般化する能力を向上させることができることを示した。 さらに,任意のオブジェクト検出やセグメンテーションデータセットに適用可能とした。

Recent advances in deep learning have brought significant progress in visual grounding tasks such as language-guided video object segmentation. However, collecting large datasets for these tasks is expensive in terms of annotation time, which represents a bottleneck. To this end, we propose a novel method, namely SynthRef, for generating synthetic referring expressions for target objects in an image (or video frame), and we also present and disseminate the first large-scale dataset with synthetic referring expressions for video object segmentation. Our experiments demonstrate that by training with our synthetic referring expressions one can improve the ability of a model to generalize across different datasets, without any additional annotation cost. Moreover, our formulation allows its application to any object detection or segmentation dataset.
翻訳日:2021-06-10 10:50:21 公開日:2021-06-09
# DSelect-k:マルチタスク学習への応用とエキスパートの混合における微分可能選択

DSelect-k: Differentiable Selection in the Mixture of Experts with Applications to Multi-Task Learning ( http://arxiv.org/abs/2106.03760v2 )

ライセンス: Link先を確認
Hussein Hazimeh, Zhe Zhao, Aakanksha Chowdhery, Maheswaran Sathiamoorthy, Yihua Chen, Rahul Mazumder, Lichan Hong, Ed H. Chi(参考訳) Mixture-of-experts(M oE)アーキテクチャは、マルチタスク学習(MTL)と高容量ニューラルネットワークのスケーリングにおいて、有望な結果を示している。 最先端のMoEモデルはトレーニング可能なスパースゲートを使用して、入力例ごとに専門家のサブセットを選択する。 概念上は魅力的だが、Top-kのような既存のスパースゲートは滑らかではない。 滑らかさの欠如は、勾配に基づく手法で訓練する際の収束と統計的性能の問題を引き起こす。 本稿では,新しい2進符号化法に基づいて,moe に対する最初の連続的微分可能かつスパースゲート dselect-k を開発した。 我々のゲートは確率勾配降下のような一階法で訓練でき、選択する専門家の数を明示的に制御できる。 最大128タスクの合成データセットと実データの両方において,MDLの文脈におけるDSelect-kの有効性を示す。 DSelect-kに基づくMoEモデルは,予測および専門家の選択性能において統計的に有意な改善を達成できることを示す。 特に、現実世界の大規模レコメンデータシステムでは、DSelect-kはTop-kゲートと比較して予測性能が平均22%向上している。 ゲートのTensorFlow実装をオープンソースで提供しています。

The Mixture-of-experts (MoE) architecture is showing promising results in multi-task learning (MTL) and in scaling high-capacity neural networks. State-of-the-art MoE models use a trainable sparse gate to select a subset of the experts for each input example. While conceptually appealing, existing sparse gates, such as Top-k, are not smooth. The lack of smoothness can lead to convergence and statistical performance issues when training with gradient-based methods. In this paper, we develop DSelect-k: the first, continuously differentiable and sparse gate for MoE, based on a novel binary encoding formulation. Our gate can be trained using first-order methods, such as stochastic gradient descent, and offers explicit control over the number of experts to select. We demonstrate the effectiveness of DSelect-k in the context of MTL, on both synthetic and real datasets with up to 128 tasks. Our experiments indicate that MoE models based on DSelect-k can achieve statistically significant improvements in predictive and expert selection performance. Notably, on a real-world large-scale recommender system, DSelect-k achieves over 22% average improvement in predictive performance compared to the Top-k gate. We provide an open-source TensorFlow implementation of our gate.
翻訳日:2021-06-10 10:50:08 公開日:2021-06-09
# 低webリソース言語モデル適応のための言語関連性の利用--indic language study

Exploiting Language Relatedness for Low Web-Resource Language Model Adaptation: An Indic Languages Study ( http://arxiv.org/abs/2106.03958v2 )

ライセンス: Link先を確認
Yash Khemchandani, Sarvesh Mehtani, Vaidehi Patil, Abhijeet Awasthi, Partha Talukdar, Sunita Sarawagi(参考訳) 最近の多言語言語モデル(LM)の研究は、単一のモデルで複数の言語を効果的に扱う能力を示した。 これは、多言語モデルが高リソース言語からLRLへの監督の移行を可能にするため、低ウェブリソース言語(LRL)を約束する。 しかし、新しい言語をlmに組み込むことは依然として課題であり、特にコーパスが限られている言語や未熟なスクリプトでは課題である。 本稿では,言語ファミリーにおける言語間の関連性を利用してLRLのコーパス制限を克服し,RelateLMを提案する。 我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。 RelateLMは、限られたLRLテキストの未知のスクリプトをRPL(Related Prominent Language)のスクリプトに変換するために、文字変換を使用する。 類似した文構造を利用して、RelateLMは容易に利用可能なバイリンガル辞書を利用してRPLテキストをLRLコーパスに変換する。 複数の実世界のベンチマークデータセットに対する実験は、関連する言語をピボットとして使うことと、翻訳や擬似翻訳に基づくデータ拡張は、直接学習や英語のピボットではなく、LRLにLMを適用する効果的な方法である、という仮説を裏付けるものである。

Recent research in multilingual language models (LM) has demonstrated their ability to effectively handle multiple languages in a single model. This holds promise for low web-resource languages (LRL) as multilingual models can enable transfer of supervision from high resource languages to LRLs. However, incorporating a new language in an LM still remains a challenge, particularly for languages with limited corpora and in unseen scripts. In this paper we argue that relatedness among languages in a language family may be exploited to overcome some of the corpora limitations of LRLs, and propose RelateLM. We focus on Indian languages, and exploit relatedness along two dimensions: (1) script (since many Indic scripts originated from the Brahmic script), and (2) sentence structure. RelateLM uses transliteration to convert the unseen script of limited LRL text into the script of a Related Prominent Language (RPL) (Hindi in our case). While exploiting similar sentence structures, RelateLM utilizes readily available bilingual dictionaries to pseudo translate RPL text into LRL corpora. Experiments on multiple real-world benchmark datasets provide validation to our hypothesis that using a related language as pivot, along with transliteration and pseudo translation based data augmentation, can be an effective way to adapt LMs for LRLs, rather than direct training or pivoting through English.
翻訳日:2021-06-10 10:49:47 公開日:2021-06-09
# CLTR: セルレベルテーブル検索とテーブル質問応答のためのエンド・ツー・エンド変換システム

CLTR: An End-to-End, Transformer-Based System for Cell Level Table Retrieval and Table Question Answering ( http://arxiv.org/abs/2106.04441v2 )

ライセンス: Link先を確認
Feifei Pan, Mustafa Canim, Michael Glass, Alfio Gliozzo, Peter Fox(参考訳) 本稿では,自然言語質問と膨大なテーブルコーパスを入力として,最も関係のあるテーブルを検索し,質問に答えるために正しいテーブルセルを見つける,最初のエンドツーエンドのトランスフォーマーベースのテーブル質問応答(qa)システムを提案する。 我々のシステムであるCLTRは、現在の最先端QAをテーブルモデル上に拡張し、エンドツーエンドのテーブルQAアーキテクチャを構築します。 このシステムは、単純な統一パイプラインで多くの現実世界のテーブルQA問題に取り組むことに成功した。 提案システムでは,複雑なテーブル上の候補列と行のヒートマップを生成することができ,質問に答える正しいセルを素早く特定できる。 さらに,76,242テーブル上の2,005の自然言語質問からなる2つの新しいオープンドメインベンチマークであるE2E_WTQとE2E_GNQを導入する。 ベンチマークはCLTRを検証するとともに、将来のテーブル検索とエンドツーエンドのテーブルQAの研究と実験に対応するように設計されている。 実験により,本システムはテーブル検索タスクにおける最先端モデルであり,エンドツーエンドのテーブルQAに対して有望な結果が得られた。

We present the first end-to-end, transformer-based table question answering (QA) system that takes natural language questions and massive table corpus as inputs to retrieve the most relevant tables and locate the correct table cells to answer the question. Our system, CLTR, extends the current state-of-the-art QA over tables model to build an end-to-end table QA architecture. This system has successfully tackled many real-world table QA problems with a simple, unified pipeline. Our proposed system can also generate a heatmap of candidate columns and rows over complex tables and allow users to quickly identify the correct cells to answer questions. In addition, we introduce two new open-domain benchmarks, E2E_WTQ and E2E_GNQ, consisting of 2,005 natural language questions over 76,242 tables. The benchmarks are designed to validate CLTR as well as accommodate future table retrieval and end-to-end table QA research and experiments. Our experiments demonstrate that our system is the current state-of-the-art model on the table retrieval task and produces promising results for end-to-end table QA.
翻訳日:2021-06-10 10:49:22 公開日:2021-06-09
# スペクトル注意によるグラフトランスフォーマの再考

Rethinking Graph Transformers with Spectral Attention ( http://arxiv.org/abs/2106.03893v2 )

ライセンス: Link先を確認
Devin Kreuzer, Dominique Beaini, William L. Hamilton, Vincent L\'etourneau and Prudencio Tossou(参考訳) 近年、Transformerアーキテクチャはシーケンシャル処理において非常に成功したが、グラフなどの他のデータ構造への応用は、位置を適切に定義することが困難であるために制限され続けている。 ここでは、学習された位置符号化(LPE)を用いて、与えられたグラフ内の各ノードの位置を学習するためにラプラシアスペクトルを完全に活用できる$\textit{Spectral Attention Network}$(SAN)を示す。 このLPEはグラフのノード機能に追加され、完全に接続されたTransformerに渡される。 ラプラシアンの完全なスペクトルを利用することで、我々のモデルは理論上グラフの区別に強力であり、類似のサブ構造を共鳴からよりよく検出することができる。 さらに、グラフを完全に接続することで、トランスフォーマーはほとんどのGNNの情報ボトルネックであるオーバー・スクワッシングに悩まされず、熱伝達や電気的相互作用といった物理現象のモデリングを改善できる。 実験的に4つの標準データセットでテストした場合、我々のモデルは最先端のGNNよりも同等以上のパフォーマンスを示し、あらゆる注意ベースのモデルを広範囲にわたって上回り、グラフベンチマークでうまく機能する最初の完全接続アーキテクチャとなる。

In recent years, the Transformer architecture has proven to be very successful in sequence processing, but its application to other data structures, such as graphs, has remained limited due to the difficulty of properly defining positions. Here, we present the $\textit{Spectral Attention Network}$ (SAN), which uses a learned positional encoding (LPE) that can take advantage of the full Laplacian spectrum to learn the position of each node in a given graph. This LPE is then added to the node features of the graph and passed to a fully-connected Transformer. By leveraging the full spectrum of the Laplacian, our model is theoretically powerful in distinguishing graphs, and can better detect similar sub-structures from their resonance. Further, by fully connecting the graph, the Transformer does not suffer from over-squashing, an information bottleneck of most GNNs, and enables better modeling of physical phenomenons such as heat transfer and electric interaction. When tested empirically on a set of 4 standard datasets, our model performs on par or better than state-of-the-art GNNs, and outperforms any attention-based model by a wide margin, becoming the first fully-connected architecture to perform well on graph benchmarks.
翻訳日:2021-06-10 10:49:00 公開日:2021-06-09
# TinyMLによる応用機械学習へのアクセス拡大

Widening Access to Applied Machine Learning with TinyML ( http://arxiv.org/abs/2106.04008v2 )

ライセンス: Link先を確認
Vijay Janapa Reddi, Brian Plancher, Susan Kennedy, Laurence Moroney, Pete Warden, Anant Agarwal, Colby Banbury, Massimo Banzi, Matthew Bennett, Benjamin Brown, Sharad Chitlangia, Radhika Ghosal, Sarah Grafman, Rupert Jaeger, Srivatsan Krishnan, Maximilian Lam, Daniel Leiker, Cara Mann, Mark Mazumder, Dominic Pajak, Dhilan Ramaprasad, J. Evan Smith, Matthew Stewart, Dustin Tingley(参考訳) 計算資源と教育資源の両方へのアクセスの拡大は、機械学習(ml)イノベーションの拡散に不可欠である。 しかし今日では、ほとんどのMLリソースと専門家がいくつかの国や組織でサイロ化されている。 本稿では,Tiny Machine Learning (TinyML) 上の大規模なオープンオンラインコース (MOOC) を通じて,応用MLへのアクセスを増やすための教育的アプローチについて述べる。 リソース制約のある組み込みデバイス上でのMLであるTinyMLは、低コストかつグローバルにアクセス可能なハードウェアを活用し、データ収集からデプロイメントに至るまで、完全な自己完結型アプリケーションの開発を促進するため、アクセスを拡大するための魅力的な手段である、と提案する。 この目的のために、学界(ハーバード大学)と産業(Google)の協力により、TinyMLを使ってソリューションを開発するためのアプリケーション指向の指導を提供する4つのMOOCを開発した。 このシリーズは、edX MOOCプラットフォームで公開されており、基本的なプログラミング以上の前提条件がなく、世界中のさまざまなバックグラウンドから学習者向けに設計されている。 現実世界のアプリケーション、MLアルゴリズム、データセットエンジニアリング、そしてクラウドと独自のマイクロコントローラの両方にTinyMLアプリケーションのハンズオンプログラミングとデプロイを通じて、これらの技術の倫理的考察を紹介する。 コースを越えた学習、コミュニティ構築、コラボレーションを促進するために、スタンドアロンのwebサイト、フォーラム、チャット、オプションのコースプロジェクトコンペティションを立ち上げました。 また、次世代のML実践者と教育者を刺激し、最先端のML技術へのアクセスをさらに拡大したいと考えています。

Broadening access to both computational and educational resources is critical to diffusing machine-learning (ML) innovation. However, today, most ML resources and experts are siloed in a few countries and organizations. In this paper, we describe our pedagogical approach to increasing access to applied ML through a massive open online course (MOOC) on Tiny Machine Learning (TinyML). We suggest that TinyML, ML on resource-constrained embedded devices, is an attractive means to widen access because TinyML both leverages low-cost and globally accessible hardware, and encourages the development of complete, self-contained applications, from data collection to deployment. To this end, a collaboration between academia (Harvard University) and industry (Google) produced a four-part MOOC that provides application-oriented instruction on how to develop solutions using TinyML. The series is openly available on the edX MOOC platform, has no prerequisites beyond basic programming, and is designed for learners from a global variety of backgrounds. It introduces pupils to real-world applications, ML algorithms, data-set engineering, and the ethical considerations of these technologies via hands-on programming and deployment of TinyML applications in both the cloud and their own microcontrollers. To facilitate continued learning, community building, and collaboration beyond the courses, we launched a standalone website, a forum, a chat, and an optional course-project competition. We also released the course materials publicly, hoping they will inspire the next generation of ML practitioners and educators and further broaden access to cutting-edge ML technologies.
翻訳日:2021-06-10 10:48:38 公開日:2021-06-09
# 雑音ラベルを用いた学習におけるラベル平滑化の理解

Understanding (Generalized) Label Smoothing when Learning with Noisy Labels ( http://arxiv.org/abs/2106.04149v2 )

ライセンス: Link先を確認
Jiaheng Wei, Hangyu Liu, Tongliang Liu, Gang Niu and Yang Liu(参考訳) ラベル平滑化(英: label smoothing, ls)は、ハードトレーニングラベルと均一に分散されたソフトラベルの両方の正の重み付け平均を用いる学習パラダイムである。 LSはハードラベルを用いたデータトレーニングのレギュレータとして機能し,モデルの一般化を向上することを示した。 その後、LSはノイズラベルで学習する際の堅牢性の改善にも役立つと報告された。 しかし,高ラベル雑音下での動作においては,LSの利点は消滅する。 観察に困惑した私たちは、文学で提案されたいくつかの学習-雑音-ラベルソリューションが、より負のラベル平滑化(nls)に密接に関連していることを発見しました。 その結果,NLS関数はモデル信頼度においてLSと大きく異なることがわかった。 両症例を区別するため,LSを正ラベル平滑化 (PLS) と呼び,本論文ではPLSとNLSを一般化ラベル平滑化 (GLS) に統一する。 雑音ラベルを用いた学習において, GLSの特性に対する理解を提供する。 他の確立された特性の中で、ラベルノイズ率が高い場合、NLSがより有益であることを示す。 調査結果を裏付ける実験結果も提供します。

Label smoothing (LS) is an arising learning paradigm that uses the positively weighted average of both the hard training labels and uniformly distributed soft labels. It was shown that LS serves as a regularizer for training data with hard labels and therefore improves the generalization of the model. Later it was reported LS even helps with improving robustness when learning with noisy labels. However, we observe that the advantage of LS vanishes when we operate in a high label noise regime. Puzzled by the observation, we proceeded to discover that several proposed learning-with-noisy- labels solutions in the literature instead relate more closely to negative label smoothing (NLS), which defines as using a negative weight to combine the hard and soft labels! We show that NLS functions substantially differently from LS in their achieved model confidence. To differentiate the two cases, we will call LS the positive label smoothing (PLS), and this paper unifies PLS and NLS into generalized label smoothing (GLS). We provide understandings for the properties of GLS when learning with noisy labels. Among other established properties, we theoretically show NLS is considered more beneficial when the label noise rates are high. We provide experimental results to support our findings too.
翻訳日:2021-06-10 10:48:13 公開日:2021-06-09
# 学習ダイナミクスのためのプレトレーニングニューラルディファレンシャル演算子付きノードの統合

Incorporating NODE with Pre-trained Neural Differential Operator for Learning Dynamics ( http://arxiv.org/abs/2106.04166v2 )

ライセンス: Link先を確認
Shiqi Gong, Qi Meng, Yue Wang, Lijun Wu, Wei Chen, Zhi-Ming Ma, Tie-Yan Liu(参考訳) 微分方程式に支配される学習ダイナミクスは、科学と工学のシステムの予測と制御に不可欠である。 微分方程式と統合された深層学習モデルであるneural ordinary differential equation (node)は、軌道上のサンプルから直接ダイナミクスを学び、科学分野で大きな期待を示す。 しかし、NODEの訓練は数値解法に大きく依存しており、特に不調な力学系では数値ノイズを増幅し不安定である。 本稿では,数値解法への依存を減らすために,動的学習における教師付き信号の強化を提案する。 具体的には、軌道サンプルから直接学習するだけでなく、神経微分演算子(ndo)を事前学習して、追加の教師付き信号として機能する誘導体の推定を出力する。 NDOは記号関数のクラスで事前訓練され、これらの関数の軌道サンプルとそれらの微分の間のマッピングを学ぶ。 ndo の出力はライブラリの複雑さを適切に調整することで基底真理微分を十分に近似できるという理論的保証を提供する。 軌道信号とNDOからの推定導関数の両方を活用するために,損失関数は真の軌道サンプルに対する適合度と,事前学習したNDOが出力する推定導関数に対する適合度という2つの項を含む,NDO-NODEと呼ばれるアルゴリズムを提案する。 種々の力学実験により,提案したNDO-NODEは予測精度を一貫して向上できることが示された。

Learning dynamics governed by differential equations is crucial for predicting and controlling the systems in science and engineering. Neural Ordinary Differential Equation (NODE), a deep learning model integrated with differential equations, learns the dynamics directly from the samples on the trajectory and shows great promise in the scientific field. However, the training of NODE highly depends on the numerical solver, which can amplify numerical noise and be unstable, especially for ill-conditioned dynamical systems. In this paper, to reduce the reliance on the numerical solver, we propose to enhance the supervised signal in learning dynamics. Specifically, beyond learning directly from the trajectory samples, we pre-train a neural differential operator (NDO) to output an estimation of the derivatives to serve as an additional supervised signal. The NDO is pre-trained on a class of symbolic functions, and it learns the mapping between the trajectory samples of these functions to their derivatives. We provide theoretical guarantee on that the output of NDO can well approximate the ground truth derivatives by proper tuning the complexity of the library. To leverage both the trajectory signal and the estimated derivatives from NDO, we propose an algorithm called NDO-NODE, in which the loss function contains two terms: the fitness on the true trajectory samples and the fitness on the estimated derivatives that are output by the pre-trained NDO. Experiments on various of dynamics show that our proposed NDO-NODE can consistently improve the forecasting accuracy.
翻訳日:2021-06-10 10:47:49 公開日:2021-06-09
# Concave Utility Reinforcement Learning: the Mean-field Game perspective

Concave Utility Reinforcement Learning: the Mean-field Game viewpoint ( http://arxiv.org/abs/2106.03787v2 )

ライセンス: Link先を確認
Matthieu Geist, Julien P\'erolat, Mathieu Lauri\`ere, Romuald Elie, Sarah Perrin, Olivier Bachem, R\'emi Munos, Olivier Pietquin(参考訳) Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。 これはRLだけでなく、模倣学習や探索も含んでいる。 しかし、このより一般的なパラダイムは古典的なベルマン方程式を無効化し、新しいアルゴリズムを要求する。 平均場ゲーム (MFGs) は多エージェントRLの連続近似である。 彼らは、同一のエージェントの連続分布の極限ケースを、対称的な利害と無関係に考慮し、問題を全集団と相互作用する単一の代表エージェントの研究に還元する。 私たちのコアコントリビューションは、CURLがMFGのサブクラスであることを示すことです。 これは両方のコミュニティを橋渡しする上で重要だと考えています。 また、CURLの凹凸と関連するMFGの単調性の間の等価性、CURLの最適条件とMFGのナッシュ平衡の間の最適性、あるいはこのMFGのクラスに対する有限プレイ(FP)は単にフランク=ウルフであり、MFGの離散時間FPに対する最初の収束率をもたらす。 また、最近導入されたアルゴリズムを用いて、より効率的にCURL問題に対処できることを実験的に実証した。

Concave Utility Reinforcement Learning (CURL) extends RL from linear to concave utilities in the occupancy measure induced by the agent's policy. This encompasses not only RL but also imitation learning and exploration, among others. Yet, this more general paradigm invalidates the classical Bellman equations, and calls for new algorithms. Mean-field Games (MFGs) are a continuous approximation of many-agent RL. They consider the limit case of a continuous distribution of identical agents, anonymous with symmetric interests, and reduce the problem to the study of a single representative agent in interaction with the full population. Our core contribution consists in showing that CURL is a subclass of MFGs. We think this important to bridge together both communities. It also allows to shed light on aspects of both fields: we show the equivalence between concavity in CURL and monotonicity in the associated MFG, between optimality conditions in CURL and Nash equilibrium in MFG, or that Fictitious Play (FP) for this class of MFGs is simply Frank-Wolfe, bringing the first convergence rate for discrete-time FP for MFGs. We also experimentally demonstrate that, using algorithms recently introduced for solving MFGs, we can address the CURL problem more efficiently.
翻訳日:2021-06-10 10:47:20 公開日:2021-06-09
# 構造スペクトル特徴とニューラルネットワークを用いた原理ハイパーエッジ予測

Principled Hyperedge Prediction with Structural Spectral Features and Neural Networks ( http://arxiv.org/abs/2106.04292v2 )

ライセンス: Link先を確認
Changlin Wan, Muhan Zhang, Wei Hao, Sha Cao, Pan Li, Chi Zhang(参考訳) hypergraphは、現実世界の複雑なデータの多角的関係を記述するフレームワークを提供する。 高次関係の予測、すなわちハイパーエッジは、複雑な相互作用を完全に理解するための根本的な問題となる。 グラフニューラルネットワーク(GNN)の開発は、対関係を持つ通常のグラフの解析を大幅に進歩させた。 しかし、これらの手法はハイパーグラフの場合に容易に拡張できない。 本稿では,エッジとノードレベルのあいまいさを原則として高次データを表現するgnnの課題を一般化する。 これらの課題を克服するために,2部グラフニューラルネットワークと構造的特徴を用いたSNALSを提案する。 SNALSは、その局所環境によってハイパーエッジの結合相互作用をキャプチャし、それらの接続のスペクトル情報を収集して取得する。 その結果、SNALSは最新のGNNモデルと比較して30%近い性能向上を達成した。 さらに,SNALSを用いて3次元ゲノム構造データ上での遺伝的高次相互作用を予測した。 SNALSは、異なる染色体間で一貫して高い予測精度を示し、既存の文献でさらに検証された4方向遺伝子相互作用の新しい発見を生んだ。

Hypergraph offers a framework to depict the multilateral relationships in real-world complex data. Predicting higher-order relationships, i.e hyperedge, becomes a fundamental problem for the full understanding of complicated interactions. The development of graph neural network (GNN) has greatly advanced the analysis of ordinary graphs with pair-wise relations. However, these methods could not be easily extended to the case of hypergraph. In this paper, we generalize the challenges of GNN in representing higher-order data in principle, which are edge- and node-level ambiguities. To overcome the challenges, we present SNALS that utilizes bipartite graph neural network with structural features to collectively tackle the two ambiguity issues. SNALS captures the joint interactions of a hyperedge by its local environment, which is retrieved by collecting the spectrum information of their connections. As a result, SNALS achieves nearly 30% performance increase compared with most recent GNN-based models. In addition, we applied SNALS to predict genetic higher-order interactions on 3D genome organization data. SNALS showed consistently high prediction accuracy across different chromosomes, and generated novel findings on 4-way gene interaction, which is further validated by existing literature.
翻訳日:2021-06-10 10:46:57 公開日:2021-06-09
# ソーシャルメディアを利用したCOVID-19パンデミックのサーベイランス:ノースカロライナ州におけるReddit調査

Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina ( http://arxiv.org/abs/2106.04515v2 )

ライセンス: Link先を確認
Christopher Whitfield, Yang Liu, Mohad Anwar(参考訳) 新型コロナウイルス(COVID-19)パンデミックは人々の生活や行動の様々な側面を変えてきた。 この段階では、マスクを着用したり、距離を観察したり、手を洗ったりといった緩和策を採用する以外に、病気の自然進行を制御する方法はない。 さらに、ソーシャルディスタンシングにおいて、ソーシャルメディアは人々をつなげ、感情を表現するためのプラットフォームを提供する上で重要な役割を果たす。 本研究では,ソーシャルメディアを活用し,緩和策と検出戦略の取組を調査し,パンデミックに関する問題や懸念を捉えた。 特に、研究課題として、「Redditの投稿で自然言語処理を使用することで、新型コロナウイルスのパンデミックに対する公衆の取り組みや懸念について、どの程度のことが学べるか? ノースカロライナの4大サブレディットコミュニティから6ヶ月にわたって新型コロナウイルス関連の投稿を抽出した後、ノイズの多いデータをきれいにするためにNLPベースの前処理を行いました。 redditコーパス上でトピックモデリングを行うために,独自の名前付きエンティティ認識 (ner) システムと潜在ディリクレ割り当て (lda) 方式を採用した。 我々は,「マスク」,「フル」,「テスト」が,「個人保護装置」,「症状」,「テスト」の各カテゴリーにおいて,最も多い名義であることを示した。 また、最も議論されたトピックは、テスト、マスク、雇用に関連することも確認した。 緩和策は、すべてのサブredditで最も一般的な議論テーマである。

Coronavirus disease (COVID-19) pandemic has changed various aspects of people's lives and behaviors. At this stage, there are no other ways to control the natural progression of the disease than adopting mitigation strategies such as wearing masks, watching distance, and washing hands. Moreover, at this time of social distancing, social media plays a key role in connecting people and providing a platform for expressing their feelings. In this study, we tap into social media to surveil the uptake of mitigation and detection strategies, and capture issues and concerns about the pandemic. In particular, we explore the research question, "how much can be learned regarding the public uptake of mitigation strategies and concerns about COVID-19 pandemic by using natural language processing on Reddit posts?" After extracting COVID-related posts from the four largest subreddit communities of North Carolina over six months, we performed NLP-based preprocessing to clean the noisy data. We employed a custom Named-entity Recognition (NER) system and a Latent Dirichlet Allocation (LDA) method for topic modeling on a Reddit corpus. We observed that 'mask', 'flu', and 'testing' are the most prevalent named-entities for "Personal Protective Equipment", "symptoms", and "testing" categories, respectively. We also observed that the most discussed topics are related to testing, masks, and employment. The mitigation measures are the most prevalent theme of discussion across all subreddits.
翻訳日:2021-06-10 10:46:40 公開日:2021-06-09