このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200504となっている論文です。

PDF登録状況(公開日: 20200504)

TitleAuthorsAbstract論文公表日・翻訳日
# 熱力学系における最速凍結温度

Fastest Frozen Temperature for a Thermodynamic System ( http://arxiv.org/abs/2001.03007v3 )

ライセンス: Link先を確認
X. Y. Zhou, Z. Q. Yang, X. R. Tang, X. Wang, Q. H. Liu(参考訳) 高温における等分定理と低温における第三法則の両方に従う熱力学系において、比熱と温度との関係を示す曲線は、次の2つの共通挙動を持つ:\itは、温度がゼロケルビンであるときに0で終了し、温度が高いほど定数に収束する。 比熱が等分値に近くなると、励起温度をマークする特性温度 $t_{c}$ を見つけることは常に可能であるので、低温区間の温度を見つけるのに適しており、$t_{c}$ を補完する。 本研究は、温度の低下とともに特定の熱が \textit{fastest} となることで定義される、そのような温度 $\vartheta$ の普遍的存在を報告している。 固体のデバイモデルでは、温度$\vartheta$ The Debyeの法則は失敗し始める。

For a thermodynamic system obeying both the equipartition theorem in high temperature and the third law in low temperature, the curve showing relationship between the specific heat and the temperature has two common behaviors:\ it terminates at zero when the temperature is zero Kelvin and converges to a constant as temperature is higher and higher. Since it is always possible to find the characteristic temperature $T_{C}$ to mark the excited temperature as the specific heat almost reaches the equipartition value, it is reasonable to find a temperature in low temperature interval, complementary to $T_{C}$. The present study reports a possibly universal existence of the such a temperature $\vartheta$, defined by that at which the specific heat falls \textit{fastest} along with decrease of the temperature. For the Debye model of solids, above the temperature $\vartheta$ the Debye's law starts to fail.
翻訳日:2023-01-13 05:33:46 公開日:2020-05-04
# 多面コモンセンス知識のための共同推論

Joint Reasoning for Multi-Faceted Commonsense Knowledge ( http://arxiv.org/abs/2001.04170v2 )

ライセンス: Link先を確認
Yohan Chalier, Simon Razniewski, and Gerhard Weikum(参考訳) Commonsense Knowledge(CSK)は、視覚的理解からチャットボットまで、さまざまなAIアプリケーションをサポートする。 以前はConceptNetのようなCSKの取得に関する作業は、日常的なオブジェクトやアクティビティのような概念と、概念のほとんどまたは一部のインスタンスを保持するプロパティを関連付けるステートメントをコンパイルしていた。 それぞれの概念は他の概念とは独立に扱われ、性質の量的尺度(またはランク付け)は、その主張が妥当である信頼スコアである。 本稿では,CSK文の多面的モデルを導入し,それらの制約を克服することを目的としている。 我々のモデルはCSKステートメントの4つの異なる次元を捉えている。 例えば、ヒエナの飲料水は典型的であるが、サラエントではない。 推論とランク付けのために,分類学的階層に関係のある概念に対する推論を補うために,ソフト制約のある手法を開発した。 この推論は整数線形計画 (ilp) にキャストされ、リラックスしたlpの削減コストの理論を利用して情報的ランキングを計算する。 この手法はいくつかの大規模なCSKコレクションに適用される。 我々の評価は、これらの入力をよりクリーンで表現力のある知識に統合できることを示しています。 結果はhttps://dice.mpi-inf.mpg.deで入手できる。

Commonsense knowledge (CSK) supports a variety of AI applications, from visual understanding to chatbots. Prior works on acquiring CSK, such as ConceptNet, have compiled statements that associate concepts, like everyday objects or activities, with properties that hold for most or some instances of the concept. Each concept is treated in isolation from other concepts, and the only quantitative measure (or ranking) of properties is a confidence score that the statement is valid. This paper aims to overcome these limitations by introducing a multi-faceted model of CSK statements and methods for joint reasoning over sets of inter-related statements. Our model captures four different dimensions of CSK statements: plausibility, typicality, remarkability and salience, with scoring and ranking along each dimension. For example, hyenas drinking water is typical but not salient, whereas hyenas eating carcasses is salient. For reasoning and ranking, we develop a method with soft constraints, to couple the inference over concepts that are related in in a taxonomic hierarchy. The reasoning is cast into an integer linear programming (ILP), and we leverage the theory of reduction costs of a relaxed LP to compute informative rankings. This methodology is applied to several large CSK collections. Our evaluation shows that we can consolidate these inputs into much cleaner and more expressive knowledge. Results are available at https://dice.mpi-inf.mpg.de.
翻訳日:2023-01-11 22:30:52 公開日:2020-05-04
# コンピュータによると、(単純化された)スプリームは必然的に存在する:g\"odelのオントロジ論の計算的に検討された変種

A (Simplified) Supreme Being Necessarily Exists, says the Computer: Computationally Explored Variants of G\"odel's Ontological Argument ( http://arxiv.org/abs/2001.04701v10 )

ライセンス: Link先を確認
Christoph Benzm\"uller(参考訳) 古典高階論理学における普遍的(メタ)論理推論へのアプローチは、カート・g・オデルのモーダル・オントロジ論の単純化を探求し研究するために用いられる。 いくつかの議論の前提は修正され、他の前提は取り下げられ、様相崩壊は避けられ、既に弱様相論理 k と t で妥当性が示される。 本稿では,非古典論理の現代的知識表現と推論技術が,新しい知識を他の分野にいかに寄与するかを説明する。 この資料は教室における非自明な論理形式学の教育支援にも適している。

An approach to universal (meta-)logical reasoning in classical higher-order logic is employed to explore and study simplifications of Kurt G\"odel's modal ontological argument. Some argument premises are modified, others are dropped, modal collapse is avoided and validity is shown already in weak modal logics K and T. Key to the gained simplifications of G\"odel's original theory is the exploitation of a link to the notions of filter and ultrafilter from topology. The paper illustrates how modern knowledge representation and reasoning technology for quantified non-classical logics can contribute new knowledge to other disciplines. The contributed material is also well suited to support teaching of non-trivial logic formalisms in classroom.
翻訳日:2023-01-11 12:16:12 公開日:2020-05-04
# NeurOpt: ニューラルネットワークによるエネルギー管理と気候制御のための最適化

NeurOpt: Neural network based optimization for building energy management and climate control ( http://arxiv.org/abs/2001.07831v2 )

ライセンス: Link先を確認
Achin Jain, Francesco Smarra, Enrico Reticcioli, Alessandro D'Innocenzo, and Manfred Morari(参考訳) モデル予測制御(MPC)は、エネルギー効率の向上、ピーク需要のチャージの低減、需要応答へのリスクのない参加によるエネルギー効率の高い制御という形で、建築作業において大幅なエネルギーコスト削減を提供する。 しかし, 物理モデルの構築に必要な工学的努力は, MPCを実際の建物にスケーラブルにするための最大のボトルネックと考えられている。 本稿では,モデル同定のコストを削減するために,ニューラルネットワークに基づくデータ駆動制御アルゴリズムを提案する。 私たちのアプローチでは、既存の加熱・冷却システムの専門知識の構築や再設計は必要ありません。 イタリアにある10の独立したゾーンを持つ2階建ての建物で学習と制御のアルゴリズムを検証する。 我々は,エネルギー消費とゾーン温度の動的モデルを高精度に学習し,既定のシステムコントローラと比較して省エネと占有者の快適性を示す。

Model predictive control (MPC) can provide significant energy cost savings in building operations in the form of energy-efficient control with better occupant comfort, lower peak demand charges, and risk-free participation in demand response. However, the engineering effort required to obtain physics-based models of buildings is considered to be the biggest bottleneck in making MPC scalable to real buildings. In this paper, we propose a data-driven control algorithm based on neural networks to reduce this cost of model identification. Our approach does not require building domain expertise or retrofitting of existing heating and cooling systems. We validate our learning and control algorithms on a two-story building with ten independently controlled zones, located in Italy. We learn dynamical models of energy consumption and zone temperatures with high accuracy and demonstrate energy savings and better occupant comfort compared to the default system controller.
翻訳日:2023-01-07 18:57:09 公開日:2020-05-04
# NLPからMOOC学生コース軌道モデリングへの最近のイノベーションの適用

Applying Recent Innovations from NLP to MOOC Student Course Trajectory Modeling ( http://arxiv.org/abs/2001.08333v2 )

ライセンス: Link先を確認
Clarence Chen, Zachary Pardos(参考訳) 本稿では,MOOC学生軌道モデルにおけるニューラルネットワークに基づく予測手法を改良し,NLP(Natural Language Processing)タスクにこれまで適用されていた複数のアイデアを適用した。 本稿では,最近導入されたTransformerアーキテクチャとともに,2種類の正規化により拡張されたLSTMネットワークについて検討する。

This paper presents several strategies that can improve neural network-based predictive methods for MOOC student course trajectory modeling, applying multiple ideas previously applied to tackle NLP (Natural Language Processing) tasks. In particular, this paper investigates LSTM networks enhanced with two forms of regularization, along with the more recently introduced Transformer architecture.
翻訳日:2023-01-07 12:48:01 公開日:2020-05-04
# 重み付き平均精度:自動運転車の視覚知覚における逆例検出

Weighted Average Precision: Adversarial Example Detection in the Visual Perception of Autonomous Vehicles ( http://arxiv.org/abs/2002.03751v2 )

ライセンス: Link先を確認
Yilan Li, Senem Velipasalar(参考訳) 近年の研究では、ニューラルネットワークは慎重に構築された敵の例(AE)に弱いことが示されている。 入力画像に小さな摂動を加えることで、AEは犠牲者モデルを誤った出力を予測することができる。 敵機械学習におけるいくつかの研究は、自律運転におけるAEの検出に集中し始めた。 しかし、既存の研究では、検出の出力に関する予備的な仮定を使うか、知覚パイプラインにおけるトラッキングシステムを無視している。 本稿では,まず,実用的な自律走行物体検出出力のための距離メトリックを提案する。 次に、追跡システムの影響を考慮した時間検出アルゴリズムを提供することにより、現在のae検出研究と実世界の自律システムとのギャップを埋める。 我々は、Berkeley Deep Drive(BDD)とCityScapesデータセットで評価を行い、我々のアプローチが既存のシングルフレームmAPベースのAE検出よりも17.76%の精度でパフォーマンスを向上することを示す。

Recent works have shown that neural networks are vulnerable to carefully crafted adversarial examples (AE). By adding small perturbations to input images, AEs are able to make the victim model predicts incorrect outputs. Several research work in adversarial machine learning started to focus on the detection of AEs in autonomous driving. However, the existing studies either use preliminary assumption on outputs of detections or ignore the tracking system in the perception pipeline. In this paper, we firstly propose a novel distance metric for practical autonomous driving object detection outputs. Then, we bridge the gap between the current AE detection research and the real-world autonomous systems by providing a temporal detection algorithm, which takes the impact of tracking system into consideration. We perform evaluation on Berkeley Deep Drive (BDD) and CityScapes datasets to show how our approach outperforms existing single-frame-mAP based AE detections by increasing 17.76% accuracy of performance.
翻訳日:2023-01-07 00:26:08 公開日:2020-05-04
# 脳波を用いた連続無声音声認識

Continuous Silent Speech Recognition using EEG ( http://arxiv.org/abs/2002.03851v7 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik(参考訳) 本稿では脳波信号を用いた無声連続音声認識について検討する。 音声からテキストを生成することなく、被験者が心の中で英語の文章を読む間、脳波信号を並行して翻訳する接続主義時相分類(ctc)自動音声認識(asr)モデルを実装した。 本研究は,eeg信号を用いた連続無声音声認識の実現可能性を示す。 我々は,30個の一意な文からなる限定英語語彙について,この結果を示す。

In this paper we explore continuous silent speech recognition using electroencephalography (EEG) signals. We implemented a connectionist temporal classification (CTC) automatic speech recognition (ASR) model to translate EEG signals recorded in parallel while subjects were reading English sentences in their mind without producing any voice to text. Our results demonstrate the feasibility of using EEG signals for performing continuous silent speech recognition. We demonstrate our results for a limited English vocabulary consisting of 30 unique sentences.
翻訳日:2023-01-03 12:38:07 公開日:2020-05-04
# 微分可能投票損失による6DoFオブジェクト位置推定

6DoF Object Pose Estimation via Differentiable Proxy Voting Loss ( http://arxiv.org/abs/2002.03923v2 )

ライセンス: Link先を確認
Xin Yu and Zheyu Zhuang and Piotr Koniusz and Hongdong Li(参考訳) 6DOFオブジェクトのポーズを1つの画像から推定することは、オクルージョンやテクスチャのない外観のために非常に難しい。 ベクターフィールドベースのキーポイント投票は、これらの問題に取り組む際にその効果と優位性を実証した。 しかし、ベクトル場の直接回帰は、画素とキーポイントの間の距離も仮説の偏差に劇的に影響を与えることを無視する。 言い換えると、方向ベクトルの小さな誤差は、ピクセルがキーポイントから遠く離れている場合、ひどくずれた仮説を生み出す可能性がある。 本稿では,画素とキーポイント間の距離を目標に組み込むことで,誤差を低減することを目的とする。 そこで本研究では,投票手順における仮説選択を模倣した,シンプルで効果的な差別化可能なプロキシ投票損失(DPVL)を開発する。 投票損失を利用することで、エンドツーエンドでネットワークをトレーニングすることができます。 LINEMODやOcclusion LINEMODなど,広く使用されているデータセットの実験から,DPVLはポーズ推定性能を大幅に改善し,トレーニング収束を高速化することが示された。

Estimating a 6DOF object pose from a single image is very challenging due to occlusions or textureless appearances. Vector-field based keypoint voting has demonstrated its effectiveness and superiority on tackling those issues. However, direct regression of vector-fields neglects that the distances between pixels and keypoints also affect the deviations of hypotheses dramatically. In other words, small errors in direction vectors may generate severely deviated hypotheses when pixels are far away from a keypoint. In this paper, we aim to reduce such errors by incorporating the distances between pixels and keypoints into our objective. To this end, we develop a simple yet effective differentiable proxy voting loss (DPVL) which mimics the hypothesis selection in the voting procedure. By exploiting our voting loss, we are able to train our network in an end-to-end manner. Experiments on widely used datasets, i.e., LINEMOD and Occlusion LINEMOD, manifest that our DPVL improves pose estimation performance significantly and speeds up the training convergence.
翻訳日:2023-01-02 09:08:47 公開日:2020-05-04
# SparseIDS:強化学習によるパケットサンプリング学習

SparseIDS: Learning Packet Sampling with Reinforcement Learning ( http://arxiv.org/abs/2002.03872v3 )

ライセンス: Link先を確認
Maximilian Bachl, Fares Meghdouri, Joachim Fabini, Tanja Zseby(参考訳) リカレントニューラルネットワーク(RNN)は,ネットワークデータに対する侵入検知システム(IDS)の構築に有用であることが示されている。 フローが終了する前に悪意があるかどうかを判断でき、即座にアクションを実行できる。 しかし、例えば cloud/fog や edge computing で検査しなければならないパケットの数を考えると、計算効率の問題が発生する。 SparseIDSと呼ばれる新しい強化学習(Reinforcement Learning, RL)ベースのアプローチを用いることで, 分類精度を高く保ちながら, 消費パケット数を3/4以上削減できることを示す。 RLに基づくサンプリングの計算コストを最小化するために、分類器とRL論理の両方に共有ニューラルネットワークを使用できることを示す。 したがって、デプロイメントのサンプリングによって追加のリソースが消費されることはない。 他の様々なサンプリング技術と比較して、SparseIDSは、関連するパケットのみをサンプリングすることを学ぶことによって、高い分類精度を達成する。 我々のRLベースのアプローチの大きな特徴は、自然言語処理の領域で提案されている他のアプローチと同様に、事前に定義された最大数のサンプルをスキップできるだけでなく、任意の数のパケットを1ステップでスキップできることです。 これにより、長いシーケンスでより多くの計算リソースを節約できる。 SparseIDSのパケット選択動作を調べると、異なる攻撃タイプとネットワークフローに対して異なるサンプリング戦略を採用することが分かる。 最後に、デプロイ中のSparseIDSをガイドして所望の間隔を実現する自動ステアリングメカニズムを構築します。

Recurrent Neural Networks (RNNs) have been shown to be valuable for constructing Intrusion Detection Systems (IDSs) for network data. They allow determining if a flow is malicious or not already before it is over, making it possible to take action immediately. However, considering the large number of packets that has to be inspected, for example in cloud/fog and edge computing, the question of computational efficiency arises. We show that by using a novel Reinforcement Learning (RL)-based approach called SparseIDS, we can reduce the number of consumed packets by more than three fourths while keeping classification accuracy high. To minimize the computational expenses of the RL-based sampling we show that a shared neural network can be used for both the classifier and the RL logic. Thus, no additional resources are consumed by the sampling in deployment. Comparing to various other sampling techniques, SparseIDS consistently achieves higher classification accuracy by learning to sample only relevant packets. A major novelty of our RL-based approach is that it can not only skip up to a predefined maximum number of samples like other approaches proposed in the domain of Natural Language Processing but can even skip arbitrarily many packets in one step. This enables saving even more computational resources for long sequences. Inspecting SparseIDS's behavior of choosing packets shows that it adopts different sampling strategies for different attack types and network flows. Finally we build an automatic steering mechanism that can guide SparseIDS in deployment to achieve a desired level of sparsity.
翻訳日:2023-01-02 08:28:30 公開日:2020-05-04
# 考察:周期的境界を有する3次元多相電極構造の確率的再構成における生成的対向ネットワークの利用

Pores for thought: The use of generative adversarial networks for the stochastic reconstruction of 3D multi-phase electrode microstructures with periodic boundaries ( http://arxiv.org/abs/2003.11632v2 )

ライセンス: Link先を確認
Andrea Gayon-Lombardo, Lukas Mosser, Nigel P. Brandon, Samuel J. Cooper(参考訳) 多相多孔質電極構造の生成は、電気化学エネルギー貯蔵デバイスの最適化において重要なステップである。 本研究は, 現実的なn相マイクロ構造データを生成するために, 深い畳み込み生成対向ネットワーク(DC-GAN)を実装した。 同じネットワークアーキテクチャは、リチウムイオン電池陰極と固体酸化物燃料電池陽極という、2つの非常に異なる3相構造にうまく適用されている。 実データと合成データの比較は、形態的性質(体積率、比表面積、三相境界)と輸送特性(相対拡散率)および二点相関関数を用いて行われる。 結果はデータセット間での良好な一致を示し、それらもまた視覚的に区別できない。 生成器への入力を変更することで、周期的な境界を持つマイクロ構造を3方向すべてに生成できることを示す。 これは、代表となるのに必要な模擬体積を著しく削減し、最適化中の特定のミクロ組織の性能を予測するのに必要な電気化学シミュレーションの計算コストを大幅に削減する可能性がある。

The generation of multiphase porous electrode microstructures is a critical step in the optimisation of electrochemical energy storage devices. This work implements a deep convolutional generative adversarial network (DC-GAN) for generating realistic n-phase microstructural data. The same network architecture is successfully applied to two very different three-phase microstructures: A lithium-ion battery cathode and a solid oxide fuel cell anode. A comparison between the real and synthetic data is performed in terms of the morphological properties (volume fraction, specific surface area, triple-phase boundary) and transport properties (relative diffusivity), as well as the two-point correlation function. The results show excellent agreement between for datasets and they are also visually indistinguishable. By modifying the input to the generator, we show that it is possible to generate microstructure with periodic boundaries in all three directions. This has the potential to significantly reduce the simulated volume required to be considered representative and therefore massively reduce the computational cost of the electrochemical simulations necessary to predict the performance of a particular microstructure during optimisation.
翻訳日:2022-12-31 11:48:51 公開日:2020-05-04
# クロスモーダル・セルフ・スーパービジョンを用いた不連続音声埋め込み

Disentangled Speech Embeddings using Cross-modal Self-supervision ( http://arxiv.org/abs/2002.08742v2 )

ライセンス: Link先を確認
Arsha Nagrani, Joon Son Chung, Samuel Albanie, Andrew Zisserman(参考訳) 本研究の目的は,手動で注釈付きデータにアクセスすることなく話者識別の表現を学習することである。 そこで本稿では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。 このアプローチの背景にある重要な考え方は、アノテーションなしで、言語内容と話者識別の表現を区別することである。 両表現に共通する低レベル特徴を共通する2ストリームアーキテクチャを構築し,(2)これらの要因を明確に分離する自然なメカニズムを提供し,コンテンツとアイデンティティの新たな組み合わせへのさらなる一般化の可能性を提供し,最終的にはより堅牢な話者識別表現を生成する。 提案手法は,音声頭部の大規模音声視覚データセットを学習し,学習した話者表現を標準話者認識性能として評価することにより,その効果を実証する。

The objective of this paper is to learn representations of speaker identity without access to manually annotated data. To do so, we develop a self-supervised learning objective that exploits the natural cross-modal synchrony between faces and audio in video. The key idea behind our approach is to tease apart--without annotation--the representations of linguistic content and speaker identity. We construct a two-stream architecture which: (1) shares low-level features common to both representations; and (2) provides a natural mechanism for explicitly disentangling these factors, offering the potential for greater generalisation to novel combinations of content and identity and ultimately producing speaker identity representations that are more robust. We train our method on a large-scale audio-visual dataset of talking heads `in the wild', and demonstrate its efficacy by evaluating the learned speaker representations for standard speaker recognition performance.
翻訳日:2022-12-30 08:19:25 公開日:2020-05-04
# ScopeFlow:光学フローのための動的シーンスコープ

ScopeFlow: Dynamic Scene Scoping for Optical Flow ( http://arxiv.org/abs/2002.10770v2 )

ライセンス: Link先を確認
Aviram Bar-Haim, Lior Wolf(参考訳) 我々は,光フローの一般的なトレーニングプロトコルを変更することを提案し,学習プロセスの計算複雑性を増すことなく,精度を大幅に向上させる。 この改善は、現在のトレーニングプロトコルに存在する課題データのサンプリングにおけるバイアスの観測と、サンプリングプロセスの改善に基づいている。 さらに,トレーニングプロトコルでは,正規化と拡張の双方が減少することが判明した。 既存の低パラメータアーキテクチャを使用して、この手法はmpi sintelベンチマークで他のすべての手法の中で第一にランク付けされ、最良の2フレーム法の精度が10%以上向上した。 また、KITTIベンチマークでは、類似したアーキテクチャのすべてのバリエーションを12%以上、19.7%以上上回り、追加のデータセットを使わずに、KITTI2012における平均終点誤差が2フレームで最低となった。

We propose to modify the common training protocols of optical flow, leading to sizable accuracy improvements without adding to the computational complexity of the training process. The improvement is based on observing the bias in sampling challenging data that exists in the current training protocol, and improving the sampling process. In addition, we find that both regularization and augmentation should decrease during the training protocol. Using an existing low parameters architecture, the method is ranked first on the MPI Sintel benchmark among all other methods, improving the best two frames method accuracy by more than 10%. The method also surpasses all similar architecture variants by more than 12% and 19.7% on the KITTI benchmarks, achieving the lowest Average End-Point Error on KITTI2012 among two-frame methods, without using extra datasets.
翻訳日:2022-12-28 21:46:01 公開日:2020-05-04
# ニューロンアライメントによるニューラルネットワークの安全クロスオーバー

Safe Crossover of Neural Networks Through Neuron Alignment ( http://arxiv.org/abs/2003.10306v3 )

ライセンス: Link先を確認
Thomas Uriot and Dario Izzo(参考訳) 遺伝的アルゴリズムを用いたニューラルネットワークの重み付けを進化させる主な、ほとんど未解決の課題の1つは、親ネットワーク間の合理的なクロスオーバー操作を見つけることである。 実際、ナイーブなクロスオーバーは、親からの情報を保持しない機能的に障害のある子孫に繋がる。 これは、ニューラルネットワークがニューロンの置換に不変であり、同じ解を表す複数の方法をもたらすためである。 これはしばしば競合する条約問題と呼ばれる。 本稿では,二段階セーフクロスオーバー(sc)演算子を提案する。 まず、親のニューロンは、親の相関度を計算して機能的に整列し、その後に親が再結合する。 ニューロン間の関係をPairwise correlation (PwC) とCanonical correlation Analysis (CCA) の2つの方法で比較した。 我々は,MNIST と CIFAR-10 上の安全なクロスオーバー演算子 (SC-PwC と SC-CCA) をテストする。 また,親から子への情報を効果的に伝達し,ナイーブなクロスオーバーにより著しく改善することを示す。 提案手法は計算速度が速く, 運動環境をより効率的に探索する手段となり, 今後の神経進化研究や応用において, 安全なクロスオーバーを潜在的に有望なオペレーターにすることができる。

One of the main and largely unexplored challenges in evolving the weights of neural networks using genetic algorithms is to find a sensible crossover operation between parent networks. Indeed, naive crossover leads to functionally damaged offspring that do not retain information from the parents. This is because neural networks are invariant to permutations of neurons, giving rise to multiple ways of representing the same solution. This is often referred to as the competing conventions problem. In this paper, we propose a two-step safe crossover(SC) operator. First, the neurons of the parents are functionally aligned by computing how well they correlate, and only then are the parents recombined. We compare two ways of measuring relationships between neurons: Pairwise Correlation (PwC) and Canonical Correlation Analysis (CCA). We test our safe crossover operators (SC-PwC and SC-CCA) on MNIST and CIFAR-10 by performing arithmetic crossover on the weights of feed-forward neural network pairs. We show that it effectively transmits information from parents to offspring and significantly improves upon naive crossover. Our method is computationally fast,can serve as a way to explore the fitness landscape more efficiently and makes safe crossover a potentially promising operator in future neuroevolution research and applications.
翻訳日:2022-12-20 23:33:57 公開日:2020-05-04
# 多言語シーケンスラベリングのための構造レベル知識蒸留

Structure-Level Knowledge Distillation For Multilingual Sequence Labeling ( http://arxiv.org/abs/2004.03846v3 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Fei Huang, Kewei Tu(参考訳) 多言語シーケンスラベリングは、複数の言語に対して単一の統一モデルを用いてラベルシーケンスを予測するタスクである。 複数のモノリンガルモデルに依存するのに比べ、マルチリンガルモデルを使用すると、モデルのサイズが小さくなり、オンラインサービスが容易になり、低リソース言語への一般化が可能となる。 しかし、現在の多言語モデルは、モデルキャパシティの制限により、個々の単言語モデルを大きく下回っている。 本稿では,複数の単言語モデル (teacher) の構造知識を統一多言語モデル (student) に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。 本研究では,(1)学生と教師の構造レベルの確率分布間の距離をほぼ最小化し,(2)構成レベルの知識を局所分布に集約し,局所的な確率分布間の距離を最小化する2つの新しいKD手法を提案する。 25のデータセットを持つ4つの多言語タスクにおける実験は、我々のアプローチがいくつかの強力なベースラインよりも優れており、ベースラインモデルと教師モデルの両方よりもゼロショット一般化性が高いことを示している。

Multilingual sequence labeling is a task of predicting label sequences using a single unified model for multiple languages. Compared with relying on multiple monolingual models, using a multilingual model has the benefit of a smaller model size, easier in online serving, and generalizability to low-resource languages. However, current multilingual models still underperform individual monolingual models significantly due to model capacity limitations. In this paper, we propose to reduce the gap between monolingual models and the unified multilingual model by distilling the structural knowledge of several monolingual models (teachers) to the unified multilingual model (student). We propose two novel KD methods based on structure-level information: (1) approximately minimizes the distance between the student's and the teachers' structure level probability distributions, (2) aggregates the structure-level knowledge to local distributions and minimizes the distance between two local probability distributions. Our experiments on 4 multilingual tasks with 25 datasets show that our approaches outperform several strong baselines and have stronger zero-shot generalizability than both the baseline model and teacher models.
翻訳日:2022-12-15 07:51:04 公開日:2020-05-04
# クラス重近辺のマルチクラス分類

Multiclass Classification via Class-Weighted Nearest Neighbors ( http://arxiv.org/abs/2004.04715v2 )

ライセンス: Link先を確認
Justin Khim, Ziyu Xu and Shashank Singh(参考訳) マルチクラス分類のためのk-nearest neighborsアルゴリズムの統計特性について検討し,クラス数が大きく,クラス数が非常に不均衡な設定に着目した。 特に、非一様クラス重み付けを持つk-アレスト近傍分類器の変種を考えると、精度、クラス重み付きリスク、一様誤差に基づいて上とミニマックスの下限を導出する。 さらに、一様誤差境界は、経験的混乱行列量とその集団の重みの集合における差に結びつくことを示す。 その結果、クラスウェイトを調整することで、F1スコアやマシューの相関係数などの分類指標を最適化することができる。 さらに、境界と数値実験をインスタンス化する簡単な例も提供します。

We study statistical properties of the k-nearest neighbors algorithm for multiclass classification, with a focus on settings where the number of classes may be large and/or classes may be highly imbalanced. In particular, we consider a variant of the k-nearest neighbor classifier with non-uniform class-weightings, for which we derive upper and minimax lower bounds on accuracy, class-weighted risk, and uniform error. Additionally, we show that uniform error bounds lead to bounds on the difference between empirical confusion matrix quantities and their population counterparts across a set of weights. As a result, we may adjust the class weights to optimize classification metrics such as F1 score or Matthew's Correlation Coefficient that are commonly used in practice, particularly in settings with imbalanced classes. We additionally provide a simple example to instantiate our bounds and numerical experiments.
翻訳日:2022-12-15 02:26:53 公開日:2020-05-04
# トップN項目推薦のための条件付き変分オートエンコーダ

Conditioned Variational Autoencoder for top-N item recommendation ( http://arxiv.org/abs/2004.11141v2 )

ライセンス: Link先を確認
Tommaso Carraro, Mirko Polato, Fabio Aiolli(参考訳) 本稿では,制約付きトップN項目推薦のための条件付き変分オートエンコーダ(C-VAE)を提案する。 提案したモデルアーキテクチャは、条件ベクトルをエンコーダに入力する標準的なVAEに似ている。 入力条件を考慮に入れた新たな復元損失により、トレーニング中に制約付きランキングが学習される。 本モデルは,最先端のMult-VAE協調フィルタリングモデルを一般化することを示す。 さらに,c-vaeが潜在空間で何を学ぶかについての洞察を与え,人間にやさしい解釈を提供する。 実験結果はc-vaeの制約下での正確な推奨を提供する可能性を示す。 最後に,C-VAEがコンテキスト認識レコメンデーションなどの他のレコメンデーションシナリオで使用できることを示す。

In this paper, we propose a Conditioned Variational Autoencoder (C-VAE) for constrained top-N item recommendation where the recommended items must satisfy a given condition. The proposed model architecture is similar to a standard VAE in which the condition vector is fed into the encoder. The constrained ranking is learned during training thanks to a new reconstruction loss that takes the input condition into account. We show that our model generalizes the state-of-the-art Mult-VAE collaborative filtering model. Moreover, we provide insights on what C-VAE learns in the latent space, providing a human-friendly interpretation. Experimental results underline the potential of C-VAE in providing accurate recommendations under constraints. Finally, the performed analyses suggest that C-VAE can be used in other recommendation scenarios, such as context-aware recommendation.
翻訳日:2022-12-12 22:22:49 公開日:2020-05-04
# adax: 指数型長期記憶を用いた適応勾配降下

AdaX: Adaptive Gradient Descent with Exponential Long Term Memory ( http://arxiv.org/abs/2004.09740v2 )

ライセンス: Link先を確認
Wenjie Li, Zhaoyang Zhang, Xinjiang Wang, Ping Luo(参考訳) アダムのような適応最適化アルゴリズムは、多くの機械学習タスクで高速収束を示すが、本論文は、アダムの問題を単純な非凸合成問題で解析することで特定し、アダムの高速収束がアルゴリズムを局所最小に導く可能性を示す。 この問題に対処するために,新しい適応勾配降下アルゴリズムadaxを提案することでadamを改善する。 過去の勾配を無視したAdamとは異なり、AdaXはトレーニング中に過去の長期勾配情報を指数関数的に蓄積し、学習率を適応的に調整する。 凸と非凸の両方の設定におけるAdaXの収束を徹底的に証明する。 大規模な実験により、AdaXはコンピュータビジョンや自然言語処理の様々なタスクにおいてAdamより優れており、Stochastic Gradient Descentに追いつくことができることがわかった。

Although adaptive optimization algorithms such as Adam show fast convergence in many machine learning tasks, this paper identifies a problem of Adam by analyzing its performance in a simple non-convex synthetic problem, showing that Adam's fast convergence would possibly lead the algorithm to local minimums. To address this problem, we improve Adam by proposing a novel adaptive gradient descent algorithm named AdaX. Unlike Adam that ignores the past gradients, AdaX exponentially accumulates the long-term gradient information in the past during training, to adaptively tune the learning rate. We thoroughly prove the convergence of AdaX in both the convex and non-convex settings. Extensive experiments show that AdaX outperforms Adam in various tasks of computer vision and natural language processing and can catch up with Stochastic Gradient Descent.
翻訳日:2022-12-11 06:03:30 公開日:2020-05-04
# 新型コロナウイルス(covid-19)パンデミックから学ぶための予測と予測

Learning to Forecast and Forecasting to Learn from the COVID-19 Pandemic ( http://arxiv.org/abs/2004.11372v3 )

ライセンス: Link先を確認
Ajitesh Srivastava, Viktor K. Prasanna(参考訳) 新型コロナウイルス(covid-19)の正確な予測は、感染拡大に対応するための資源管理と構築戦略の中心である。 本研究は,darpa grand challenge 2014で成功した流行モデルとして,ヒトモビリティを備えた不均一感染率モデルを提案する。 モデルを線形化し,重み付き最小二乗法を用いることで,変化傾向に迅速に適応し,米国の国や州レベルで確認された事例を極めて正確に予測することができる。 疫病の初期には、旅行データを用いて予測が増加することが示されている。 モデルを予測するためのトレーニングは、流行の学習特性も可能にします。 特に、時間とともにモデルパラメータの変化が、国家や国が流行にどれだけうまく反応しているかを定量化するのに役立ちます。 パラメータのバリエーションによって、ソーシャルディスタンシングの提案を無視した場合にはどうなるかなど、さまざまなシナリオを予測できます。

Accurate forecasts of COVID-19 is central to resource management and building strategies to deal with the epidemic. We propose a heterogeneous infection rate model with human mobility for epidemic modeling, a preliminary version of which we have successfully used during DARPA Grand Challenge 2014. By linearizing the model and using weighted least squares, our model is able to quickly adapt to changing trends and provide extremely accurate predictions of confirmed cases at the level of countries and states of the United States. We show that during the earlier part of the epidemic, using travel data increases the predictions. Training the model to forecast also enables learning characteristics of the epidemic. In particular, we show that changes in model parameters over time can help us quantify how well a state or a country has responded to the epidemic. The variations in parameters also allow us to forecast different scenarios such as what would happen if we were to disregard social distancing suggestions.
翻訳日:2022-12-10 09:30:46 公開日:2020-05-04
# 顔の自動重み付けによるディープフェイク検出

Deepfakes Detection with Automatic Face Weighting ( http://arxiv.org/abs/2004.12027v2 )

ライセンス: Link先を確認
Daniel Mas Montserrat, Hanxiang Hao, S. K. Yarlagadda, Sriram Baireddy, Ruiting Shao, J\'anos Horv\'ath, Emily Bartusiak, Justin Yang, David G\"uera, Fengqing Zhu, Edward J. Delp(参考訳) 修正および操作されたマルチメディアは、ソーシャルメディアプラットフォームを介して、ますます広く普及している。 高度なビデオ操作ツールは、非常にリアルな外観のマルチメディアを生成できる。 操作を検出する多くの方法が提示されているが、そのほとんどは、研究環境で使用されるデータセット以外のデータで評価されると失敗する。 この問題に対処するために、Deepfake Detection Challenge (DFDC)は、現実的な操作を含む大量のビデオデータセットと、挑戦的なデータに直面した場合でも、メソッドが迅速かつ正確に動作することを保証する評価システムを提供する。 本稿では,コンボリューショナルニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づいて,映像中の顔から視覚的・時間的特徴を抽出し,操作を正確に検出する手法を提案する。 本手法はDFDCデータセットを用いて評価し,他の手法と比較して比較結果が得られた。

Altered and manipulated multimedia is increasingly present and widely distributed via social media platforms. Advanced video manipulation tools enable the generation of highly realistic-looking altered multimedia. While many methods have been presented to detect manipulations, most of them fail when evaluated with data outside of the datasets used in research environments. In order to address this problem, the Deepfake Detection Challenge (DFDC) provides a large dataset of videos containing realistic manipulations and an evaluation system that ensures that methods work quickly and accurately, even when faced with challenging data. In this paper, we introduce a method based on convolutional neural networks (CNNs) and recurrent neural networks (RNNs) that extracts visual and temporal features from faces present in videos to accurately detect manipulations. The method is evaluated with the DFDC dataset, providing competitive results compared to other techniques.
翻訳日:2022-12-09 22:10:53 公開日:2020-05-04
# 深層学習による癌薬剤感受性予測の体系化の試み

A Systematic Approach to Featurization for Cancer Drug Sensitivity Predictions with Deep Learning ( http://arxiv.org/abs/2005.00095v2 )

ライセンス: Link先を確認
Austin Clyde, Tom Brettin, Alexander Partin, Maulik Shaulik, Hyunseung Yoo, Yvonne Evrard, Yitan Zhu, Fangfang Xia, Rick Stevens(参考訳) 様々ながん細胞株(CCL)の薬物スクリーニングパネルを組み合わせることで、データのサイズが大きく増加し、ディープラーニングの進歩が薬物反応予測をどう進めるかを理解するようになった。 本稿では,35,000以上のニューラルネットワークモデルをトレーニングし,一般的な成果化手法を網羅する。 RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。 数行列として符号化された単一ヌクレオチド多型 (SNP) はモデル性能を著しく向上させ, 共通オープンソースMOrdred記述子とDragon7記述子との分子的分解に関して, モデル性能に有意な差は認められなかった。 この分析の他に、CCLスクリーニングデータセット間のデータ統合の概要と、新しいメトリクスと不均衡なデータ技術、およびデータ標準化の進歩が必要であることを示す。

By combining various cancer cell line (CCL) drug screening panels, the size of the data has grown significantly to begin understanding how advances in deep learning can advance drug response predictions. In this paper we train >35,000 neural network models, sweeping over common featurization techniques. We found the RNA-seq to be highly redundant and informative even with subsets larger than 128 features. We found the inclusion of single nucleotide polymorphisms (SNPs) coded as count matrices improved model performance significantly, and no substantial difference in model performance with respect to molecular featurization between the common open source MOrdred descriptors and Dragon7 descriptors. Alongside this analysis, we outline data integration between CCL screening datasets and present evidence that new metrics and imbalanced data techniques, as well as advances in data standardization, need to be developed.
翻訳日:2022-12-08 05:50:26 公開日:2020-05-04
# 音声アシスタントにおけるインテントのランク付け学習

Learning to Rank Intents in Voice Assistants ( http://arxiv.org/abs/2005.00119v2 )

ライセンス: Link先を確認
Raviteja Anantha, Srinivas Chappidi, and William Dawoodi(参考訳) 音声アシスタントは、自動音声認識と自然言語理解サブシステムによって生成される複数のオプションからベストインテントを選択することで、ユーザの要求を満たすことを目指している。 しかし、音声アシスタントが常に期待する結果を生成するとは限らない。 音声アシスタントはあいまいな意図から選択する - ユーザ固有の、あるいはドメイン固有のコンテキスト情報によって、ユーザ要求のあいまいさが低減される。 さらに、ユーザ情報ステートを利用して、特定のインテントがユーザリクエストにどの程度関連性/実行可能かを理解することができます。 本研究では,親和性指標を学習し,音声発話から抽出された意味と意図の関連/実行可能性の側面とのトレードオフをモデル化する,意図ランキングタスクのための新しいエネルギーベースモデルを提案する。 さらに,複数のソースからデータの融合表現を学習可能な,マルチソース・デノナイズ・オートエンコーダに基づく事前学習を提案する。 提案手法は,誤差率を3.8%削減することで既存の手法よりも優れており,その結果,曖昧さを低減し,望ましくないデッドエンドを除去し,ユーザエクスペリエンスを向上させる。 最後に,意図的ランキングタスクにおけるアルゴリズムの頑健さを評価し,その頑健さを33.3%向上させることを示す。

Voice Assistants aim to fulfill user requests by choosing the best intent from multiple options generated by its Automated Speech Recognition and Natural Language Understanding sub-systems. However, voice assistants do not always produce the expected results. This can happen because voice assistants choose from ambiguous intents - user-specific or domain-specific contextual information reduces the ambiguity of the user request. Additionally the user information-state can be leveraged to understand how relevant/executable a specific intent is for a user request. In this work, we propose a novel Energy-based model for the intent ranking task, where we learn an affinity metric and model the trade-off between extracted meaning from speech utterances and relevance/executability aspects of the intent. Furthermore we present a Multisource Denoising Autoencoder based pretraining that is capable of learning fused representations of data from multiple sources. We empirically show our approach outperforms existing state of the art methods by reducing the error-rate by 3.8%, which in turn reduces ambiguity and eliminates undesired dead-ends leading to better user experience. Finally, we evaluate the robustness of our algorithm on the intent ranking task and show our algorithm improves the robustness by 33.3%.
翻訳日:2022-12-08 03:41:10 公開日:2020-05-04
# 分散学習における線形回帰の一般化誤差

Generalization Error for Linear Regression under Distributed Learning ( http://arxiv.org/abs/2004.14637v2 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) 分散学習は、複数のノードに計算負荷を分散することにより、データ処理のスケールアップを促進する。 分散学習への大きな関心にもかかわらず、そのようなアプローチの一般化性能はよく分かっていない。 線形回帰設定に注目することで,このギャップを解消する。 ノードのネットワーク上に未知のノードが分散する環境について考察する。 本稿では,ノード上の未知の分割に対する一般化誤差の依存性を解析的に評価する。 特に、過パラメータ化の場合、トレーニングデータの誤差は集中解と同じ範囲にあるが、任意のノードで推定された未知数数が観測数に近い場合、分散解の一般化誤差は集中解と比較すると劇的に増加する。 さらに解析式を検証する数値的な例を示す。

Distributed learning facilitates the scaling-up of data processing by distributing the computational burden over several nodes. Despite the vast interest in distributed learning, generalization performance of such approaches is not well understood. We address this gap by focusing on a linear regression setting. We consider the setting where the unknowns are distributed over a network of nodes. We present an analytical characterization of the dependence of the generalization error on the partitioning of the unknowns over nodes. In particular, for the overparameterized case, our results show that while the error on training data remains in the same range as that of the centralized solution, the generalization error of the distributed solution increases dramatically compared to that of the centralized solution when the number of unknowns estimated at any node is close to the number of observations. We further provide numerical examples to verify our analytical expressions.
翻訳日:2022-12-08 03:39:56 公開日:2020-05-04
# 文からの言語的類型的特徴:言語構造の世界アトラスのスパース特徴を推定する

Linguistic Typology Features from Text: Inferring the Sparse Features of World Atlas of Language Structures ( http://arxiv.org/abs/2005.00100v2 )

ライセンス: Link先を確認
Alexander Gutkin, Tatiana Merkulova and Martin Jansche(参考訳) 自然言語処理における言語型的資源の利用は、徐々に人気が高まっている。 型的情報の利用は、しばしば分散言語表現と組み合わせることで、より強力なモデルを生み出すことが示されている。 各種資源の言語型学表現は, 主にモデルの条件付けに用いられているが, 入力データからこれらの資源の特徴を予測することは比較的少ない。 本稿では,多言語テキストからWALS(World Atlas of Language Structures)の様々な言語的特徴を確実に推測できるかどうかを検討する。 このような予測器は、訓練データで観測されることのない言語の構造的特徴を推測するために使用できる。 我々はこのタスクを,非可換排他的かつ極めてスパースな多値ラベル(wals特徴)の集合の予測を含むマルチラベル分類として構成する。 我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築し、その性能を556言語で検証し、様々な言語タイプ、マクロエリア、言語家族および個々の特徴について分析する。 様々な言語型の特徴が確実に予測できることを示す。

The use of linguistic typological resources in natural language processing has been steadily gaining more popularity. It has been observed that the use of typological information, often combined with distributed language representations, leads to significantly more powerful models. While linguistic typology representations from various resources have mostly been used for conditioning the models, there has been relatively little attention on predicting features from these resources from the input data. In this paper we investigate whether the various linguistic features from World Atlas of Language Structures (WALS) can be reliably inferred from multi-lingual text. Such a predictor can be used to infer structural features for a language never observed in training data. We frame this task as a multi-label classification involving predicting the set of non-mutually exclusive and extremely sparse multi-valued labels (WALS features). We construct a recurrent neural network predictor based on byte embeddings and convolutional layers and test its performance on 556 languages, providing analysis for various linguistic types, macro-areas, language families and individual features. We show that some features from various linguistic types can be predicted reliably.
翻訳日:2022-12-08 03:12:43 公開日:2020-05-04
# 通勤流予測のための地理コンテキスト埋め込みの学習

Learning Geo-Contextual Embeddings for Commuting Flow Prediction ( http://arxiv.org/abs/2005.01690v1 )

ライセンス: Link先を確認
Zhicheng Liu, Fabio Miranda, Weiting Xiong, Junyan Yang, Qiao Wang, Claudio T. Silva(参考訳) インフラ・土地利用情報に基づく通勤フローの予測は都市計画・公共政策開発に不可欠である。 しかし、通勤流の複雑なパターンを考えると、これは難しい課題である。 重力モデルのような従来のモデルは、主に物理原理から派生し、多くの要因を考慮すべき実世界のシナリオにおける予測力によって制限される。 一方、既存の機械学習ベースの手法のほとんどは、空間相関を無視し、近隣領域の影響をモデル化しない。 これらの問題に対処するために,空間的相関を空間的文脈情報から捉え,移動フローを予測するモデルであるGeo-contextual Multitask Embedding Learner (GMEL)を提案する。 具体的には,まず,地理的文脈情報を含むジオアジャクシーネットワークを構築する。 次に,グラフアテンションネットワーク(gat)の枠組みに基づき,空間相関を捉え,地理コンテキスト情報を埋め込み空間にエンコードするアテンション機構を提案する。 供給特性と需要特性をモデル化するために2つの別々のGATが使用される。 マルチタスク学習フレームワークは、より強い制約を導入し、埋め込み表現の有効性を高めるために使用される。 最後に、学習した埋め込みに基づいて勾配促進機を訓練し、通勤流を予測する。 我々は,ニューヨーク市の実世界のデータセットを用いてモデルを評価し,提案手法の有効性を実験的に実証した。

Predicting commuting flows based on infrastructure and land-use information is critical for urban planning and public policy development. However, it is a challenging task given the complex patterns of commuting flows. Conventional models, such as gravity model, are mainly derived from physics principles and limited by their predictive power in real-world scenarios where many factors need to be considered. Meanwhile, most existing machine learning-based methods ignore the spatial correlations and fail to model the influence of nearby regions. To address these issues, we propose Geo-contextual Multitask Embedding Learner (GMEL), a model that captures the spatial correlations from geographic contextual information for commuting flow prediction. Specifically, we first construct a geo-adjacency network containing the geographic contextual information. Then, an attention mechanism is proposed based on the framework of graph attention network (GAT) to capture the spatial correlations and encode geographic contextual information to embedding space. Two separate GATs are used to model supply and demand characteristics. A multitask learning framework is used to introduce stronger restrictions and enhance the effectiveness of the embedding representation. Finally, a gradient boosting machine is trained based on the learned embeddings to predict commuting flows. We evaluate our model using real-world datasets from New York City and the experimental results demonstrate the effectiveness of our proposal against the state of the art.
翻訳日:2022-12-07 01:49:52 公開日:2020-05-04
# sEMGセンサーを用いた埋め込み深層学習による脳制御ロボット義肢の3Dプリント

3D Printed Brain-Controlled Robot-Arm Prosthetic via Embedded Deep Learning from sEMG Sensors ( http://arxiv.org/abs/2005.01797v1 )

ライセンス: Link先を確認
David Lonsdale, Li Zhang and Richard Jiang(参考訳) 本稿では,深層学習によるロボットアーム義足の開発について述べる。 本研究では,Google Inceptionモデルに適用した転写学習技術を用いて,表面筋電図(sEMG)分類の最終層を再構成する手法を提案する。 データはThalmic Labs Myo Armbandを使って収集され、アームバンド内の8個のsEMGセンサーの配列に対応して、センサーごとに40のデータポイントから取得されたsEMGデータを含む画像毎の8個のサブプロットからなるグラフ画像を生成するために使用される。 得られたデータは、深層学習モデルであるInception-v3を使って4つのカテゴリ(Fist、Thumbs Up、Open Hand、Rest)に分類され、新しいデータのリアルタイム入力で各モデルの正確な予測をトレーニングする。 このトレーニングされたモデルはARMプロセッサベースの埋め込みシステムにダウンロードされ、脳が制御するロボットアームの義肢を3Dプリンターで作れるようにしました。 この方法の機能をテストするために、ロボットアームは3dプリンターと市販のハードウェアを使って製造され、制御された。 SSH通信プロトコルを使用して、組み込みRaspberry Pi上にホストされたピソンファイルをARMプロセッサで実行し、予測ジェスチャーのロボットアームの動きをトリガーする。

In this paper, we present our work on developing robot arm prosthetic via deep learning. Our work proposes to use transfer learning techniques applied to the Google Inception model to retrain the final layer for surface electromyography (sEMG) classification. Data have been collected using the Thalmic Labs Myo Armband and used to generate graph images comprised of 8 subplots per image containing sEMG data captured from 40 data points per sensor, corresponding to the array of 8 sEMG sensors in the armband. Data captured were then classified into four categories (Fist, Thumbs Up, Open Hand, Rest) via using a deep learning model, Inception-v3, with transfer learning to train the model for accurate prediction of each on real-time input of new data. This trained model was then downloaded to the ARM processor based embedding system to enable the brain-controlled robot-arm prosthetic manufactured from our 3D printer. Testing of the functionality of the method, a robotic arm was produced using a 3D printer and off-the-shelf hardware to control it. SSH communication protocols are employed to execute python files hosted on an embedded Raspberry Pi with ARM processors to trigger movement on the robot arm of the predicted gesture.
翻訳日:2022-12-07 01:49:31 公開日:2020-05-04
# 未励電力グリッドにおけるトラクタブル学習

Tractable learning in under-excited power grids ( http://arxiv.org/abs/2005.01818v1 )

ライセンス: Link先を確認
Deepjyoti Deka, Harish Doddi, Sidhant Misra, Murti Salapaka(参考訳) 電力グリッドなどの物理フローネットワークの構造を推定することは、エネルギーの安全な供給に不可欠である。 本稿では,内部ノードのサブセットが外部注入を行わない"under-excited"方式における電力グリッドの統計的構造推定について述べる。 直流電位や電圧に基づく事前推定アルゴリズムは、未励状態では失敗する。 物理情報保存法則に基づく非励起一般(非放射性)ネットワーク学習のための新しいトポロジー学習アルゴリズムを提案する。 非隣接な内部ノードを持つグリッドに対するアルゴリズムの漸近的正当性を証明する。 さらに,このアルゴリズムの有効性を理論的に解析し,漸近的に正しい回復が保証された最大雑音の限界を決定する。 本手法は実噴射データを用いた試験格子上に発生する非線形電圧サンプルを用いたシミュレーションにより検証される。

Estimating the structure of physical flow networks such as power grids is critical to secure delivery of energy. This paper discusses statistical structure estimation in power grids in the "under-excited" regime, where a subset of internal nodes do not have external injection. Prior estimation algorithms based on nodal potentials or voltages fail in the under-excited regime. We propose a novel topology learning algorithm for learning underexcited general (non-radial) networks based on physics-informed conservation laws. We prove the asymptotic correctness of our algorithm for grids with non-adjacent under-excited internal nodes. More importantly, we theoretically analyze our algorithm's efficacy under noisy measurements, and determine bounds on maximum noise under which asymptotically correct recovery is guaranteed. Our approach is validated through simulations with non-linear voltage samples generated on test grids with real injection data
翻訳日:2022-12-07 01:48:55 公開日:2020-05-04
# 変分推論を用いた21cm信号からのパラメータ推定

Parameters Estimation from the 21 cm signal using Variational Inference ( http://arxiv.org/abs/2005.02299v1 )

ライセンス: Link先を確認
H\'ector J. Hort\'ua, Riccardo Volpi, Luigi Malag\`o(参考訳) 水素イオン化アレー(HERA)や正方形キロメートルアレー(SKA)のような今後の実験は、幅広い赤方偏移で21cmの信号を測定することを目的としており、宇宙イオン化の性質についての理解を深める素晴らしい機会である。 同時に、これらの実験は、大量のデータを生成するための新しい課題を提示し、物理的パラメータとその不確実性を正確に推定できる自動手法の開発を要求する。 本稿では,21cm観測におけるMCMCの代替として変分推論,特にベイズニューラルネットワークを用いて,宇宙物理パラメータと天体物理パラメータの信頼性推定を報告し,それらの相関性を評価する。

Upcoming experiments such as Hydrogen Epoch of Reionization Array (HERA) and Square Kilometre Array (SKA) are intended to measure the 21cm signal over a wide range of redshifts, representing an incredible opportunity in advancing our understanding about the nature of cosmic Reionization. At the same time these kind of experiments will present new challenges in processing the extensive amount of data generated, calling for the development of automated methods capable of precisely estimating physical parameters and their uncertainties. In this paper we employ Variational Inference, and in particular Bayesian Neural Networks, as an alternative to MCMC in 21 cm observations to report credible estimations for cosmological and astrophysical parameters and assess the correlations among them.
翻訳日:2022-12-07 01:48:20 公開日:2020-05-04
# Bitcoin時代のポンプとダンプ:暗号通貨市場操作のリアルタイム検出

Pump and Dumps in the Bitcoin Era: Real Time Detection of Cryptocurrency Market Manipulations ( http://arxiv.org/abs/2005.06610v1 )

ライセンス: Link先を確認
Massimo La Morgia, Alessandro Mei, Francesco Sassi, Julinda Stefa(参考訳) 過去数年間、暗号通貨はますます人気が高まっている。 専門家でない人々でさえ、これらの証券に投資し始め、今日では暗号通貨取引所は月に1000億ドル以上の取引を処理する。 しかし、多くの暗号通貨は流動性が低く、市場操作のスキームが非常に高い。 本稿では,インターネット上のコミュニティによって組織されたポンプ・ダンプ方式の詳細な分析を行う。 これらのコミュニティがどのように組織化され、どのように詐欺を行うかを観察します。 次に,ポンプ群とダンプ群に関する2つのケーススタディを報告する。 最後に,現在の技術に勝る詐欺行為をリアルタイムで検出する手法を導入することで,ポンプ・ダンプ・スキームが実行されている場合,投資家が市場を離れないように支援する。

In the last years, cryptocurrencies are increasingly popular. Even people who are not experts have started to invest in these securities and nowadays cryptocurrency exchanges process transactions for over 100 billion US dollars per month. However, many cryptocurrencies have low liquidity and therefore they are highly prone to market manipulation schemes. In this paper, we perform an in-depth analysis of pump and dump schemes organized by communities over the Internet. We observe how these communities are organized and how they carry out the fraud. Then, we report on two case studies related to pump and dump groups. Lastly, we introduce an approach to detect the fraud in real time that outperforms the current state of the art, so to help investors stay out of the market when a pump and dump scheme is in action.
翻訳日:2022-12-07 01:48:06 公開日:2020-05-04
# 神経サブディビジョン

Neural Subdivision ( http://arxiv.org/abs/2005.01819v1 )

ライセンス: Link先を確認
Hsueh-Ti Derek Liu, Vladimir G. Kim, Siddhartha Chaudhuri, Noam Aigerman, Alec Jacobson(参考訳) 本稿では,データ駆動型粗い形状モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。 提案手法は,入力として粗三角形メッシュを取り,ループ部分分割の固定トポロジカルな更新を適用して再帰的により細かい幾何に分割するが,パッチの局所幾何を条件としたニューラルネットワークを用いて頂点位置を予測できる。 このアプローチにより、古典的手法で用いられる単純な線形平均よりも、複雑な非線形部分分割スキームを学べる。 私たちの重要なコントリビューションのひとつは、ネットワーク重みを学習するための高解像度メッシュセットのみを必要とする、新たな自己教師型トレーニングセットアップです。 任意のトレーニング形態に対して、我々は、分割過程中に新しい頂点の正確な目標位置を規定する単射写像を維持しながら、粗い物体の様々な低分解能離散化を確率的に生成する。 これにより、条件付きメッシュ生成のための極めて効率的で正確な損失関数が得られ、離散化を一般化し、出力の多様体構造を保存する方法を訓練することができる。 トレーニング中、すべてのローカルメッシュパッチに対して同じネットワーク重みを最適化することで、特定の入力メッシュや固定種数、カテゴリに制限されないアーキテクチャを提供します。 本ネットワークは,局所フレームのパッチ形状を回転および変換不変に符号化する。 共同でこれらの設計選択により,提案手法の一般化が可能となり,単一の高分解能メッシュでトレーニングした場合でも,新しい形状に対する合理的な区分が生成されることを示した。

This paper introduces Neural Subdivision, a novel framework for data-driven coarse-to-fine geometry modeling. During inference, our method takes a coarse triangle mesh as input and recursively subdivides it to a finer geometry by applying the fixed topological updates of Loop Subdivision, but predicting vertex positions using a neural network conditioned on the local geometry of a patch. This approach enables us to learn complex non-linear subdivision schemes, beyond simple linear averaging used in classical techniques. One of our key contributions is a novel self-supervised training setup that only requires a set of high-resolution meshes for learning network weights. For any training shape, we stochastically generate diverse low-resolution discretizations of coarse counterparts, while maintaining a bijective mapping that prescribes the exact target position of every new vertex during the subdivision process. This leads to a very efficient and accurate loss function for conditional mesh generation, and enables us to train a method that generalizes across discretizations and favors preserving the manifold structure of the output. During training we optimize for the same set of network weights across all local mesh patches, thus providing an architecture that is not constrained to a specific input mesh, fixed genus, or category. Our network encodes patch geometry in a local frame in a rotation- and translation-invariant manner. Jointly, these design choices enable our method to generalize well, and we demonstrate that even when trained on a single high-resolution mesh our method generates reasonable subdivisions for novel shapes.
翻訳日:2022-12-07 01:42:38 公開日:2020-05-04
# 騒音2重量:ドローンのアコースティックエミッションからペイロード重量を検出する

Noise2Weight: On Detecting Payload Weight from Drones Acoustic Emissions ( http://arxiv.org/abs/2005.01347v1 )

ライセンス: Link先を確認
Omar Adel Ibrahim, Savio Sciancalepore, Roberto Di Pietro(参考訳) 無人機や遠隔操縦ドローンの普及は、商品の配達や監視など、いくつかのユースケースの道を開いた。 多くのシナリオでは、物理的アプローチが魅力的になる前に、ドローンが積んだペイロードの重さをゼロタッチで推定し、早期の改ざん検出を提供する。 本稿では,商用ドローンが搭載するペイロードの重量を音響指紋解析によりリモートで検出する可能性について検討する。 我々は、異なるペイロードを運ぶためにドローンが必要とする推力の違いを特徴付け、関連する音響指紋の大幅な変化をもたらす。 上記の知見を異なるユースケースに適用し,検出システムの計算能力の差異を特徴とした。 その結果,音声信号のMel-Frequency Cepstral Coefficients (MFCC) 成分と異なるサポートベクトルマシン (SVM) 分類器を用いて,ドローンが搭載する特定のペイロードクラスの検出において最小98%の分類精度を達成した。 分析に使用されるデータはすべてオープンソースとして公開され、コミュニティが私たちの発見を検証し、さらなる調査のために使用可能なベースとして使用できるようにしています。

The increasing popularity of autonomous and remotely-piloted drones have paved the way for several use-cases, e.g., merchandise delivery and surveillance. In many scenarios, estimating with zero-touch the weight of the payload carried by a drone before its physical approach could be attractive, e.g., to provide an early tampering detection. In this paper, we investigate the possibility to remotely detect the weight of the payload carried by a commercial drone by analyzing its acoustic fingerprint. We characterize the difference in the thrust needed by the drone to carry different payloads, resulting in significant variations of the related acoustic fingerprint. We applied the above findings to different use-cases, characterized by different computational capabilities of the detection system. Results are striking: using the Mel-Frequency Cepstral Coefficients (MFCC) components of the audio signal and different Support Vector Machine (SVM) classifiers, we achieved a minimum classification accuracy of 98% in the detection of the specific payload class carried by the drone, using an acquisition time of 0.25 s---performances improve when using longer time acquisitions. All the data used for our analysis have been released as open-source, to enable the community to validate our findings and use such data as a ready-to-use basis for further investigations.
翻訳日:2022-12-07 01:41:15 公開日:2020-05-04
# ニューロモルフィックaiによる新興ネットワークにおける障害の根本原因分析

Neuromorphic AI Empowered Root Cause Analysis of Faults in Emerging Networks ( http://arxiv.org/abs/2005.01472v1 )

ライセンス: Link先を確認
Shruti Bothe, Usama Masood, Hasan Farooq, Ali Imran(参考訳) モバイルセルラーネットワークオペレーターは、ネットワークのメンテナンスと管理に売上の約4分の1を費やしている。 その予算の大部分は、セルサービスを破壊したり分解したりするシステムで診断された障害の解決に費やされています。 歴史的に、問題を検出し、診断し、解決する操作は、人間の専門家によって行われた。 しかし、細胞の種類が多様化し、複雑さが増し、細胞密度が増加するにつれて、この手法は技術的にも経済的にも実現不可能になりつつある。 この問題を解決するため、近年では自己修復ソリューションの研究が大きな勢いで進んでいる。 自己修復パラダイムの最も望ましい特徴の1つは、自動障害診断である。 近年、いくつかの障害検出および診断機械学習モデルが提案されているが、これらの手法は、障害の診断と予測に人間の専門家による貢献に依存するという共通点がある。 本稿では,人手による入力を必要とせず,完全に自動化された自己修復システムに向けた重要なステップを提供するAIベースの障害診断ソリューションを提案する。 提案手法はランダムフォレスト分類器,畳み込みニューラルネットワーク,およびRSRPマップ画像を用いたニューロモルフィックに基づくディープラーニングモデルを利用する。 提案手法の性能を,7つの異なる故障タイプを考慮しつつ,主にナイーブベイズモデルを用いた文献における最先端ソリューションと比較した。 その結果,ニューロモルフィック計算モデルは,比較的少ないトレーニングデータでも,他のモデルと比較して高い分類精度を達成できることがわかった。

Mobile cellular network operators spend nearly a quarter of their revenue on network maintenance and management. A significant portion of that budget is spent on resolving faults diagnosed in the system that disrupt or degrade cellular services. Historically, the operations to detect, diagnose and resolve issues were carried out by human experts. However, with diversifying cell types, increased complexity and growing cell density, this methodology is becoming less viable, both technically and financially. To cope with this problem, in recent years, research on self-healing solutions has gained significant momentum. One of the most desirable features of the self-healing paradigm is automated fault diagnosis. While several fault detection and diagnosis machine learning models have been proposed recently, these schemes have one common tenancy of relying on human expert contribution for fault diagnosis and prediction in one way or another. In this paper, we propose an AI-based fault diagnosis solution that offers a key step towards a completely automated self-healing system without requiring human expert input. The proposed solution leverages Random Forests classifier, Convolutional Neural Network and neuromorphic based deep learning model which uses RSRP map images of faults generated. We compare the performance of the proposed solution against state-of-the-art solution in literature that mostly use Naive Bayes models, while considering seven different fault types. Results show that neuromorphic computing model achieves high classification accuracy as compared to the other models even with relatively small training data
翻訳日:2022-12-07 01:40:29 公開日:2020-05-04
# モデル駆動型深層ニューラルネットワークによる単一画像雨除去

A Model-driven Deep Neural Network for Single Image Rain Removal ( http://arxiv.org/abs/2005.01333v1 )

ライセンス: Link先を確認
Hong Wang, Qi Xie, Qian Zhao, Deyu Meng(参考訳) 深層学習 (DL) 法は, 単画像降雨除去作業において最先端の性能を達成した。 しかし、現在のDLアーキテクチャのほとんどは、十分な解釈性がなく、一般的な雨天内部の物理的構造と完全に統合されていない。 本稿では,完全解釈可能なネットワーク構造を有するモデル駆動型深層ニューラルネットワークを提案する。 具体的には,雨を表現するための畳み込み辞書学習機構に基づいて,新しい単一画像レーダモデルを提案し,近位勾配降下法を用いて,モデルを解くための単純な演算子のみを含む反復アルゴリズムを設計する。 このような単純な実装方式により、雨畳み込み辞書ネットワーク (RCDNet) と呼ばれる新しいディープネットワークアーキテクチャへと展開し、ほぼ全てのネットワークモジュールがアルゴリズムに関わる各操作に対応している。 提案したRCDNetをエンドツーエンドにトレーニングすることで、雨カーネルと近位演算子をすべて自動抽出し、雨層と清潔な背景層の特徴を忠実に特徴付けることができる。 包括的な実験は、ネットワークの優越性、特に、様々なテストシナリオに対する優れた一般性、およびすべてのモジュールに対する優れた解釈性を、視覚的および定量的に比較している。 ソースコードは \url{https://github.com/hongwang01/rcdnet} で入手できる。

Deep learning (DL) methods have achieved state-of-the-art performance in the task of single image rain removal. Most of current DL architectures, however, are still lack of sufficient interpretability and not fully integrated with physical structures inside general rain streaks. To this issue, in this paper, we propose a model-driven deep neural network for the task, with fully interpretable network structures. Specifically, based on the convolutional dictionary learning mechanism for representing rain, we propose a novel single image deraining model and utilize the proximal gradient descent technique to design an iterative algorithm only containing simple operators for solving the model. Such a simple implementation scheme facilitates us to unfold it into a new deep network architecture, called rain convolutional dictionary network (RCDNet), with almost every network module one-to-one corresponding to each operation involved in the algorithm. By end-to-end training the proposed RCDNet, all the rain kernels and proximal operators can be automatically extracted, faithfully characterizing the features of both rain and clean background layers, and thus naturally lead to its better deraining performance, especially in real scenarios. Comprehensive experiments substantiate the superiority of the proposed network, especially its well generality to diverse testing scenarios and good interpretability for all its modules, as compared with state-of-the-arts both visually and quantitatively. The source codes are available at \url{https://github.com/hongwang01/RCDNet}.
翻訳日:2022-12-07 01:33:44 公開日:2020-05-04
# 4チャンネル画像からの照明不変画像:近赤外データによる影除去効果

Illumination-Invariant Image from 4-Channel Images: The Effect of Near-Infrared Data in Shadow Removal ( http://arxiv.org/abs/2005.01878v1 )

ライセンス: Link先を確認
Sorour Mohajerani, Mark S. Drew, Parvaneh Saeedi(参考訳) 画像の照明変化の影響を取り除くことは、オブジェクト認識やセマンティクスセグメンテーションといった多くのコンピュータビジョンアプリケーションで有用であることが証明されている。 従来,照明不変画像の生成は文献で研究されてきたが,実際の4チャンネル(4D)データでは研究されていない。 本研究では,赤,緑,青,近赤外(rgbn)データから生成される照明不変画像の品質について検討する。 実験の結果,近赤外チャネルは照明の除去に不可欠であることが判明した。 その結果,RGBNデータから得られた照明不変画像は,RGB単独で得られた画像よりも優れていることがわかった。

Removing the effect of illumination variation in images has been proved to be beneficial in many computer vision applications such as object recognition and semantic segmentation. Although generating illumination-invariant images has been studied in the literature before, it has not been investigated on real 4-channel (4D) data. In this study, we examine the quality of illumination-invariant images generated from red, green, blue, and near-infrared (RGBN) data. Our experiments show that the near-infrared channel substantively contributes toward removing illumination. As shown in our numerical and visual results, the illumination-invariant image obtained by RGBN data is superior compared to that obtained by RGB alone.
翻訳日:2022-12-07 01:33:04 公開日:2020-05-04
# カーネルアプローチによる粗粒分子動力学力場のアンサンブル学習

Ensemble Learning of Coarse-Grained Molecular Dynamics Force Fields with a Kernel Approach ( http://arxiv.org/abs/2005.01851v1 )

ライセンス: Link先を確認
Jiang Wang, Stefan Chmiela, Klaus-Robert M\"uller, Frank No\`e, Cecilia Clementi(参考訳) 勾配領域機械学習(gdml)は、カーネルリッジ回帰アルゴリズムに基づく分子ポテンシャルと関連する力場を学ぶための正確かつ効率的なアプローチである。 そこで本研究では,全原子シミュレーションデータから有効粗粒度(CG)モデルを効率よく学習するための応用例を示す。 ここでは、予測された粗粒度力と粗粒度座標における全原子平均力との誤差を最小化することにより、熱力学的整合原理に従って粗粒度力場を学習する。 GDMLによるこの問題の解決は、粗粒化が多くのトレーニングデータポイントを平均化する必要があるため不可能であり、カーネル行列を格納するための非現実的なメモリ要求が生じる。 本稿では,データ効率とメモリ節約の代替案を提案する。 アンサンブル学習と階層化サンプリングを用いて,GDMLが効果的な粗粒度モデルの学習を可能にする2層学習手法を提案する。 本稿では,この分子の粗粒のフリーエネルギー景観を再構成し,単純な生体分子系であるアラニンジペプチドについて考察する。 我々の新しいGDMLトレーニングスキームは、トレーニングセットが小さい場合、ニューラルネットワークよりも少ない自由エネルギー誤差をもたらし、トレーニングセットが十分に大きい場合、比較可能なほど高い精度が得られる。

Gradient-domain machine learning (GDML) is an accurate and efficient approach to learn a molecular potential and associated force field based on the kernel ridge regression algorithm. Here, we demonstrate its application to learn an effective coarse-grained (CG) model from all-atom simulation data in a sample efficient manner. The coarse-grained force field is learned by following the thermodynamic consistency principle, here by minimizing the error between the predicted coarse-grained force and the all-atom mean force in the coarse-grained coordinates. Solving this problem by GDML directly is impossible because coarse-graining requires averaging over many training data points, resulting in impractical memory requirements for storing the kernel matrices. In this work, we propose a data-efficient and memory-saving alternative. Using ensemble learning and stratified sampling, we propose a 2-layer training scheme that enables GDML to learn an effective coarse-grained model. We illustrate our method on a simple biomolecular system, alanine dipeptide, by reconstructing the free energy landscape of a coarse-grained variant of this molecule. Our novel GDML training scheme yields a smaller free energy error than neural networks when the training set is small, and a comparably high accuracy when the training set is sufficiently large.
翻訳日:2022-12-07 01:32:09 公開日:2020-05-04
# モビリティパラメータを用いた新興ネットワークにおけるkpi最大化のための機械学習フレームワーク

A Machine Learning based Framework for KPI Maximization in Emerging Networks using Mobility Parameters ( http://arxiv.org/abs/2005.01474v1 )

ライセンス: Link先を確認
Joel Shodamola, Usama Masood, Marvin Manalastas, Ali Imran(参考訳) 現在のLTEネットワークには,ネットワーク管理のために手動で調整し,QoE(Quality of Experience)を改善するハードとソフトの2つの構成最適化パラメータ(COP)が多数含まれている。 5Gでは、これらのCOPの数はサイト当たり2000点に達することが期待されており、これらのパラメータの最適な組み合わせを見つけるための手動チューニングは不可能である。 これら数千のCOPに加えて、ネットワークの管理と最適化においてネットワークオペレーターの負担が増大する新興ネットワークのネットワーク密度化が期待されている。 そこで本研究では,移動に使用する2つの関連するCOP(Cell Individual Offset,CIO)とHandover Margin(Handover Margin,HOM)の最適な組み合わせを見つけるための,ヒューリスティックな手法と組み合わせた機械学習ベースのフレームワークを提案する。 フレームワークの最初の部分は、CIOとHOMのいくつかの異なる組み合わせによって、機械学習のパワーを活用して、関心のKPIを予測する。 得られた予測結果をGA(Genematic Algorithm)に入力し、すべてのユーザに対して最大SINRを出力する2つのパラメータの最適な組み合わせを探索する。 フレームワークのパフォーマンスも、いくつかの機械学習技術を用いて評価され、CatBoostアルゴリズムが最高の予測性能を得る。 一方、GAは最適パラメータ設定の組み合わせをより効率的に、ブルート力アプローチと比較して3桁の収束時間で明らかにすることができる。

Current LTE network is faced with a plethora of Configuration and Optimization Parameters (COPs), both hard and soft, that are adjusted manually to manage the network and provide better Quality of Experience (QoE). With 5G in view, the number of these COPs are expected to reach 2000 per site, making their manual tuning for finding the optimal combination of these parameters, an impossible fleet. Alongside these thousands of COPs is the anticipated network densification in emerging networks which exacerbates the burden of the network operators in managing and optimizing the network. Hence, we propose a machine learning-based framework combined with a heuristic technique to discover the optimal combination of two pertinent COPs used in mobility, Cell Individual Offset (CIO) and Handover Margin (HOM), that maximizes a specific Key Performance Indicator (KPI) such as mean Signal to Interference and Noise Ratio (SINR) of all the connected users. The first part of the framework leverages the power of machine learning to predict the KPI of interest given several different combinations of CIO and HOM. The resulting predictions are then fed into Genetic Algorithm (GA) which searches for the best combination of the two mentioned parameters that yield the maximum mean SINR for all users. Performance of the framework is also evaluated using several machine learning techniques, with CatBoost algorithm yielding the best prediction performance. Meanwhile, GA is able to reveal the optimal parameter setting combination more efficiently and with three orders of magnitude faster convergence time in comparison to brute force approach.
翻訳日:2022-12-07 01:31:48 公開日:2020-05-04
# demystifying a dark art: 現実世界の機械学習モデル開発を理解する

Demystifying a Dark Art: Understanding Real-World Machine Learning Model Development ( http://arxiv.org/abs/2005.01520v1 )

ライセンス: Link先を確認
Angela Lee, Doris Xin, Doris Lee, Aditya Parameswaran(参考訳) 機械学習(ML)ワークフローを開発するプロセスがダークアートであることはよく知られている。 現在、ユーザーは経験的な試行錯誤を頼りに、自身のモデリング決定を知らせるために、独自の戦闘テストガイドラインを入手している。 本研究では,機械学習のワークフローを実際にどのように繰り返していくかを理解することによって,このダークアートのデミスティフィケーションを目指す。 OpenMLは、MLワークフローを追跡し、共有するためのオープンソースのプラットフォームです。 ユーザはワークフローを繰り返すときに、手動、自動化、あるいは混合のアプローチを採用することが多いのです。 手動のアプローチが自動化アプローチに比べて無駄なイテレーションを少なくするのを観察する。 しかし、自動化されたアプローチには、より事前処理とハイパーパラメータの選択肢がしばしば必要であり、結果として、この2つの戦略の巧妙な組み合わせを適切に推奨する、ヒューマン・イン・ザ・ループmlシステム全体のパフォーマンスが向上する可能性がある。

It is well-known that the process of developing machine learning (ML) workflows is a dark-art; even experts struggle to find an optimal workflow leading to a high accuracy model. Users currently rely on empirical trial-and-error to obtain their own set of battle-tested guidelines to inform their modeling decisions. In this study, we aim to demystify this dark art by understanding how people iterate on ML workflows in practice. We analyze over 475k user-generated workflows on OpenML, an open-source platform for tracking and sharing ML workflows. We find that users often adopt a manual, automated, or mixed approach when iterating on their workflows. We observe that manual approaches result in fewer wasted iterations compared to automated approaches. Yet, automated approaches often involve more preprocessing and hyperparameter options explored, resulting in higher performance overall--suggesting potential benefits for a human-in-the-loop ML system that appropriately recommends a clever combination of the two strategies.
翻訳日:2022-12-07 01:31:21 公開日:2020-05-04
# 強化学習による実験ベルテストの設定

Setting up experimental Bell test with reinforcement learning ( http://arxiv.org/abs/2005.01697v1 )

ライセンス: Link先を確認
Alexey A. Melnikov, Pavel Sekatski, Nicolas Sangouard(参考訳) 対象とする確率分布で測定結果を生成する光学装置の発見は、実験実施可能な実装の回数が、モード数やデバイス数とともに指数関数的に増加することを前提として難しい。 そこで本研究では,強化学習とシミュレートアニーリングを組み合わせることで,所望の確率分布で結果を生成する光学実験を自動的に設計する手法を提案する。 本稿では,ベル-CHSHの不等式に高い違反を許容する確率分布に適用することにより,本手法の妥当性について述べる。 そこで本研究では,現在知られているものよりもベル・チェシュの不等式違反を生じさせる新たな非直感的な実験を提案する。 本手法は,デバイスに依存しない量子情報処理におけるフォトニック実験の有用性に正の影響を与えうる。

Finding optical setups producing measurement results with a targeted probability distribution is hard as a priori the number of possible experimental implementations grows exponentially with the number of modes and the number of devices. To tackle this complexity, we introduce a method combining reinforcement learning and simulated annealing enabling the automated design of optical experiments producing results with the desired probability distributions. We illustrate the relevance of our method by applying it to a probability distribution favouring high violations of the Bell-CHSH inequality. As a result, we propose new unintuitive experiments leading to higher Bell-CHSH inequality violations than the best currently known setups. Our method might positively impact the usefulness of photonic experiments for device-independent quantum information processing.
翻訳日:2022-12-07 01:30:42 公開日:2020-05-04
# 教師なしアライメントに基づくマルチホップ質問応答のための反復的証拠検索

Unsupervised Alignment-based Iterative Evidence Retrieval for Multi-hop Question Answering ( http://arxiv.org/abs/2005.01218v1 )

ライセンス: Link先を確認
Vikas Yadav, Steven Bethard and Mihai Surdeanu(参考訳) 証拠検索は質問応答(QA)の重要な段階であり、性能の向上だけでなく、対応するQA法の決定についても説明する必要がある。 3つのアイデアに依拠する,単純で高速かつ教師なしの反復的証拠検索手法を提案する。 (a)GloVe埋め込みのみを用いた正当性のある質問や回答に対する教師なしアライメントアプローチ (b)既存の正当性に満たない用語に焦点をあてた問合せを再構成する反復的プロセス c) 与えられた質問及び候補回答の項が検索された正当性によってカバーされた場合に検索を終了させる停止基準 その単純さにもかかわらず、我々のアプローチは2つのデータセット(multircとqasc)のエビデンス選択タスクにおいて、以前のすべてのメソッド(教師付きメソッドを含む)を上回る。 これらのエビデンス文をRoBERTa回答分類コンポーネントに入力すると、これらの2つのデータセット上で最先端のQA性能が得られる。

Evidence retrieval is a critical stage of question answering (QA), necessary not only to improve performance, but also to explain the decisions of the corresponding QA method. We introduce a simple, fast, and unsupervised iterative evidence retrieval method, which relies on three ideas: (a) an unsupervised alignment approach to soft-align questions and answers with justification sentences using only GloVe embeddings, (b) an iterative process that reformulates queries focusing on terms that are not covered by existing justifications, which (c) a stopping criterion that terminates retrieval when the terms in the given question and candidate answers are covered by the retrieved justifications. Despite its simplicity, our approach outperforms all the previous methods (including supervised methods) on the evidence selection task on two datasets: MultiRC and QASC. When these evidence sentences are fed into a RoBERTa answer classification component, we achieve state-of-the-art QA performance on these two datasets.
翻訳日:2022-12-07 01:25:01 公開日:2020-05-04
# 機能要件のための制御自然言語の構築に関する研究

On Systematically Building a Controlled Natural Language for Functional Requirements ( http://arxiv.org/abs/2005.01355v1 )

ライセンス: Link先を確認
Alvaro Veizaga, Mauricio Alferez, Damiano Torre, Mehrdad Sabetzadeh, Lionel Briand(参考訳) [コンテキスト]自然言語(NL)は、ソフトウェア要件仕様(SRS)において広く普及しています。 しかし、その人気と広く使われているにもかかわらず、NLはあいまいさ、曖昧さ、不完全さといった品質の問題に高い傾向にある。 制御自然言語(cnls)は、直感的かつ普遍的に理解された方法で要求を書き、伝達する柔軟性を維持しながら、要求文書の品質問題を防止する方法として提案されている。 [目的]金融分野の産業パートナーと共同で、アナリストが機能要件を書くのを支援することを目的としたCNLを体系的に開発・評価します。 【方法】利米建築の根拠理論に依拠し、工業事例研究の実施・報告の指針を定めている。 [Results] Our main contributions are: (1) a qualitative methodology to systematically define a CNL for functional requirements; this methodology is general and applicable to information systems beyond the financial domain, (2) a CNL grammar to represent functional requirements; this grammar is derived from our experience in the financial domain, but should be applicable, possibly with adaptations, to other information-system domains, and (3) an empirical evaluation of our CNL (Rimay) through an industrial case study. 当社のコントリビューションは、金融ドメインから3215NLの要求文をまとめて含む15の代表的SRSを参考にしています。 [結論]我々の評価は、金融分野の4つの未確認SRSにおいて、NL要求文の88%(460件中405件)を、平均的に把握できるほど表現力があることを示している。

[Context] Natural language (NL) is pervasive in software requirements specifications (SRSs). However, despite its popularity and widespread use, NL is highly prone to quality issues such as vagueness, ambiguity, and incompleteness. Controlled natural languages (CNLs) have been proposed as a way to prevent quality problems in requirements documents, while maintaining the flexibility to write and communicate requirements in an intuitive and universally understood manner. [Objective] In collaboration with an industrial partner from the financial domain, we systematically develop and evaluate a CNL, named Rimay, intended at helping analysts write functional requirements. [Method] We rely on Grounded Theory for building Rimay and follow well-known guidelines for conducting and reporting industrial case study research. [Results] Our main contributions are: (1) a qualitative methodology to systematically define a CNL for functional requirements; this methodology is general and applicable to information systems beyond the financial domain, (2) a CNL grammar to represent functional requirements; this grammar is derived from our experience in the financial domain, but should be applicable, possibly with adaptations, to other information-system domains, and (3) an empirical evaluation of our CNL (Rimay) through an industrial case study. Our contributions draw on 15 representative SRSs, collectively containing 3215 NL requirements statements from the financial domain. [Conclusion] Our evaluation shows that Rimay is expressive enough to capture, on average, 88% (405 out of 460) of the NL requirements statements in four previously unseen SRSs from the financial domain.
翻訳日:2022-12-07 01:24:32 公開日:2020-05-04
# 2000年から2017年におけるニューヨーク・タイムズの150万記事の体系的メディアフレーム分析

A Systematic Media Frame Analysis of 1.5 Million New York Times Articles from 2000 to 2017 ( http://arxiv.org/abs/2005.01803v1 )

ライセンス: Link先を確認
Haewoon Kwak and Jisun An and Yong-Yeol Ahn(参考訳) フラーミングはニュースメディアにとって必須の物語装置であり、同じ事実であっても故意のフレーミングが採用された場合、矛盾する理解につながる可能性がある。 したがって、メディアフレーミングの特定は、メディアが大衆に与える影響を理解するための重要なステップである。 しかし、フレーミングは操作と検出が難しいため、従来のメディアフレーミングの研究は手動のアノテーションに頼る必要があり、大規模なニュースデータセットへのスケールアップは困難である。 ここでは,2000年から2017年にかけて発行されたNew York Timesの150万記事のメディアフレームを体系的に解析する,最先端のパフォーマンスを実現するメディアフレーム分類器を開発する。 約20年間のメディアフレームのエブとフローを調べることで,短期フレームの変動は主要な事象と密接に一致し,また,「文化アイデンティティ」フレームの頻度が徐々に上昇するなど,長期的傾向もいくつか見られる。 特定のトピックや感情を調べることで、各フレームの特徴やダイナミクスを識別する。 最後に、ケーススタディとして、マスシューティングのフレーミングを調べ、3つの主要なフレーミングパターンを明らかにする。 大規模ニュースデータセットへのスケーラブルで計算可能なアプローチは、体系的なメディアフレーミング研究のための新しい経路を開く。

Framing is an indispensable narrative device for news media because even the same facts may lead to conflicting understandings if deliberate framing is employed. Therefore, identifying media framing is a crucial step to understanding how news media influence the public. Framing is, however, difficult to operationalize and detect, and thus traditional media framing studies had to rely on manual annotation, which is challenging to scale up to massive news datasets. Here, by developing a media frame classifier that achieves state-of-the-art performance, we systematically analyze the media frames of 1.5 million New York Times articles published from 2000 to 2017. By examining the ebb and flow of media frames over almost two decades, we show that short-term frame abundance fluctuation closely corresponds to major events, while there also exist several long-term trends, such as the gradually increasing prevalence of the ``Cultural identity'' frame. By examining specific topics and sentiments, we identify characteristics and dynamics of each frame. Finally, as a case study, we delve into the framing of mass shootings, revealing three major framing patterns. Our scalable, computational approach to massive news datasets opens up new pathways for systematic media framing studies.
翻訳日:2022-12-07 01:24:06 公開日:2020-05-04
# DETECT:時間教育データにおける行動トレンドの階層的クラスタリングアルゴリズム

DETECT: A Hierarchical Clustering Algorithm for Behavioural Trends in Temporal Educational Data ( http://arxiv.org/abs/2005.10640v1 )

ライセンス: Link先を確認
Jessica McBroom, Kalina Yacef and Irena Koprinska(参考訳) 生徒行動のクラスタリング技術は、生徒の学習に対する洞察を提供することで、教育成果を改善する多くの機会を提供する。 しかし、学生の行動、すなわち時間とともに進化する一つの重要な側面は、しばしば既存の方法を使って識別することが難しい。 これは、これらの手法が用いた目的関数が時間内にクラスタトレンドを明示的に見つけることを意図していないためであり、その結果にこれらの傾向が明確に表現されない可能性があるためである。 本稿では,時間情報を目的関数に組み込んで行動的傾向の検出を優先する,新たな分割型階層クラスタリングアルゴリズムである「検出」(時系列データクラスタリングによる教育的傾向の検出)を提案する。 結果として生成されたクラスタは、決定ツリーと構造が似ており、機能に関する決定ルールによって定義されるクラスタの階層構造がある。 DETECTは簡単に適用でき、非常にカスタマイズ可能で、幅広い教育データセットに適用でき、容易に解釈可能な結果が得られる。 2つのオンラインプログラミングコース(N>600)のケーススタディを通じて、DETECTの2つの応用例を示す。 1)コホート行動が時間とともにどのように発達するかを特定すること 2)多くの学生が諦める演習を特徴付ける学生行動を特定する。

Techniques for clustering student behaviour offer many opportunities to improve educational outcomes by providing insight into student learning. However, one important aspect of student behaviour, namely its evolution over time, can often be challenging to identify using existing methods. This is because the objective functions used by these methods do not explicitly aim to find cluster trends in time, so these trends may not be clearly represented in the results. This paper presents `DETECT' (Detection of Educational Trends Elicited by Clustering Time-series data), a novel divisive hierarchical clustering algorithm that incorporates temporal information into its objective function to prioritise the detection of behavioural trends. The resulting clusters are similar in structure to a decision tree, with a hierarchy of clusters defined by decision rules on features. DETECT is easy to apply, highly customisable, applicable to a wide range of educational datasets and yields easily interpretable results. Through a case study of two online programming courses (N>600), this paper demonstrates two example applications of DETECT: 1) to identify how cohort behaviour develops over time and 2) to identify student behaviours that characterise exercises where many students give up.
翻訳日:2022-12-07 01:23:15 公開日:2020-05-04
# 意識の非平衡熱力学フレームワーク

A Non-equilibrium Thermodynamic Framework of Consciousness ( http://arxiv.org/abs/2005.02801v1 )

ライセンス: Link先を確認
Natesh Ganesh(参考訳) 本稿では,意識研究における支配的枠組みの長所と短所について,機能論と因果構造理論を用いて,新たな非平衡熱力学的枠組みの動機付けを行う。 本論文の主な仮説は,非平衡ゆらぎ定理(tcc 1 と 2)から得られた2つの熱力学的条件である。 これらの記述は、意識的なシステムによって達成される機能を特定し、2つのいずれかを前提にせずにそれらを達成する物理的な構造を制限することを目的としている。 これらは、確立された物理法則に意識を統合する試みである(量子力学や一般相対性理論におけるテストされていない新しい枠組みを呼び出すことなく)。 我々はまた、ハード問題に対するスタンスを含む、さまざまな既存の質問に対する影響についても議論する。 論文はまた、このフレームワークが、意識を理解する(そしておそらく人工システムでそれを実現する)ための真剣な道を提供するかもしれない理由と、それに続くいくつかの問題と課題について説明する。

In this paper, we take a brief look at the advantages and disadvantages of dominant frameworks in consciousness studies -- functionalist and causal structure theories, and use it to motivate a new non-equilibrium thermodynamic framework of consciousness. The main hypothesis in this paper will be two thermodynamic conditions obtained from the non-equilibrium fluctuation theorems -- TCC 1 and 2, that the author proposes as necessary conditions that a system will have to satisfy in order to be 'conscious'. These descriptions will look to specify the functions achieved by a conscious system and restrict the physical structures that achieve them without presupposing either of the two. These represent an attempt to integrate consciousness into established physical law (without invoking untested novel frameworks in quantum mechanics and/or general relativity). We will also discuss it's implications on a wide range of existing questions, including a stance on the hard problem. The paper will also explore why this framework might offer a serious path forward to understanding consciousness (and perhaps even realizing it in artificial systems) as well as laying out some problems and challenges that lie ahead.
翻訳日:2022-12-07 01:22:27 公開日:2020-05-04
# MorphoCluster: クラスタリングによるプランクトン画像の効率的なアノテーション

MorphoCluster: Efficient Annotation of Plankton images by Clustering ( http://arxiv.org/abs/2005.01595v1 )

ライセンス: Link先を確認
Simon-Martin Schr\"oder, Rainer Kiko and Reinhard Koch(参考訳) 本稿では,大規模画像データセットに対するデータ駆動,高速,正確なアノテーションのためのソフトウェアツールであるmorphoclusterを提案する。 人類の専門家の注釈率をすでに上回っているが、海洋データの量と複雑さは今後数年で増加し続けるだろう。 しかし、このデータは解釈を必要とする。 MorphoClusterは、対話的なプロセスに教師なしクラスタリングを埋め込むことで、パターンを発見し、大量のデータでオブジェクト分類を実行する能力を高める。 類似した画像をクラスタに集約することで、画像アノテーションに対する我々の新しいアプローチは一貫性を高め、アノテータのスループットを乗じ、専門家がそのソート方式の粒度をデータの構造に適応させることができる。 1.2Mオブジェクトのセットを71時間(16kオブジェクト毎時)で280のデータ駆動クラスに分類することで、その90%が0.889以上の精度を持つ。 これは、MorphoClusterが高速で正確で一貫性があり、きめ細かいデータ駆動型分類を提供し、新規性検出を可能にすることを示している。 morphoclusterはオープンソースソフトウェアとしてhttps://github.com/morphoclusterで利用可能である。

In this work, we present MorphoCluster, a software tool for data-driven, fast and accurate annotation of large image data sets. While already having surpassed the annotation rate of human experts, volume and complexity of marine data will continue to increase in the coming years. Still, this data requires interpretation. MorphoCluster augments the human ability to discover patterns and perform object classification in large amounts of data by embedding unsupervised clustering in an interactive process. By aggregating similar images into clusters, our novel approach to image annotation increases consistency, multiplies the throughput of an annotator and allows experts to adapt the granularity of their sorting scheme to the structure in the data. By sorting a set of 1.2M objects into 280 data-driven classes in 71 hours (16k objects per hour), with 90% of these classes having a precision of 0.889 or higher. This shows that MorphoCluster is at the same time fast, accurate and consistent, provides a fine-grained and data-driven classification and enables novelty detection. MorphoCluster is available as open-source software at https://github.com/morphocluster.
翻訳日:2022-12-07 01:15:17 公開日:2020-05-04
# HOG, LBP, SVMを用いた交差点交通密度推定

HOG, LBP and SVM based Traffic Density Estimation at Intersection ( http://arxiv.org/abs/2005.01770v1 )

ライセンス: Link先を確認
Devashish Prasad, Kshitij Kapadni, Ayan Gadpal, Manish Visave, Kavita Sultanpure(参考訳) 道路交通量の増加は重要な問題である。 自動車の交通量が多いと、交通渋滞、不必要な遅延、公害、資金損失、健康問題、事故、緊急車両の通過、交通違反が発生し、生産性が低下する。 ピーク時には、問題はさらに悪化する。 従来の交通管理と制御システムはこの問題に対処できない。 現在、交差点の信号機は適応性がなく、時間的遅れがある。 交通流の効率を高めるために最適化された、賢明な制御システムが必要である。 スマート交通システムは,交通密度の推定を行い,交通量に応じて信号機を改造する。 我々は,画像処理と機械学習技術を用いて交差点の交通密度をリアルタイムで推定する効率的な手法を提案する傾向がある。 提案手法は交通密度を推定するためにジャンクションにおける交通の写真を撮影する。 トラフィック密度推定には,Histogram of Oriented Gradients (HOG), Local Binary Patterns (LBP), Support Vector Machine (SVM) を用いる。 この戦略は計算コストが安く、raspberry piボード上で効率的に実行できる。 コードはhttps://github.com/DevashishPrasad/Smart-Traffic-Junctionで公開されている。

Increased amount of vehicular traffic on roads is a significant issue. High amount of vehicular traffic creates traffic congestion, unwanted delays, pollution, money loss, health issues, accidents, emergency vehicle passage and traffic violations that ends up in the decline in productivity. In peak hours, the issues become even worse. Traditional traffic management and control systems fail to tackle this problem. Currently, the traffic lights at intersections aren't adaptive and have fixed time delays. There's a necessity of an optimized and sensible control system which would enhance the efficiency of traffic flow. Smart traffic systems perform estimation of traffic density and create the traffic lights modification consistent with the quantity of traffic. We tend to propose an efficient way to estimate the traffic density on intersection using image processing and machine learning techniques in real time. The proposed methodology takes pictures of traffic at junction to estimate the traffic density. We use Histogram of Oriented Gradients (HOG), Local Binary Patterns (LBP) and Support Vector Machine (SVM) based approach for traffic density estimation. The strategy is computationally inexpensive and can run efficiently on raspberry pi board. Code is released at https://github.com/DevashishPrasad/Smart-Traffic-Junction.
翻訳日:2022-12-07 01:14:25 公開日:2020-05-04
# 高速移動物体の学習に基づく追跡

Learning-based Tracking of Fast Moving Objects ( http://arxiv.org/abs/2005.01802v1 )

ライセンス: Link先を確認
Ales Zita, Filip Sroubek(参考訳) 連続するビデオフレームに物体の位置が重複せず、オブジェクトのテクスチャ情報がぼやけているため、ビデオシーケンスのぼやけたストリークとして現れる高速移動物体の追跡は、標準トラッカーにとって難しい作業である。 このタスク用に調整された最新のアプローチは、静的な背景を持つバックグラウンド減算と遅いデブラリングアルゴリズムに基づいている。 本稿では,実世界の映像系列をほぼリアルタイムで追跡する最先端のディープラーニング手法を用いて,トラッキング・バイ・セグメンテーション手法を提案する。 我々は,トレーニングパイプラインのロバストな基盤として,物理的に妥当なfmoシーケンス生成器を実装し,前景変動の観点から異なるfmoシナリオに対する高速生成とネットワーク適応の容易さを実証した。

Tracking fast moving objects, which appear as blurred streaks in video sequences, is a difficult task for standard trackers as the object position does not overlap in consecutive video frames and texture information of the objects is blurred. Up-to-date approaches tuned for this task are based on background subtraction with static background and slow deblurring algorithms. In this paper, we present a tracking-by-segmentation approach implemented using state-of-the-art deep learning methods that performs near-realtime tracking on real-world video sequences. We implemented a physically plausible FMO sequence generator to be a robust foundation for our training pipeline and demonstrate the ease of fast generator and network adaptation for different FMO scenarios in terms of foreground variations.
翻訳日:2022-12-07 01:14:08 公開日:2020-05-04
# 3次元点雲のストリーミング物体検出

Streaming Object Detection for 3-D Point Clouds ( http://arxiv.org/abs/2005.01864v1 )

ライセンス: Link先を確認
Wei Han, Zhengdong Zhang, Benjamin Caine, Brandon Yang, Christoph Sprunk, Ouais Alsharif, Jiquan Ngiam, Vijay Vasudevan, Jonathon Shlens, Zhifeng Chen(参考訳) 自動運転車はダイナミックな環境で動作し、車両が知覚し反応する速度がシステムの安全性と有効性に影響を与える。 LiDARは、オブジェクト検出、セグメンテーション、動作推定、行動認識など、既存の知覚システムの多くに通知する顕著な感覚モダリティを提供する。 ポイントクラウドデータに基づく知覚システムのレイテンシは、完全なローテーションスキャンの時間(例えば100ms)によって支配される。 この組み込みデータキャプチャレイテンシは人工的であり、カメラにインスパイアされたアーキテクチャを活用するために、ポイントクラウドをカメライメージとして扱う。 しかし、カメラセンサと異なり、ほとんどのLiDARポイントクラウドデータは本質的には、レーザー光の偏差に基づいてレーザー反射が順次記録されるストリーミングデータソースである。 本研究では,この人工的レイテンシ制約を解消し,その代わりにネイティブなストリーミングデータを操作するオブジェクト検出器の構築方法について検討する。 このアプローチは、スキャンの取得時間に計算を分散させることにより、推論ハードウェアのピーク計算負担を削減するという利点がある。 本稿では,従来の検出メタアーキテクチャに一連の変更を加え,逐次モデリングに基づくストリーミング検出システム群を実証する。 このモデルは、最先端の従来の非ストリーミング検出システムで優れた予測性能が得られなかったとしても、どのように競争力を発揮するかを強調します。 我々の結果は、LiDARデータをネイティブストリーミングフォーミュレーションで運用することは、自動運転オブジェクト検出にいくつかの利点をもたらすことを示しています -- 安全かつ効率的な操作にレイテンシを最小化するLiDAR認識システムにおいて、私たちが期待している利点は、あらゆるLiDAR認識システムに有効です。

Autonomous vehicles operate in a dynamic environment, where the speed with which a vehicle can perceive and react impacts the safety and efficacy of the system. LiDAR provides a prominent sensory modality that informs many existing perceptual systems including object detection, segmentation, motion estimation, and action recognition. The latency for perceptual systems based on point cloud data can be dominated by the amount of time for a complete rotational scan (e.g. 100 ms). This built-in data capture latency is artificial, and based on treating the point cloud as a camera image in order to leverage camera-inspired architectures. However, unlike camera sensors, most LiDAR point cloud data is natively a streaming data source in which laser reflections are sequentially recorded based on the precession of the laser beam. In this work, we explore how to build an object detector that removes this artificial latency constraint, and instead operates on native streaming data in order to significantly reduce latency. This approach has the added benefit of reducing the peak computational burden on inference hardware by spreading the computation over the acquisition time for a scan. We demonstrate a family of streaming detection systems based on sequential modeling through a series of modifications to the traditional detection meta-architecture. We highlight how this model may achieve competitive if not superior predictive performance with state-of-the-art, traditional non-streaming detection systems while achieving significant latency gains (e.g. 1/15'th - 1/3'rd of peak latency). Our results show that operating on LiDAR data in its native streaming formulation offers several advantages for self driving object detection -- advantages that we hope will be useful for any LiDAR perception system where minimizing latency is critical for safe and efficient operation.
翻訳日:2022-12-07 01:13:53 公開日:2020-05-04
# AIを用いたアートスタイルの学習とその心理実験による評価

Learning of Art Style Using AI and Its Evaluation Based on Psychological Experiments ( http://arxiv.org/abs/2005.02220v1 )

ライセンス: Link先を確認
Mai Cong Hung, Ryohei Nakatsu, Naoko Tosa, Takashi Kusumi, Koji Koyamada(参考訳) GAN(Generative Adversarial Network)は、より少ないトレーニングデータでディープラーニングを実行し、2つのイメージセット間の変換を実現する、新たなAI技術である。 ganを用いて、異なるアートスタイルを持つ複数のアートセットの比較を行いました。 筆者の1人である土佐直子によって作成された、花写真(A)、印象派画の画像(B1)、抽象画の画像(B2)、中国図画の画像(B3)、抽象画の画像(B4)など、いくつかの画像セットを用意した。 GANを用いて集合Aから各Bへの変換を行い、4つの画像集合(B1,B2,B3,B4)を得た。 これら4つの画像を用いて,23名からなる被験者にアンケートの記入を依頼し,心理実験を行った。 得られたアンケートを分析した結果,以下の結果が得られた。 抽象図面と図形図面は明らかに異なると判断される。 西と東の比定図は似ていると判断された。 土佐直子による抽象画像は西洋の抽象画像と類似していると判断された。 これらの結果は、アートジャンルの違いを明らかにする分析ツールとしてAIが使用できることを示している。

GANs (Generative adversarial networks) is a new AI technology that can perform deep learning with less training data and has the capability of achieving transformation between two image sets. Using GAN we have carried out a comparison between several art sets with different art style. We have prepared several image sets; a flower photo set (A), an art image set (B1) of Impressionism drawings, an art image set of abstract paintings (B2), an art image set of Chinese figurative paintings, (B3), and an art image set of abstract images (B4) created by Naoko Tosa, one of the authors. Transformation between set A to each of B was carried out using GAN and four image sets (B1, B2, B3, B4) was obtained. Using these four image sets we have carried out psychological experiment by asking subjects consisting of 23 students to fill in questionnaires. By analyzing the obtained questionnaires, we have found the followings. Abstract drawings and figurative drawings are clearly judged to be different. Figurative drawings in West and East were judged to be similar. Abstract images by Naoko Tosa were judged as similar to Western abstract images. These results show that AI could be used as an analysis tool to reveal differences between art genres.
翻訳日:2022-12-07 01:13:02 公開日:2020-05-04
# 低リソースエンティティ認識のためのソフトガゼッタ

Soft Gazetteers for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2005.01866v1 )

ライセンス: Link先を確認
Shruti Rijhwani, Shuyan Zhou, Graham Neubig, Jaime Carbonell(参考訳) 従来の名前付きエンティティ認識モデルは、パフォーマンスを改善する機能としてガゼッタ(エンティティのリスト)を使用する。 現代のニューラルネットワークモデルは、強いパフォーマンスのためにこのような手作りの特徴を必要としないが、最近の研究は、英語データ上で名前付きエンティティ認識の実用性を実証している。 しかし,これらの言語には包括的エンティティガゼッタが存在しないため,そのような機能を低リソース言語向けに設計することは困難である。 この問題に対処するために,ウィキペディアなどの英語知識ベースからユビキタスに利用可能な情報を,言語間エンティティリンクを通じてニューラルな名前付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。 4つの低リソース言語に対する実験により,F1スコアの平均4点改善が得られた。 コードとデータはhttps://github.com/neulab/soft-gazetteersで入手できる。

Traditional named entity recognition models use gazetteers (lists of entities) as features to improve performance. Although modern neural network models do not require such hand-crafted features for strong performance, recent work has demonstrated their utility for named entity recognition on English data. However, designing such features for low-resource languages is challenging, because exhaustive entity gazetteers do not exist in these languages. To address this problem, we propose a method of "soft gazetteers" that incorporates ubiquitously available information from English knowledge bases, such as Wikipedia, into neural named entity recognition models through cross-lingual entity linking. Our experiments on four low-resource languages show an average improvement of 4 points in F1 score. Code and data are available at https://github.com/neulab/soft-gazetteers.
翻訳日:2022-12-07 01:05:53 公開日:2020-05-04
# FarsBase-KBP:ペルシャ知識グラフのための知識ベース人口システム

FarsBase-KBP: A Knowledge Base Population System for the Persian Knowledge Graph ( http://arxiv.org/abs/2005.01879v1 )

ライセンス: Link先を確認
Majid Asgari-Bidhendi, Behrooz Janfada, Behrouz Minaei-Bidgoli(参考訳) ほとんどの知識ベースはすでに英語をサポートしているが、ペルシア語の知識ベースはfarsbaseと呼ばれるもので、半構造化されたweb情報によって自動的に生成される。 Wikidataのような英国の知識ベースと異なり、FarsBaseのような知識ベースの人口は自動的に抽出された知識に頼らなければならない。 知識ベース人口は、システムが機能し続けるにつれて、farsbaseを成長させ続けることができる。 本稿では,web からクロールされたラベルのない原文から知識を抽出する,ペルシャ語の知識ベース人口システムを提案する。 提案するシステムは,エンティティリンクモジュールなどの最先端モジュールと,farsbase用に設計された情報および関係抽出モジュールで構成される。 さらに、抽出された関係をFarsBaseプロパティにリンクする正準化システムを導入する。 そして,人間の介入を最小限に抑えた知識融合技術を用いて,各モジュールから抽出した適切な知識インスタンスの統合とフィルタリングを行う。 提案した知識ベース人口システムの性能を評価するため,22015 FarsBaseの3倍の知識ベース人口のベンチマークを行い,人間の専門家による検証を行った。 評価結果は,提案システムの有効性を示す。

While most of the knowledge bases already support the English language, there is only one knowledge base for the Persian language, known as FarsBase, which is automatically created via semi-structured web information. Unlike English knowledge bases such as Wikidata, which have tremendous community support, the population of a knowledge base like FarsBase must rely on automatically extracted knowledge. Knowledge base population can let FarsBase keep growing in size, as the system continues working. In this paper, we present a knowledge base population system for the Persian language, which extracts knowledge from unlabeled raw text, crawled from the Web. The proposed system consists of a set of state-of-the-art modules such as an entity linking module as well as information and relation extraction modules designed for FarsBase. Moreover, a canonicalization system is introduced to link extracted relations to FarsBase properties. Then, the system uses knowledge fusion techniques with minimal intervention of human experts to integrate and filter the proper knowledge instances, extracted by each module. To evaluate the performance of the presented knowledge base population system, we present the first gold dataset for benchmarking knowledge base population in the Persian language, which consisting of 22015 FarsBase triples and verified by human experts. The evaluation results demonstrate the efficiency of the proposed system.
翻訳日:2022-12-07 01:05:38 公開日:2020-05-04
# ビデオ・テンポラル超解法に関するAIM 2019 チャレンジ:方法と結果

AIM 2019 Challenge on Video Temporal Super-Resolution: Methods and Results ( http://arxiv.org/abs/2005.01233v1 )

ライセンス: Link先を確認
Seungjun Nah, Sanghyun Son, Radu Timofte and Kyoung Mu Lee(参考訳) ビデオには、記録されたフレームレートが低い時間に不連続に見える様々なタイプの動きと強みが含まれている。 本稿では,ビデオ時間的超解像(フレーム補間)に関するAIMの課題を,提案手法と結果に着目してレビューする。 低フレームレート(15fps)ビデオシーケンスから、チャレンジ参加者は、時間的中間フレームを推定することにより、高フレーム(60fps)ビデオシーケンスを提出するよう要求される。 ハンドヘルドカメラで撮影した多様なビデオから得られたREDS VTSRデータセットをトレーニングおよび評価目的で使用した。 予選には62人の登録メンバーが参加し、最終テストでは合計8チームが出場した。 チャレンジ入賞方式は,映像時間超解像の最先端を実現する。

Videos contain various types and strengths of motions that may look unnaturally discontinuous in time when the recorded frame rate is low. This paper reviews the first AIM challenge on video temporal super-resolution (frame interpolation) with a focus on the proposed solutions and results. From low-frame-rate (15 fps) video sequences, the challenge participants are asked to submit higher-framerate (60 fps) video sequences by estimating temporally intermediate frames. We employ the REDS VTSR dataset derived from diverse videos captured in a hand-held camera for training and evaluation purposes. The competition had 62 registered participants, and a total of 8 teams competed in the final testing phase. The challenge winning methods achieve the state-of-the-art in video temporal superresolution.
翻訳日:2022-12-07 01:05:01 公開日:2020-05-04
# エッジの関連、パースによるポーズ

Correlating Edge, Pose with Parsing ( http://arxiv.org/abs/2005.01431v1 )

ライセンス: Link先を確認
Ziwei Zhang, Chi Su, Liang Zheng, Xiaodong Xie(参考訳) 既存の研究によると、人体のエッジとポーズは人間の解析にとって2つの有益な要素である。 各高レベル特徴(エッジとポーズ)の有効性は、それらの特徴と解析特徴の結合によって確認される。 本稿では,人間の意味的境界とキーポイントの位置が,人間のパースを協調的に改善する方法について検討する。 既存の機能結合のプラクティスと比較して,3つの要因間の相関を明らかにすることが,エッジとポーズによって提供される重要な文脈的手がかりを活用する上で優れた方法であることが分かりました。 このような相関関係を捉えるために,不均一な非局所ブロックを用いた相関解析装置(CorrPM)を提案する。 提案するcorrpmにより、3つのパースデータセットに新たな最先端精度を報告できる。 重要なことに、比較研究は結合に対する特徴相関の利点を確認する。

According to existing studies, human body edge and pose are two beneficial factors to human parsing. The effectiveness of each of the high-level features (edge and pose) is confirmed through the concatenation of their features with the parsing features. Driven by the insights, this paper studies how human semantic boundaries and keypoint locations can jointly improve human parsing. Compared with the existing practice of feature concatenation, we find that uncovering the correlation among the three factors is a superior way of leveraging the pivotal contextual cues provided by edges and poses. To capture such correlations, we propose a Correlation Parsing Machine (CorrPM) employing a heterogeneous non-local block to discover the spatial affinity among feature maps from the edge, pose and parsing. The proposed CorrPM allows us to report new state-of-the-art accuracy on three human parsing datasets. Importantly, comparative studies confirm the advantages of feature correlation over the concatenation.
翻訳日:2022-12-07 01:03:50 公開日:2020-05-04
# 解剖学的構造集中型画像分類法を用いた前眼画像からの眼疾患自動分類法

Automated eye disease classification method from anterior eye image using anatomical structure focused image classification technique ( http://arxiv.org/abs/2005.01433v1 )

ライセンス: Link先を確認
Masahiro Oda, Takefumi Yamaguchi, Hideki Fukuoka, Yuta Ueno, Kensaku Mori(参考訳) 本稿では,前眼部画像からの感染性および非感染性疾患の自動分類法を提案する。 感染性疾患と非感染性疾患の治療法は異なる。 前眼画像と区別することは治療計画を決定する上で重要である。 眼科医はそれらを経験的に区別する。 コンピュータ支援に基づく定量的な分類が必要である。 感染性または非感染性疾患に対する前眼画像の自動分類法を提案する。 前眼画像は、目の位置や照明の明るさに大きな変化がある。 これにより分類が困難になる。 角膜に焦点をあてると、角膜内の不透明領域の位置は、感染性疾患と非感染性疾患とで異なる。 そこで我々は,角膜を対象とする物体検出手法を用いて,前眼画像分類課題を解決する。 このアプローチは「解剖学的構造にフォーカスした画像分類」と言えます。 YOLOv3オブジェクト検出法を用いて,非感染性疾患の角膜,非感染性疾患の角膜を検出する。 検出結果は、画像の分類結果を定義するために使用される。 前眼部画像を用いた実験では,88.3%の画像が正しく分類された。

This paper presents an automated classification method of infective and non-infective diseases from anterior eye images. Treatments for cases of infective and non-infective diseases are different. Distinguishing them from anterior eye images is important to decide a treatment plan. Ophthalmologists distinguish them empirically. Quantitative classification of them based on computer assistance is necessary. We propose an automated classification method of anterior eye images into cases of infective or non-infective disease. Anterior eye images have large variations of the eye position and brightness of illumination. This makes the classification difficult. If we focus on the cornea, positions of opacified areas in the corneas are different between cases of the infective and non-infective diseases. Therefore, we solve the anterior eye image classification task by using an object detection approach targeting the cornea. This approach can be said as "anatomical structure focused image classification". We use the YOLOv3 object detection method to detect corneas of infective disease and corneas of non-infective disease. The detection result is used to define a classification result of a image. In our experiments using anterior eye images, 88.3% of images were correctly classified by the proposed method.
翻訳日:2022-12-07 01:03:35 公開日:2020-05-04
# パラダイム発見問題

The Paradigm Discovery Problem ( http://arxiv.org/abs/2005.01630v1 )

ライセンス: Link先を確認
Alexander Erdmann, Micha Elsner, Shijie Wu, Ryan Cotterell and Nizar Habash(参考訳) 本研究は,無注釈文から屈折形態学を学習する課題であるパラダイム発見問題(PDP)を扱う。 我々はPDPを形式化し、システム評価のための評価指標を開発する。 現在利用可能なリソースを使用して、タスク用のデータセットを構築します。 また、PDPのヒューリスティックなベンチマークを考案し、5つの多言語で実証結果を報告する。 ベンチマークシステムはまず,単語の埋め込みと文字列をセルやパラダイムによってクラスタ形式に類似させる。 次に、クラスタ化されたデータ上にニューラルトランスデューサをブートストラップして単語を予測し、空のパラメタスロットを実現する。 本手法の誤差解析では, セル単位のクラスタリングが, 将来的な課題となることを示唆している。 私たちのコードとデータは公開されています。

This work treats the paradigm discovery problem (PDP), the task of learning an inflectional morphological system from unannotated sentences. We formalize the PDP and develop evaluation metrics for judging systems. Using currently available resources, we construct datasets for the task. We also devise a heuristic benchmark for the PDP and report empirical results on five diverse languages. Our benchmark system first makes use of word embeddings and string similarity to cluster forms by cell and by paradigm. Then, we bootstrap a neural transducer on top of the clustered data to predict words to realize the empty paradigm slots. An error analysis of our system suggests clustering by cell across different inflection classes is the most pressing challenge for future work. Our code and data are available for public use.
翻訳日:2022-12-07 00:56:50 公開日:2020-05-04
# ニューラルマシン翻訳のための説明方法の評価

Evaluating Explanation Methods for Neural Machine Translation ( http://arxiv.org/abs/2005.01672v1 )

ライセンス: Link先を確認
Jierui Li, Lemao Liu, Huayang Li, Guanlin Li, Guoping Huang, Shuming Shi(参考訳) 近年,ブラックボックスNMTモデルの解釈に多くの努力が注がれているが,説明手法を評価するための指標についてはほとんど進歩していない。 単語アライメント誤り率(Word Alignment Error Rate)は、人間の理解に合致する指標として用いることができるが、どの単語にも一致しない対象単語に対する説明方法を測定することはできない。 そこで本稿では,代替的な視点から説明手法の評価を試みている。 この目的のために、NMTモデルの予測挙動に関する忠実度に基づく原則付き計量を提案する。 この計量の正確な計算は難解であるため、近似として効率的な手法を用いる。 6つの標準翻訳タスクにおいて,提案手法を用いていくつかの説明方法を定量的に評価した。

Recently many efforts have been devoted to interpreting the black-box NMT models, but little progress has been made on metrics to evaluate explanation methods. Word Alignment Error Rate can be used as such a metric that matches human understanding, however, it can not measure explanation methods on those target words that are not aligned to any source word. This paper thereby makes an initial attempt to evaluate explanation methods from an alternative viewpoint. To this end, it proposes a principled metric based on fidelity in regard to the predictive behavior of the NMT model. As the exact computation for this metric is intractable, we employ an efficient approach as its approximation. On six standard translation tasks, we quantitatively evaluate several explanation methods in terms of the proposed metric and we reveal some valuable findings for these explanation methods in our experiments.
翻訳日:2022-12-07 00:56:02 公開日:2020-05-04
# 音声認識のための高速かつロバストな教師なしコンテキストバイアス

Fast and Robust Unsupervised Contextual Biasing for Speech Recognition ( http://arxiv.org/abs/2005.01677v1 )

ライセンス: Link先を確認
Young Mo Kang, Yingbo Zhou(参考訳) 音声認識(ASR)システムはユビキタスな技術になりつつある。 その精度は、特定の設定下での人間のレベルとのギャップを埋めるが、さらに改善できる分野は、ユーザー固有の情報やコンテキストを取り入れ、予測を偏見させることである。 共通の枠組みは、提供される文脈的ミニコーパスから小さな言語モデルを動的に構築し、そのスコアをデコードプロセス中にメイン言語モデルと補間することである。 本稿では,明示的な文脈言語モデルを含まない代替手法を提案する。 代わりに、システム語彙のすべての単語に対するバイアススコアを、トレーニングコーパスから導き出す。 その方法にはユニークです 1) コンテキストやトレーニングコーパスのメタデータやクラスラベルアノテーションを必要としない。 2) バイアススコアは単語の対数確率に比例するので、提供された文脈に偏りがあるだけでなく、無関係な文脈(例えば、ユーザの不特定や、厳密な範囲の定量化が難しい場合)に対して堅牢である。 3) 語彙全体のバイアススコアはトレーニング段階で事前に決定され, 推論時に計算コストの高い言語モデル構築が不要になる。 関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。 また,提案手法は,無関係な状況下での誤トリガ誤りに対する高い耐性を示すことを示す。

Automatic speech recognition (ASR) system is becoming a ubiquitous technology. Although its accuracy is closing the gap with that of human level under certain settings, one area that can further improve is to incorporate user-specific information or context to bias its prediction. A common framework is to dynamically construct a small language model from the provided contextual mini corpus and interpolate its score with the main language model during the decoding process. Here we propose an alternative approach that does not entail explicit contextual language model. Instead, we derive the bias score for every word in the system vocabulary from the training corpus. The method is unique in that 1) it does not require meta-data or class-label annotation for the context or the training corpus. 2) The bias score is proportional to the word's log-probability, thus not only would it bias the provided context, but also robust against irrelevant context (e.g. user mis-specified or in case where it is hard to quantify a tight scope). 3) The bias score for the entire vocabulary is pre-determined during the training stage, thereby eliminating computationally expensive language model construction during inference. We show significant improvement in recognition accuracy when the relevant context is available. Additionally, we also demonstrate that the proposed method exhibits high tolerance to false-triggering errors in the presence of irrelevant context.
翻訳日:2022-12-07 00:55:50 公開日:2020-05-04
# 単語レベル抽出による教師なし文要約の離散最適化

Discrete Optimization for Unsupervised Sentence Summarization with Word-Level Extraction ( http://arxiv.org/abs/2005.01791v1 )

ライセンス: Link先を確認
Raphael Schumann, Lili Mou, Yao Lu, Olga Vechtomova, Katja Markert(参考訳) 自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。 優れた要約は、言語流布と、ソース文と重なる高い情報によって特徴づけられる。 我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。 離散最適化により高速な要約を探索する。 提案手法は,ROUGEスコアによる教師なし文要約のための新しい手法を実現する。 さらに,一般に報告されているROUGE F1測定値が要約長に敏感であることを示す。 これは最近の研究で好ましくない利用であるので、将来の評価は、出力長さブラケットによるグループ要約システムを明示的に行うべきであることを強調する。

Automatic sentence summarization produces a shorter version of a sentence, while preserving its most important information. A good summary is characterized by language fluency and high information overlap with the source sentence. We model these two aspects in an unsupervised objective function, consisting of language modeling and semantic similarity metrics. We search for a high-scoring summary by discrete optimization. Our proposed method achieves a new state-of-the art for unsupervised sentence summarization according to ROUGE scores. Additionally, we demonstrate that the commonly reported ROUGE F1 metric is sensitive to summary length. Since this is unwillingly exploited in recent work, we emphasize that future evaluation should explicitly group summarization systems by output length brackets.
翻訳日:2022-12-07 00:55:14 公開日:2020-05-04
# Scanned Receiptsの理解

Understanding Scanned Receipts ( http://arxiv.org/abs/2005.01828v1 )

ライセンス: Link先を確認
Eric Melz(参考訳) レシートを理解するタスクマシンは、購入に関する詳細な分析、経費ポリシーの実施、レシートの大規模なコレクションにおける購入行動のパターンの推論など、重要なアプリケーションを持つことができる。 本稿では,スキャンされたレシートラインアイテムの名前付きエンティティリンク(NEL)タスク,具体的には,OCRdレシートからの短文を食料品のナレッジベース(KB)に関連付けることに焦点を当てる。 例えば、スキャンした項目「STO BABY SPINACH」は、「Simple Truth Organic Baby Spinach」というラベルの付いたカタログ項目にリンクすべきである。 様々な情報検索手法と統計的フレーズ検出を併用した実験は、スキャンしたレシートデータの効果的な理解を約束する。

Tasking machines with understanding receipts can have important applications such as enabling detailed analytics on purchases, enforcing expense policies, and inferring patterns of purchase behavior on large collections of receipts. In this paper, we focus on the task of Named Entity Linking (NEL) of scanned receipt line items; specifically, the task entails associating shorthand text from OCR'd receipts with a knowledge base (KB) of grocery products. For example, the scanned item "STO BABY SPINACH" should be linked to the catalog item labeled "Simple Truth Organic Baby Spinach". Experiments that employ a variety of Information Retrieval techniques in combination with statistical phrase detection shows promise for effective understanding of scanned receipt data.
翻訳日:2022-12-07 00:54:58 公開日:2020-05-04
# FinTechアプリケーションにおけるNLP:過去,現在,未来

NLP in FinTech Applications: Past, Present and Future ( http://arxiv.org/abs/2005.01320v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen(参考訳) ファイナンシャル・テクノロジー(FinTech)は、Google TrendsのFinTech統計によると、過去5年で世界で急速に流行しているトピックの1つだ。 本稿では,金融分野における自然言語処理(NLP)技術の適用に関する研究に焦点をあてる。 私たちの目標は、現在の位置を示し、将来の研究の青写真を提供することです。 アプリケーションシナリオは、Know Your Customer(KYC)、Know Your Product(KYP)、Satisfy Your Customer(SYC)の3つの側面から見ていきます。 形式文書と非公式テキストデータの両方を分析し、企業顧客と個人顧客を理解する。 さらに、今後の展望とリスクの観点から、製品の機能を動的に更新する方法についても論じる。 最後に、B2CとC2Cの両方のビジネスモデルにおける顧客満足度について論じる。 過去と最近の課題を要約した後、FinTechのトレンドとオープンファイナンスの動向の中で、将来有望な研究方向性をいくつか強調する。

Financial Technology (FinTech) is one of the worldwide rapidly-rising topics in the past five years according to the statistics of FinTech from Google Trends. In this position paper, we focus on the researches applying natural language processing (NLP) technologies in the finance domain. Our goal is to indicate the position we are now and provide the blueprint for future researches. We go through the application scenarios from three aspects including Know Your Customer (KYC), Know Your Product (KYP), and Satisfy Your Customer (SYC). Both formal documents and informal textual data are analyzed to understand corporate customers and personal customers. Furthermore, we talk over how to dynamically update the features of products from the prospect and the risk points of view. Finally, we discuss satisfying the customers in both B2C and C2C business models. After summarizing the past and the recent challenges, we highlight several promising future research directions in the trend of FinTech and the open finance tendency.
翻訳日:2022-12-07 00:47:23 公開日:2020-05-04
# spmrlからnmrlへ:形態学的にリッチな言語(mrls)を10年間にわたって解析し、何を学んだか(そして未発見)?

From SPMRL to NMRL: What Did We Learn (and Unlearn) in a Decade of Parsing Morphologically-Rich Languages (MRLs)? ( http://arxiv.org/abs/2005.01330v1 )

ライセンス: Link先を確認
Reut Tsarfaty, Dan Bareket, Stav Klein, Amit Seker(参考訳) spmrlの最初の設立からちょうど10年が経ち、形態的リッチ言語(mrls)の統計的解析の特異な課題に対処するために複数の研究活動を統合する研究イニシアチブである。 ここでは、この10年間のMRLのパースを振り返り、前神経時代のアーキテクチャ、モデリング、語彙上の課題に対するソリューションと教訓を強調し、同様の課題がMRLのニューラルアーキテクチャにおいて再燃していることを論じる。 そこで我々は,SPMRL用語で提案されるシンボリックアイデアを現代のニューラルアーキテクチャに取り入れることで,MRLのNLPを新たなレベルに押し上げる可能性を示唆するクライマックスの提供を目指す。 我々はMRL(Neural Models for NMRL)を設計するための戦略をスケッチし、形態学的にリッチでハイフュージョンな言語であるヘブライ語におけるマルチタグの課題を調査し、これらの戦略の予備的な支援を示す。

It has been exactly a decade since the first establishment of SPMRL, a research initiative unifying multiple research efforts to address the peculiar challenges of Statistical Parsing for Morphologically-Rich Languages (MRLs).Here we reflect on parsing MRLs in that decade, highlight the solutions and lessons learned for the architectural, modeling and lexical challenges in the pre-neural era, and argue that similar challenges re-emerge in neural architectures for MRLs. We then aim to offer a climax, suggesting that incorporating symbolic ideas proposed in SPMRL terms into nowadays neural architectures has the potential to push NLP for MRLs to a new level. We sketch strategies for designing Neural Models for MRLs (NMRL), and showcase preliminary support for these strategies via investigating the task of multi-tagging in Hebrew, a morphologically-rich, high-fusion, language
翻訳日:2022-12-07 00:46:53 公開日:2020-05-04
# ニューラルマシン翻訳学習目標における文脈の利用

Using Context in Neural Machine Translation Training Objectives ( http://arxiv.org/abs/2005.01483v1 )

ライセンス: Link先を確認
Danielle Saunders, Felix Stahlberg, Bill Byrne(参考訳) バッチレベルの文書を用いた文書レベルのメトリクスを用いたニューラルネットワーク翻訳(NMT)トレーニングを提案する。 NMTトレーニングに対する従来のシーケンスオブジェクトアプローチは、望まれる評価基準(典型的には文書BLEU)に対応しない文BLEUのような文レベルのメトリクスにのみフォーカスする。 一方、文書レベルのNMTトレーニングの研究は、訓練手順よりもデータやモデルアーキテクチャに焦点を当てている。 我々は,これらの研究の各々が相互に明確な空間を持っていることを見出し,文書レベルの評価基準をnmt訓練目的に使用可能にするスキームと統合することを提案する。 まず、文サンプルから擬似文書をサンプリングする。 次に、最小リスクトレーニング(MRT)におけるコスト関数として、モンテカルロサンプリングを用いて、期待される文書BLEU勾配を近似する。 この2段階のサンプリング処理により、NMTはシーケンスMRTと最大様相トレーニングよりもパフォーマンスが向上する。 シーケンスメトリクスよりもドキュメントレベルのメトリクスの方がトレーニングが堅牢であることを実証する。 我々はさらに,文書レベルで評価に使用する2つの指標である gleu を用いた nmt と文法的誤り訂正 (gec) の改善を実証する。

We present Neural Machine Translation (NMT) training using document-level metrics with batch-level documents. Previous sequence-objective approaches to NMT training focus exclusively on sentence-level metrics like sentence BLEU which do not correspond to the desired evaluation metric, typically document BLEU. Meanwhile research into document-level NMT training focuses on data or model architecture rather than training procedure. We find that each of these lines of research has a clear space in it for the other, and propose merging them with a scheme that allows a document-level evaluation metric to be used in the NMT training objective. We first sample pseudo-documents from sentence samples. We then approximate the expected document BLEU gradient with Monte Carlo sampling for use as a cost function in Minimum Risk Training (MRT). This two-level sampling procedure gives NMT performance gains over sequence MRT and maximum-likelihood training. We demonstrate that training is more robust for document-level metrics than with sequence metrics. We further demonstrate improvements on NMT with TER and Grammatical Error Correction (GEC) using GLEU, both metrics used at the document level for evaluations.
翻訳日:2022-12-07 00:46:23 公開日:2020-05-04
# 現代標準アラビア語の記号言語グロス表現を目指して

Towards A Sign Language Gloss Representation Of Modern Standard Arabic ( http://arxiv.org/abs/2005.01497v1 )

ライセンス: Link先を確認
Salma El Anigri, Mohammed Majid Himmi, Abdelhak Mahmoudi(参考訳) 世界の人口の5%以上(4億6600万人)が聴覚障害を患っている。 400万人が子供です 聴覚障害や聴覚障害に悩まされることがある。 難聴者の多くは難聴者である。 ほとんど、あるいは全く聴力がないことを意味します。 世界中で、聴覚障害者は手話を使って手と表情の両方のジェスチャーでコミュニケーションすることが多い。 手話言語は、独自の文法と語彙を持つ本格的な自然言語である。 したがって、言語からの翻訳モデルと手話への翻訳モデルが必要である。 本研究では,現代標準アラビア語(msar)を手話に翻訳することに関心を持っている。 我々は,アニメーション記号生成に必須な特徴を抽出したmsarから光沢表現を作成した。 提案手法は,入力アラビア語文の意味を維持する最も重要な特徴を同定する。

Over 5% of the world's population (466 million people) has disabling hearing loss. 4 million are children. They can be hard of hearing or deaf. Deaf people mostly have profound hearing loss. Which implies very little or no hearing. Over the world, deaf people often communicate using a sign language with gestures of both hands and facial expressions. The sign language is a full-fledged natural language with its own grammar and lexicon. Therefore, there is a need for translation models from and to sign languages. In this work, we are interested in the translation of Modern Standard Arabic(MSAr) into sign language. We generated a gloss representation from MSAr that extracts the features mandatory for the generation of animation signs. Our approach locates the most pertinent features that maintain the meaning of the input Arabic sentence.
翻訳日:2022-12-07 00:46:06 公開日:2020-05-04
# Mind the Gap: マシンラーニングと情報セキュリティのセマンティックギャップのブリッジについて

Mind the Gap: On Bridging the Semantic Gap between Machine Learning and Information Security ( http://arxiv.org/abs/2005.01800v1 )

ライセンス: Link先を確認
Michael R. Smith, Nicholas T. Johnson, Joe B. Ingram, Armida J. Carbajal, Ramyaa Ramyaa, Evelyn Domschot, Christopher C. Lamb, Stephen J. Verzi, W. Philip Kegelmeyer(参考訳) マルウェアの振る舞いを学習し、新しいマルウェアのサンプルを検出し、情報セキュリティ(InfoSec)を大幅に改善する機械学習(ML)の可能性にもかかわらず、オープンな文献で何度も報告された成功にもかかわらず、デプロイシステムにおける高影響のML技術はほとんどない。 我々は、InfoSecの高インパクト化におけるMLの失敗は、セマンティックギャップによって証明された2つのコミュニティ間の断絶に根ざしていると仮定する。 具体的には、MLが使用する現在のデータセットと表現は、実行可能な動作を学ぶのに適せず、InfoSecコミュニティが使用するものとは大きく異なる。 本稿では,MLアルゴリズムによるマルウェアの分類に用いられる既存のデータセットとそのデータから抽出された特徴について調査する。 私たちはそれを観察します 1) 現在の抽出された特徴のセットは、主に構文的であり、行動的ではない。 2)データセットは一般に,クラスを判別しやすいデータセットを生成する極端な例を含む。 3) データセットは,実世界のシステムで遭遇するデータの,著しく異なる表現を提供する。 MLがInfoSecコミュニティにより多くの影響を与えるためには、現在のセマンティックギャップを埋めるために使用されるデータ(機能やラベルを含む)を変更する必要がある。 行動分析を可能にする第一歩として,マルウェアファミリーに関連するオープンソース脅威レポートを用いて,既存のマルウェアデータセットに行動特徴をラベル付けする。 この動作ラベリングは、意図の特定(例えば、善か悪か)やマルウェアファミリーのメンバーシップから、実行可能ファイルによって提示される行動の分析へと分析を変化させる。 私たちは、MLとInfoSecコミュニティ間のセマンティックギャップをさらに橋渡しするデータの将来的な改善を期待して、アノテーションを提供しています。

Despite the potential of Machine learning (ML) to learn the behavior of malware, detect novel malware samples, and significantly improve information security (InfoSec) we see few, if any, high-impact ML techniques in deployed systems, notwithstanding multiple reported successes in open literature. We hypothesize that the failure of ML in making high-impacts in InfoSec are rooted in a disconnect between the two communities as evidenced by a semantic gap---a difference in how executables are described (e.g. the data and features extracted from the data). Specifically, current datasets and representations used by ML are not suitable for learning the behaviors of an executable and differ significantly from those used by the InfoSec community. In this paper, we survey existing datasets used for classifying malware by ML algorithms and the features that are extracted from the data. We observe that: 1) the current set of extracted features are primarily syntactic, not behavioral, 2) datasets generally contain extreme exemplars producing a dataset in which it is easy to discriminate classes, and 3) the datasets provide significantly different representations of the data encountered in real-world systems. For ML to make more of an impact in the InfoSec community requires a change in the data (including the features and labels) that is used to bridge the current semantic gap. As a first step in enabling more behavioral analyses, we label existing malware datasets with behavioral features using open-source threat reports associated with malware families. This behavioral labeling alters the analysis from identifying intent (e.g. good vs bad) or malware family membership to an analysis of which behaviors are exhibited by an executable. We offer the annotations with the hope of inspiring future improvements in the data that will further bridge the semantic gap between the ML and InfoSec communities.
翻訳日:2022-12-07 00:40:13 公開日:2020-05-04
# 一貫性が実数値可測基数の非存在と等価な学習問題

A learning problem whose consistency is equivalent to the non-existence of real-valued measurable cardinals ( http://arxiv.org/abs/2005.01886v1 )

ライセンス: Link先を確認
Vladimir G. Pestov(参考訳) k$-nearest の隣の学習規則が計量空間 $x$ において普遍的に一貫性であることと、それがすべての分離可能な部分空間において普遍的に一貫性を持ち、$x$ の密度が実測可能な基数よりも小さいことは同値である。 特に、$k$-NN分類器は、分離可能部分空間が長田とプレイスの意味でシグマ有限次元であるすべての計量空間において、実数値可測基数が存在しない場合に限り、普遍的に一様である。 後者の仮定は ZFC と比較的一致するが、そのような基数の存在の整合性は ZFC 内では証明できない。 2006年にc\'erou と guyader が直観的な厳密さでスケッチした例から着想を得た。

We show that the $k$-nearest neighbour learning rule is universally consistent in a metric space $X$ if and only if it is universally consistent in every separable subspace of $X$ and the density of $X$ is less than every real-measurable cardinal. In particular, the $k$-NN classifier is universally consistent in every metric space whose separable subspaces are sigma-finite dimensional in the sense of Nagata and Preiss if and only if there are no real-valued measurable cardinals. The latter assumption is relatively consistent with ZFC, however the consistency of the existence of such cardinals cannot be proved within ZFC. Our results were inspired by an example sketched by C\'erou and Guyader in 2006 at an intuitive level of rigour.
翻訳日:2022-12-07 00:39:45 公開日:2020-05-04
# the newspaper navigator dataset: the chronicling americaの1600万の歴史的新聞ページから視覚的コンテンツの抽出と分析

The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content from 16 Million Historic Newspaper Pages in Chronicling America ( http://arxiv.org/abs/2005.01583v1 )

ライセンス: Link先を確認
Benjamin Charles Germain Lee, Jaime Mears, Eileen Jakeway, Meghan Ferriter, Chris Adams, Nathan Yarasavage, Deborah Thomas, Kate Zwaard, Daniel S. Weld(参考訳) 国立デジタル新聞プログラム(National Digital Newspaper Program)は、アメリカ合衆国議会図書館と国立人文科学基金(National Endowment for the Humanities)との共同事業である。 アメリカの歴史ある新聞の1600万ページ以上が、高解像度の画像と機械で読めるMETS/ALTO OCRでデジタル化されている。 慢性的なアメリカユーザーの興味は、抽出されたビジュアルコンテンツと見出しで完結したセマント化されたコーパスである。 これを実現するために,米国議会図書館の「Beyond Words」クラウドソーシング活動の一環として収集された写真,イラスト,地図,漫画,編集漫画のボックスアノテーションをトレーニングしたビジュアルコンテンツ認識モデルを導入し,見出しや広告を含む追加アノテーションを付加した。 我々は,このディープラーニングモデルを用いて,見出し,写真,イラスト,地図,漫画,編集漫画,広告の7種類のビジュアルコンテンツを抽出し,METS/ALTO OCRから派生したキャプションなどのテキストコンテンツと高速な画像類似性クエリのための画像埋め込みを補完するパイプラインについて述べる。 今回,米国日誌コーパスから1630万ページに及ぶパイプラインを運用した結果を報告し,これまでに制作された歴史的新聞から抽出されたビジュアルコンテンツの最大のデータセットである新聞ナビゲータデータセットについて述べる。 Newspaper Navigatorデータセット、微調整されたビジュアルコンテンツ認識モデル、およびすべてのソースコードは、制限なしの再使用のためにパブリックドメインに配置される。

Chronicling America is a product of the National Digital Newspaper Program, a partnership between the Library of Congress and the National Endowment for the Humanities to digitize historic newspapers. Over 16 million pages of historic American newspapers have been digitized for Chronicling America to date, complete with high-resolution images and machine-readable METS/ALTO OCR. Of considerable interest to Chronicling America users is a semantified corpus, complete with extracted visual content and headlines. To accomplish this, we introduce a visual content recognition model trained on bounding box annotations of photographs, illustrations, maps, comics, and editorial cartoons collected as part of the Library of Congress's Beyond Words crowdsourcing initiative and augmented with additional annotations including those of headlines and advertisements. We describe our pipeline that utilizes this deep learning model to extract 7 classes of visual content: headlines, photographs, illustrations, maps, comics, editorial cartoons, and advertisements, complete with textual content such as captions derived from the METS/ALTO OCR, as well as image embeddings for fast image similarity querying. We report the results of running the pipeline on 16.3 million pages from the Chronicling America corpus and describe the resulting Newspaper Navigator dataset, the largest dataset of extracted visual content from historic newspapers ever produced. The Newspaper Navigator dataset, finetuned visual content recognition model, and all source code are placed in the public domain for unrestricted re-use.
翻訳日:2022-12-07 00:39:11 公開日:2020-05-04
# 半監督肺結節検索

Semi-supervised lung nodule retrieval ( http://arxiv.org/abs/2005.01805v1 )

ライセンス: Link先を確認
Mark Loyman and Hayit Greenspan(参考訳) コンテンツベース画像検索(cbir)は臨床医に、自身の意思決定プロセスをサポートし、改善できることを願っているビジュアル情報を提供する。 入力クエリ画像が与えられた場合、CBIRシステムはクエリ画像と類似度でランク付けされた一連の画像を出力する。 検索された画像には、生検に基づく悪性腫瘍のラベリングや分類といった関連情報が含まれる。 データセット要素間の類似性(例えばnodules間の類似性)に関する基礎的な真実は、容易には利用できない。 このようなアノテーションは、タスクの主観的な性質のため、特に入手が難しい。 その結果,これまでのアプローチでは手作業による特徴抽出に重点を置いてきたが,現在のアプローチではバイナリ分類タスク(悪性度など)などの補助タスクが使用されている。 しかし,前回の研究では,データアノテーションに基づく大まかな類似度の推定値よりもバイナリ補助タスクの方が劣っていることが示された。 現在の研究は、2つのステップを含む半教師付きアプローチを示唆している。 1) 所定の部分ラベル付きデータセットの自動アノテーション 2)述語アノテーションに基づく意味的類似性計量空間の学習。 LIDCデータセットを用いて肺結節検索を行い,予測された評価値から埋め込みを学習することが可能であることを示す。 半教師付きアプローチは、完全な教師なし参照よりもかなり高い識別能力を示している。

Content based image retrieval (CBIR) provides the clinician with visual information that can support, and hopefully improve, his or her decision making process. Given an input query image, a CBIR system provides as its output a set of images, ranked by similarity to the query image. Retrieved images may come with relevant information, such as biopsy-based malignancy labeling, or categorization. Ground truth on similarity between dataset elements (e.g. between nodules) is not readily available, thus greatly challenging machine learning methods. Such annotations are particularly difficult to obtain, due to the subjective nature of the task, with high inter-observer variability requiring multiple expert annotators. Consequently, past approaches have focused on manual feature extraction, while current approaches use auxiliary tasks, such as a binary classification task (e.g. malignancy), for which ground-true is more readily accessible. However, in a previous study, we have shown that binary auxiliary tasks are inferior to the usage of a rough similarity estimate that are derived from data annotations. The current study suggests a semi-supervised approach that involves two steps: 1) Automatic annotation of a given partially labeled dataset; 2) Learning a semantic similarity metric space based on the predicated annotations. The proposed system is demonstrated in lung nodule retrieval using the LIDC dataset, and shows that it is feasible to learn embedding from predicted ratings. The semi-supervised approach has demonstrated a significantly higher discriminative ability than the fully-unsupervised reference.
翻訳日:2022-12-07 00:38:24 公開日:2020-05-04
# CDC: 帯域効率の良いエッジクラウド協調ディープラーニングのための分類駆動圧縮

CDC: Classification Driven Compression for Bandwidth Efficient Edge-Cloud Collaborative Deep Learning ( http://arxiv.org/abs/2005.02177v1 )

ライセンス: Link先を確認
Yuanrui Dong, Peng Zhao, Hanqiao Yu, Cong Zhao and Shusen Yang(参考訳) 新たなエッジクラウド協調型ディープラーニング(DL)パラダイムは,クラウド帯域幅の消費,応答レイテンシ,データプライバシ保護の観点から,実用的なDL実装のパフォーマンス向上を目標としている。 帯域幅効率の高いdnnベースの分類器のエッジクラウド協調トレーニングに着目し,エッジクラウド協調dlの分類精度を保ちながら帯域幅消費量を削減した分類駆動圧縮フレームワークcdcを提案する。 具体的には、リソース制限エッジサーバの帯域幅の削減を目的として、圧縮のための分類ガイダンスと特徴保存機能を備えた軽量オートエンコーダを開発し、エッジが生データの潜在コードのみをクラウドにアップロードし、正確なグローバルトレーニングを行う。 さらに,帯域幅と分類精度のトレードオフを適応的に追従し,高速圧縮比調整に微調整のみが必要なネットワーク条件下での最適化可能な量子化スキームを設計する。 大規模な実験の結果、CDCは生データを用いたDNNトレーニングと比較して、精度損失が1.06%未満の帯域幅の14.9倍の帯域幅を消費し、AEによって圧縮されたデータによるDNNトレーニングと比較すると、CDCは少なくとも100%低い精度損失を導入した。

The emerging edge-cloud collaborative Deep Learning (DL) paradigm aims at improving the performance of practical DL implementations in terms of cloud bandwidth consumption, response latency, and data privacy preservation. Focusing on bandwidth efficient edge-cloud collaborative training of DNN-based classifiers, we present CDC, a Classification Driven Compression framework that reduces bandwidth consumption while preserving classification accuracy of edge-cloud collaborative DL. Specifically, to reduce bandwidth consumption, for resource-limited edge servers, we develop a lightweight autoencoder with a classification guidance for compression with classification driven feature preservation, which allows edges to only upload the latent code of raw data for accurate global training on the Cloud. Additionally, we design an adjustable quantization scheme adaptively pursuing the tradeoff between bandwidth consumption and classification accuracy under different network conditions, where only fine-tuning is required for rapid compression ratio adjustment. Results of extensive experiments demonstrate that, compared with DNN training with raw data, CDC consumes 14.9 times less bandwidth with an accuracy loss no more than 1.06%, and compared with DNN training with data compressed by AE without guidance, CDC introduces at least 100% lower accuracy loss.
翻訳日:2022-12-07 00:38:02 公開日:2020-05-04
# 動的プログラミングと強化学習におけるマルチエージェント値反復アルゴリズム

Multiagent Value Iteration Algorithms in Dynamic Programming and Reinforcement Learning ( http://arxiv.org/abs/2005.01627v1 )

ライセンス: Link先を確認
Dimitri Bertsekas(参考訳) 我々は無限大地平線動的計画問題を考える。各ステージの制御は複数のエージェントの1つによってなされる複数の異なる決定から成り立っている。 以前の研究で、ポリシー改善を所定の順序で1つのエージェント・ア・ア・タイムで行い、前のエージェントの選択を順番に知るポリシー反復アルゴリズムを導入しました。 その結果,標準all-agents-at-once法では指数関数的ではなく,各政策改善の計算量はエージェント数とともに線形に増加する。 有限状態割引問題の場合,エージェント・バイ・エージェントの最適方針に収束することを示した。 本稿では,この結果は,価値反復や政策反復の楽観的バージョン,さらにベルマン作用素が収縮写像であるより一般的なdp問題,例えば確率的最短経路問題,すべての方針が適切である場合などに拡張する。

We consider infinite horizon dynamic programming problems, where the control at each stage consists of several distinct decisions, each one made by one of several agents. In an earlier work we introduced a policy iteration algorithm, where the policy improvement is done one-agent-at-a-time in a given order, with knowledge of the choices of the preceding agents in the order. As a result, the amount of computation for each policy improvement grows linearly with the number of agents, as opposed to exponentially for the standard all-agents-at-once method. For the case of a finite-state discounted problem, we showed convergence to an agent-by-agent optimal policy. In this paper, this result is extended to value iteration and optimistic versions of policy iteration, as well as to more general DP problems where the Bellman operator is a contraction mapping, such as stochastic shortest path problems with all policies being proper.
翻訳日:2022-12-07 00:37:38 公開日:2020-05-04
# 勾配降下による高次元ロバスト平均推定

High-Dimensional Robust Mean Estimation via Gradient Descent ( http://arxiv.org/abs/2005.01378v1 )

ライセンス: Link先を確認
Yu Cheng, Ilias Diakonikolas, Rong Ge, Mahdi Soltanolkotabi(参考訳) 本研究では, 対数外乱の一定割合の存在下での高次元ロバスト平均推定問題について検討する。 最近の研究は、様々な自然分布族に対する次元独立な誤差保証を伴うこの問題に対して、洗練された多項式時間アルゴリズムを提供している。 本研究では,この問題の自然な非凸定式化が勾配降下によって直接解くことができることを示す。 提案手法は,非凸目的の任意の近似定常点が,基礎となるロバスト推定タスクに対してほぼ最適解を与えることを示す,新しい構造補題を利用する。 本研究は,アルゴリズムによる高次元ロバスト統計量と非凸最適化との間の興味深い関係を確立し,他のロバスト推定タスクに広く応用できることを示す。

We study the problem of high-dimensional robust mean estimation in the presence of a constant fraction of adversarial outliers. A recent line of work has provided sophisticated polynomial-time algorithms for this problem with dimension-independent error guarantees for a range of natural distribution families. In this work, we show that a natural non-convex formulation of the problem can be solved directly by gradient descent. Our approach leverages a novel structural lemma, roughly showing that any approximate stationary point of our non-convex objective gives a near-optimal solution to the underlying robust estimation task. Our work establishes an intriguing connection between algorithmic high-dimensional robust statistics and non-convex optimization, which may have broader applications to other robust estimation tasks.
翻訳日:2022-12-07 00:37:22 公開日:2020-05-04
# ヒューマンストラテジックステアリングによる対話最適化の性能向上

Human Strategic Steering Improves Performance of Interactive Optimization ( http://arxiv.org/abs/2005.01291v1 )

ライセンス: Link先を確認
Fabio Colella, Pedram Daee, Jussi Jokinen, Antti Oulasvirta, Samuel Kaski(参考訳) 対話型インテリジェントシステムにおける中心的な関心事は、その行動の最適化であり、人間のユーザにとって最大限に有用である。 例えばレコメンデーションシステムでは、何を推奨するかを選択し、最適化タスクはユーザーが推奨するアイテムを推薦する。 最適化は初期のユーザのフィードバック(例えば "likes" や "dislikes" など)に基づいて行われ、アルゴリズムはフィードバックが忠実であると仮定する。 つまり、ユーザが"like"をクリックすると、実際にはそのアイテムが好まれます。 我々は、この基本的な仮定は、受動的フィードバック源ではない人間のユーザーによって広範囲に侵害される可能性があると論じる。 その代わり、彼らはコントロールされ、積極的にシステムを目標に向けて運営します。 この仮説を検証するために,人間と最適化アルゴリズムが協調して1次元関数の最大値を求める関数最適化タスクを考案した。 各イテレーションにおいて、最適化アルゴリズムは、あるポイント$x$で隠れた関数の値をユーザにクエリし、隠れた関数を見たユーザは、$f(x)$に関する回答を提供する。 21名の被験者を対象にした研究では,最適化の仕組みを理解したユーザが,偏りのある回答($f(x)$ に等しくない回答)を戦略的に提供できることが示されている。 私たちの研究は、次世代のインテリジェントシステムには、システムの目標達成を支援するユーザモデルが必要です。

A central concern in an interactive intelligent system is optimization of its actions, to be maximally helpful to its human user. In recommender systems for instance, the action is to choose what to recommend, and the optimization task is to recommend items the user prefers. The optimization is done based on earlier user's feedback (e.g. "likes" and "dislikes"), and the algorithms assume the feedback to be faithful. That is, when the user clicks "like," they actually prefer the item. We argue that this fundamental assumption can be extensively violated by human users, who are not passive feedback sources. Instead, they are in control, actively steering the system towards their goal. To verify this hypothesis, that humans steer and are able to improve performance by steering, we designed a function optimization task where a human and an optimization algorithm collaborate to find the maximum of a 1-dimensional function. At each iteration, the optimization algorithm queries the user for the value of a hidden function $f$ at a point $x$, and the user, who sees the hidden function, provides an answer about $f(x)$. Our study on 21 participants shows that users who understand how the optimization works, strategically provide biased answers (answers not equal to $f(x)$), which results in the algorithm finding the optimum significantly faster. Our work highlights that next-generation intelligent systems will need user models capable of helping users who steer systems to pursue their goals.
翻訳日:2022-12-07 00:31:13 公開日:2020-05-04
# 既成のディープラーニングでは不十分:パーシモニー、ベイズ、因果関係

Off-the-shelf deep learning is not enough: parsimony, Bayes and causality ( http://arxiv.org/abs/2005.01557v1 )

ライセンス: Link先を確認
Rama K. Vasudevan, Maxim Ziatdinov, Lukas Vlcek, Sergei V. Kalinin(参考訳) ディープニューラルネットワーク(deep learning)は、自然言語処理、コンピュータビジョン、音声認識、ゲームプレイの問題を解決するための選択技術として出現し、わずか数年で超人間レベルのパフォーマンスにつながり、新たな「ai」の波に導かれた。 これらの成功を受けて、物理科学の研究者たちは、それぞれの領域にディープラーニングを組み込むことで着実に進歩した。 しかし、そのような採用は認識され、直面しなければならない重大な課題をもたらします。 本稿では,機械学習の相関性と因果仮説駆動型物理科学の関係に着目し,材料科学における深層学習の実践への機会と道のりについて論じる。 我々は、深層学習とAIは、理論上の応用と同様に、因果関係が知られている分野に革命をもたらすのに十分な位置にあると論じている。 合流因子が凍結または弱く変化した場合、実験領域における効果的なディープラーニングソリューションの道を開く。 同様に、これらの手法は、縮小表現の導出、アルゴリズムの複雑さの導出、または生成的物理モデルの復元を通じて、実世界の系の物理を理解するための経路を提供する。 しかし、因果関係が不明なモデルに対する深層学習と「AI」の拡張は誤解を招く可能性があり、誤った結果をもたらす可能性がある。 ここでは,事前知識を取り入れたベイズ的手法の広範な採用,身体的制約を組み込んだDLソリューションの開発,究極的には因果モデルの採用が,基礎的および応用的な研究の道筋をたどる。 最も注目すべきは、これらの進歩は、私たちが想像できない方法で科学の実施方法を変えることができるが、機械学習はすぐに科学を置き換えるものではない。

Deep neural networks ("deep learning") have emerged as a technology of choice to tackle problems in natural language processing, computer vision, speech recognition and gameplay, and in just a few years has led to superhuman level performance and ushered in a new wave of "AI." Buoyed by these successes, researchers in the physical sciences have made steady progress in incorporating deep learning into their respective domains. However, such adoption brings substantial challenges that need to be recognized and confronted. Here, we discuss both opportunities and roadblocks to implementation of deep learning within materials science, focusing on the relationship between correlative nature of machine learning and causal hypothesis driven nature of physical sciences. We argue that deep learning and AI are now well positioned to revolutionize fields where causal links are known, as is the case for applications in theory. When confounding factors are frozen or change only weakly, this leaves open the pathway for effective deep learning solutions in experimental domains. Similarly, these methods offer a pathway towards understanding the physics of real-world systems, either via deriving reduced representations, deducing algorithmic complexity, or recovering generative physical models. However, extending deep learning and "AI" for models with unclear causal relationship can produce misleading and potentially incorrect results. Here, we argue the broad adoption of Bayesian methods incorporating prior knowledge, development of DL solutions with incorporated physical constraints, and ultimately adoption of causal models, offers a path forward for fundamental and applied research. Most notably, while these advances can change the way science is carried out in ways we cannot imagine, machine learning is not going to substitute science any time soon.
翻訳日:2022-12-07 00:30:00 公開日:2020-05-04
# 制限ボルツマン機械における学習のための動的平均場理論

A Dynamical Mean-Field Theory for Learning in Restricted Boltzmann Machines ( http://arxiv.org/abs/2005.01560v1 )

ライセンス: Link先を確認
Burak \c{C}akmak and Manfred Opper(参考訳) 我々は、スピン構成上の確率分布のニューラルネットワークモデルとして導入された二部グラフ上のIsingモデルである制限ボルツマンマシンの磁化計算のためのメッセージパッシングアルゴリズムを定義する。 スピンのカップリング間の非自明な統計依存性をモデル化するために、矩形結合行列は任意の双回転不変なランダム行列アンサンブルから引き出されると仮定する。 統計力学の力学関数法を用いて,大規模システム限界におけるアルゴリズムの力学を正確に解析する。 安定基準の下でのアルゴリズムの大域収束を証明し,数値シミュレーションとよく一致した漸近収束率を計算する。

We define a message-passing algorithm for computing magnetizations in Restricted Boltzmann machines, which are Ising models on bipartite graphs introduced as neural network models for probability distributions over spin configurations. To model nontrivial statistical dependencies between the spins' couplings, we assume that the rectangular coupling matrix is drawn from an arbitrary bi-rotation invariant random matrix ensemble. Using the dynamical functional method of statistical mechanics we exactly analyze the dynamics of the algorithm in the large system limit. We prove the global convergence of the algorithm under a stability criterion and compute asymptotic convergence rates showing excellent agreement with numerical simulations.
翻訳日:2022-12-07 00:29:30 公開日:2020-05-04
# 講演ノート:カーネル関数の効率的な近似

Lecture notes: Efficient approximation of kernel functions ( http://arxiv.org/abs/2005.01566v1 )

ライセンス: Link先を確認
Amitabha Bagchi(参考訳) これらの講義ノートは、一般にカーネルの性質を理解するために必要な数学的背景と、特にRahimi and Recht (NIPS 2007) のランダムフーリエ特徴の近似を1つの場所で収集する試みである。 サポートベクタマシンの例を用いて,機械学習におけるカーネルの利用を短時間で動機づける。 正の定値および条件付き負の定値核を詳細に論じる。 再現ケルネルヒルベルト空間の構成を含むヒルベルト空間に関する簡単な議論の後、マーサーの定理を提示する。 ランダムフーリエ特徴の手法について考察し,その手法による誤差を推定するための証明,スカラー,マトリックス濃度の測定結果を提示した。 これらのノートは、IIT Delhiで2020年1月から4月にかけて行われた10の講義の書き起こしである。

These lecture notes endeavour to collect in one place the mathematical background required to understand the properties of kernels in general and the Random Fourier Features approximation of Rahimi and Recht (NIPS 2007) in particular. We briefly motivate the use of kernels in Machine Learning with the example of the support vector machine. We discuss positive definite and conditionally negative definite kernels in some detail. After a brief discussion of Hilbert spaces, including the Reproducing Kernel Hilbert Space construction, we present Mercer's theorem. We discuss the Random Fourier Features technique and then present, with proofs, scalar and matrix concentration results that help us estimate the error incurred by the technique. These notes are the transcription of 10 lectures given at IIT Delhi between January and April 2020.
翻訳日:2022-12-07 00:29:19 公開日:2020-05-04
# 分類された盗賊

Categorized Bandits ( http://arxiv.org/abs/2005.01656v1 )

ライセンス: Link先を確認
Matthieu Jedor, Jonathan Louedec, Vianney Perchet(参考訳) 我々は,「オーダード」カテゴリー内で腕をグループ化する,確率的マルチアームバンディットを新たに導入する。 モチベーションの高い例はeコマースで、顧客は一般的に、特定のよく識別されているが未知のカテゴリーのアイテムに対して、他のどのカテゴリーよりも高い欲求を持っている。 確率変数間の確率的支配から着想を得た,カテゴリ間の順序付けの3つの概念を導入する。 まず,各モデルに対する累積後悔に対するインスタンス依存の下位境界を証明し,順序付け概念の一般性によって,バンドイト問題の複雑性が増大することを示す。 また、モデルの構造と関連する理論的保証を完全に活用するアルゴリズムも提供する。 最後に,これらの順序付きカテゴリが実際に存在することを明らかにするために,実データの解析を行った。

We introduce a new stochastic multi-armed bandit setting where arms are grouped inside ``ordered'' categories. The motivating example comes from e-commerce, where a customer typically has a greater appetence for items of a specific well-identified but unknown category than any other one. We introduce three concepts of ordering between categories, inspired by stochastic dominance between random variables, which are gradually weaker so that more and more bandit scenarios satisfy at least one of them. We first prove instance-dependent lower bounds on the cumulative regret for each of these models, indicating how the complexity of the bandit problems increases with the generality of the ordering concept considered. We also provide algorithms that fully leverage the structure of the model with their associated theoretical guarantees. Finally, we have conducted an analysis on real data to highlight that those ordered categories actually exist in practice.
翻訳日:2022-12-07 00:21:22 公開日:2020-05-04
# コンテキスト帯域に対するハイパーパラメータチューニング

Hyper-parameter Tuning for the Contextual Bandit ( http://arxiv.org/abs/2005.02209v1 )

ライセンス: Link先を確認
Djallel Bouneffouf and Emmanuelle Claeys(参考訳) 本稿では,線形報酬関数を用いたコンテキストバンディット問題における探索的利用トレードオフの学習の問題について検討する。 文脈的帯域幅問題を解決する従来のアルゴリズムでは、探索はユーザが調整したパラメータである。 しかし,提案アルゴリズムは,観察された状況と,選択した行動に対する即時報酬に基づいて,適切な探索パラメータをオンラインで選択する。 本稿では,バンディットを用いてコンテキストバンディットアルゴリズムの最適探索を行う2つのアルゴリズムを提示し,マルチアーム付きバンディットアルゴリズムの自動化に向けた第一歩を期待する。

We study here the problem of learning the exploration exploitation trade-off in the contextual bandit problem with linear reward function setting. In the traditional algorithms that solve the contextual bandit problem, the exploration is a parameter that is tuned by the user. However, our proposed algorithm learn to choose the right exploration parameters in an online manner based on the observed context, and the immediate reward received for the chosen action. We have presented here two algorithms that uses a bandit to find the optimal exploration of the contextual bandit algorithm, which we hope is the first step toward the automation of the multi-armed bandit algorithm.
翻訳日:2022-12-07 00:21:07 公開日:2020-05-04
# プロトタイプ復元学習によるワンショット画像分類

One-Shot Image Classification by Learning to Restore Prototypes ( http://arxiv.org/abs/2005.01234v1 )

ライセンス: Link先を確認
Wanqi Xue, Wei Wang(参考訳) ワンショット画像分類は、カテゴリ毎に1つのイメージしか持たないデータセット上のイメージ分類器をトレーニングすることを目的としている。 最新のディープニューラルネットワークでは、1クラスあたり数百から数千の画像を必要とするのが普通だ。 本稿では,特徴空間におけるテスト画像と各クラスの中心間の距離を比較することで,少数の画像分類に応用されたメトリクス学習を採用する。 しかし,一対一の学習では,一対一の学習イメージがクラスを代表するものではないため,既存のメトリック学習アプローチは性能が低下する。 例えば、もし画像が特徴空間のクラス中心から遠く離れている場合、メトリックラーニングベースのアルゴリズムは、このノイズの多い画像によって決定境界が移動されるため、テスト画像の正確な予測を行うことができない。 この問題に対処するため,RestoreNet で表されるシンプルな回帰モデルを提案し,画像上のクラスに依存しない変換を学習し,画像が特徴空間のクラス中心に近付くようにする。 実験により、RestoreNetは幅広いデータセットの最先端メソッドよりも優れたパフォーマンスが得られることが示された。 さらにRestoreNetは、他のメソッドと簡単に組み合わせて、さらなる改善を実現できます。

One-shot image classification aims to train image classifiers over the dataset with only one image per category. It is challenging for modern deep neural networks that typically require hundreds or thousands of images per class. In this paper, we adopt metric learning for this problem, which has been applied for few- and many-shot image classification by comparing the distance between the test image and the center of each class in the feature space. However, for one-shot learning, the existing metric learning approaches would suffer poor performance because the single training image may not be representative of the class. For example, if the image is far away from the class center in the feature space, the metric-learning based algorithms are unlikely to make correct predictions for the test images because the decision boundary is shifted by this noisy image. To address this issue, we propose a simple yet effective regression model, denoted by RestoreNet, which learns a class agnostic transformation on the image feature to move the image closer to the class center in the feature space. Experiments demonstrate that RestoreNet obtains superior performance over the state-of-the-art methods on a broad range of datasets. Moreover, RestoreNet can be easily combined with other methods to achieve further improvement.
翻訳日:2022-12-07 00:20:56 公開日:2020-05-04
# 事前クラスセマンティクスを用いた視覚的質問応答

Visual Question Answering with Prior Class Semantics ( http://arxiv.org/abs/2005.01239v1 )

ライセンス: Link先を確認
Violetta Shevchenko, Damien Teney, Anthony Dick, Anton van den Hengel(参考訳) 本稿では,視覚的質問応答モデルに事前知識を組み込む新しいメカニズムを提案する。 タスクのオープンセットの性質は、固定された分類器のトレーニングのユビキタスなアプローチと相反する。 候補回答の意味に関する追加情報をどのように活用するかを示す。 我々は,単語埋め込みから得られた事前知識を用いて解答候補を投影する意味空間において,回帰目標を用いて解答予測プロセスを拡張した。 我々はGQAデータセットを用いて学習表現の広範な研究を行い、回答空間への埋め込みの関係において重要な意味情報が捕捉されることを示した。 本手法は,様々な質問型に対する一貫性と正確性の向上をもたらす。 トレーニング中に見つからない新しい回答を用いた実験は、オープンセット予測の方法の可能性を示している。

We present a novel mechanism to embed prior knowledge in a model for visual question answering. The open-set nature of the task is at odds with the ubiquitous approach of training of a fixed classifier. We show how to exploit additional information pertaining to the semantics of candidate answers. We extend the answer prediction process with a regression objective in a semantic space, in which we project candidate answers using prior knowledge derived from word embeddings. We perform an extensive study of learned representations with the GQA dataset, revealing that important semantic information is captured in the relations between embeddings in the answer space. Our method brings improvements in consistency and accuracy over a range of question types. Experiments with novel answers, unseen during training, indicate the method's potential for open-set prediction.
翻訳日:2022-12-07 00:20:37 公開日:2020-05-04
# 知覚的配向モデルの有効性について

On the Benefits of Models with Perceptually-Aligned Gradients ( http://arxiv.org/abs/2005.01499v1 )

ライセンス: Link先を確認
Gunjan Aggarwal, Abhishek Sinha, Nupur Kumari, Mayank Singh(参考訳) 敵対的ロバストモデルは、標準訓練されたモデルよりも堅牢で解釈可能な特徴を学ぶことが示されている。 上述の[\cite{tsipras2018robustness}] に示すように、そのような頑健なモデルは、勾配がイメージと知覚的にうまく整合する有用な解釈可能な性質を継承し、大きな対向摂動を加えると、ターゲットクラスに類似したイメージとなる。 敵攻撃に対する強靭性を示さないモデルにおいても、解釈可能かつ知覚的に整合した勾配が存在することを示す実験を行った。 具体的には,max-perturbationバウンドの異なる攻撃を交互に行う。 低最大摂動境界を持つ逆トレーニングは、クリーンサンプルよりもわずかに性能が低下した解釈可能な特徴を持つモデルに結果を与える。 本稿では,解釈可能な知覚整合性を持つモデルを活用し,最大摂動境界の低い対角トレーニングがゼロショットおよび弱教師付きローカライゼーションタスクのモデルの性能を向上させることを示す。

Adversarial robust models have been shown to learn more robust and interpretable features than standard trained models. As shown in [\cite{tsipras2018robustness}], such robust models inherit useful interpretable properties where the gradient aligns perceptually well with images, and adding a large targeted adversarial perturbation leads to an image resembling the target class. We perform experiments to show that interpretable and perceptually aligned gradients are present even in models that do not show high robustness to adversarial attacks. Specifically, we perform adversarial training with attack for different max-perturbation bound. Adversarial training with low max-perturbation bound results in models that have interpretable features with only slight drop in performance over clean samples. In this paper, we leverage models with interpretable perceptually-aligned features and show that adversarial training with low max-perturbation bound can improve the performance of models for zero-shot and weakly supervised localization tasks.
翻訳日:2022-12-07 00:20:27 公開日:2020-05-04
# Robust Encodings: 対立型タイポを議論するためのフレームワーク

Robust Encodings: A Framework for Combating Adversarial Typos ( http://arxiv.org/abs/2005.01229v1 )

ライセンス: Link先を確認
Erik Jones, Robin Jia, Aditi Raghunathan, and Percy Liang(参考訳) 多くのタスクにおける優れた性能にもかかわらず、NLPシステムは入力の小さな対向摂動によって容易に騙される。 このような混乱から守るための既存の手順は、どちらかである 一 自然界のヒューリスティックで、より強い攻撃を受けやすいこと (ii)最悪のケース攻撃に対して確実な堅牢性を提供するが、BERTのような最先端モデルと互換性がない。 本稿では,ロバストエンコーディング(RobEn):モデルアーキテクチャに妥協を加えることなく,ロバスト性を保証するシンプルなフレームワークを紹介する。 robenの中核となるコンポーネントは、文をより小さく離散的なエンコーディング空間にマッピングするエンコーディング関数である。 これらのエンコーディングをボトルネックとして使用するシステムは、標準トレーニングによる堅牢性を保証し、同じエンコーディングを複数のタスクで使用できる。 文の摂動は、小さなエンコーディング(安定性)のセットにマッピングされるべきであり、エンコーディングを用いたモデルは、依然としてうまく機能する(忠実性)。 我々はRobEnを敵のタイプミスの大家族から守るようインスタンス化する。 GLUEの6つのタスクのうち、BERTと組み合わせたRobEnのインスタンス化は、家族内の全ての敵のタイプミスに対して平均71.3%の堅牢な精度を達成する一方、タイポコレクターを用いた以前の研究は、単純なグレディ攻撃に対してわずか35.3%の精度しか達成していない。

Despite excellent performance on many tasks, NLP systems are easily fooled by small adversarial perturbations of inputs. Existing procedures to defend against such perturbations are either (i) heuristic in nature and susceptible to stronger attacks or (ii) provide guaranteed robustness to worst-case attacks, but are incompatible with state-of-the-art models like BERT. In this work, we introduce robust encodings (RobEn): a simple framework that confers guaranteed robustness, without making compromises on model architecture. The core component of RobEn is an encoding function, which maps sentences to a smaller, discrete space of encodings. Systems using these encodings as a bottleneck confer guaranteed robustness with standard training, and the same encodings can be used across multiple tasks. We identify two desiderata to construct robust encoding functions: perturbations of a sentence should map to a small set of encodings (stability), and models using encodings should still perform well (fidelity). We instantiate RobEn to defend against a large family of adversarial typos. Across six tasks from GLUE, our instantiation of RobEn paired with BERT achieves an average robust accuracy of 71.3% against all adversarial typos in the family considered, while previous work using a typo-corrector achieves only 35.3% accuracy against a simple greedy attack.
翻訳日:2022-12-07 00:20:05 公開日:2020-05-04
# 自然言語フィードバックを用いたReward Constrained Interactive Recommendation

Reward Constrained Interactive Recommendation with Natural Language Feedback ( http://arxiv.org/abs/2005.01618v1 )

ライセンス: Link先を確認
Ruiyi Zhang, Tong Yu, Yilin Shen, Hongxia Jin, Changyou Chen, Lawrence Carin(参考訳) テキストベースのインタラクティブレコメンデーションはよりリッチなユーザフィードバックを提供し、従来のインタラクティブレコメンデーションシステムよりもアドバンテージを示している。 しかし、レコメンデーションは、さらなる改善のために新しい項目を探索する必要があるため、過去の自然言語フィードバックからのユーザの好みに簡単に違反する可能性がある。 この問題を軽減するために,時間とともにユーザの好みを効率的に組み込むための制約強化学習(RL)フレームワークを提案する。 具体的には,ユーザの歴史的好みに違反するレコメンデーションを判別器を用いて検出し,期待累積的な将来報酬を最大化する標準rl目標に組み込む。 提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。 実験の結果,提案手法は標準RL法と比較して一貫した改善が得られた。

Text-based interactive recommendation provides richer user feedback and has demonstrated advantages over traditional interactive recommender systems. However, recommendations can easily violate preferences of users from their past natural-language feedback, since the recommender needs to explore new items for further improvement. To alleviate this issue, we propose a novel constraint-augmented reinforcement learning (RL) framework to efficiently incorporate user preferences over time. Specifically, we leverage a discriminator to detect recommendations violating user historical preference, which is incorporated into the standard RL objective of maximizing expected cumulative future rewards. Our proposed framework is general and is further extended to the task of constrained text generation. Empirical results show that the proposed method yields consistent improvement relative to standard RL methods.
翻訳日:2022-12-07 00:19:40 公開日:2020-05-04
# ソーシャルメディアにおける危険音声の理解と検出

Understanding and Detecting Dangerous Speech in Social Media ( http://arxiv.org/abs/2005.06608v1 )

ライセンス: Link先を確認
Ali Alshehri, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) ソーシャルメディアのコミュニケーションは、現代社会における日々の活動の重要な部分となっている。 そのため、ソーシャルメディアプラットフォームにおける安全性の確保が不可欠である。 オンライン環境における物理的な脅威のような危険な言語の使用は稀だが、それでも非常に重要である。 攻撃的・憎悪的な言語を検知する関連問題に関して、いくつかの研究がなされているが、これまで、危険なスピーチは重要な方法で扱われていなかった。 これらの観察に動機づけられ,危険な発話のためのラベル付きデータセットの構築に向けた取り組みを報告した。 また、我々のデータセットを利用して、危険なコンテンツを検出するための非常に効果的なモデルを構築します。 我々の最良のモデルは59.60%のマクロF1で動作し、競争ベースラインを大幅に上回っている。

Social media communication has become a significant part of daily activity in modern societies. For this reason, ensuring safety in social media platforms is a necessity. Use of dangerous language such as physical threats in online environments is a somewhat rare, yet remains highly important. Although several works have been performed on the related issue of detecting offensive and hateful language, dangerous speech has not previously been treated in any significant way. Motivated by these observations, we report our efforts to build a labeled dataset for dangerous speech. We also exploit our dataset to develop highly effective models to detect dangerous content. Our best model performs at 59.60% macro F1, significantly outperforming a competitive baseline.
翻訳日:2022-12-07 00:19:05 公開日:2020-05-04
# 遠隔未来モデリングによるテキスト生成の改善

Improving Adversarial Text Generation by Modeling the Distant Future ( http://arxiv.org/abs/2005.01279v1 )

ライセンス: Link先を確認
Ruiyi Zhang, Changyou Chen, Zhe Gan, Wenlin Wang, Dinghan Shen, Guoyin Wang, Zheng Wen, Lawrence Carin(参考訳) 自動回帰テキスト生成モデルは通常、局所的な流布に焦点を当て、長文生成において一貫性のない意味を生じることがある。 さらに、類似した意味を持つ単語の自動生成は困難であり、手作りの言語規則の適用は困難である。 テキスト計画手法を検討し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。 具体的には,次の単語の予測を補助し,ジェネレータ最適化のための中間的な報酬を与える,より長い地平線上の生成過程に焦点をあてた新しいガイドネットワークを提案する。 広範な実験により,提案手法が性能向上に繋がることが示された。

Auto-regressive text generation models usually focus on local fluency, and may cause inconsistent semantic meaning in long text generation. Further, automatically generating words with similar semantics is challenging, and hand-crafted linguistic rules are difficult to apply. We consider a text planning scheme and present a model-based imitation-learning approach to alleviate the aforementioned issues. Specifically, we propose a novel guider network to focus on the generative process over a longer horizon, which can assist next-word prediction and provide intermediate rewards for generator optimization. Extensive experiments demonstrate that the proposed method leads to improved performance.
翻訳日:2022-12-07 00:12:55 公開日:2020-05-04
# 近世印刷のタイポグラフィー解析のための確率論的生成モデル

A Probabilistic Generative Model for Typographical Analysis of Early Modern Printing ( http://arxiv.org/abs/2005.01646v1 )

ライセンス: Link先を確認
Kartik Goyal, Chris Dyer, Christopher Warren, Max G'Sell, Taylor Berg-Kirkpatrick(参考訳) 近世文書のグリフ形状を分析するために, 深く, 解釈可能な確率的生成モデルを提案する。 我々は,複数の分散源が存在する場合に,抽出されたグリフ画像を基盤となるテンプレートにクラスタリングすることに焦点を当てる。 提案手法では,まず,テンプレートパラメータの空間摂動などのよく理解された印刷現象を解釈可能な潜伏変数を介して生成し,その変化,ジッタ,アーカイブプロセスからのノイズ,および初期近代印刷に関連する他の予期せぬ現象をインキングする非解釈可能な潜伏ベクトルを生成することにより,結果を修正する。 重要なことは、入力が観察と解釈可能修正テンプレートの間の視覚的残差に制限される推論ネットワークを導入することにより、ベクトル値の潜在変数が取得するものを制御および分離することができる。 本手法は,混在文書中の書体を完全に教師なしで発見する作業において,厳密な解釈可能なクラスタリングベースライン(Ocular)および過度に柔軟な深層生成モデル(VAE)よりも優れていることを示す。

We propose a deep and interpretable probabilistic generative model to analyze glyph shapes in printed Early Modern documents. We focus on clustering extracted glyph images into underlying templates in the presence of multiple confounding sources of variance. Our approach introduces a neural editor model that first generates well-understood printing phenomena like spatial perturbations from template parameters via interpertable latent variables, and then modifies the result by generating a non-interpretable latent vector responsible for inking variations, jitter, noise from the archiving process, and other unforeseen phenomena associated with Early Modern printing. Critically, by introducing an inference network whose input is restricted to the visual residual between the observation and the interpretably-modified template, we are able to control and isolate what the vector-valued latent variable captures. We show that our approach outperforms rigid interpretable clustering baselines (Ocular) and overly-flexible deep generative models (VAE) alike on the task of completely unsupervised discovery of typefaces in mixed-font documents.
翻訳日:2022-12-07 00:12:22 公開日:2020-05-04
# 概念ローカライゼーションマップを用いたAIに基づく意思決定支援システムの解説

Explaining AI-based Decision Support Systems using Concept Localization Maps ( http://arxiv.org/abs/2005.01399v1 )

ライセンス: Link先を確認
Adriano Lucieri, Muhammad Naseer Bajwa, Andreas Dengel and Sheraz Ahmed(参考訳) 視覚的入力モダリティを用いたAIベースの意思決定支援システム(DSS)の人間中心的説明性は、そのようなアルゴリズムの信頼性と実用性に直接関係している。 さもなければ正確で堅牢なdssは、その予測を合理的に正当化できない場合、重要なアプリケーション分野の専門家の信頼を享受できないかもしれない。 本稿では,dssとして用いる画像分類器に対する新しいアプローチである概念局在マップ(clms)を提案する。 CLMは、訓練された画像分類器の潜在空間において、学習された概念に対応する重要な領域を特定することで、概念活性化ベクトル(CAV)を拡張する。 これらは、画像認識中に人間にとって重要な類似概念を学習し集中する分類器の能力の質的かつ定量的な保証を提供する。 提案手法の有効性をよりよく理解するために,10の識別可能な概念に対するアノテーションを含む,Simple Concept DataBase (SCDB) と呼ばれる新しい合成データセットを作成し,公開した。 提案手法をSCDBおよびCelebAと呼ばれる実世界のデータセット上で評価した。 SCDB上でSE-ResNeXt-50を用いて,最も関連する概念の80%以上をローカライズリコールし,すべての概念の60%以上を平均リコールした。 両データセットの結果から,実際にDSSの受け入れを緩和するCLMの有望性が確認された。

Human-centric explainability of AI-based Decision Support Systems (DSS) using visual input modalities is directly related to reliability and practicality of such algorithms. An otherwise accurate and robust DSS might not enjoy trust of experts in critical application areas if it is not able to provide reasonable justification of its predictions. This paper introduces Concept Localization Maps (CLMs), which is a novel approach towards explainable image classifiers employed as DSS. CLMs extend Concept Activation Vectors (CAVs) by locating significant regions corresponding to a learned concept in the latent space of a trained image classifier. They provide qualitative and quantitative assurance of a classifier's ability to learn and focus on similar concepts important for humans during image recognition. To better understand the effectiveness of the proposed method, we generated a new synthetic dataset called Simple Concept DataBase (SCDB) that includes annotations for 10 distinguishable concepts, and made it publicly available. We evaluated our proposed method on SCDB as well as a real-world dataset called CelebA. We achieved localization recall of above 80% for most relevant concepts and average recall above 60% for all concepts using SE-ResNeXt-50 on SCDB. Our results on both datasets show great promise of CLMs for easing acceptance of DSS in practice.
翻訳日:2022-12-07 00:11:26 公開日:2020-05-04
# Sum-Product-Transform Networks: Invertible Transformations を用いた爆発的対称性

Sum-Product-Transform Networks: Exploiting Symmetries using Invertible Transformations ( http://arxiv.org/abs/2005.01297v1 )

ライセンス: Link先を確認
Tomas Pevny, Vasek Smidl, Martin Trapp, Ondrej Polacek, Tomas Oberhuber(参考訳) 本研究では,非可逆変換を内部ノードとして用いる和積ネットワークの拡張であるSum-Product-Transform Networks (SPTN)を提案する。 変換のタイプと配置は、多くの興味深い特別なケースで結果のSPTNの特性を決定する。 重要なことに、ガウスの葉とアフィン変換を持つSPTNは、SPNで効率的に計算できるのと同じ推論タスクを引き出すことができる。 本稿では,一元行列の効率的なパラメトリゼーションを,アフィン変換をSVD分解に応用することを提案する。 最後に、G-SPTNが密度推定タスクの最先端結果を実現し、異常検出のための最先端手法と競合することを示す。

In this work, we propose Sum-Product-Transform Networks (SPTN), an extension of sum-product networks that uses invertible transformations as additional internal nodes. The type and placement of transformations determine properties of the resulting SPTN with many interesting special cases. Importantly, SPTN with Gaussian leaves and affine transformations pose the same inference task tractable that can be computed efficiently in SPNs. We propose to store affine transformations in their SVD decompositions using an efficient parametrization of unitary matrices by a set of Givens rotations. Last but not least, we demonstrate that G-SPTNs achieve state-of-the-art results on the density estimation task and are competitive with state-of-the-art methods for anomaly detection.
翻訳日:2022-12-07 00:11:04 公開日:2020-05-04
# 潜在テンソル再構成による高階数と一定メモリ複雑性度を有する大規模非線形回帰問題の一解法

A Solution for Large Scale Nonlinear Regression with High Rank and Degree at Constant Memory Complexity via Latent Tensor Reconstruction ( http://arxiv.org/abs/2005.01538v1 )

ライセンス: Link先を確認
Sandor Szedmak (1), Anna Cichonska (1), Heli Julkunen (1), Tapio Pahikkala (2), Juho Rousu (1), ((1) Aalto University, (2) University of Turku)(参考訳) 本稿では,高非線形多変量関数を例から学習する新しい手法を提案する。 本手法は, 連続関数を多項式で近似できるという性質を生かして, テンソルで表現できる。 したがって、関数学習問題はテンソル分解の逆問題であるテンソル再構成問題へと変換される。 本手法では,ランク1項から未知テンソルを段階的に構築し,学習モデルの複雑さを制御し,過度に適合する確率を低減する。 モデルの学習には, サンプルサイズ, 順序, テンソルのランク, 入力の次元において, 線形時間で実装できる効率的な勾配に基づくアルゴリズムを提案する。 回帰に加えて,分類,多視点学習,ベクトル値アウトプットの拡張や多層定式化について述べる。 この方法は、データのミニバッチを一定メモリの複雑さで処理することで、オンライン形式で動作することができる。 これにより、組み込みシステムや携帯電話などの限られたリソースのみを備えたシステムに適合することができる。 本実験は,競合する手法と比較して,良好な精度と走行時間を示す。

This paper proposes a novel method for learning highly nonlinear, multivariate functions from examples. Our method takes advantage of the property that continuous functions can be approximated by polynomials, which in turn are representable by tensors. Hence the function learning problem is transformed into a tensor reconstruction problem, an inverse problem of the tensor decomposition. Our method incrementally builds up the unknown tensor from rank-one terms, which lets us control the complexity of the learned model and reduce the chance of overfitting. For learning the models, we present an efficient gradient-based algorithm that can be implemented in linear time in the sample size, order, rank of the tensor and the dimension of the input. In addition to regression, we present extensions to classification, multi-view learning and vector-valued output as well as a multi-layered formulation. The method can work in an online fashion via processing mini-batches of the data with constant memory complexity. Consequently, it can fit into systems equipped only with limited resources such as embedded systems or mobile phones. Our experiments demonstrate a favorable accuracy and running time compared to competing methods.
翻訳日:2022-12-07 00:10:20 公開日:2020-05-04
# ハイブリッド変換とスパイクタイミング依存バックプロパゲーションによるディープスパイクニューラルネットワークの実現

Enabling Deep Spiking Neural Networks with Hybrid Conversion and Spike Timing Dependent Backpropagation ( http://arxiv.org/abs/2005.01807v1 )

ライセンス: Link先を確認
Nitin Rathi, Gopalakrishnan Srinivasan, Priyadarshini Panda, Kaushik Roy(参考訳) スパイキングニューラルネットワーク(SNN)は非同期離散イベント(あるいはスパイク)で動作し、ニューロモルフィックハードウェア実装のエネルギー効率を高める可能性がある。 多くの研究は、トレーニングされたニューラルネットワーク(ann)から重みをコピーし、その層で受信される最大入力として各層に対する発射閾値を設定することで、推論のためのsnを形成することができることを示した。 これらの変換SNNは、競争精度を達成するために多くの時間ステップを必要とするため、省エネ性が低下する。 スパイクベースのバックプロパゲーションをゼロからトレーニングすることで、タイムステップの数を削減できるが、これは計算コストが高く、遅い。 これらの課題に対処するために,深層SNNのための計算効率の高いトレーニング手法を提案する。 ハイブリッドトレーニング手法を提案する。 1)変換SNNを用いて、スパイクベースのバックプロパゲーションの初期化ステップとして重量と閾値を使用する。 2) インクリメンタルスパイクタイピング依存バックプロパゲーション(STDB)を慎重に初期化したネットワーク上で実行し, わずかなエポック内に収束し, 入力処理に要する時間ステップを少なくするSNNを得る。 STDBはニューロンのスパイク時間を用いて定義された新しい代理勾配関数を用いて実行される。 提案手法は,標準画像分類データセットにおけるスパイクベースバックプロパゲーションの20歳未満に収束し,snsをスクラッチからトレーニングするよりもトレーニングの複雑さを著しく低減する。 我々は,CIFAR-10,CIFAR-100,およびVGGおよびResNetアーキテクチャ用のImageNetデータセットについて実験を行った。 我々は、SNN上のImageNetデータセットの65.19%のトップ1精度を250タイムステップで達成し、同様の精度で変換されたSNNに比べて10倍高速である。

Spiking Neural Networks (SNNs) operate with asynchronous discrete events (or spikes) which can potentially lead to higher energy-efficiency in neuromorphic hardware implementations. Many works have shown that an SNN for inference can be formed by copying the weights from a trained Artificial Neural Network (ANN) and setting the firing threshold for each layer as the maximum input received in that layer. These type of converted SNNs require a large number of time steps to achieve competitive accuracy which diminishes the energy savings. The number of time steps can be reduced by training SNNs with spike-based backpropagation from scratch, but that is computationally expensive and slow. To address these challenges, we present a computationally-efficient training technique for deep SNNs. We propose a hybrid training methodology: 1) take a converted SNN and use its weights and thresholds as an initialization step for spike-based backpropagation, and 2) perform incremental spike-timing dependent backpropagation (STDB) on this carefully initialized network to obtain an SNN that converges within few epochs and requires fewer time steps for input processing. STDB is performed with a novel surrogate gradient function defined using neuron's spike time. The proposed training methodology converges in less than 20 epochs of spike-based backpropagation for most standard image classification datasets, thereby greatly reducing the training complexity compared to training SNNs from scratch. We perform experiments on CIFAR-10, CIFAR-100, and ImageNet datasets for both VGG and ResNet architectures. We achieve top-1 accuracy of 65.19% for ImageNet dataset on SNN with 250 time steps, which is 10X faster compared to converted SNNs with similar accuracy.
翻訳日:2022-12-07 00:04:10 公開日:2020-05-04
# ベイズ進化アルゴリズムを用いた最適化における時間効率

Time Efficiency in Optimization with a Bayesian-Evolutionary Algorithm ( http://arxiv.org/abs/2005.04166v1 )

ライセンス: Link先を確認
Gongjin Lan, Jakub M. Tomczak, Diederik M. Roijers, A.E. Eiben(参考訳) すべての生成・テスト検索アルゴリズムが等しく作成されるわけではない。 ベイズ最適化 (bayesian optimization, bo) は、予測された値と全てのデータに対する不確実性とを最もよくバランスさせる候補解を生成するために、多くの計算時間を費やす。 一方、進化的アルゴリズム(EA)は、通常すべての過去のデータに依存しない探索ヒューリスティックに依存し、一定時間で実行できる。 BOコミュニティとEAコミュニティは、一般的に、評価の回数の関数としてパフォーマンスを評価します。 しかし、これらのアルゴリズムのクラスの効率を比較すると、候補となる解を生成するオーバーヘッド時間が著しく異なるため、これは不公平である。 本稿では,計算時間単位当たりの目的値の期待値として,生成とテストのアルゴリズムの効率を測定することを提案する。 提案手法では,複数の関数評価を行った後,アルゴリズムの好みが変化することを確認した。 そこで我々はベイズ最適化と進化的アルゴリズムの組み合わせであるbeaをboで開始し、知識をeaに転送し、eaを実行する新しいアルゴリズムを提案する。 BEAとBOとEAを比較します。 その結果、BEA は BO と EA の両方を時間効率で上回り、最終的には多くの局所最適値を持つよく知られたベンチマーク対象関数の性能が向上することがわかった。 さらに,9つのロボット学習問題に対して3つのアルゴリズムを検証したところ,BEAが他のアルゴリズムよりも優れていることがわかった。

Not all generate-and-test search algorithms are created equal. Bayesian Optimization (BO) invests a lot of computation time to generate the candidate solution that best balances the predicted value and the uncertainty given all previous data, taking increasingly more time as the number of evaluations performed grows. Evolutionary Algorithms (EA) on the other hand rely on search heuristics that typically do not depend on all previous data and can be done in constant time. Both the BO and EA community typically assess their performance as a function of the number of evaluations. However, this is unfair once we start to compare the efficiency of these classes of algorithms, as the overhead times to generate candidate solutions are significantly different. We suggest to measure the efficiency of generate-and-test search algorithms as the expected gain in the objective value per unit of computation time spent. We observe that the preference of an algorithm to be used can change after a number of function evaluations. We therefore propose a new algorithm, a combination of Bayesian optimization and an Evolutionary Algorithm, BEA for short, that starts with BO, then transfers knowledge to an EA, and subsequently runs the EA. We compare the BEA with BO and the EA. The results show that BEA outperforms both BO and the EA in terms of time efficiency, and ultimately leads to better performance on well-known benchmark objective functions with many local optima. Moreover, we test the three algorithms on nine test cases of robot learning problems and here again we find that BEA outperforms the other algorithms.
翻訳日:2022-12-07 00:03:40 公開日:2020-05-04
# ニューラルネットワークのスパイキング ハードウェア実装と課題:サーベイ

Spiking Neural Networks Hardware Implementations and Challenges: a Survey ( http://arxiv.org/abs/2005.01467v1 )

ライセンス: Link先を確認
Maxence Bouvier, Alexandre Valentian, Thomas Mesquida, Fran\c{c}ois Rummens, Marina Reyboz, Elisa Vianello, Edith Beign\'e(参考訳) それゆえ、ニューロモルフィックコンピューティングは学術的・産業的な双方にとって大きな研究分野である。 Von Neumannマシンとは対照的に、ブレインインインスパイアされたプロセッサは、機械学習アルゴリズムを効率的に評価するために、メモリと計算要素をより近づけることを目指している。 近年,ニューラルネットワークとシナプス操作原理を模倣する計算プリミティブを用いた認知アルゴリズムであるSpking Neural Networksが,ディープラーニングの重要な部分となっている。 ニューラルネットワークの計算性能と効率を改善することが期待されているが、ハードウェアが時間的ダイナミクスをサポートするのに最適である。 本稿では,スパイキングニューラルネットワークのハードウェア実装の現状と,モデル選択からトレーニング機構に至るまでのアルゴリズム解明の動向について述べる。 既存のソリューションの範囲は広いので、一般的な枠組みを示し、関連する特異性についてケースバイケースで検討する。 本稿では、これらのイベント駆動アルゴリズムの特徴をハードウェアレベルで活用するための戦略について述べ、関連する利点と課題について論じる。

Neuromorphic computing is henceforth a major research field for both academic and industrial actors. As opposed to Von Neumann machines, brain-inspired processors aim at bringing closer the memory and the computational elements to efficiently evaluate machine-learning algorithms. Recently, Spiking Neural Networks, a generation of cognitive algorithms employing computational primitives mimicking neuron and synapse operational principles, have become an important part of deep learning. They are expected to improve the computational performance and efficiency of neural networks, but are best suited for hardware able to support their temporal dynamics. In this survey, we present the state of the art of hardware implementations of spiking neural networks and the current trends in algorithm elaboration from model selection to training mechanisms. The scope of existing solutions is extensive; we thus present the general framework and study on a case-by-case basis the relevant particularities. We describe the strategies employed to leverage the characteristics of these event-driven algorithms at the hardware level and discuss their related advantages and challenges.
翻訳日:2022-12-07 00:03:17 公開日:2020-05-04
# 人間のように作曲する--現代漢詩のコヒーレンスと新しさを共同で改善する

Compose Like Humans: Jointly Improving the Coherence and Novelty for Modern Chinese Poetry Generation ( http://arxiv.org/abs/2005.01556v1 )

ライセンス: Link先を確認
Lei Shen, Xiaoyu Guo, Meng Chen(参考訳) 中国詩は世界文化の重要な部分であり、古典的・近代的なサブブランチは全く異なる。 前者は独特なジャンルであり、厳格な制約があるが、後者は非常に柔軟で、韻律は任意であり、他の言語の近代詩と類似している。 したがって、コヒーレンスをコントロールし、新規性を改善する必要がある。 本稿では,コヒーレンスとノベルティを共同で改善するための生成・再生・再定義パラダイムを提案する。 第一段階では、ドラフトは与えられたキーワード(トピック)のみを生成する。 第2段階は、検索行から「精製ベクトル」を生成する。 最終的に、新しい詩を生成するために、草稿と「精製ベクター」の両方を考慮に入れた。 ドラフトは、生成される行の将来の文レベル情報を提供する。 一方、「精製ベクトル」は、参照から良いパターンを学習し、挿入操作によって新しいパターンを生成できる印象的な単語検出機構に基づく改良の方向性を指摘する。 大規模な漢詩データセットによる実験結果から,提案手法はより一貫性のある詩を生成できるだけでなく,多様性や新奇性を向上できることが示された。

Chinese poetry is an important part of worldwide culture, and classical and modern sub-branches are quite different. The former is a unique genre and has strict constraints, while the latter is very flexible in length, optional to have rhymes, and similar to modern poetry in other languages. Thus, it requires more to control the coherence and improve the novelty. In this paper, we propose a generate-retrieve-then-refine paradigm to jointly improve the coherence and novelty. In the first stage, a draft is generated given keywords (i.e., topics) only. The second stage produces a "refining vector" from retrieval lines. At last, we take into consideration both the draft and the "refining vector" to generate a new poem. The draft provides future sentence-level information for a line to be generated. Meanwhile, the "refining vector" points out the direction of refinement based on impressive words detection mechanism which can learn good patterns from references and then create new ones via insertion operation. Experimental results on a collected large-scale modern Chinese poetry dataset show that our proposed approach can not only generate more coherent poems, but also improve the diversity and novelty.
翻訳日:2022-12-07 00:02:49 公開日:2020-05-04
# ADVISER: マルチモーダル・マルチドメイン・ソーシャル型会話エージェントの開発のためのツールキット

ADVISER: A Toolkit for Developing Multi-modal, Multi-domain and Socially-engaged Conversational Agents ( http://arxiv.org/abs/2005.01777v1 )

ライセンス: Link先を確認
Chia-Yu Li, Daniel Ortega, Dirk V\"ath, Florian Lux, Lindsey Vanderlyn, Maximilian Schmidt, Michael Neumann, Moritz V\"olkel, Pavel Denisov, Sabrina Jenne, Zorica Kacarevic and Ngoc Thang Vu(参考訳) 本稿では,マルチモーダル(音声,テキスト,視覚を含む),社会的に関与した(感情認識,エンゲージメントレベル予測,バックチャネル化など)対話エージェントの開発を可能にする,オープンソースのマルチドメイン対話システムツールキットである advisorを提案する。 私たちのツールキットの最終的なPythonベースの実装は柔軟で使いやすく、機械学習研究者のような技術的に経験のあるユーザだけでなく、言語学者や認知科学者のような技術的に経験の浅いユーザのためにも拡張が容易です。 オープンソースコードへのリンク: https://github.com/digitalphonetics/adviser

We present ADVISER - an open-source, multi-domain dialog system toolkit that enables the development of multi-modal (incorporating speech, text and vision), socially-engaged (e.g. emotion recognition, engagement level prediction and backchanneling) conversational agents. The final Python-based implementation of our toolkit is flexible, easy to use, and easy to extend not only for technically experienced users, such as machine learning researchers, but also for less technically experienced users, such as linguists or cognitive scientists, thereby providing a flexible platform for collaborative research. Link to open-source code: https://github.com/DigitalPhonetics/adviser
翻訳日:2022-12-07 00:02:28 公開日:2020-05-04
# 隣人へのスパイ行為:周囲の単語の情報に対する文脈埋め込みのきめ細かい探究

Spying on your neighbors: Fine-grained probing of contextual embeddings for information about surrounding words ( http://arxiv.org/abs/2005.01810v1 )

ライセンス: Link先を確認
Josef Klafka and Allyson Ettinger(参考訳) 文脈的単語埋め込みを用いたモデルは、NLPタスクのホスト上で最先端の結果を得たが、これらの埋め込みが反映されるコンテキストワードについてエンコードする情報について正確には分かっていない。 この問題に対処するために,周辺単語の情報エンコーディングのための文脈埋め込みのきめ細かいテストを可能にする探索タスクスイートを導入する。 これらのタスクをbert、elmo、gptのコンテクストエンコーダに適用し、テストした各情報型がトークン間のコンテクスト情報として実際にエンコードされ、ほぼ完全なリカバリ性を持つことが分かりました。 トークン埋め込みを構築する際に,異なる種類のモデルがどのように分解し,単語レベルのコンテキスト情報を優先するかを考察する。

Although models using contextual word embeddings have achieved state-of-the-art results on a host of NLP tasks, little is known about exactly what information these embeddings encode about the context words that they are understood to reflect. To address this question, we introduce a suite of probing tasks that enable fine-grained testing of contextual embeddings for encoding of information about surrounding words. We apply these tasks to examine the popular BERT, ELMo and GPT contextual encoders, and find that each of our tested information types is indeed encoded as contextual information across tokens, often with near-perfect recoverability-but the encoders vary in which features they distribute to which tokens, how nuanced their distributions are, and how robust the encoding of each feature is to distance. We discuss implications of these results for how different types of models breakdown and prioritize word-level context information when constructing token embeddings.
翻訳日:2022-12-07 00:02:15 公開日:2020-05-04
# 単語は不十分, 順序は重要: 視覚的参照表現の基盤化の頑健性について

Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions ( http://arxiv.org/abs/2005.01655v1 )

ライセンス: Link先を確認
Arjun R Akula, Spandana Gella, Yaser Al-Onaizan, Song-Chun Zhu, Siva Reddy(参考訳) 視覚的参照表現認識は、画像のコンテキストにおける自然言語理解を必要とする課題である。 このタスクの標準ベンチマークであるrefcocogを人間による研究を用いて批判的に検証し、83.7%のテストインスタンスが言語構造について推論を必要とせず、すなわち、単語は対象オブジェクトを識別するのに十分であり、単語の順序は重要ではないことを示した。 既存のモデルの真の進捗を測定するために、私たちはテストセットを2つのセットに分けました。 さらに、ターゲットオブジェクトが変化するようなドメイン内の例を乱すように、crowdworkersに依頼することで、分散データセットref-advを作成します。 これらのデータセットを用いて,既存の手法では言語構造を活用できず,本課題の確立した進歩よりも12%から23%性能が低下することを示す。 また,マルチタスク学習に基づくコントラスト学習と,マルチタスク学習に基づく2つの手法を提案し,その課題に対する現在の最先端モデルであるViLBERTのロバスト性を高める。 私たちのデータセットはhttps://github.com/aws/aws-refcocog-advで公開されています。

Visual referring expression recognition is a challenging task that requires natural language understanding in the context of an image. We critically examine RefCOCOg, a standard benchmark for this task, using a human study and show that 83.7% of test instances do not require reasoning on linguistic structure, i.e., words are enough to identify the target object, the word order doesn't matter. To measure the true progress of existing models, we split the test set into two sets, one which requires reasoning on linguistic structure and the other which doesn't. Additionally, we create an out-of-distribution dataset Ref-Adv by asking crowdworkers to perturb in-domain examples such that the target object changes. Using these datasets, we empirically show that existing methods fail to exploit linguistic structure and are 12% to 23% lower in performance than the established progress for this task. We also propose two methods, one based on contrastive learning and the other based on multi-task learning, to increase the robustness of ViLBERT, the current state-of-the-art model for this task. Our datasets are publicly available at https://github.com/aws/aws-refcocog-adv
翻訳日:2022-12-07 00:01:55 公開日:2020-05-04
# 複素振幅位相ボルツマン機械

Complex Amplitude-Phase Boltzmann Machines ( http://arxiv.org/abs/2005.01862v1 )

ライセンス: Link先を確認
Zengyi Li, Friedrich T. Sommer(参考訳) 我々はボルツマンマシンの枠組みを、複雑な振幅を持つニューロンのネットワークに拡張し、複素振幅-位相ボルツマンマシン(CAP-BM)と呼ぶ。 このモデルは複雑なデータの振幅と相対位相分布について教師なし学習を行うことができる。 ギブス分布のサンプリング規則とモデルの学習規則を示す。 複素振幅-位相制限ボルツマンマシン(CAP-RBM)における学習は、合成複素数値画像と複素ウェーブレット変換で変換された手書きMNIST桁で実証される。 具体的には,新しい振幅振幅-振幅結合項の必要性を示す。 提案モデルは、振幅変動を伴う複素値データを含む機械学習タスクや、ボルツマンサンプリングを複素領域で実行できる結合発振器やニューロモルフィックハードウェアなどの新しい計算ハードウェアのためのアルゴリズムの開発に有用である。

We extend the framework of Boltzmann machines to a network of complex-valued neurons with variable amplitudes, referred to as Complex Amplitude-Phase Boltzmann machine (CAP-BM). The model is capable of performing unsupervised learning on the amplitude and relative phase distribution in complex data. The sampling rule of the Gibbs distribution and the learning rules of the model are presented. Learning in a Complex Amplitude-Phase restricted Boltzmann machine (CAP-RBM) is demonstrated on synthetic complex-valued images, and handwritten MNIST digits transformed by a complex wavelet transform. Specifically, we show the necessity of a new amplitude-amplitude coupling term in our model. The proposed model is potentially valuable for machine learning tasks involving complex-valued data with amplitude variation, and for developing algorithms for novel computation hardware, such as coupled oscillators and neuromorphic hardware, on which Boltzmann sampling can be executed in the complex domain.
翻訳日:2022-12-06 23:54:59 公開日:2020-05-04
# 長所効果最小化による対話生成改善のための新しいデータ正規化法

A New Data Normalization Method to Improve Dialogue Generation by Minimizing Long Tail Effect ( http://arxiv.org/abs/2005.01278v1 )

ライセンス: Link先を確認
Zhiqiang Zhan, Zifeng Hou, Yang Zhang(参考訳) 最近のニューラルモデルでは対話生成が著しく進展している。 ほとんどの世代モデルは言語モデルに基づいている。 しかし、言語学におけるロングテール現象のため、訓練されたモデルは訓練データセットに頻繁に現れる単語を生成する傾向にあり、単調な問題に繋がる。 この問題に対処するために,wikipediaの大規模コーパスを分析し,頻度に基づく3つのデータ正規化手法を提案する。 ソーシャルメディア,サブタイトル,産業アプリケーションからそれぞれ収集した3つのデータセットとトランスフォーマーに基づく広範な実験を行う。 実験結果は,生成した応答の多様性と情報性(名詞と動詞の数として定義される)が著しく向上したことを示す。 具体的には、ユニグラムとビッグラムの多様性は3つのデータセットでそれぞれ2.6%-12.6%と2.2%-18.9%増加する。 さらに、情報性、すなわち名詞と動詞の数をそれぞれ4.0%-7.0%および1.4%-12.1%増加させる。 さらに、単純さと有効性により、計算コストを余分に増やさずに異なる世代モデルに適応することができる。

Recent neural models have shown significant progress in dialogue generation. Most generation models are based on language models. However, due to the Long Tail Phenomenon in linguistics, the trained models tend to generate words that appear frequently in training datasets, leading to a monotonous issue. To address this issue, we analyze a large corpus from Wikipedia and propose three frequency-based data normalization methods. We conduct extensive experiments based on transformers and three datasets respectively collected from social media, subtitles, and the industrial application. Experimental results demonstrate significant improvements in diversity and informativeness (defined as the numbers of nouns and verbs) of generated responses. More specifically, the unigram and bigram diversity are increased by 2.6%-12.6% and 2.2%-18.9% on the three datasets, respectively. Moreover, the informativeness, i.e. the numbers of nouns and verbs, are increased by 4.0%-7.0% and 1.4%-12.1%, respectively. Additionally, the simplicity and effectiveness enable our methods to be adapted to different generation models without much extra computational cost.
翻訳日:2022-12-06 23:54:43 公開日:2020-05-04
# 説明可能なAIを評価する: ユーザーがモデル行動を予測するのに役立つアルゴリズム的説明

Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior? ( http://arxiv.org/abs/2005.01831v1 )

ライセンス: Link先を確認
Peter Hase, Mohit Bansal(参考訳) 近年,機械学習モデルの解釈に対するアルゴリズム的アプローチが盛んである。 我々は, モデル解釈可能性, シミュレーション可能性の重要な側面に対するアルゴリズム的説明の効果を, 実験的要因の融合を回避しつつ, アルゴリズム的説明の効果を分離する, 人間の主題テストを実施する。 モデルは、新しい入力でその振る舞いを予測できるときにシミュラブルである。 テキストと表データを含む2種類のシミュレーションテストを通して,(1)ライム,(2)アンカー,(3)決定境界,(4)プロトタイプモデル,(5)各手法の説明を結合した合成手法の評価を行った。 limeは表分類の同時性を改善し,プロトタイプ手法は偽りのシミュレーションテストに有効である。 また、主観的な説明格付けも収集するが、説明格付けがいかに役に立つかは予測できない。 この結果から,様々な説明手法やデータ領域において,説明がシミュラビリティにどのように影響するかを,信頼性と包括的に評価した。 我々は,(1)説明手法の評価に使用する指標に注意が必要であること,(2)現在の手法に改善の余地があること,を示す。 サポートコード、データ、モデルはすべて、https://github.com/peterbhase/InterpretableNLP-ACL2020で公開されています。

Algorithmic approaches to interpreting machine learning models have proliferated in recent years. We carry out human subject tests that are the first of their kind to isolate the effect of algorithmic explanations on a key aspect of model interpretability, simulatability, while avoiding important confounding experimental factors. A model is simulatable when a person can predict its behavior on new inputs. Through two kinds of simulation tests involving text and tabular data, we evaluate five explanations methods: (1) LIME, (2) Anchor, (3) Decision Boundary, (4) a Prototype model, and (5) a Composite approach that combines explanations from each method. Clear evidence of method effectiveness is found in very few cases: LIME improves simulatability in tabular classification, and our Prototype method is effective in counterfactual simulation tests. We also collect subjective ratings of explanations, but we do not find that ratings are predictive of how helpful explanations are. Our results provide the first reliable and comprehensive estimates of how explanations influence simulatability across a variety of explanation methods and data domains. We show that (1) we need to be careful about the metrics we use to evaluate explanation methods, and (2) there is significant room for improvement in current methods. All our supporting code, data, and models are publicly available at: https://github.com/peterbhase/InterpretableNLP-ACL2020
翻訳日:2022-12-06 23:54:27 公開日:2020-05-04
# LIMEtree: ローカルサロゲート多出力回帰木に基づくインタラクティブなカスタマイズ可能な説明

LIMEtree: Interactively Customisable Explanations Based on Local Surrogate Multi-output Regression Trees ( http://arxiv.org/abs/2005.01427v1 )

ライセンス: Link先を確認
Kacper Sokol and Peter Flach(参考訳) 人工知能と機械学習モデルに基づくシステムは、人間の承認と信頼を得るための意思決定を説明できるという意味で透明であるべきである。 この目的のために使用できる説明可能性技術はいくつかあるが、それらの多くは、説明者の多様なニーズすべてに単純に対処できない単一の1サイズの説明を出力できるだけである。 本研究では,マルチアウトプット回帰木を用いた,ブラックボックス予測のためのモデル非依存・ポストホック局所説明可能性手法(LIMEtree)を提案する。 画像中の物体検出のために訓練されたディープニューラルネットワーク上でアルゴリズムを検証し,LIME(Local Interpretable Model-Agnostic Explanations)と比較した。 本手法は局所的忠実度保証を伴い,文献で賞賛される対比的・反事実的説明を含む多様な説明タイプを作成できる。 これらの説明のいくつかは、対話的にパーソナライズされ、モデルの振る舞いに関する、目覚ましい、有意義で実行可能な洞察を生み出すことができる。 他の方法はインタラクティブインターフェースで静的な説明をラップすることでカスタマイズ可能性の錯覚を与えるかもしれませんが、私たちの説明は、ユーザがブラックボックスモデルを"インターロゲート"できるという意味で、本当にインタラクティブです。 したがって、limetreeはインタラクティブな探索プロセスを構築するための一貫した説明を生み出すことができる。

Systems based on artificial intelligence and machine learning models should be transparent, in the sense of being capable of explaining their decisions to gain humans' approval and trust. While there are a number of explainability techniques that can be used to this end, many of them are only capable of outputting a single one-size-fits-all explanation that simply cannot address all of the explainees' diverse needs. In this work we introduce a model-agnostic and post-hoc local explainability technique for black-box predictions called LIMEtree, which employs surrogate multi-output regression trees. We validate our algorithm on a deep neural network trained for object detection in images and compare it against Local Interpretable Model-agnostic Explanations (LIME). Our method comes with local fidelity guarantees and can produce a range of diverse explanation types, including contrastive and counterfactual explanations praised in the literature. Some of these explanations can be interactively personalised to create bespoke, meaningful and actionable insights into the model's behaviour. While other methods may give an illusion of customisability by wrapping, otherwise static, explanations in an interactive interface, our explanations are truly interactive, in the sense of allowing the user to "interrogate" a black-box model. LIMEtree can therefore produce consistent explanations on which an interactive exploratory process can be built.
翻訳日:2022-12-06 23:54:04 公開日:2020-05-04
# ファウショット最適化のための一般化強化メタ学習

Generalized Reinforcement Meta Learning for Few-Shot Optimization ( http://arxiv.org/abs/2005.01246v1 )

ライセンス: Link先を確認
Raviteja Anantha, Stephen Pulman, and Srinivas Chappidi(参考訳) 本稿では,数発学習問題に対する汎用的・柔軟な強化学習(rl)ベースのメタ学習フレームワークを提案する。 トレーニング中、損失面の安定したパターンを利用して学習者(ランカ/クラシファイアなど)を生成するための最適化アルゴリズムを学習する。 本手法は,パラメータ更新のための一般プロパティを保持しつつ,スケールド損失関数の勾配を暗黙的に推定する。 数ショットタスクのパフォーマンス向上に加えて、我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。 さらに,性能向上を図った新しいデュアルエンコーダ,親和性スコアに基づくデコーダトポロジを提案する。 内部データセット MQ2007 と AwA2 の実験では、既存の代替手法よりも21%、8%、4% で、それぞれ精度と NDCG の指標で優れています。 ミニイメージネットデータセットでは、このアプローチはプロトタイプネットワークと同等の結果を得る。 実証的な評価は、我々のアプローチが統一的で効果的なフレームワークを提供することを示している。

We present a generic and flexible Reinforcement Learning (RL) based meta-learning framework for the problem of few-shot learning. During training, it learns the best optimization algorithm to produce a learner (ranker/classifier, etc) by exploiting stable patterns in loss surfaces. Our method implicitly estimates the gradients of a scaled loss function while retaining the general properties intact for parameter updates. Besides providing improved performance on few-shot tasks, our framework could be easily extended to do network architecture search. We further propose a novel dual encoder, affinity-score based decoder topology that achieves additional improvements to performance. Experiments on an internal dataset, MQ2007, and AwA2 show our approach outperforms existing alternative approaches by 21%, 8%, and 4% respectively on accuracy and NDCG metrics. On Mini-ImageNet dataset our approach achieves comparable results with Prototypical Networks. Empirical evaluations demonstrate that our approach provides a unified and effective framework.
翻訳日:2022-12-06 23:53:39 公開日:2020-05-04
# 確率スパースサブスペースクラスタリング

Stochastic Sparse Subspace Clustering ( http://arxiv.org/abs/2005.01449v1 )

ライセンス: Link先を確認
Ying Chen, Chun-Guang Li, and Chong You(参考訳) 最先端のサブスペースクラスタリング手法は、各データポイントを他のデータポイントの線形結合として表現する自己表現モデルに基づいている。 このような表現をスパースにすることで、スパース部分空間クラスタリングが保証され、2つの点が同一の部分空間からのみ接続される部分空間保存データ親和性が得られる。 しかし、他方で同じ部分空間からのデータポイントはうまく接続されず、過剰なセグメンテーションの問題に繋がる可能性がある。 本稿では,自己表現モデルにおけるデータポイントのランダムなドロップアウトに基づく過分割問題に対処するために,ドロップアウトを導入する。 特に、ドロップアウトは、表現係数に二乗の$\ell_2$ノルム正規化を加えることと等価であることを示し、したがってより密解を誘導する。 そこで我々は,小型サブプロブレムの集合上でのコンセンサス問題として最適化問題を再構成する。 これにより、スケーラブルで柔軟なスパースサブスペースクラスタリングアプローチであるStochastic Sparse Subspace Clusteringが実現され、大規模データセットを効果的に処理できる。 合成データと実世界のデータセットに関する大規模な実験は,提案手法の有効性と有効性を検証する。

State-of-the-art subspace clustering methods are based on self-expressive model, which represents each data point as a linear combination of other data points. By enforcing such representation to be sparse, sparse subspace clustering is guaranteed to produce a subspace-preserving data affinity where two points are connected only if they are from the same subspace. On the other hand, however, data points from the same subspace may not be well-connected, leading to the issue of over-segmentation. We introduce dropout to address the issue of over-segmentation, which is based on randomly dropping out data points in self-expressive model. In particular, we show that dropout is equivalent to adding a squared $\ell_2$ norm regularization on the representation coefficients, therefore induces denser solutions. Then, we reformulate the optimization problem as a consensus problem over a set of small-scale subproblems. This leads to a scalable and flexible sparse subspace clustering approach, termed Stochastic Sparse Subspace Clustering, which can effectively handle large scale datasets. Extensive experiments on synthetic data and real world datasets validate the efficiency and effectiveness of our proposal.
翻訳日:2022-12-06 23:52:51 公開日:2020-05-04