このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200823となっている論文です。

PDF登録状況(公開日: 20200823)

TitleAuthorsAbstract論文公表日・翻訳日
# 近似の硬さが学習の硬さと出会うとき

When Hardness of Approximation Meets Hardness of Learning ( http://arxiv.org/abs/2008.08059v2 )

ライセンス: Link先を確認
Eran Malach, Shai Shalev-Shwartz(参考訳) 教師付き学習アルゴリズムはラベル付きサンプルの分布にアクセスでき、サンプルを正しくラベル付けする関数(仮説)を返す必要がある。 学習者の仮説は、いくつかの固定された種類の関数(線形分類器、ニューラルネットワークなど)から取られる。 学習アルゴリズムの失敗は、仮説クラス(近似のハードネス)の間違った選択、あるいは仮説クラス(学習のハードネス)の中で最高の関数を見つけるのに失敗する2つの理由により起こりうる。 近似も学習性もアルゴリズムの成功には重要であるが、通常は別々に研究されている。 本研究では,線形クラスと浅層ネットワークを用いた近似の硬さと,相関クエリと勾配descentを用いた学習の硬さを示唆する単一硬さ特性を示す。 これにより、パリティ関数、DNF式および$AC^0$回路の近似と学習性に関する新しい結果が得られる。

A supervised learning algorithm has access to a distribution of labeled examples, and needs to return a function (hypothesis) that correctly labels the examples. The hypothesis of the learner is taken from some fixed class of functions (e.g., linear classifiers, neural networks etc.). A failure of the learning algorithm can occur due to two possible reasons: wrong choice of hypothesis class (hardness of approximation), or failure to find the best function within the hypothesis class (hardness of learning). Although both approximation and learnability are important for the success of the algorithm, they are typically studied separately. In this work, we show a single hardness property that implies both hardness of approximation using linear classes and shallow networks, and hardness of learning using correlation queries and gradient-descent. This allows us to obtain new results on hardness of approximation and learnability of parity functions, DNF formulas and $AC^0$ circuits.
翻訳日:2022-10-27 20:54:12 公開日:2020-08-23
# good graph to optimize: visual slamにおけるコスト効率と予算対応バンドル調整

Good Graph to Optimize: Cost-Effective, Budget-Aware Bundle Adjustment in Visual SLAM ( http://arxiv.org/abs/2008.10123v1 )

ライセンス: Link先を確認
Yipu Zhao, Justin S. Smith, Patricio A. Vela(参考訳) ビジュアル(慣性)SLAM(VSLAM)のコスト効率は、リソース制限されたアプリケーションの重要な特徴である。 ハードウェアとアルゴリズムの進歩はVSLAMフロントエンドのコスト効率を大幅に改善したが、VSLAMバックエンドのコスト効率は依然としてボトルネックとなっている。 本稿では,BAベースのVSLAMバックエンドにおけるローカルBAのコスト効率を向上させるための,新しい厳密な手法について述べる。 Good Graphと呼ばれる効率的なアルゴリズムは、ローカルBAに最適化されたサイズ再現グラフを条件保存で選択するために開発された。 BAベースのVSLAMバックエンドに合うように、Good Graphは将来の見積もりニーズを予測し、適切なサイズ予算を動的に割り当て、BA推定のための条件最大化サブグラフを選択する。 評価は2つのシナリオで行われる。 1)独立プロセスとしてのVSLAM,及び 2) 閉ループナビゲーションシステムの一部としてのVSLAM。 最初のシナリオでは、計算限界が存在する場合、グッドグラフはVSLAM推定の精度と堅牢性を改善する。 第2のシナリオから得られた結果は、よいグラフは、vslamの主要なアプリケーションである、vslamベースのクローズドループナビゲーションシステムの軌道追跡性能に有益であることを示している。

The cost-efficiency of visual(-inertial) SLAM (VSLAM) is a critical characteristic of resource-limited applications. While hardware and algorithm advances have been significantly improved the cost-efficiency of VSLAM front-ends, the cost-efficiency of VSLAM back-ends remains a bottleneck. This paper describes a novel, rigorous method to improve the cost-efficiency of local BA in a BA-based VSLAM back-end. An efficient algorithm, called Good Graph, is developed to select size-reduced graphs optimized in local BA with condition preservation. To better suit BA-based VSLAM back-ends, the Good Graph predicts future estimation needs, dynamically assigns an appropriate size budget, and selects a condition-maximized subgraph for BA estimation. Evaluations are conducted on two scenarios: 1) VSLAM as standalone process, and 2) VSLAM as part of closed-loop navigation system. Results from the first scenario show Good Graph improves accuracy and robustness of VSLAM estimation, when computational limits exist. Results from the second scenario, indicate that Good Graph benefits the trajectory tracking performance of VSLAM-based closed-loop navigation systems, which is a primary application of VSLAM.
翻訳日:2022-10-26 03:22:44 公開日:2020-08-23
# 彼らはマスクを着ています! x-vectorとfisher vectorを用いた音声からの手術用マスク着用者の同定

They are wearing a mask! Identification of Subjects Wearing a Surgical Mask from their Speech by means of x-vectors and Fisher Vectors ( http://arxiv.org/abs/2008.10014v1 )

ライセンス: Link先を確認
Jos\'e Vicente Egas-L\'opez(参考訳) InterSPEECH Conferenceにおける計算パラ言語学に基づく課題は、その競争的な学術的・研究的な要求により、参加者の間で常に好意的に受け入れられてきた。 今年、InterSPEECH 2020 Computational Paralinguistics Challengeは3つの異なる問題を提起した。 この課題は、手術用マスクを着用して被写体から録音された音声の分類である。 本研究では,上記の問題に対処するために,2種類の特徴抽出手法を用いる。 話者認識における現在最先端の手法であるxベクトル埋め込みと、元来は画像認識を目的とした手法であるFisher Vector(FV)を用いるが、ここでは発話の識別に利用する。 これらのアプローチは、mfccとplpという異なるフレームレベルの表現を用いる。 サポートベクターマシン(svm)を分類器として使用し,fvエンコーディングの性能と,この特定分類タスクにおけるx-vector組込みの技術的比較を行った。 Fisherベクトル符号化は、この特定のデータセットに対して行うxベクトルよりも発話の表現が優れている。 さらに,最適構成の融合は,Mask Sub-Challengeのすべてのベースラインスコアより優れていることを示す。

Challenges based on Computational Paralinguistics in the INTERSPEECH Conference have always had a good reception among the attendees owing to its competitive academic and research demands. This year, the INTERSPEECH 2020 Computational Paralinguistics Challenge offers three different problems; here, the Mask Sub-Challenge is of specific interest. This challenge involves the classification of speech recorded from subjects while wearing a surgical mask. In this study, to address the above-mentioned problem we employ two different types of feature extraction methods. The x-vectors embeddings, which is the current state-of-the-art approach for Speaker Recognition; and the Fisher Vector (FV), that is a method originally intended for Image Recognition, but here we utilize it to discriminate utterances. These approaches employ distinct frame-level representations: MFCC and PLP. Using Support Vector Machines (SVM) as the classifier, we perform a technical comparison between the performances of the FV encodings and the x-vector embeddings for this particular classification task. We find that the Fisher vector encodings provide better representations of the utterances than the x-vectors do for this specific dataset. Moreover, we show that a fusion of our best configurations outperforms all the baseline scores of the Mask Sub-Challenge.
翻訳日:2022-10-26 03:21:06 公開日:2020-08-23
# 多人数全身ポーズ推定

Multi-Person Full Body Pose Estimation ( http://arxiv.org/abs/2008.10060v1 )

ライセンス: Link先を確認
Haoyi Zhu, Cheng Jie, Shaofei Jiang(参考訳) 多人数のポーズ推定は多くの分野において重要な役割を果たす。 従来の研究は、人間のポーズ推定の様々な部分について多くの研究を行ってきたが、マルチパーソンのフルボディポーズ推定は、まださらなる研究が必要である。 本研究は,全身のポーズを推定できる知識蒸留による統合モデルを開発した。 AlphaPoseシステムとMSCOCO2017データセットに基づいてトレーニングされ、我々のモデルは手動で注釈付けされた検証データセット上で51.5mAPを達成する。 関連リソースはhttps://esflfei.github.io/esflfei.gethub.io/website.htmlで入手できる。

Multi-person pose estimation plays an important role in many fields. Although previous works have researched a lot on different parts of human pose estimation, full body pose estimation for multi-person still needs further research. Our work has developed an integrated model through knowledge distillation which can estimate full body poses. Trained based on the AlphaPose system and MSCOCO2017 dataset, our model achieves 51.5 mAP on the validation dataset annotated manually by ourselves. Related resources are available at https://esflfei.github.io/esflfei.gethub.io/website.html.
翻訳日:2022-10-26 03:13:29 公開日:2020-08-23
# 敵対的事例の開発と定義

Developing and Defeating Adversarial Examples ( http://arxiv.org/abs/2008.10106v1 )

ライセンス: Link先を確認
Ian McDiarmid-Sterling and Allan Moser(参考訳) 機械学習のブレークスルーは、最先端のディープニューラルネットワーク(DNN)が安全クリティカルなアプリケーションで分類タスクを実行する結果となった。 近年の研究では、DNNがオブジェクトを誤分類する原因となる入力データに対する小さな摂動である敵例を通じてDNNを攻撃できることが示されている。 dnnの普及は、敵対的な例にロバストなシステムを設計する上で重要な安全性上の懸念を引き起こす。 本研究は,ヨーロV3物体検出器[1]を攻撃し,これらのサンプルを検出し中和するための戦略を研究する。 このプロジェクトのpythonコードはhttps://github.com/ianmcdiarmidsterling/adversarialで入手できる。

Breakthroughs in machine learning have resulted in state-of-the-art deep neural networks (DNNs) performing classification tasks in safety-critical applications. Recent research has demonstrated that DNNs can be attacked through adversarial examples, which are small perturbations to input data that cause the DNN to misclassify objects. The proliferation of DNNs raises important safety concerns about designing systems that are robust to adversarial examples. In this work we develop adversarial examples to attack the Yolo V3 object detector [1] and then study strategies to detect and neutralize these examples. Python code for this project is available at https://github.com/ianmcdiarmidsterling/adversarial
翻訳日:2022-10-26 03:13:21 公開日:2020-08-23
# Vision at a Glance: きめ細かい情報処理経路と粗い情報処理経路の相互作用

Vision at A Glance: Interplay between Fine and Coarse Information Processing Pathways ( http://arxiv.org/abs/2009.05101v1 )

ライセンス: Link先を確認
Zilong Ji, Xiaolong Zou, Tiejun Huang, Si Wu(参考訳) 物体認識はしばしば、機械学習におけるフィードフォワード、ボトムアッププロセスと見なされるが、実際のニューラルネットワークでは、物体認識は2つの信号経路間の相互作用を伴う複雑なプロセスである。 一つはパーボセル経路(p-pathway)で、スローでオブジェクトの細かい特徴を抽出し、もう一つは高速で粗い特徴を抽出するマグノセル経路(m-pathway)である。 2つの経路間の相互作用は、視覚情報を迅速に、適応的に、堅牢に処理する能力を持つ神経系を導くことが示唆されている。 しかし、基礎となる計算機構はほとんど不明である。 本研究では,二つの経路間の相互作用に関連する計算上の優位性を解明する計算モデルを構築する。 我々のモデルは2つの畳み込みニューラルネットワークで構成されている: 1つはPパスを模倣し、もう1つは深く、小さなカーネルを持ち、詳細な視覚入力を受け取り、もう1つは、浅いコアスネットと呼ばれるMパスを模倣し、大きなカーネルを持ち、低パスフィルタリングまたは双対化視覚入力を受け取ります。 2つの経路は制限ボルツマン機械を介して相互作用する。 私たちはそれを見つけました 1) FineNetは、模倣を通じてCoarseNetを教えることができ、その性能を大幅に向上させることができる。 2 粗いネットは、ファインネットのノイズ堅牢性を向上させることができる。 3) CoarseNet の出力は,FineNet の性能向上のための認知バイアスとして機能する。 本研究は,視覚情報処理の理解と,新たなオブジェクト認識アーキテクチャの開発を促すための知見を提供する。

Object recognition is often viewed as a feedforward, bottom-up process in machine learning, but in real neural systems, object recognition is a complicated process which involves the interplay between two signal pathways. One is the parvocellular pathway (P-pathway), which is slow and extracts fine features of objects; the other is the magnocellular pathway (M-pathway), which is fast and extracts coarse features of objects. It has been suggested that the interplay between the two pathways endows the neural system with the capacity of processing visual information rapidly, adaptively, and robustly. However, the underlying computational mechanisms remain largely unknown. In this study, we build a computational model to elucidate the computational advantages associated with the interactions between two pathways. Our model consists of two convolution neural networks: one mimics the P-pathway, referred to as FineNet, which is deep, has small-size kernels, and receives detailed visual inputs; the other mimics the M-pathway, referred to as CoarseNet, which is shallow, has large-size kernels, and receives low-pass filtered or binarized visual inputs. The two pathways interact with each other via a Restricted Boltzmann Machine. We find that: 1) FineNet can teach CoarseNet through imitation and improve its performance considerably; 2) CoarseNet can improve the noise robustness of FineNet through association; 3) the output of CoarseNet can serve as a cognitive bias to improve the performance of FineNet. We hope that this study will provide insight into understanding visual information processing and inspire the development of new object recognition architectures.
翻訳日:2022-10-26 03:13:11 公開日:2020-08-23
# 陰謀と陰謀論の物語フレームワークの発見のための自動パイプライン:ウェブ上でのブリッジゲート、ピザゲート、ストーリーテリング

An automated pipeline for the discovery of conspiracy and conspiracy theory narrative frameworks: Bridgegate, Pizzagate and storytelling on the web ( http://arxiv.org/abs/2008.09961v1 )

ライセンス: Link先を確認
Timothy R. Tangherlini, Shadi Shahsavari, Behnam Shahbazi, Ehsan Ebrahimzadeh, Vwani Roychowdhury(参考訳) 陰謀論がソーシャルメディアやその事実に反する陰謀にどのように広まるかについては、多くの注意が払われているが、彼らの物語構造を記述するための計算作業はほとんど行われていない。 本稿では,ソーシャルメディア上の陰謀論の生成的ナラティブ・フレームワークの発見と説明のための自動化パイプラインと,ニュースメディアで報告された実際の陰謀について述べる。 この研究は、2016年の共謀説であるpizzagateと、2013年のニュージャージー州共謀のbridgegateに関する2つの投稿とニュース記事に基づいています。 ノードがアクター/アクターを表現し、ノード間のマルチエッジと自己ループがコンテキスト固有の関係をキャプチャするグラフィカルな生成機械学習モデルを定式化する。 投稿やニュースの項目は、隠れ物語ネットワークのサブグラフのサンプルと見なされる。 基礎構造を再構築する問題は潜在モデル推定問題として提起される。 我々は、投稿や記事から自動的にアクティベートとその関係を抽出・集約する。 超ノードとサブノードのシステムを開発することにより、コンテキスト固有のアクタントと相互作用関係を捉える。 我々はこれらを用いて、基礎となる物語の枠組みを構成するネットワークを構築する。 ピザゲートの枠組みは、陰謀論者による「隠れた知識」の解釈に頼り、そうでなければ人間同士の相互作用の無関係な領域をリンクし、この多分野の焦点が陰謀論の重要な特徴であると仮説を立てる。 ピザゲートは複数のドメインのアライメントに依存しているが、ブリッジゲートはニュージャージー州の単一ドメイン政治に固執している。 我々は、陰謀論の物語的枠組みは、啓示が明るみになるとよりゆっくりと発達する実際の陰謀の物語的枠組みとは対照的に、急速に安定化するのではないかと仮定する。

Although a great deal of attention has been paid to how conspiracy theories circulate on social media and their factual counterpart conspiracies, there has been little computational work done on describing their narrative structures. We present an automated pipeline for the discovery and description of the generative narrative frameworks of conspiracy theories on social media, and actual conspiracies reported in the news media. We base this work on two separate repositories of posts and news articles describing the well-known conspiracy theory Pizzagate from 2016, and the New Jersey conspiracy Bridgegate from 2013. We formulate a graphical generative machine learning model where nodes represent actors/actants, and multi-edges and self-loops among nodes capture context-specific relationships. Posts and news items are viewed as samples of subgraphs of the hidden narrative network. The problem of reconstructing the underlying structure is posed as a latent model estimation problem. We automatically extract and aggregate the actants and their relationships from the posts and articles. We capture context specific actants and interactant relationships by developing a system of supernodes and subnodes. We use these to construct a network, which constitutes the underlying narrative framework. We show how the Pizzagate framework relies on the conspiracy theorists' interpretation of "hidden knowledge" to link otherwise unlinked domains of human interaction, and hypothesize that this multi-domain focus is an important feature of conspiracy theories. While Pizzagate relies on the alignment of multiple domains, Bridgegate remains firmly rooted in the single domain of New Jersey politics. We hypothesize that the narrative framework of a conspiracy theory might stabilize quickly in contrast to the narrative framework of an actual one, which may develop more slowly as revelations come to light.
翻訳日:2022-10-26 03:12:45 公開日:2020-08-23
# オンライン共同センシングトレーシングによる新興アプリの課題同定

Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing ( http://arxiv.org/abs/2008.09976v1 )

ライセンス: Link先を確認
Cuiyun Gao, Jichuan Zeng, Zhiyuan Wen, David Lo, Xin Xia, Irwin King, Michael R. Lyu(参考訳) AppleのApp StoreやGoogle Playなど,数百万のモバイルアプリがアプリストアで利用可能だ。 モバイルアプリにとって、巨大なライバルたちと対決し、ユーザーの間で普及していくことはますます難しくなるだろう。 良いユーザー体験とよく設計された機能が、成功するアプリの鍵だ。 これを実現するために、人気のあるアプリは更新を頻繁にスケジュールする。 ユーザが直面する重要なアプリの問題をタイムリーで正確な方法で捉えることができれば、開発者はタイムリーにアップデートでき、優れたユーザエクスペリエンスが確保できます。 アプリ問題検出のためのレビュー分析に関する先行研究がある。 これらの研究は通常、トピックモデリングやクラスタリング技術に基づいている。 しかし,ユーザレビューの短期的特徴や感情は考慮されていない。 本稿では,上記の2つの特徴を考慮に入れたMERITという新しい問題検出手法を提案する。 具体的には、アプリケーションのバージョンを考慮したトピックとそれに対応する感情を共同でモデル化するAdaptive Online Biterm Sentiment-Topic(AOBST)モデルを提案する。 AOBSTモデルに基づいて、あるアプリのユーザレビューに否定的に反映されたトピックを推測し、最も関連するフレーズや文でトピックの意味を自動的に解釈する。 Google PlayとAppleのApp Storeの人気のアプリに対する実験は、新興アプリの問題の特定におけるMERITの有効性を示し、F1スコアの観点から最先端のメソッドを22.3%改善した。 効率の面では、MERITは許容時間内に結果を返すことができる。

Millions of mobile apps are available in app stores, such as Apple's App Store and Google Play. For a mobile app, it would be increasingly challenging to stand out from the enormous competitors and become prevalent among users. Good user experience and well-designed functionalities are the keys to a successful app. To achieve this, popular apps usually schedule their updates frequently. If we can capture the critical app issues faced by users in a timely and accurate manner, developers can make timely updates, and good user experience can be ensured. There exist prior studies on analyzing reviews for detecting emerging app issues. These studies are usually based on topic modeling or clustering techniques. However, the short-length characteristics and sentiment of user reviews have not been considered. In this paper, we propose a novel emerging issue detection approach named MERIT to take into consideration the two aforementioned characteristics. Specifically, we propose an Adaptive Online Biterm Sentiment-Topic (AOBST) model for jointly modeling topics and corresponding sentiments that takes into consideration app versions. Based on the AOBST model, we infer the topics negatively reflected in user reviews for one app version, and automatically interpret the meaning of the topics with most relevant phrases and sentences. Experiments on popular apps from Google Play and Apple's App Store demonstrate the effectiveness of MERIT in identifying emerging app issues, improving the state-of-the-art method by 22.3% in terms of F1-score. In terms of efficiency, MERIT can return results within acceptable time.
翻訳日:2022-10-26 03:12:15 公開日:2020-08-23
# ギャップを埋める:不適切なモデル化されたダイナミクスを解決する機械学習

Bridging the Gap: Machine Learning to Resolve Improperly Modeled Dynamics ( http://arxiv.org/abs/2008.12642v1 )

ライセンス: Link先を確認
Maan Qraitem, Dhanushka Kularatne, Eric Forgoston, M. Ani Hsieh(参考訳) 複雑な時空間的挙動を示すシステムの不適切にモデル化されたダイナミクスを克服するためのデータ駆動モデリング戦略を提案する。 本稿では,システムの真のダイナミクスと,不正確あるいは不適切に記述されたシステムのモデルによって与えられるダイナミクスとの差異を解決するための深層学習フレームワークを提案する。 我々の機械学習戦略は、不適切なシステムモデルから生成されたデータと実際のシステムの観測データを利用して、実際のシステムのダイナミクスをモデル化するニューラルネットワークを作成する。 3つの複雑な力学系から得られる数値解を用いて,提案手法を評価する。 その結果,従来観測されていなかった領域と将来の状態の両方において,システム状態の正確な推定を行うデータ駆動モデルが学習可能であることがわかった。 以上の結果から,有限地平線までの予測に使用できるシステムの真の力学の精度を推定する上で,最先端の機械学習フレームワークの能力を示す。

We present a data-driven modeling strategy to overcome improperly modeled dynamics for systems exhibiting complex spatio-temporal behaviors. We propose a Deep Learning framework to resolve the differences between the true dynamics of the system and the dynamics given by a model of the system that is either inaccurately or inadequately described. Our machine learning strategy leverages data generated from the improper system model and observational data from the actual system to create a neural network to model the dynamics of the actual system. We evaluate the proposed framework using numerical solutions obtained from three increasingly complex dynamical systems. Our results show that our system is capable of learning a data-driven model that provides accurate estimates of the system states both in previously unobserved regions as well as for future states. Our results show the power of state-of-the-art machine learning frameworks in estimating an accurate prior of the system's true dynamics that can be used for prediction up to a finite horizon.
翻訳日:2022-10-26 03:11:56 公開日:2020-08-23
# デコンプレックス:コロケーションロボットによる複雑な自然命令からのタスク計画

DeComplex: Task planning from complex natural instructions by a collocating robot ( http://arxiv.org/abs/2008.10084v1 )

ライセンス: Link先を確認
Pradip Pramanick, Hrishav Bakul Barua, Chayan Sarkar(参考訳) 家庭、オフィス、レストラン、工場のフロアなどの日常生活環境におけるロボットの数は急速に増加しており、ロボットの使いやすさや受容性を規定する自然とロボットの相互作用機構の開発が不可欠になっている。 このような共生ロボットの特徴の1つは、自然言語で指示されたタスクを実行することである。 しかし、自然言語表現は言語的変化が大きいため、人間の意図したタスクを実行することは容易ではない。 既存の作業では、一度に1つのタスク命令がロボットに与えられるか、命令に複数の独立したタスクが存在すると仮定している。 しかし、複数の相互依存タスクからなる複雑なタスク命令は、文献では効率的に処理されない。 タスク間の依存関係の順序付け、すなわちタスクを特定の順序で実行する必要がある、あるいは実行依存性がある可能性がある、例えば、入力パラメータやタスクの実行は他のタスクの結果に依存する。 複雑な命令でそのような依存関係を理解することは、制約のない自然言語が許される場合、簡単ではない。 本研究では,自然言語命令で与えられた複数の相互依存タスクの実行順序を求める手法を提案する。 本実験から,複雑な命令から実行可能な実行計画を生成する上で,システムは非常に正確であることを示す。

As the number of robots in our daily surroundings like home, office, restaurants, factory floors, etc. are increasing rapidly, the development of natural human-robot interaction mechanism becomes more vital as it dictates the usability and acceptability of the robots. One of the valued features of such a cohabitant robot is that it performs tasks that are instructed in natural language. However, it is not trivial to execute the human intended tasks as natural language expressions can have large linguistic variations. Existing works assume either single task instruction is given to the robot at a time or there are multiple independent tasks in an instruction. However, complex task instructions composed of multiple inter-dependent tasks are not handled efficiently in the literature. There can be ordering dependency among the tasks, i.e., the tasks have to be executed in a certain order or there can be execution dependency, i.e., input parameter or execution of a task depends on the outcome of another task. Understanding such dependencies in a complex instruction is not trivial if an unconstrained natural language is allowed. In this work, we propose a method to find the intended order of execution of multiple inter-dependent tasks given in natural language instruction. Based on our experiment, we show that our system is very accurate in generating a viable execution plan from a complex instruction.
翻訳日:2022-10-26 03:11:20 公開日:2020-08-23
# 新型コロナウイルスパンデミック:ソーシャルメディアと自然言語処理による課題の特定

COVID-19 Pandemic: Identifying Key Issues using Social Media and Natural Language Processing ( http://arxiv.org/abs/2008.10022v1 )

ライセンス: Link先を確認
Oladapo Oyebode, Chinenye Ndulue, Dinesh Mulchandani, Banuchitra Suruliraj, Ashfaq Adib, Fidelia Anulika Orji, Evangelos Milios, Stan Matwin, and Rita Orji(参考訳) 新型コロナウイルスのパンデミックは、多くの点で人々の生活に影響を与えている。 ソーシャルメディアのデータは、パンデミックに対する大衆の認識や経験を明らかにし、この病気の世界的な拡散を抑制するための努力を妨げたり支援したりする要因を明らかにする。 本稿では、自然言語処理(nlp)技術を用いて、6つのソーシャルメディアプラットフォームから収集されたcovid-19関連コメントを分析した。 ランダムに選択された100万以上のコメントから関連する意見キーフレーズとその感情極性(否定的あるいは肯定的)を特定し,テーマ分析を用いてより広いテーマに分類した。 その結果,経済問題,社会政治問題,教育問題,政治問題など17項目中,34項目の否定的テーマが明らかになった。 20のポジティブテーマも特定された。 ネガティブな問題を議論し、ポジティブなテーマと研究証拠に基づいて対処するための介入を提案する。

The COVID-19 pandemic has affected people's lives in many ways. Social media data can reveal public perceptions and experience with respect to the pandemic, and also reveal factors that hamper or support efforts to curb global spread of the disease. In this paper, we analyzed COVID-19-related comments collected from six social media platforms using Natural Language Processing (NLP) techniques. We identified relevant opinionated keyphrases and their respective sentiment polarity (negative or positive) from over 1 million randomly selected comments, and then categorized them into broader themes using thematic analysis. Our results uncover 34 negative themes out of which 17 are economic, socio-political, educational, and political issues. 20 positive themes were also identified. We discuss the negative issues and suggest interventions to tackle them based on the positive themes and research evidence.
翻訳日:2022-10-26 03:10:57 公開日:2020-08-23
# 音声言語理解におけるスロットフィリングのためのリカレントニューラルネットワークにおける変分推論に基づくドロップアウト

Variational Inference-Based Dropout in Recurrent Neural Networks for Slot Filling in Spoken Language Understanding ( http://arxiv.org/abs/2009.01003v1 )

ライセンス: Link先を確認
Jun Qi, Xu Liu, Javier Tejedor(参考訳) 本稿では、長寿命メモリ(LSTM)セルに使用される変動推論(VI)に基づくドロップアウト正規化を、ゲートリカレントユニット(GRU)や双方向LSTM/GRUのようなより高度なRNNアーキテクチャに一般化することを提案する。 新しい変分RNNはスロットフィリングに使われており、これは音声言語理解において興味深いが難しい課題である。 ATISデータセットを用いた実験結果から,VIベースのドロップアウト正規化による変動RNNは,F尺度の点から,素早いドロップアウト正規化RNNベースのベースラインシステムを大幅に改善する可能性が示唆された。 特に、双方向LSTM/GRUを有する変動RNNは、最良のF測定スコアを得る。

This paper proposes to generalize the variational recurrent neural network (RNN) with variational inference (VI)-based dropout regularization employed for the long short-term memory (LSTM) cells to more advanced RNN architectures like gated recurrent unit (GRU) and bi-directional LSTM/GRU. The new variational RNNs are employed for slot filling, which is an intriguing but challenging task in spoken language understanding. The experiments on the ATIS dataset suggest that the variational RNNs with the VI-based dropout regularization can significantly improve the naive dropout regularization RNNs-based baseline systems in terms of F-measure. Particularly, the variational RNN with bi-directional LSTM/GRU obtains the best F-measure score.
翻訳日:2022-10-26 03:10:41 公開日:2020-08-23
# ロバスト・ヴィジョン・チャレンジ2020 -- 第1回パンオプティカルセグメンテーション報告

Robust Vision Challenge 2020 -- 1st Place Report for Panoptic Segmentation ( http://arxiv.org/abs/2008.10112v1 )

ライセンス: Link先を確認
Rohit Mohan and Abhinav Valada(参考訳) 本技術報告では,勝利したパノプティックセグメンテーションアーキテクチャ EffPS_b1bs4_RVC について述べる。 提案する共有バックボーンをエンコーダとして修正した efficientnet-b5 モデルと,セマンティクス的にリッチなマルチスケール機能を学ぶための 2-way fpn とを組み合わせた,最先端の efficientps アーキテクチャの軽量版です。 タスク固有の2つのヘッド、修正されたMask R-CNNインスタンスヘッドと、コヒーレントな特徴改善のための特別なモジュールで異なるスケールの特徴を処理する新しいセマンティックセグメンテーションヘッドで構成されている。 最後に,提案するpanoptic fusionモジュールは,各ヘッドからロジットを適応的に融合してpanoptic segmentation出力を生成する。 Robust Vision Challenge 2020ベンチマーク結果によると、当社のモデルはMicrosoft COCO、VIPER、WildDashで第1位、Cityscapes、Mapillary Vistasで第2位、パン光学セグメンテーションタスクで第1位にランクされている。

In this technical report, we present key details of our winning panoptic segmentation architecture EffPS_b1bs4_RVC. Our network is a lightweight version of our state-of-the-art EfficientPS architecture that consists of our proposed shared backbone with a modified EfficientNet-B5 model as the encoder, followed by the 2-way FPN to learn semantically rich multi-scale features. It consists of two task-specific heads, a modified Mask R-CNN instance head and our novel semantic segmentation head that processes features of different scales with specialized modules for coherent feature refinement. Finally, our proposed panoptic fusion module adaptively fuses logits from each of the heads to yield the panoptic segmentation output. The Robust Vision Challenge 2020 benchmarking results show that our model is ranked #1 on Microsoft COCO, VIPER and WildDash, and is ranked #2 on Cityscapes and Mapillary Vistas, thereby achieving the overall rank #1 for the panoptic segmentation task.
翻訳日:2022-10-26 03:04:44 公開日:2020-08-23
# オンラインレビューの有益性予測

Predicting Helpfulness of Online Reviews ( http://arxiv.org/abs/2008.10129v1 )

ライセンス: Link先を確認
Abdalraheem Alsmadi, Shadi AlZu'bi, Mahmoud Al-Ayyoub, Yaser Jararweh(参考訳) 電子商取引は世界の経済の大部分を占めており、オンライン販売に特化した多くのウェブサイトがある。 大部分のeコマースウェブサイトは顧客に対して、購入した製品やサービスについて意見を述べる機能を提供する。 これらのレビュー形式でのフィードバックは、ユーザの経験と満足度に関する豊富な情報ソースであり、プロデューサとコンシューマの両方にとって大きなメリットがあります。 しかし、これらのレビューはどれも役に立たない。 レビューの有用性を決定する従来の方法は、人間のユーザからのフィードバックを通じて行われる。 しかし、このような方法は必ずしもすべてのレビューをカバーするわけではない。 さらに、バイアスや高コストなど、多くの問題があります。 したがって、このプロセスを自動化する必要がある。 本稿では,オンラインレビューの有用性を予測するための機械学習(ML)モデルを提案する。 主に3つのアプローチが使用されている: 教師付き学習アプローチ(mlとディープラーニング(dl)モデル)、半教師付きアプローチ(dlモデルと単語埋め込みを組み合わせた)、および転送学習(tl)を使用する事前学習された単語埋め込みモデル。 後者の2つのアプローチは、最近のラベルなしテキストの利用傾向に従う中で、この論文のユニークな側面である。 その結果,提案するDLアプローチは従来のDLアプローチよりも優れていることがわかった。 さらに、半教師は他の教師に比べて顕著なパフォーマンスを持つ。

E-commerce dominates a large part of the world's economy with many websites dedicated to online selling products. The vast majority of e-commerce websites provide their customers with the ability to express their opinions about the products/services they purchase. These feedback in the form of reviews represent a rich source of information about the users' experiences and level of satisfaction, which is of great benefit to both the producer and the consumer. However, not all of these reviews are helpful/useful. The traditional way of determining the helpfulness of a review is through the feedback from human users. However, such a method does not necessarily cover all reviews. Moreover, it has many issues like bias, high cost, etc. Thus, there is a need to automate this process. This paper presents a set of machine learning (ML) models to predict the helpfulness online reviews. Mainly, three approaches are used: a supervised learning approach (using ML as well as deep learning (DL) models), a semi-supervised approach (that combines DL models with word embeddings), and pre-trained word embedding models that uses transfer learning (TL). The latter two approaches are among the unique aspects of this paper as they follow the recent trend of utilizing unlabeled text. The results show that the proposed DL approaches have superiority over the traditional existing ones. Moreover, the semi-supervised has a remarkable performance compared with the other ones.
翻訳日:2022-10-26 03:04:08 公開日:2020-08-23
# お金を賢明に使う - リアルタイムユーザインテント検出に基づくオンライン電子クーポンアロケーション

Spending Money Wisely: Online Electronic Coupon Allocation based on Real-Time User Intent Detection ( http://arxiv.org/abs/2008.09982v1 )

ライセンス: Link先を確認
Liangwei Li, Liucheng Sun, Chenwei Weng, Chengfu Huo, Weijun Ren(参考訳) オンライン電子クーポン(e-coupon)は、電子商取引プラットフォームがユーザーを引きつける主要なツールになりつつある。 e-couponは従来のペーパークーポンのデジタル版で、顧客にディスカウントやギフトを提供する。 関連する根本的な問題の1つは、ユーザーが注文する意欲を最大化しながら、e-couponを最小限のコストで提供する方法である。 我々はこの問題をクーポン割当問題と呼ぶ。 成熟したeプラットフォーム上の正規ユーザ数は数億に達し、割り当てられるe-couponのタイプは複数であることが多いため、これは簡単な問題ではない。 政策空間は極めて大きく、オンラインアロケーションは予算の制約を満たす必要がある。 また、ポリシー作成プロセスの不確実性を高める異なるポリシーの下で、あるユーザの応答を観察することはできない。 以前の作業はこれらの課題に対処できません。 本稿では,クーポン割当タスクをユーザ意図検出タスクと割当タスクという2つのサブタスクに分解する。 そこで,本研究では,第1段階(検出段階)において,ユーザ・カウンポンの特徴を入力として捉え,ユーザ・リアルタイムの意図を予測する新たなInstantaneous Intent Detection Network (IIDN)を提案し,第2段階(アロケーション段階)では,アロケーション問題を,検出段階で予測されたインテントを用いて,MCKP(Multiple-Choice Knapsack Problem)としてモデル化し,効率的なアロケーション手法を提案する。 大規模なオンラインおよびオフラインの実験を行い、その結果、提案したフレームワークの優位性を示し、プラットフォームに大きな利益をもたらし、オンラインで機能し続けています。

Online electronic coupon (e-coupon) is becoming a primary tool for e-commerce platforms to attract users to place orders. E-coupons are the digital equivalent of traditional paper coupons which provide customers with discounts or gifts. One of the fundamental problems related is how to deliver e-coupons with minimal cost while users' willingness to place an order is maximized. We call this problem the coupon allocation problem. This is a non-trivial problem since the number of regular users on a mature e-platform often reaches hundreds of millions and the types of e-coupons to be allocated are often multiple. The policy space is extremely large and the online allocation has to satisfy a budget constraint. Besides, one can never observe the responses of one user under different policies which increases the uncertainty of the policy making process. Previous work fails to deal with these challenges. In this paper, we decompose the coupon allocation task into two subtasks: the user intent detection task and the allocation task. Accordingly, we propose a two-stage solution: at the first stage (detection stage), we put forward a novel Instantaneous Intent Detection Network (IIDN) which takes the user-coupon features as input and predicts user real-time intents; at the second stage (allocation stage), we model the allocation problem as a Multiple-Choice Knapsack Problem (MCKP) and provide a computational efficient allocation method using the intents predicted at the detection stage. We conduct extensive online and offline experiments and the results show the superiority of our proposed framework, which has brought great profits to the platform and continues to function online.
翻訳日:2022-10-26 03:03:50 公開日:2020-08-23
# コンピュータ化のためのモバイルネットワーク

Mobile Networks for Computer Go ( http://arxiv.org/abs/2008.10080v1 )

ライセンス: Link先を確認
Tristan Cazenave(参考訳) alpha zeroやpolygamesといった深層強化学習プログラムで使用されるニューラルネットワークのアーキテクチャは、結果として得られるプレイエンジンのパフォーマンスに大きな影響を与えることが示されている。 例えば、残留ネットワークの使用は、Alpha Goの強度を600 ELO増加させた。 本稿では、教師付き学習とポリシーヘッドとAlpha Zeroヘッドとは異なる値ヘッドの使用により、Goのゲームに対するモバイルネットワークの関心を評価することを提案する。 ポリシーの正確性、値の平均二乗誤差、パラメータ数によるネットワークの効率、トレーニングされたネットワークの演奏速度、強度を評価する。

The architecture of the neural networks used in Deep Reinforcement Learning programs such as Alpha Zero or Polygames has been shown to have a great impact on the performances of the resulting playing engines. For example the use of residual networks gave a 600 ELO increase in the strength of Alpha Go. This paper proposes to evaluate the interest of Mobile Network for the game of Go using supervised learning as well as the use of a policy head and a value head different from the Alpha Zero heads. The accuracy of the policy, the mean squared error of the value, the efficiency of the networks with the number of parameters, the playing speed and strength of the trained networks are evaluated.
翻訳日:2022-10-26 03:03:22 公開日:2020-08-23
# 機械学習と確率論手法を用いた医療データの不確実性処理:30年間のレビュー(1991-2020)

Handling of uncertainty in medical data using machine learning and probability theory techniques: A review of 30 years (1991-2020) ( http://arxiv.org/abs/2008.10114v1 )

ライセンス: Link先を確認
Roohallah Alizadehsani, Mohamad Roshanzamir, Sadiq Hussain, Abbas Khosravi, Afsaneh Koohestani, Mohammad Hossein Zangooei, Moloud Abdar, Adham Beykikhoshk, Afshin Shoeibi, Assef Zare, Maryam Panahiazar, Saeid Nahavandi, Dipti Srinivasan, Amir F. Atiya, U. Rajendra Acharya(参考訳) データを理解し、妥当な結論に達することは、ビッグデータの時代において最も重要なことです。 機械学習と確率論の手法は、異なる分野でこの目的に広く応用されている。 データとモデルの不確実性をキャプチャして分析する方法が重要である。 不確実性の適切な定量化は、最適な意思決定に有用な情報を提供する。 本稿では,過去30年間(1991年から2020年まで)に行われた医療データの不確実性について,確率論と機械学習技術を用いて検討した。 医療データは、データにノイズが存在するため、不確実性が高まる。 したがって、正確な診断を得るために、ノイズのないクリーンな医療データを持つことは非常に重要です。 医療データのノイズ源は、この問題に対処するために知っておく必要がある。 医師が取得した医療データに基づいて、疾患の診断及び治療計画が規定される。 したがって、医療における不確実性は増大しており、これらの問題に対処する知識は限られている。 医学に不確実性の源が多数存在するため, 最適な治療方法に関する知識は乏しい。 以上の結果から,医療用生データや新モデルの不確実性に対処する上での課題は少ないことが示唆された。 本研究では,この問題を克服するための様々な手法をまとめた。 近年,このような不確実性に対処する新しい深層学習技術の応用が著しく進んでいる。

Understanding data and reaching valid conclusions are of paramount importance in the present era of big data. Machine learning and probability theory methods have widespread application for this purpose in different fields. One critically important yet less explored aspect is how data and model uncertainties are captured and analyzed. Proper quantification of uncertainty provides valuable information for optimal decision making. This paper reviewed related studies conducted in the last 30 years (from 1991 to 2020) in handling uncertainties in medical data using probability theory and machine learning techniques. Medical data is more prone to uncertainty due to the presence of noise in the data. So, it is very important to have clean medical data without any noise to get accurate diagnosis. The sources of noise in the medical data need to be known to address this issue. Based on the medical data obtained by the physician, diagnosis of disease, and treatment plan are prescribed. Hence, the uncertainty is growing in healthcare and there is limited knowledge to address these problems. We have little knowledge about the optimal treatment methods as there are many sources of uncertainty in medical science. Our findings indicate that there are few challenges to be addressed in handling the uncertainty in medical raw data and new models. In this work, we have summarized various methods employed to overcome this problem. Nowadays, application of novel deep learning techniques to deal such uncertainties have significantly increased.
翻訳日:2022-10-26 03:03:11 公開日:2020-08-23
# クラスタリングのための二重反転オートエンコーダ

Dual Adversarial Auto-Encoders for Clustering ( http://arxiv.org/abs/2008.10038v1 )

ライセンス: Link先を確認
Pengfei Ge, Chuan-Xian Ren, Jiashi Feng, Shuicheng Yan(参考訳) 探索的データ分析の強力なアプローチとして、教師なしクラスタリングはコンピュータビジョンとパターン認識の基本的な課題である。 多くのクラスタリングアルゴリズムが開発されているが、そのほとんどは複雑な構造を持つデータに対して不満足に動作している。 近年,Adversarial Auto-Encoder (AAE) は,オートエンコーダ (AE) と逆行訓練を組み合わせることで,そのようなデータに対処する効果を示すが,ラベルのないデータから分類情報を効果的に抽出することはできない。 そこで本研究では,実例と潜在変数のサブセット間の確率関数と相互情報を同時に最大化する2つの逆オートエンコーダ(dual-aae)を提案する。 Dual-AAEの目的関数に対する変分推論を行うことで,2組のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。 さらに,モード崩壊を回避するために,カテゴリ変数のクラスタリング正規化項を導入する。 4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。 さらに、rejectオプションを追加することで、dual-aaeのクラスタリング精度は教師付きcnnアルゴリズムに到達できる。 Dual-AAEは、教師付き情報を用いることなく、画像のスタイルや内容の切り離しにも利用できる。

As a powerful approach for exploratory data analysis, unsupervised clustering is a fundamental task in computer vision and pattern recognition. Many clustering algorithms have been developed, but most of them perform unsatisfactorily on the data with complex structures. Recently, Adversarial Auto-Encoder (AAE) shows effectiveness on tackling such data by combining Auto-Encoder (AE) and adversarial training, but it cannot effectively extract classification information from the unlabeled data. In this work, we propose Dual Adversarial Auto-encoder (Dual-AAE) which simultaneously maximizes the likelihood function and mutual information between observed examples and a subset of latent variables. By performing variational inference on the objective function of Dual-AAE, we derive a new reconstruction loss which can be optimized by training a pair of Auto-encoders. Moreover, to avoid mode collapse, we introduce the clustering regularization term for the category variable. Experiments on four benchmarks show that Dual-AAE achieves superior performance over state-of-the-art clustering methods. Besides, by adding a reject option, the clustering accuracy of Dual-AAE can reach that of supervised CNN algorithms. Dual-AAE can also be used for disentangling style and content of images without using supervised information.
翻訳日:2022-10-26 03:01:52 公開日:2020-08-23
# 組織リソースを活用した新しいデータモダリティへのモデルの適用

Leveraging Organizational Resources to Adapt Models to New Data Modalities ( http://arxiv.org/abs/2008.09983v1 )

ライセンス: Link先を確認
Sahaana Suri, Raghuveer Chanda, Neslihan Bulut, Pradyumna Narayana, Yemao Zeng, Peter Bailis, Sugato Basu, Girija Narlikar, Christopher Re, and Abishek Sethi(参考訳) 大企業のアプリケーションが進化するにつれて、それらを支える機械学習(ml)モデルは、新たに発生するデータモダリティに同じ予測タスクを適用する必要がある(例えば、ソーシャルメディアアプリケーションで新しいビデオコンテンツがローンチされると、既存のテキストや画像モデルがビデオに拡張される必要がある)。 この問題を解決するために、組織は通常、スクラッチからMLパイプラインを作成します。 しかし、これは既存のモダリティのためにタスクを開発することで生み出したドメインの専門知識とデータを利用することができない。 組織的なリソース、すなわち統計、知識ベース、および関連するタスクを操作する既存のサービスによって、チームが新しいデータモダリティと既存のデータモダリティを接続する共通の機能空間を構築することができるかを示す。 これにより、チームはデータキュレーション(例えば、弱い監督とラベルの伝播)とモデルトレーニング(例えば、マルチモーダル学習の形式)をこれらの異なるデータモダリティにわたってトレーニングする方法を適用することができる。 この組織リソースの利用が,Googleの5つ以上の分類タスクにおいて,運用規模でどのように構成されるのかを調査し,新しいモダリティのモデルを開発するために必要な時間を数ヶ月から数週間から数日に短縮する方法を実証する。

As applications in large organizations evolve, the machine learning (ML) models that power them must adapt the same predictive tasks to newly arising data modalities (e.g., a new video content launch in a social media application requires existing text or image models to extend to video). To solve this problem, organizations typically create ML pipelines from scratch. However, this fails to utilize the domain expertise and data they have cultivated from developing tasks for existing modalities. We demonstrate how organizational resources, in the form of aggregate statistics, knowledge bases, and existing services that operate over related tasks, enable teams to construct a common feature space that connects new and existing data modalities. This allows teams to apply methods for training data curation (e.g., weak supervision and label propagation) and model training (e.g., forms of multi-modal learning) across these different data modalities. We study how this use of organizational resources composes at production scale in over 5 classification tasks at Google, and demonstrate how it reduces the time needed to develop models for new modalities from months to weeks to days.
翻訳日:2022-10-26 02:55:01 公開日:2020-08-23
# TSAM:自己注意機構に基づく方向性ネットワークにおける時間リンク予測

TSAM: Temporal Link Prediction in Directed Networks based on Self-Attention Mechanism ( http://arxiv.org/abs/2008.10021v1 )

ライセンス: Link先を確認
Jinsong Li, Jianhua Peng, Shuxin Liu, Lintianran Weng, Cong Li(参考訳) グラフニューラルネットワーク(GCN)の開発により、複雑なネットワークの進化から構造的特徴を学ぶことができる。 幅広い現実的なネットワークが指向されているが、有向ネットワークと時間ネットワークの特性を調査する既存の研究はほとんどない。 本稿では,有向ネットワークにおける時間的リンク予測の問題に対処し,gcnと自己アテンション機構に基づくディープラーニングモデル,すなわちtsamを提案する。 提案するモデルはオートエンコーダアーキテクチャを採用しており、グラフ注意層を用いて近傍ノードの構造特徴をキャプチャし、グラフ畳み込み層の集合をモチーフの特徴をキャプチャする。 自己アテンションを有するグラフリカレント単位層を用いて、スナップショットシーケンスの時間変化を学習する。 TSAMの有効性を検証するために、4つの現実的ネットワーク上で比較実験を行った。 実験の結果,TSAMは2つの評価基準でほとんどのベンチマークより優れていた。

The development of graph neural networks (GCN) makes it possible to learn structural features from evolving complex networks. Even though a wide range of realistic networks are directed ones, few existing works investigated the properties of directed and temporal networks. In this paper, we address the problem of temporal link prediction in directed networks and propose a deep learning model based on GCN and self-attention mechanism, namely TSAM. The proposed model adopts an autoencoder architecture, which utilizes graph attentional layers to capture the structural feature of neighborhood nodes, as well as a set of graph convolutional layers to capture motif features. A graph recurrent unit layer with self-attention is utilized to learn temporal variations in the snapshot sequence. We run comparative experiments on four realistic networks to validate the effectiveness of TSAM. Experimental results show that TSAM outperforms most benchmarks under two evaluation metrics.
翻訳日:2022-10-26 02:54:38 公開日:2020-08-23
# 局所安定性プリエントを用いた学習力学系

Learning Dynamical Systems using Local Stability Priors ( http://arxiv.org/abs/2008.10053v1 )

ライセンス: Link先を確認
Arash Mehrjou, Andrea Iannelli, Bernhard Sch\"olkopf(参考訳) 系の生成軌道からベクトル場と平衡点のアトラクションの領域を同時に学習する計算手法を提案する。 非線形同定は、システムの先行として局所安定性情報を活用し、この重要な構造特性で推定を効果的に内挿する。 さらに、アトラクション領域の知識は、軌道が生成される初期条件の選択を知らせ、システムのリアプノフ関数を正規化項として使用できるようにすることで、実験設計の役割を担っている。 数値計算の結果,提案手法は効率的なサンプリングが可能であり,アトラクション領域内近似のダイナミクスを精度良く推定できることがわかった。

A coupled computational approach to simultaneously learn a vector field and the region of attraction of an equilibrium point from generated trajectories of the system is proposed. The nonlinear identification leverages the local stability information as a prior on the system, effectively endowing the estimate with this important structural property. In addition, the knowledge of the region of attraction plays an experiment design role by informing the selection of initial conditions from which trajectories are generated and by enabling the use of a Lyapunov function of the system as a regularization term. Numerical results show that the proposed method allows efficient sampling and provides an accurate estimate of the dynamics in an inner approximation of its region of attraction.
翻訳日:2022-10-26 02:54:24 公開日:2020-08-23
# スムース信号からのカーネルベースのグラフ学習:機能的視点

Kernel-based Graph Learning from Smooth Signals: A Functional Viewpoint ( http://arxiv.org/abs/2008.10065v1 )

ライセンス: Link先を確認
Xingyue Pu, Siu Lun Chau, Xiaowen Dong and Dino Sejdinovic(参考訳) グラフ学習の問題は、データエンティティを表すノード間の関係を明らかにする明示的なトポロジ構造の構築に関するもので、機械学習やグラフ信号処理の分野で、多くのグラフベースの表現とアルゴリズムの成功にますます重要な役割を果たしている。 本稿では,ノード側および観測側情報,特にグラフ信号の依存性構造を説明するのに役立つ共変量を含む新しいグラフ学習フレームワークを提案する。 そこで我々は,Kronecker製品カーネルに付随する再現カーネルHilbert空間の関数としてグラフ信号を考慮し,スムーズなグラフ学習と関数学習を統合し,ノード間の関係を表すグラフを学習する。 機能学習はグラフ信号の欠落や不完全な情報に対するグラフ学習の堅牢性を高める。 さらに、Kronecker製品カーネルと組み合わせることで、グラフによって説明される依存性と、異なる状況下で観察されるグラフ信号による依存性の両方を、時間内の異なる点などによって捉えることができる新しいグラフベースの正規化手法を開発した。 後者は、グラフ信号は古典的なグラフ学習モデルで要求されるi.d.仮定から解放されることを意味する。 合成データと実世界のデータの両方で実験した結果,本手法はグラフ信号から有意義なグラフトポロジを学習する際の最先端モデルよりも優れていることがわかった。

The problem of graph learning concerns the construction of an explicit topological structure revealing the relationship between nodes representing data entities, which plays an increasingly important role in the success of many graph-based representations and algorithms in the field of machine learning and graph signal processing. In this paper, we propose a novel graph learning framework that incorporates the node-side and observation-side information, and in particular the covariates that help to explain the dependency structures in graph signals. To this end, we consider graph signals as functions in the reproducing kernel Hilbert space associated with a Kronecker product kernel, and integrate functional learning with smoothness-promoting graph learning to learn a graph representing the relationship between nodes. The functional learning increases the robustness of graph learning against missing and incomplete information in the graph signals. In addition, we develop a novel graph-based regularisation method which, when combined with the Kronecker product kernel, enables our model to capture both the dependency explained by the graph and the dependency due to graph signals observed under different but related circumstances, e.g. different points in time. The latter means the graph signals are free from the i.i.d. assumptions required by the classical graph learning models. Experiments on both synthetic and real-world data show that our methods outperform the state-of-the-art models in learning a meaningful graph topology from graph signals, in particular under heavy noise, missing values, and multiple dependency.
翻訳日:2022-10-26 02:54:15 公開日:2020-08-23
# 平滑な非線形TD学習のための単一時間確率非凸凹最適化

Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning ( http://arxiv.org/abs/2008.10103v1 )

ライセンス: Link先を確認
Shuang Qiu, Zhuoran Yang, Xiaohan Wei, Jieping Ye, Zhaoran Wang(参考訳) 非線形滑らか関数近似を用いたtd学習は,近年の強化学習において大きな成功を収めている。 このような問題を確率的非凸・強凹最適化問題として再定式化できることが示されているが、これはナイーブな確率的勾配降下・上昇アルゴリズムが収束の遅い問題である。 この問題に対する既存のアプローチは、2時間スケールまたはダブルループの確率的勾配アルゴリズムに基づいている。 しかし、実際には、その単純さとステップサイズが調整しやすいため、シングルタイムスケールのシングルループ確率アルゴリズムが好まれる。 本稿では,各ステップごとに1つのデータポイントしか必要としない2つのシングルタイムスケールシングルループアルゴリズムを提案する。 我々の最初のアルゴリズムは、プリマル変数と双対変数の両方の運動量更新を実装し、O(\varepsilon^{-4})$サンプル複雑性を実現し、単一時間スケールのアルゴリズムを得る上での運動量の役割を示す。 第2のアルゴリズムは,既存の作業における最もよく知られた$o(\varepsilon^{-3})$サンプル複雑性と一致する運動量上に分散還元を適用することで,第1のアルゴリズムを改善する。 さらに,本アルゴリズムでは大きなバッチチェックポイントを必要としない。 さらに, 両アルゴリズムの理論的結果は, 同時一次および二重側収束のより厳密な形式で表される。

Temporal-Difference (TD) learning with nonlinear smooth function approximation for policy evaluation has achieved great success in modern reinforcement learning. It is shown that such a problem can be reformulated as a stochastic nonconvex-strongly-concave optimization problem, which is challenging as naive stochastic gradient descent-ascent algorithm suffers from slow convergence. Existing approaches for this problem are based on two-timescale or double-loop stochastic gradient algorithms, which may also require sampling large-batch data. However, in practice, a single-timescale single-loop stochastic algorithm is preferred due to its simplicity and also because its step-size is easier to tune. In this paper, we propose two single-timescale single-loop algorithms which require only one data point each step. Our first algorithm implements momentum updates on both primal and dual variables achieving an $O(\varepsilon^{-4})$ sample complexity, which shows the important role of momentum in obtaining a single-timescale algorithm. Our second algorithm improves upon the first one by applying variance reduction on top of momentum, which matches the best known $O(\varepsilon^{-3})$ sample complexity in existing works. Furthermore, our variance-reduction algorithm does not require a large-batch checkpoint. Moreover, our theoretical results for both algorithms are expressed in a tighter form of simultaneous primal and dual side convergence.
翻訳日:2022-10-26 02:53:48 公開日:2020-08-23
# 義肢感覚を符号化するグラフ畳み込みネットワーク

Graph Convolutional Networks Reveal Neural Connections Encoding Prosthetic Sensation ( http://arxiv.org/abs/2009.03272v1 )

ライセンス: Link先を確認
Vivek Subramanian, Joshua Khani(参考訳) 神経アンサンブルからの刺激特徴の抽出は、電気刺激によって脳に直接感覚情報を投影する神経補綴物の開発に大きな関心を寄せている。 被験者が人工的な入力を解釈するときに刺激パラメータを最適化する機械学習戦略は、デバイスの有効性を改善し、補綴性能を高め、誘発された感覚の安定性を確保し、外部入力を排除して消費電力を改善する。 深層学習を非ユークリッドグラフデータに拡張する最近の進歩は、神経スパイク活動の解釈に新しいアプローチをもたらす。 本研究では, 人工感覚情報の処理に関与するニューロン間の機能的関係を推定するために, グラフ畳み込みネットワーク(GCN)を適用した。 データは4つの赤外線センサー、ICMSベースのニューロプロセシスを用いて、自由に行動するラットから収集された。 我々はGCNを用いて4つの刺激チャネル間の刺激周波数を予測し、相対距離と方向情報をIR励起報酬ポートにエンコードする。 このGCNモデルでは、7つのクラスからなる多重クラス分類問題において、修正順序回帰性能指標の73.5%のピーク性能を達成でき、その確率は14.3%である。 さらに、推論隣接行列は、人工感覚をコードする基盤となる神経回路の適切な表現を提供する。

Extracting stimulus features from neuronal ensembles is of great interest to the development of neuroprosthetics that project sensory information directly to the brain via electrical stimulation. Machine learning strategies that optimize stimulation parameters as the subject learns to interpret the artificial input could improve device efficacy, increase prosthetic performance, ensure stability of evoked sensations, and improve power consumption by eliminating extraneous input. Recent advances extending deep learning techniques to non-Euclidean graph data provide a novel approach to interpreting neuronal spiking activity. For this study, we apply graph convolutional networks (GCNs) to infer the underlying functional relationship between neurons that are involved in the processing of artificial sensory information. Data was collected from a freely behaving rat using a four infrared (IR) sensor, ICMS-based neuroprosthesis to localize IR light sources. We use GCNs to predict the stimulation frequency across four stimulating channels in the prosthesis, which encode relative distance and directional information to an IR-emitting reward port. Our GCN model is able to achieve a peak performance of 73.5% on a modified ordinal regression performance metric in a multiclass classification problem consisting of 7 classes, where chance is 14.3%. Additionally, the inferred adjacency matrix provides a adequate representation of the underlying neural circuitry encoding the artificial sensation.
翻訳日:2022-10-26 02:53:13 公開日:2020-08-23
# 口唇で口唇を鳴らす「Lip Sync Expert」(動画あり)

A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild ( http://arxiv.org/abs/2008.10010v1 )

ライセンス: Link先を確認
K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar(参考訳) 本研究では,任意のアイデンティティの発話表情映像をリップシンクして対象音声セグメントに適合させる問題について検討する。 現在の作品は、トレーニング段階で見られる特定の人物の静的画像やビデオで正確な唇の動きを生成するのに優れている。 しかし、動的で制約のない会話の表情ビデオでは、任意のアイデンティティの唇の動きを正確に変化させることができず、その結果、ビデオのかなりの部分が新しい音声と同期していない。 我々はこれに関連する重要な理由を特定し、強力なリップシンク判別器から学習することで解決する。 次に,無拘束ビデオのリップ同期を正確に測定するための新しい厳密な評価ベンチマークと指標を提案する。 wav2lipモデルによって生成されたビデオのリップシンク精度は、実際の同期ビデオとほぼ同等であることを示している。 当社のwebサイトでは,wav2lipモデルと評価ベンチマークの影響を,明確に示すデモビデオを公開しています。 コードとモデルは、このgithubリポジトリでリリースされている。 このリンクでインタラクティブなデモを試すこともできる。 \url{bhaasha.iiit.ac.in/lipsync}。

In this work, we investigate the problem of lip-syncing a talking face video of an arbitrary identity to match a target speech segment. Current works excel at producing accurate lip movements on a static image or videos of specific people seen during the training phase. However, they fail to accurately morph the lip movements of arbitrary identities in dynamic, unconstrained talking face videos, resulting in significant parts of the video being out-of-sync with the new audio. We identify key reasons pertaining to this and hence resolve them by learning from a powerful lip-sync discriminator. Next, we propose new, rigorous evaluation benchmarks and metrics to accurately measure lip synchronization in unconstrained videos. Extensive quantitative evaluations on our challenging benchmarks show that the lip-sync accuracy of the videos generated by our Wav2Lip model is almost as good as real synced videos. We provide a demo video clearly showing the substantial impact of our Wav2Lip model and evaluation benchmarks on our website: \url{cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip- generation-in-the-wild}. The code and models are released at this GitHub repository: \url{github.com/Rudrabha/Wav2Lip}. You can also try out the interactive demo at this link: \url{bhaasha.iiit.ac.in/lipsync}.
翻訳日:2022-10-26 02:52:52 公開日:2020-08-23
# クロスビューと各ビューからのハイブリッド知識の絞り込みによる教師なしマルチビュークラスタリング

Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from Cross View and Each View ( http://arxiv.org/abs/2008.09990v1 )

ライセンス: Link先を確認
Junpeng Tan, Yukai Shi, Zhijing Yang, Caizhen Wen, Liang Lin(参考訳) 近年,クラスタリング性能が優れているため,マルチビュークラスタリング手法が注目されている。 しかし、従来のマルチビュークラスタリングアルゴリズムには、冗長な情報の除去、様々なビューの利用、マルチビュー機能の融合など、いくつかの面ではまだ欠点がある。 そこで本研究では,適応グラフ正規化に基づく新しいマルチビュークラスタリング手法である低ランクサブスペースマルチビュークラスタリングを提案する。 2つの新しいデータ行列分解モデルを統一最適化モデルとして構築する。 本稿では,クロスビューで共有される共通知識と各ビューのユニークな知識の意義を,スパース部分空間行列に新しい低ランク制約とスパース制約を提示することによって解決する。 元のデータ行列上で効果的なスパース表現とクラスタリング性能を実現するため,提案モデルには適応グラフ正規化と教師なしクラスタリング制約も組み込まれ,データの内部構造的特徴を保っている。 最後に,提案手法を最先端アルゴリズムと比較する。 5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。

Multi-view clustering methods have been a focus in recent years because of their superiority in clustering performance. However, typical traditional multi-view clustering algorithms still have shortcomings in some aspects, such as removal of redundant information, utilization of various views and fusion of multi-view features. In view of these problems, this paper proposes a new multi-view clustering method, low-rank subspace multi-view clustering based on adaptive graph regularization. We construct two new data matrix decomposition models into a unified optimization model. In this framework, we address the significance of the common knowledge shared by the cross view and the unique knowledge of each view by presenting new low-rank and sparse constraints on the sparse subspace matrix. To ensure that we achieve effective sparse representation and clustering performance on the original data matrix, adaptive graph regularization and unsupervised clustering constraints are also incorporated in the proposed model to preserve the internal structural features of the data. Finally, the proposed method is compared with several state-of-the-art algorithms. Experimental results for five widely used multi-view benchmarks show that our proposed algorithm surpasses other state-of-the-art methods by a clear margin.
翻訳日:2022-10-26 02:46:27 公開日:2020-08-23
# 仮想ビッグデータ投影による安定的不均衡データの分類に向けて

Towards Stable Imbalanced Data Classification via Virtual Big Data Projection ( http://arxiv.org/abs/2009.08387v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Weidong Shi(参考訳) VBD(Virtual Big Data)は,最近になってGAN(Generative Adversarial Neural Networks)の2つの大きな問題として,モード崩壊とジェネレータ勾配の解消に有効であることが判明した。 本稿では,Deep Autoencoderトレーニングと不均衡データ分類を含む,機械学習における2つの大きな課題に対処するVBDの能力について検討する。 まず、VBDは、過度に適合する問題を最小化するために、より良い一般化に到達するための鍵となる巨大な多角化トレーニングデータを提供することにより、オートエンコーダの検証損失を著しく低減できることを示す。 第二に、VBDを用いてクロスコンカニエーションと呼ばれる最初のプロジェクションベースの手法を提案し、オーバーサンプリングなしでスキュートクラス分布のバランスをとる。 クロス結合は不均衡分類のためのデータ駆動手法の不確実性問題を解決できることを実証する。

Virtual Big Data (VBD) proved to be effective to alleviate mode collapse and vanishing generator gradient as two major problems of Generative Adversarial Neural Networks (GANs) very recently. In this paper, we investigate the capability of VBD to address two other major challenges in Machine Learning including deep autoencoder training and imbalanced data classification. First, we prove that, VBD can significantly decrease the validation loss of autoencoders via providing them a huge diversified training data which is the key to reach better generalization to minimize the over-fitting problem. Second, we use the VBD to propose the first projection-based method called cross-concatenation to balance the skewed class distributions without over-sampling. We prove that, cross-concatenation can solve uncertainty problem of data driven methods for imbalanced classification.
翻訳日:2022-10-26 02:45:49 公開日:2020-08-23
# 姿勢・年齢変化を考慮した画像集合分類のための識別残差分析

Discriminative Residual Analysis for Image Set Classification with Posture and Age Variations ( http://arxiv.org/abs/2008.09994v1 )

ライセンス: Link先を確認
Chuan-Xian Ren, You-Wei Luo, Xiao-Lin Xu, Dao-Qing Dai and Hong Yan(参考訳) 画像認識は、リアルタイムビデオ検索や画像キャプションタスクなど、多くの実践的な問題に広く応用されている。 その性能は優れており、近年では重要な話題となっている。 しかし、姿勢や人間の年齢など、複雑なバリエーションを持つ画像は、画像の出現に関して連続的に徐々に変化するため、対処が困難である。 したがって、画像集合認識の重要なポイントは、画像バッチから本質的な接続または構造情報をばらつきでマイニングすることである。 本研究では, 識別残差分析(DRA)手法を提案し, 関連群と非関連群の識別特徴を同定し, 分類性能を向上させる。 具体的には、DRAは残留表現を判別部分空間にキャストする強力な射影を得ようとする。 そのような射影部分空間は、入力空間の有用な情報を可能な限り拡大することが期待され、与えられた距離または距離で記述されたトレーニングセットとテストセットの関係は、判別サブ空間においてより正確になる。 また、無関係なグループを構築するための別のアプローチを定義することで、エラーをサンプリングするコストをさらに削減する手法を提案する。 2つの正則化アプローチは、可能な小さなサンプルサイズ問題に対処するために使用される。 ベンチマークデータベースで広範な実験を行い,新しい手法の有用性と効率性を示した。

Image set recognition has been widely applied in many practical problems like real-time video retrieval and image caption tasks. Due to its superior performance, it has grown into a significant topic in recent years. However, images with complicated variations, e.g., postures and human ages, are difficult to address, as these variations are continuous and gradual with respect to image appearance. Consequently, the crucial point of image set recognition is to mine the intrinsic connection or structural information from the image batches with variations. In this work, a Discriminant Residual Analysis (DRA) method is proposed to improve the classification performance by discovering discriminant features in related and unrelated groups. Specifically, DRA attempts to obtain a powerful projection which casts the residual representations into a discriminant subspace. Such a projection subspace is expected to magnify the useful information of the input space as much as possible, then the relation between the training set and the test set described by the given metric or distance will be more precise in the discriminant subspace. We also propose a nonfeasance strategy by defining another approach to construct the unrelated groups, which help to reduce furthermore the cost of sampling errors. Two regularization approaches are used to deal with the probable small sample size problem. Extensive experiments are conducted on benchmark databases, and the results show superiority and efficiency of the new methods.
翻訳日:2022-10-26 02:45:34 公開日:2020-08-23
# 参加させてください! 社会認識ロボットによるリアルタイムF画像認識

Let me join you! Real-time F-formation recognition by a socially aware robot ( http://arxiv.org/abs/2008.10078v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Pradip Pramanick, Chayan Sarkar, Theint Haythi Mg(参考訳) 本稿では,エゴビジョンカメラの連続画像ストリームからリアルタイムに社会集団を検出する新しいアーキテクチャを提案する。 f-formationは、2人以上の人が社会的な場所でコミュニケーションする傾向がある空間における社会的指向を定義する。 基本的に,会合や討論などの社会集会におけるF-formationを検出し,社会集団への参加を希望するロボットのアプローチ角を予測する。 さらに,対象グループに属さない異常者,すなわち,対象グループに属さない人物も検出する。 提案するパイプラインは -- a) 現場で検出された人間の骨格キーポイント推定器(合計17) b)crfを用いた学習モデル(骨格点に基づく特徴ベクトルを用いて)を用いて,シーン内の人物群及び異常者群を検出すること。 c) 多クラスサポートベクターマシン(svm)を用いた個別学習モデルにより,現在の場面における人々のグループの正確なf形成と,視聴ロボットのアプローチ角度を予測する。 システムは2つのデータセットを用いて評価される。 以上の結果から,本手法を用いたシーンにおけるグループと外乱検出の精度は91%であった。 我々は,最先端のf-formation検出システムと厳密な比較を行い,造形検出では29%,造形角と接近角の同時検出では55%,最先端f-formation検出システムでは29%の精度を示した。

This paper presents a novel architecture to detect social groups in real-time from a continuous image stream of an ego-vision camera. F-formation defines social orientations in space where two or more person tends to communicate in a social place. Thus, essentially, we detect F-formations in social gatherings such as meetings, discussions, etc. and predict the robot's approach angle if it wants to join the social group. Additionally, we also detect outliers, i.e., the persons who are not part of the group under consideration. Our proposed pipeline consists of -- a) a skeletal key points estimator (a total of 17) for the detected human in the scene, b) a learning model (using a feature vector based on the skeletal points) using CRF to detect groups of people and outlier person in a scene, and c) a separate learning model using a multi-class Support Vector Machine (SVM) to predict the exact F-formation of the group of people in the current scene and the angle of approach for the viewing robot. The system is evaluated using two data-sets. The results show that the group and outlier detection in a scene using our method establishes an accuracy of 91%. We have made rigorous comparisons of our systems with a state-of-the-art F-formation detection system and found that it outperforms the state-of-the-art by 29% for formation detection and 55% for combined detection of the formation and approach angle.
翻訳日:2022-10-26 02:44:56 公開日:2020-08-23
# 感性分析と深層学習を用いたクロスカルチャーポラリティと感情検出-COVID-19を事例として

Cross-Cultural Polarity and Emotion Detection Using Sentiment Analysis and Deep Learning -- a Case Study on COVID-19 ( http://arxiv.org/abs/2008.10031v1 )

ライセンス: Link先を確認
Ali Shariq Imran, Sher Mohammad Doudpota, Zenun Kastrati, Rakhi Bhatra(参考訳) 危機に対して異なる文化がどう反応し反応するかは、社会の規範と状況と戦うための政治的意志が主である。 多くの場合、決定は、国家の意思を表わさないかもしれない出来事、社会的圧力、時間の必要性によって必要となる。 喜ぶ者もいるが、恨みを抱く者もいる。 コロナウイルス(COVID-19)は各国の同様の感情を、各国政府による決定に取り入れた。 ソーシャルメディアは、新型コロナウイルス(COVID-19)に対する肯定的な感情と否定的な感情、パンデミック、ロックダウン、ハッシュタグを含む投稿で攻撃を受けた。 地理的に近かったにもかかわらず、多くの近隣諸国は異なる反応を示した。 例えば、多くの類似点を共有しているデンマークとスウェーデンは、それぞれの政府によって下された決定を断念した。 しかし、彼らの国の支援はほとんど満場一致で、人々が多くの不安や恨みを抱いていた南アジア諸国とは違っていた。 本研究は,自然言語処理(nlp)と深層学習技術を用いて,パンデミックの初期段階とロックダウン期間に示された感情極性と感情をtwitter投稿上で検出・分析する傾向がある。 感情極性と感情を抽出したツイートから推定するために使用される深部長期記憶(LSTM)モデルは、感情140データセットで最先端の精度を達成するために訓練されている。 エモティコンの使用は、twitterから抽出されたツイートで教師付きディープラーニングモデルを検証する、ユニークで新しい方法を示した。

How different cultures react and respond given a crisis is predominant in a society's norms and political will to combat the situation. Often the decisions made are necessitated by events, social pressure, or the need of the hour, which may not represent the will of the nation. While some are pleased with it, others might show resentment. Coronavirus (COVID-19) brought a mix of similar emotions from the nations towards the decisions taken by their respective governments. Social media was bombarded with posts containing both positive and negative sentiments on the COVID-19, pandemic, lockdown, hashtags past couple of months. Despite geographically close, many neighboring countries reacted differently to one another. For instance, Denmark and Sweden, which share many similarities, stood poles apart on the decision taken by their respective governments. Yet, their nation's support was mostly unanimous, unlike the South Asian neighboring countries where people showed a lot of anxiety and resentment. This study tends to detect and analyze sentiment polarity and emotions demonstrated during the initial phase of the pandemic and the lockdown period employing natural language processing (NLP) and deep learning techniques on Twitter posts. Deep long short-term memory (LSTM) models used for estimating the sentiment polarity and emotions from extracted tweets have been trained to achieve state-of-the-art accuracy on the sentiment140 dataset. The use of emoticons showed a unique and novel way of validating the supervised deep learning models on tweets extracted from Twitter.
翻訳日:2022-10-26 02:44:32 公開日:2020-08-23
# 決算報告と株価変動に向けて

Towards Earnings Call and Stock Price Movement ( http://arxiv.org/abs/2009.01317v1 )

ライセンス: Link先を確認
Zhiqiang Ma, Grace Bang, Chong Wang, Xiaomo Liu(参考訳) 決算報告は上場企業の経営陣が主催し、アナリストや投資家と会社の業績について議論する。 決算会見で公表された情報は、アナリストや投資家が投資決定を行う上で不可欠なデータ源である。 したがって、決算報告の書き起こしを利用して将来の株価変動を予測する。 本稿では,テキストデータをベクトルにエンコードし,株価変動を予測するための注意機構を応用した深層学習フレームワークを用いて,書き起こし中の言語をモデル化することを提案する。 実証実験により,提案モデルは従来の機械学習ベースラインよりも優れており,決算報告情報により株価予測性能が向上することが示された。

Earnings calls are hosted by management of public companies to discuss the company's financial performance with analysts and investors. Information disclosed during an earnings call is an essential source of data for analysts and investors to make investment decisions. Thus, we leverage earnings call transcripts to predict future stock price dynamics. We propose to model the language in transcripts using a deep learning framework, where an attention mechanism is applied to encode the text data into vectors for the discriminative network classifier to predict stock price movements. Our empirical experiments show that the proposed model is superior to the traditional machine learning baselines and earnings call information can boost the stock price prediction performance.
翻訳日:2022-10-26 02:44:06 公開日:2020-08-23
# セル接続型UAVのフェデレーション学習:無線マッピングと経路計画

Federated Learning for Cellular-connected UAVs: Radio Mapping and Path Planning ( http://arxiv.org/abs/2008.10054v1 )

ライセンス: Link先を確認
Behzad Khamidehi and Elvino S. Sousa(参考訳) 無人航空機(UAV)の寿命を延ばすため、UAVは可能な限り短期間でミッションを遂行する必要がある。 この要件に加えて、多くのアプリケーションでは、UAVは飛行中に信頼性の高いインターネット接続を必要とする。 本稿では,UAVの走行時間を最小化し,確率的接続制約を満たすことを保証する。 この問題を解決するには、環境における停止確率のグローバルモデルが必要である。 UAVは異なるミッションを持ち、異なるエリアを飛行するため、収集されたデータはネットワークの接続に関するローカル情報を運ぶ。 その結果、UAVはグローバルモデルを構築するために自身の経験を頼りにすることはできない。 この問題はUAVの経路計画に影響を与える。 この懸念に対処するために,我々は2段階のアプローチを用いる。 最初のステップでは、フェデレーション学習(fl)を使用して、uavsは協調して、環境における停止確率のグローバルモデルを構築します。 第2ステップでは、第1ステップで得られた大域的モデルと高速探索ランダムツリー(RRT)を用いて、UAVの経路を最適化するアルゴリズムを提案する。 シミュレーションの結果,UAVネットワークにおける2段階のアプローチの有効性が示された。

To prolong the lifetime of the unmanned aerial vehicles (UAVs), the UAVs need to fulfill their missions in the shortest possible time. In addition to this requirement, in many applications, the UAVs require a reliable internet connection during their flights. In this paper, we minimize the travel time of the UAVs, ensuring that a probabilistic connectivity constraint is satisfied. To solve this problem, we need a global model of the outage probability in the environment. Since the UAVs have different missions and fly over different areas, their collected data carry local information on the network's connectivity. As a result, the UAVs can not rely on their own experiences to build the global model. This issue affects the path planning of the UAVs. To address this concern, we utilize a two-step approach. In the first step, by using Federated Learning (FL), the UAVs collaboratively build a global model of the outage probability in the environment. In the second step, by using the global model obtained in the first step and rapidly-exploring random trees (RRTs), we propose an algorithm to optimize UAVs' paths. Simulation results show the effectiveness of this two-step approach for UAV networks.
翻訳日:2022-10-26 02:43:56 公開日:2020-08-23
# プロアクティブな知識伝達を通して話すことを学ぶ

Learn to Talk via Proactive Knowledge Transfer ( http://arxiv.org/abs/2008.10077v1 )

ライセンス: Link先を確認
Qing Sun and James Cross(参考訳) 知識伝達は様々な問題を解決するために応用されている。 例えば、知識はタスク(例えば、以前の知識を利用して新しい状況に対処する学習)とエージェント(例えば、直接経験のない他人から学ぶ)の間で伝達される。 一般性を欠くことなく、知識伝達とKL分割最小化、すなわち学習者と教師の(信頼)分布のマッチングを関連付ける。 等価性は、学習者が知識を得るために教師との相互作用をどのように構成するかを検討することで、KL分割の変種を理解する新しい視点を与える。 本稿では,KL分割最小化をフォワードとバックワードの順序で詳細に分析し,学習者はバックワードのオン政治学習を通じて強化されることを示す。 一方、学習者はフォワードで指導される。 さらに,解析は勾配ベースであるため,任意のタスクに一般化でき,そのタスクの性質を考慮すれば,どの順序を最小にするかを決定するのに役立つ。 WMT'17 De-En と IWSLT'15 Th-En の機械翻訳タスクで +0.7-1.1 BLEU が得られた。

Knowledge Transfer has been applied in solving a wide variety of problems. For example, knowledge can be transferred between tasks (e.g., learning to handle novel situations by leveraging prior knowledge) or between agents (e.g., learning from others without direct experience). Without loss of generality, we relate knowledge transfer to KL-divergence minimization, i.e., matching the (belief) distributions of learners and teachers. The equivalence gives us a new perspective in understanding variants of the KL-divergence by looking at how learners structure their interaction with teachers in order to acquire knowledge. In this paper, we provide an in-depth analysis of KL-divergence minimization in Forward and Backward orders, which shows that learners are reinforced via on-policy learning in Backward. In contrast, learners are supervised in Forward. Moreover, our analysis is gradient-based, so it can be generalized to arbitrary tasks and help to decide which order to minimize given the property of the task. By replacing Forward with Backward in Knowledge Distillation, we observed +0.7-1.1 BLEU gains on the WMT'17 De-En and IWSLT'15 Th-En machine translation tasks.
翻訳日:2022-10-26 02:37:53 公開日:2020-08-23
# 識別的マニフォールド伝播による教師なし領域適応

Unsupervised Domain Adaptation via Discriminative Manifold Propagation ( http://arxiv.org/abs/2008.10030v1 )

ライセンス: Link先を確認
You-Wei Luo, Chuan-Xian Ren, Dao-Qing Dai and Hong Yan(参考訳) 教師なしドメイン適応はラベル付きソースドメインからラベルなしターゲットドメインへのリッチな情報を活用するのに有効である。 深い学習と敵対的戦略は特徴の適応性に大きなブレークスルーをもたらしたが、さらに研究すべき問題が2つある。 まず、ターゲットドメイン上のハードアサインされた擬似ラベルは任意でエラーを起こし、それらの直接適用は本質的なデータ構造を破壊する可能性がある。 第二に、深層学習のバッチワイドトレーニングは、グローバル構造の特徴づけを制限する。 本稿では,移動性と識別性を同時に実現するために,リーマン多様体学習フレームワークを提案する。 第一に、このフレームワークはソフトラベルを介してターゲットドメインの確率論的判別基準を確立する。 事前構築されたプロトタイプに基づいて、この基準は第2号のグローバル近似スキームに拡張される。 多様体計量アライメントは埋め込み空間と互換性を持つように採用されている。 異なるアライメントメトリックの理論的誤差境界は、構成的ガイダンスのために導出される。 提案手法は、バニラと部分的設定の両方を含む、ドメイン適応問題の一連の変種に取り組むのに使うことができる。 本手法に関する広範囲な実験を行い, 判別的多様体学習フレームワークの優位性を比較検討した。

Unsupervised domain adaptation is effective in leveraging rich information from a labeled source domain to an unlabeled target domain. Though deep learning and adversarial strategy made a significant breakthrough in the adaptability of features, there are two issues to be further studied. First, hard-assigned pseudo labels on the target domain are arbitrary and error-prone, and direct application of them may destroy the intrinsic data structure. Second, batch-wise training of deep learning limits the characterization of the global structure. In this paper, a Riemannian manifold learning framework is proposed to achieve transferability and discriminability simultaneously. For the first issue, this framework establishes a probabilistic discriminant criterion on the target domain via soft labels. Based on pre-built prototypes, this criterion is extended to a global approximation scheme for the second issue. Manifold metric alignment is adopted to be compatible with the embedding space. The theoretical error bounds of different alignment metrics are derived for constructive guidance. The proposed method can be used to tackle a series of variants of domain adaptation problems, including both vanilla and partial settings. Extensive experiments have been conducted to investigate the method and a comparative study shows the superiority of the discriminative manifold learning framework.
翻訳日:2022-10-26 02:37:11 公開日:2020-08-23
# 複合顔再建攻撃に対する顔認識システムの脆弱性

Vulnerability of Face Recognition Systems Against Composite Face Reconstruction Attack ( http://arxiv.org/abs/2009.02286v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Weidong Shi(参考訳) 丸め信頼度スコアは自明であるが、勾配降下に基づく画像再構成攻撃を止めるための単純かつ効果的な対策である。 しかし、より洗練された再建攻撃に直面する能力は、実証されていない研究領域である。 本稿では,複合顔に基づく顔再建攻撃が,丸め方針の非効率性を対策として明らかにできることを示す。 攻撃者は顔の最も重要な特徴にアクセスしたり、独立したセグメントに分解したりするのに役立つ顔合成部品を利用する。 その後、分割されたセグメントを探索パラメータとして利用して最適な顔の再構成を行う。 顔合成部品は、ブラインド検索であっても、攻撃者は顔認識モデルのプライバシーを侵害することができる。 しかし,攻撃者は対象の顔の高速な再構築にランダム検索を活用できると考えられる。 アルゴリズムは、顔部品のランダムな構成を初期顔として開始し、信頼スコアを適合値とする。 提案手法は,ランダムな検索処理を防止できないため,現状の顔認識システムは,このような高度な攻撃に対して極めて脆弱であることを示す。 この問題に対処するため,提案した攻撃に対してトレーニングデータのプライバシーを保護するために,顔検出スコアフィルタリング(FDSF)を成功裏に検証した。

Rounding confidence score is considered trivial but a simple and effective countermeasure to stop gradient descent based image reconstruction attacks. However, its capability in the face of more sophisticated reconstruction attacks is an uninvestigated research area. In this paper, we prove that, the face reconstruction attacks based on composite faces can reveal the inefficiency of rounding policy as countermeasure. We assume that, the attacker takes advantage of face composite parts which helps the attacker to get access to the most important features of the face or decompose it to the independent segments. Afterwards, decomposed segments are exploited as search parameters to create a search path to reconstruct optimal face. Face composition parts enable the attacker to violate the privacy of face recognition models even with a blind search. However, we assume that, the attacker may take advantage of random search to reconstruct the target face faster. The algorithm is started with random composition of face parts as initial face and confidence score is considered as fitness value. Our experiments show that, since the rounding policy as countermeasure can't stop the random search process, current face recognition systems are extremely vulnerable against such sophisticated attacks. To address this problem, we successfully test Face Detection Score Filtering (FDSF) as a countermeasure to protect the privacy of training data against proposed attack.
翻訳日:2022-10-26 02:36:54 公開日:2020-08-23
# コントラスト型自己監督学習によるFew-Shot画像分類

Few-Shot Image Classification via Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2008.09942v1 )

ライセンス: Link先を確認
Jianyi Li and Guizhong Liu(参考訳) これまでの数ショット学習アルゴリズムのほとんどは、大規模なラベル付きベースクラスを必要とするトレーニングサンプルとして、偽の数ショットタスクを使ったメタトレーニングに基づいている。 トレーニングされたモデルはタスクの種類によっても制限される。 本稿では,欠陥を修復するための教師なし数発学習の新たなパラダイムを提案する。 コントラスト的自己教師付き学習による移動可能な特徴抽出器のメタトレーニングと,グラフ集約,自己蒸留,多様体拡張を用いた分類器の訓練である。 メタトレーニングが完了すると、タスク依存の分類器トレーニングで任意のタスクでモデルを使用できるようになる。 本手法は,標準的な数ショットの視覚的分類データセット上で確立された数ショットタスクにおいて,教師なし数ショット学習法と比較して8~28%向上する。

Most previous few-shot learning algorithms are based on meta-training with fake few-shot tasks as training samples, where large labeled base classes are required. The trained model is also limited by the type of tasks. In this paper we propose a new paradigm of unsupervised few-shot learning to repair the deficiencies. We solve the few-shot tasks in two phases: meta-training a transferable feature extractor via contrastive self-supervised learning and training a classifier using graph aggregation, self-distillation and manifold augmentation. Once meta-trained, the model can be used in any type of tasks with a task-dependent classifier training. Our method achieves state of-the-art performance in a variety of established few-shot tasks on the standard few-shot visual classification datasets, with an 8- 28% increase compared to the available unsupervised few-shot learning methods.
翻訳日:2022-10-26 02:36:33 公開日:2020-08-23
# 著者認証のためのDeep Bayes Factor Scoring

Deep Bayes Factor Scoring for Authorship Verification ( http://arxiv.org/abs/2008.10105v1 )

ライセンス: Link先を確認
Benedikt Boenninghoff and Julian Rupp and Robert M. Nickel and Dorothea Kolossa(参考訳) pan 2020 authorship verification (av) challengeは、ファンフィクションテキストのコレクションよりも、クロストピック/クローズドセットavタスクに焦点を当てている。 fanfiction(ファンファイクション)は、いわゆるfandomトピックが文書の主要な主題を記述した、ストーリーラインのファンライクな拡張である。 pan 2020 avタスクで提供されるデータは、複数の異なるファンダムトピックにまたがるテキストの作成者が含まれているため、非常に難しい。 本稿では,2つのよく知られたアプローチを1つのエンドツーエンド学習手順に階層的に融合することを提案する。 底辺の深いメトリック学習フレームワークは,可変長の文書を固定サイズの特徴ベクトルにマッピングする擬似メトリックを学習することを目的としている。 上位には確率層を組み込んで、学習された計量空間におけるベイズ係数のスコアリングを行う。 また、横断的な問題に対処するためのテキスト前処理戦略も提供します。

The PAN 2020 authorship verification (AV) challenge focuses on a cross-topic/closed-set AV task over a collection of fanfiction texts. Fanfiction is a fan-written extension of a storyline in which a so-called fandom topic describes the principal subject of the document. The data provided in the PAN 2020 AV task is quite challenging because authors of texts across multiple/different fandom topics are included. In this work, we present a hierarchical fusion of two well-known approaches into a single end-to-end learning procedure: A deep metric learning framework at the bottom aims to learn a pseudo-metric that maps a document of variable length onto a fixed-sized feature vector. At the top, we incorporate a probabilistic layer to perform Bayes factor scoring in the learned metric space. We also provide text preprocessing strategies to deal with the cross-topic issue.
翻訳日:2022-10-26 02:35:57 公開日:2020-08-23
# ADAIL: Adaptive Adversarial Imitation Learning

ADAIL: Adaptive Adversarial Imitation Learning ( http://arxiv.org/abs/2008.12647v1 )

ライセンス: Link先を確認
Yiren Lu, Jonathan Tompson(参考訳) 本稿では,1つのソースドメインから収集した少数のデモを模倣して,異なるダイナミクスの環境間で伝達可能な適応ポリシーを学習するための適応型adversarial imitation learning(adail)アルゴリズムを提案する。 これはロボット学習の重要な問題です なぜなら現実のシナリオでは 1)報酬関数の取得は困難である。 2) 対象とするドメイン統計のソースが異なるため,あるドメインから学習したポリシを別のドメインにデプロイすることは困難である。 3) ダイナミクスが知られ制御されている複数の環境でのエキスパートデモの収集は、しばしば実現不可能である。 我々は,近年の対人模倣学習の進歩を基盤として,この制約に対処し,学習力学の埋め込みにポリシーを定め,ドメイン対逆損失を用いて動的不変判別器を学習する。 本手法の有効性は, 環境動態の異なるシミュレーション制御タスクにおいて実証され, 学習適応剤は近年のベースラインよりも優れている。

We present the ADaptive Adversarial Imitation Learning (ADAIL) algorithm for learning adaptive policies that can be transferred between environments of varying dynamics, by imitating a small number of demonstrations collected from a single source domain. This is an important problem in robotic learning because in real world scenarios 1) reward functions are hard to obtain, 2) learned policies from one domain are difficult to deploy in another due to varying source to target domain statistics, 3) collecting expert demonstrations in multiple environments where the dynamics are known and controlled is often infeasible. We address these constraints by building upon recent advances in adversarial imitation learning; we condition our policy on a learned dynamics embedding and we employ a domain-adversarial loss to learn a dynamics-invariant discriminator. The effectiveness of our method is demonstrated on simulated control tasks with varying environment dynamics and the learned adaptive agent outperforms several recent baselines.
翻訳日:2022-10-26 02:35:24 公開日:2020-08-23
# dsp:包括的実産業データセットのための差分空間予測手法

DSP: A Differential Spatial Prediction Scheme for Comprehensive real industrial datasets ( http://arxiv.org/abs/2008.09951v1 )

ライセンス: Link先を確認
Junjie Zhang, Cong Zhang, Neal N. Xiong(参考訳) 逆距離重み付きモデル(IDW)は多モード産業プロセスにおける多次元空間の予測とモデル化に広く用いられている。 しかし、多次元空間の構造が複雑になるほど、idwモデルの性能が低下し、実際の産業データセットはより複雑な空間構造を持つ傾向がある。 この問題を解決するために,深層強化学習ネットワークに基づく空間予測とモデリングのための新しいフレームワークを提案する。 提案手法では,qネットワークの状態値を再利用することにより,状態と動作の内部関係が向上し,深層強化学習ネットワークの収束率と安定性が向上する。 改良された深層強化学習ネットワークは、逆距離重みモデルにおける各サンプル点のハイパーパラメータの探索と学習に使用される。 これらのハイパーパラメータは、現在の産業データセットの空間構造をある程度反映することができる。 そして、学習したハイパーパラメータに基づいてハイパーパラメータの空間分布を構築する。 各補間点は、ハイパーパラメトリック空間分布から対応するハイパーパラメータを取得し、予測のために古典的なIDWモデルにそれらをもたらす。 シミュレーションの結果,提案手法は複雑な空間構造特性を持つ実産業データセットに適しており,空間予測における現在のidwモデルよりも精度が高いことがわかった。

Inverse Distance Weighted models (IDW) have been widely used for predicting and modeling multidimensional space in multimodal industrial processes. However, the more complex the structure of multidimensional space, the lower the performance of IDW models, and real industrial datasets tend to have more complex spatial structure. To solve this problem, a new framework for spatial prediction and modeling based on deep reinforcement learning network is proposed. In the proposed framework, the internal relationship between state and action is enhanced by reusing the state values in the Q network, and the convergence rate and stability of the deep reinforcement learning network are improved. The improved deep reinforcement learning network is then used to search for and learn the hyperparameters of each sample point in the inverse distance weighted model. These hyperparameters can reflect the spatial structure of the current industrial dataset to some extent. Then a spatial distribution of hyperparameters is constructed based on the learned hyperparameters. Each interpolation point obtains corresponding hyperparameters from the hyperparametric spatial distribution and brings them into the classical IDW models for prediction, thus achieving differential spatial prediction and modeling. The simulation results show that the proposed framework is suitable for real industrial datasets with complex spatial structure characteristics and is more accurate than current IDW models in spatial prediction.
翻訳日:2022-10-26 02:35:06 公開日:2020-08-23