このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200215となっている論文です。

PDF登録状況(公開日: 20200215)

TitleAuthorsAbstract論文公表日・翻訳日
# インド大統領選:金融政策の転換を狙う

Election in India: Polling in National Financial Switch ( http://arxiv.org/abs/2002.11619v1 )

ライセンス: Link先を確認
Subhankar Mishra(参考訳) カシミールからカナクマリまでのインド人有権者は、投票によって議員を選出する。 インドの選挙は世界史上最大の民主的運動の1つである。 約8億5000万人の有権者が、どの政党や同盟が政府を形成するかを決め、次に首相に就任する。 投票所を各居住地から2km以内に置くという選挙規則を考えると、実はインド選挙委員会(ECI)にとって屈辱的な作業であることは驚くにあたらない。 選挙人約1100万人が厳しい地形を通って最終マイルに到達している。 このエクササイズは、ECIの支出の増加にも影響します。 本稿では,NFS(National Financial Switch)の広範なネットワークとDigital Indiaイニシアチブによる接続性の向上を前提として,都市部,農村部,半都市部を対象とするATM(Automated Teller Machines)とPOS(Point Of Sale)マシンの利用を提案する。 これは、自由で公平で透明な選挙に対応するために既存のインフラを使用することになる。

Indian voters from Kashmir to Kanyakumari select their representatives to form their parliament by going to polls. India's election is one of the largest democratic exercise in the world history. About 850 million eligible voters determine which political party or alliance will form the government and in turn, will serve as prime minister. Given the electoral rules of placing a polling place within 2 kilometers of every habitation, it comes as no surprise that is indeed a humongous task for the Election Commission of India (ECI). It sends around 11 million election workers through tough terrains to reach the last mile. This exercise also comes as ever growing expenditure for the ECI. This paper proposes the use of Automated Teller Machines (ATM) and Point Of Sale (POS) machines to be used to cover as much as urban, rural and semi-urban places possible given the wide network of National Financial Switch (NFS) and increase in connectivity through Digital India initiative. This would add to the use of the existing infrastructure to accommodate a free, fair and transparent election.
翻訳日:2023-06-03 15:03:34 公開日:2020-02-15
# 一般化シュリンガー方程式の対称性と超対称性

Symmetries and Supersymmetries of Generalized Schr\"odinger equations ( http://arxiv.org/abs/2002.06438v1 )

ライセンス: Link先を確認
A. G. Nikitin(参考訳) 本研究では一般化schr\"odinger方程式における超対称性に関する最近の結果について述べる。 すなわち、位置依存質量Sch\"odinger方程式と行列ポテンシャルを持つ方程式が議論される。 拡張された超対称性を許容する現実的な量子力学的問題を、拡張された行列ポテンシャルのクラスを分類する。

In this survey the contemporary results concerning supersymmetries in generalized Schr\"odinger equations are presented. Namely, position dependent mass Sch\"odinger equations are discussed as well as the equations with matrix potentials. An extended number of realistic quantum mechanical problems admitting extended supersymmetries is described, an extended class of matrix potentials is classified.
翻訳日:2023-06-03 15:03:14 公開日:2020-02-15
# 断熱追従に基づく面内テラヘルツ表面プラズモン-ポラリトンカップラ

In-plane terahertz surface plasmon-polaritons coupler based on adiabatic following ( http://arxiv.org/abs/2002.06425v1 )

ライセンス: Link先を確認
Wei Huang, Xiaowei Qu, Shan Yin, Mingrui Yuan, Wentao Zhang, Jiaguang Han(参考訳) 本研究では,平面表面プラズモン分極(SPPs)導波路をベースとした,ロバストでブロードバンドなテラヘルツ結合体(THz)カプラについて,量子コヒーレント制御-Stimulated Raman Adiabatic Passage (STIRAP)を用いて検討した。 我々のカプラは、入力および出力SPPs導波管として機能する2つの非対称特異的曲線状金属構造と、中間SPPs導波管として機能する1つの直線状金属構造からなる。 理論的およびシミュレーション結果から,SPPは入力から出力導波路へ効率的に転送可能であることを示す。 我々の装置は、幾何学的パラメータの摂動に対して頑健であり、一方、高い伝送レートが70$\%$を超えるブロードバンド性能(0.3 THzから0.8 THz)を示す。 平面内THz結合器は製造プロセスを大幅に単純化することができ、コンパクトで堅牢なTHzデバイスの開発に寄与し、すべての光ネットワークおよびTHz通信における将来の応用を促進する。

We propose a robust and broadband integrated terahertz (THz) coupler based on the in-plane surface plasmon polaritons (SPPs) waveguides, conducted with the quantum coherent control -- Stimulated Raman Adiabatic Passage (STIRAP). Our coupler consists of two asymmetric specific curved corrugated metallic structures working as the input and output SPPs waveguides, and one straight corrugated metallic structure functioning as the middle SPPs waveguide. From the theoretical and simulated results, we demonstrate that the SPPs can be efficiently transfered from the input to the output waveguides. Our device is robust against the perturbations of geometric parameters, and meanwhile it manifests broadband performance (from 0.3 THz to 0.8 THz) with the high transmission rate over 70$\%$. The in-plane THz coupler can largely simplify the fabrication process, which will make contribution to develop compact and robust integrated THz devices and promote the future applications in all optical network and THz communications.
翻訳日:2023-06-03 15:03:09 公開日:2020-02-15
# マヨラナ量子ビットと安定化器の量子測定のためのダブルドット干渉計

Double-dot interferometer for quantum measurement of Majorana qubits and stabilizers ( http://arxiv.org/abs/2002.06317v1 )

ライセンス: Link先を確認
Kai Zhou, Cheng Zhang, Lupei Qin, and Xin-Qi Li(参考訳) マヨラナ量子ビットと表面符号安定化器の量子測定の必要性から,環境騒音の影響下での二重ドット干渉計の性能解析を行った。 ダブルドットのセットアップ設計により、マスター方程式のアプローチでマヨラナ島を通る点間の完全な多重トンネル過程を計算できる。 マヨラナを媒介とするドット間の効果的なカップリングを実現する共トンネル方式では、マスター方程式のアプローチにより測定電流の解析解を得ることができる。 測定信号の可視性などのメリットの指標を特徴とする測定品質を、その「パス」のデフォーカスよりも、異常なデコヒーレンス効果について行う。 本研究で得られた結果は,マヨラナ量子ビットと安定化器の将来の実験に有用であると考えられる。

Motivated by the need of quantum measurement of Majorana qubits and surface-code stabilizers, we analyze the performance of a double-dot interferometer under the influence of environment noise. The double-dot setup design allows accounting for the full multiple tunneling process between the dots through the Majorana island, within a master equation approach. In the co-tunneling regime, which results in a Majorana-mediated effective coupling between the dots, the master equation approach allows us to obtain analytic solutions for the measurement currents. The measurement quality, characterized by figures of merit such as the visibility of measurement signals, is carried out in regard to the unusual decoherence effect rather than `which-path' dephasing. The results obtained in this work are expected to be useful for future experiments of Majorana qubit and stabilizer measurements.
翻訳日:2023-06-03 15:02:18 公開日:2020-02-15
# 校正予測による深層ニューラルネットワークのpac信頼度設定

PAC Confidence Sets for Deep Neural Networks via Calibrated Prediction ( http://arxiv.org/abs/2001.00106v2 )

ライセンス: Link先を確認
Sangdon Park, Osbert Bastani, Nikolai Matni, Insup Lee(参考訳) 本稿では,学習理論からの校正予測と一般化境界を組み合わせたアルゴリズムを提案し,pac保証付き深層ニューラルネットワークの信頼度セットを構築する。 本稿では,視覚オブジェクト追跡モデルであるResNet for ImageNetと,半チーター強化学習問題に対する動的モデルを用いてPAC信頼セットを構築する方法を紹介する。

We propose an algorithm combining calibrated prediction and generalization bounds from learning theory to construct confidence sets for deep neural networks with PAC guarantees---i.e., the confidence set for a given input contains the true label with high probability. We demonstrate how our approach can be used to construct PAC confidence sets on ResNet for ImageNet, a visual object tracking model, and a dynamics model for the half-cheetah reinforcement learning problem.
翻訳日:2023-01-16 20:23:55 公開日:2020-02-15
# ビデオキャプションのためのデコーダに深く入り込む

Delving Deeper into the Decoder for Video Captioning ( http://arxiv.org/abs/2001.05614v3 )

ライセンス: Link先を確認
Haoran Chen, Jianmin Li and Xiaolin Hu(参考訳) ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。 エンコーダ-デコーダフレームワークは近年、このタスクでもっとも人気のあるパラダイムである。 しかし,ビデオキャプションモデルのデコーダにはいくつかの問題がある。 我々はデコーダについて徹底的な調査を行い,モデルの性能向上のために3つの手法を採用する。 第一に、過度に適合する問題を緩和するために、ばらつきのドロップアウトと層正規化の組み合わせを繰り返しユニットに埋め込む。 次に,検証セット上でのモデルの性能を評価するために,テストに最適なチェックポイントを選択するための新しいオンライン手法を提案する。 最後に,字幕モデルの強みを活かし,その弱さを回避し,プロフェッショナルラーニングと呼ばれる新たなトレーニング戦略を提案する。 microsoft research video description corpus (msvd) とmsr-video to text (msr-vtt) による実験では、これまでの最新モデルと比較して、bleu、cider、meteor、rouge-lの指標で評価した結果が最大で18%、msr-vttでは3.5%という結果が得られたことが示されている。

Video captioning is an advanced multi-modal task which aims to describe a video clip using a natural language sentence. The encoder-decoder framework is the most popular paradigm for this task in recent years. However, there exist some problems in the decoder of a video captioning model. We make a thorough investigation into the decoder and adopt three techniques to improve the performance of the model. First of all, a combination of variational dropout and layer normalization is embedded into a recurrent unit to alleviate the problem of overfitting. Secondly, a new online method is proposed to evaluate the performance of a model on a validation set so as to select the best checkpoint for testing. Finally, a new training strategy called professional learning is proposed which uses the strengths of a captioning model and bypasses its weaknesses. It is demonstrated in the experiments on Microsoft Research Video Description Corpus (MSVD) and MSR-Video to Text (MSR-VTT) datasets that our model has achieved the best results evaluated by BLEU, CIDEr, METEOR and ROUGE-L metrics with significant gains of up to 18% on MSVD and 3.5% on MSR-VTT compared with the previous state-of-the-art models.
翻訳日:2023-01-10 23:36:48 公開日:2020-02-15
# スポーツにおけるスケーラブルな心理的モメンタム予測

Scalable Psychological Momentum Forecasting in Esports ( http://arxiv.org/abs/2001.11274v2 )

ライセンス: Link先を確認
Alfonso White, Daniela M. Romano(参考訳) 競争力のあるEスポーツやビデオゲームの世界は、人気と複雑さの着実に成長を続けている。 それに伴い、ソーシャルネットワークの分析から、人間と対戦する高度な人工知能システムのベンチマークまで、このトピックに関するさらなる研究が公表されている。 本稿では,ゲーム内選択の分野での成功と楽しみを最大化するためにプレイヤーに行動を提案するインテリジェントエージェント推薦エンジンの検討と,より広い文脈でのプレイセッションのタイミングに関する決定について述べる。 時間的データと適切なモデルを利用して、プレイヤーの心理運動量と傾きの学習表現が、プレイヤーの専門知識と組み合わせて、プレ・ドリフト勝利予測における最先端のパフォーマンスを達成することができることを示す。 最適なレコメンデーションを導き出す可能性を達成するための私たちの進歩を文書化します。

The world of competitive Esports and video gaming has seen and continues to experience steady growth in popularity and complexity. Correspondingly, more research on the topic is being published, ranging from social network analyses to the benchmarking of advanced artificial intelligence systems in playing against humans. In this paper, we present ongoing work on an intelligent agent recommendation engine that suggests actions to players in order to maximise success and enjoyment, both in the space of in-game choices, as well as decisions made around play session timing in the broader context. By leveraging temporal data and appropriate models, we show that a learned representation of player psychological momentum, and of tilt, can be used, in combination with player expertise, to achieve state-of-the-art performance in pre- and post-draft win prediction. Our progress toward fulfilling the potential for deriving optimal recommendations is documented.
翻訳日:2023-01-05 11:54:47 公開日:2020-02-15
# 問合せ映像要約のための畳み込み階層型注意ネットワーク

Convolutional Hierarchical Attention Network for Query-Focused Video Summarization ( http://arxiv.org/abs/2002.03740v3 )

ライセンス: Link先を確認
Shuwen Xiao, Zhou Zhao, Zijian Zhang, Xiaohui Yan, Min Yang(参考訳) 従来のビデオ要約のアプローチは、ユーザの好みを考慮せずに、最も多様で代表的なビジュアルコンテンツをビデオ要約として見つけることに集中している。 本稿では、ユーザのクエリと長いビデオを入力として取り、クエリ中心のビデオ要約を生成するための、クエリ中心のビデオ要約の課題に対処する。 本稿では,映像と問合せの類似性を計算する問題として,この課題を考察する。 そこで本研究では,機能エンコーディングネットワークとクエリ関連コンピューティングモジュールの2つの部分からなる,畳み込み階層型注意ネットワーク(chan)という手法を提案する。 符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて各ショットの視覚情報を学習する。 エンコードされた機能はクエリ関連コンピューティングモジュールに送信され、クエリ中心のビデオ要約を生成する。 ベンチマークデータセットの大規模な実験は、競争性能を示し、我々のアプローチの有効性を示す。

Previous approaches for video summarization mainly concentrate on finding the most diverse and representative visual contents as video summary without considering the user's preference. This paper addresses the task of query-focused video summarization, which takes user's query and a long video as inputs and aims to generate a query-focused video summary. In this paper, we consider the task as a problem of computing similarity between video shots and query. To this end, we propose a method, named Convolutional Hierarchical Attention Network (CHAN), which consists of two parts: feature encoding network and query-relevance computing module. In the encoding network, we employ a convolutional network with local self-attention mechanism and query-aware global attention mechanism to learns visual information of each shot. The encoded features will be sent to query-relevance computing module to generate queryfocused video summary. Extensive experiments on the benchmark dataset demonstrate the competitive performance and show the effectiveness of our approach.
翻訳日:2023-01-05 06:38:56 公開日:2020-02-15
# 小N質データ解析のための半自動手法の開発における理論的・方法論的課題の検討

An experiment exploring the theoretical and methodological challenges in developing a semi-automated approach to analysis of small-N qualitative data ( http://arxiv.org/abs/2002.04513v2 )

ライセンス: Link先を確認
Sandro Tsang(参考訳) 本稿では, 半自動定性データ解析(QDA)アルゴリズムを設計し, フリーウェアを用いて20文字を解析する実験を行った。 テキストマイニング (TM) とQDAは, サンプルサイズが小さければ頑健なままであり, 周波数・アソシエーション測定によって導かれた。 改良されたTMアルゴリズムは、手動で改訂された辞書に基づいてテキストを様々なサイズに分割した。 この補題化アプローチは、テキストを単一のサイズに均一にトークン化するよりも、テキストのコンテキストを反映する可能性がある。 TMは初期符号化に使用された。 コード再パッケージは、一般的な帰納的QDAアプローチを実装するために、アソシエーション対策と外部データによってガイドされた。 TMとQDAで取得した情報は、比較のためにサブグラフに描かれている。 分析は6~7日で完了した。 どちらのアルゴリズムも文脈的一貫性と関連する情報を検索する。 しかし、QDAアルゴリズムはTMのみよりも具体的な情報を検索した。 QDAアルゴリズムはTMやQDAの規則に厳密に従わないが、従来のQDAアプローチよりも効率的で体系的で透明なテキスト分析手法となる。 テキストから知識を確実に発見するためにQDAをスケールアップすることは、まさに研究目的であった。 本稿では,情報技術と理論,方法論の関係について考察する。

This paper experiments with designing a semi-automated qualitative data analysis (QDA) algorithm to analyse 20 transcripts by using freeware. Text-mining (TM) and QDA were guided by frequency and association measures, because these statistics remain robust when the sample size is small. The refined TM algorithm split the text into various sizes based on a manually revised dictionary. This lemmatisation approach may reflect the context of the text better than uniformly tokenising the text into one single size. TM results were used for initial coding. Code repacking was guided by association measures and external data to implement a general inductive QDA approach. The information retrieved by TM and QDA was depicted in subgraphs for comparisons. The analyses were completed in 6-7 days. Both algorithms retrieved contextually consistent and relevant information. However, the QDA algorithm retrieved more specific information than TM alone. The QDA algorithm does not strictly comply with the convention of TM or of QDA, but becomes a more efficient, systematic and transparent text analysis approach than a conventional QDA approach. Scaling up QDA to reliably discover knowledge from text was exactly the research purpose. This paper also sheds light on understanding the relations between information technologies, theory and methodologies.
翻訳日:2023-01-04 09:14:13 公開日:2020-02-15
# mdldroid: パーソナルモバイルセンシングのためのモバイルディープラーニングへのchainsgd-reduceアプローチ

MDLdroid: a ChainSGD-reduce Approach to Mobile Deep Learning for Personal Mobile Sensing ( http://arxiv.org/abs/2002.02897v2 )

ライセンス: Link先を確認
Yu Zhang, Tao Gu, Xi Zhang(参考訳) 個人用モバイルセンシングは、私たちの日常生活を急速に浸透させ、活動監視、医療、リハビリテーションを可能にしている。 ディープラーニングと組み合わせることで、これらのアプリケーションは近年大きな成功を収めています。 従来のクラウドベースのパラダイムとは異なり、デバイス上でディープラーニングを実行すると、データプライバシの保存や、モデル推論と更新の両方に対する低レイテンシ応答など、いくつかのメリットがある。 データの収集にはコストがかかるため、googleのfederated learningは完全なデータプライバシだけでなく、複数のユーザデータに基づくモデルの堅牢性も提供する。 しかし、パーソナルなモバイルセンシングアプリケーションは、主にユーザ固有のものであり、環境に影響を受けやすい。 その結果、連続的な局所的な変化は、連合学習によって生成されたグローバルモデルのパフォーマンスに深刻な影響を及ぼす可能性がある。 さらに、エッジサーバなど、ローカルサーバにフェデレーション学習をデプロイすることは、リソースの制約や攻撃による深刻な障害により、ボトルネックに素早く到達する可能性がある。 デバイス上での深層学習を推し進める上で,個人用モバイルセンシングアプリケーションにおいて,リソースを意識したオンデバイス協調学習を可能にする,新たな分散モバイルディープラーニングフレームワークであるMDLdroidを提案する。 資源制限に対処するために,連鎖指向同期確率勾配降下アルゴリズムを含むchainsgd-reduceアプローチを提案し,複数のデバイス間のオーバーヘッドを効果的に低減する。 また,資源の公平かつ効率的なバランスをとるため,エージェントベースのマルチゴール強化学習機構を設計する。 評価の結果,本モデルではシングルデバイストレーニングよりも2倍から3.5倍速く,マスタスレーブアプローチよりも1.5倍高速であった。

Personal mobile sensing is fast permeating our daily lives to enable activity monitoring, healthcare and rehabilitation. Combined with deep learning, these applications have achieved significant success in recent years. Different from conventional cloud-based paradigms, running deep learning on devices offers several advantages including data privacy preservation and low-latency response for both model inference and update. Since data collection is costly in reality, Google's Federated Learning offers not only complete data privacy but also better model robustness based on multiple user data. However, personal mobile sensing applications are mostly user-specific and highly affected by environment. As a result, continuous local changes may seriously affect the performance of a global model generated by Federated Learning. In addition, deploying Federated Learning on a local server, e.g., edge server, may quickly reach the bottleneck due to resource constraint and serious failure by attacks. Towards pushing deep learning on devices, we present MDLdroid, a novel decentralized mobile deep learning framework to enable resource-aware on-device collaborative learning for personal mobile sensing applications. To address resource limitation, we propose a ChainSGD-reduce approach which includes a novel chain-directed Synchronous Stochastic Gradient Descent algorithm to effectively reduce overhead among multiple devices. We also design an agent-based multi-goal reinforcement learning mechanism to balance resources in a fair and efficient manner. Our evaluations show that our model training on off-the-shelf mobile devices achieves 2x to 3.5x faster than single-device training, and 1.5x faster than the master-slave approach.
翻訳日:2023-01-03 04:37:11 公開日:2020-02-15
# 時間的確率キャリブレーション

Temporal Probability Calibration ( http://arxiv.org/abs/2002.02644v2 )

ライセンス: Link先を確認
Tim Leathart and Maksymilian Polaczuk(参考訳) 多くのアプリケーションでは、正確なクラス確率推定が必要であるが、多くのタイプのモデルは、許容できる分類精度にもかかわらず、品質の悪い確率推定を生成する。 確率キャリブレーションは近年研究のホットな話題となっているが、その大半は、時系列的でないデータを調査している。 本稿では,データ列からクラス確率推定を生成するモデルの校正について考察し,不完全列から予測が得られた場合に着目した。 従来のキャリブレーション手法は,この課題に対して十分に表現できないことを示し,入力シーケンスの長さに応じてキャリブレーション方式を適用する手法を提案する。 実験により, 提案手法は, アプリケーション領域にまたがる不完全系列に対して, 最新の逐次アーキテクチャから推定される確率の算定に有効であることがわかった。

In many applications, accurate class probability estimates are required, but many types of models produce poor quality probability estimates despite achieving acceptable classification accuracy. Even though probability calibration has been a hot topic of research in recent times, the majority of this has investigated non-sequential data. In this paper, we consider calibrating models that produce class probability estimates from sequences of data, focusing on the case where predictions are obtained from incomplete sequences. We show that traditional calibration techniques are not sufficiently expressive for this task, and propose methods that adapt calibration schemes depending on the length of an input sequence. Experimental evaluation shows that the proposed methods are often substantially more effective at calibrating probability estimates from modern sequential architectures for incomplete sequences across a range of application domains.
翻訳日:2023-01-03 03:41:17 公開日:2020-02-15
# 岩石微小CT画像の2次元・3次元多重小分割のためのディープニューラルネットワークの物理的精度

Physical Accuracy of Deep Neural Networks for 2D and 3D Multi-Mineral Segmentation of Rock micro-CT Images ( http://arxiv.org/abs/2002.05322v2 )

ライセンス: Link先を確認
Ying Da Wang, Mehdi Shabaninejad, Ryan T. Armstrong, Peyman Mostaghimi(参考訳) 岩石試料の3次元微視的CT画像の分割は、さらなるDigital Rock Physics (DRP)解析には不可欠であるが、しきい値、流域のセグメンテーション、収束するアクティブな輪郭などの従来の手法は、ユーザバイアスの影響を受けやすい。 Deep Convolutional Neural Networks (CNN) は、自然画像と$\mu$CTのロック画像による正確な画素単位のセマンティックセグメンテーション結果を生成するが、物理的精度は十分に文書化されていない。 4つのCNNアーキテクチャのパフォーマンスは、10の構成で2Dおよび3Dケースでテストされる。 シモン・サンドストーン山の手動分割されたCT画像は、地上の真実として扱われ、訓練と検証のデータとして使用され、高いボクセルの精度(99%以上)を達成した。 下流分析は、物理的精度を検証するために使用される。 各セグメンテーション位相のトポロジーを計算し、単一および混合ウェットケースにおける絶対透過性と多相流を直接シミュレーションによりモデル化する。 これらの接続性, 流動特性の物理的尺度は高いばらつきと不確実性を示し, 透水率と接続性オーダーを等級数で有するボクセルの精度が95%以上に達するモデルである。 新しいネットワークアーキテクチャはU-netとResNetのハイブリッド統合として導入され、Network-in-Network構成の短いスキップ接続と長いスキップ接続を組み合わせたものである。 この3d実装は、voxelwiseおよび物理的な精度測定で他の全てのテストモデルを上回る。 ネットワークアーキテクチャとデータセットのボリューム分画(および関連する重み付け)は、ボクセルワイズの場合の正確なトレードオフに影響を及ぼすだけでなく、セグメンテーションの物理的に正確なモデルを訓練する上で特に重要である。

Segmentation of 3D micro-Computed Tomographic uCT) images of rock samples is essential for further Digital Rock Physics (DRP) analysis, however, conventional methods such as thresholding, watershed segmentation, and converging active contours are susceptible to user-bias. Deep Convolutional Neural Networks (CNNs) have produced accurate pixelwise semantic segmentation results with natural images and $\mu$CT rock images, however, physical accuracy is not well documented. The performance of 4 CNN architectures is tested for 2D and 3D cases in 10 configurations. Manually segmented uCT images of Mt. Simon Sandstone are treated as ground truth and used as training and validation data, with a high voxelwise accuracy (over 99%) achieved. Downstream analysis is then used to validate physical accuracy. The topology of each segmented phase is calculated, and the absolute permeability and multiphase flow is modelled with direct simulation in single and mixed wetting cases. These physical measures of connectivity, and flow characteristics show high variance and uncertainty, with models that achieve 95\%+ in voxelwise accuracy possessing permeabilities and connectivities orders of magnitude off. A new network architecture is also introduced as a hybrid fusion of U-net and ResNet, combining short and long skip connections in a Network-in-Network configuration. The 3D implementation outperforms all other tested models in voxelwise and physical accuracy measures. The network architecture and the volume fraction in the dataset (and associated weighting), are factors that not only influence the accuracy trade-off in the voxelwise case, but is especially important in training a physically accurate model for segmentation.
翻訳日:2023-01-01 13:02:44 公開日:2020-02-15
# IoTベースのシステム:大気汚染ガス分析による大都市交通データマイニング

An IoT-Based System: Big Urban Traffic Data Mining Through Airborne Pollutant Gases Analysis ( http://arxiv.org/abs/2002.06374v1 )

ライセンス: Link先を確認
Daniel. Firouzimagham, Mohammad. Sabouri, and Fatemeh. Adhami(参考訳) 現在、イランなどの発展途上国では人口増加により車両数が増加している。 これは最近、交通渋滞による時間の浪費、通勤時間の増加、事故の増加につながっている。 そのため、交通警察官による交通渋滞を抑え、効率的に経路を拡大し、市民による交通の減少に最適な方法を選択する必要がある。 そのため、各車線に瞬時交通に関する知識を持つことが重要である。 今日では、交通警察や都市交通管制システムなど多くの交通機関が、交通カメラ、誘導センサー、衛星画像、レーダーセンサー、超音波技術、電波識別(RFID)を都市交通診断に利用している。 しかし, この手法には, 空気条件の影響を受けない交通効率の低下や, 並列交通を検出できないなどの問題がある。 本稿では,その地域の大気汚染量を算出して交通渋滞を発生させるスマートシステムを含むIOTに基づいて交通渋滞を検出する手法を提案する。 実験の結果は満足であった。

Nowadays, in developing countries including Iran, the number of vehicles is increasing due to growing population. This has recently led to waste time getting stuck in traffic, take more time for daily commute, and increase accidents. So it is necessary to control traffic congestion by traffic police officers, expand paths efficiently and choose the best way for decreasing the traffic by citizens. Therefore, it is important to have the knowledge of instant traffic in each lane. Todays, many traffic organization services such as traffic police officer and urban traffic control system use traffic cameras, inductive sensors, satellite images, radar sensors, ultrasonic technology and radio-frequency identification (RFID) for urban traffic diagnosis. But this method has some problems such as inefficiency in heavy traffic influenced by condition of the air and inability to detect parallel traffic. Our method suggested in this article detects traffic congestion based on IOT containing a smart system that gives us traffic congestion by calculating the air pollution amount in that area. According to conducted experiment, the results were satisfied.
翻訳日:2022-12-31 23:23:12 公開日:2020-02-15
# 集積歩行者の教師なしポス推定のためのエンドツーエンドフレームワーク

An End-to-End Framework for Unsupervised Pose Estimation of Occluded Pedestrians ( http://arxiv.org/abs/2002.06429v1 )

ライセンス: Link先を確認
Sudip Das, Perla Sai Raj Kishore, Ujjwal Bhattacharya(参考訳) 野生でのポーズ推定は、特に状況において、難しい問題である (i)様々の閉塞、及び (ii)屋外の混み合った場面。 ポーズ推定の既存の研究のほとんどは、同様の状況下でのパフォーマンスを報告しなかった。 また、関連する標準データセットには、人物のオクルード部分に対するポーズアノテーションが提供されていないため、オクルードされた人物全体のポーズ推定に必要な研究がさらに困難になる。 CityPersonsのようなよく知られた歩行者検出データセットには屋外シーンのサンプルが含まれているが、ポーズアノテーションは含まない。 そこで,本稿では,歩行者の姿勢推定全体に対するエンド・ツー・エンド・トレーニングのための新しいマルチタスク・フレームワークを提案する。 ネットワークのトレーニングにおけるこの問題に取り組むために,ポーズ推定データセットms-cocoを用いて,非教師なしのインスタンスレベルドメイン適応法を用いて歩行者の姿勢全体を推定する。 実験により,提案手法は,2つのベンチマークデータセット上での重閉塞 (HO) と有理+重閉塞 (R + HO) の場合のポーズ推定,事例分割,歩行者検出において,SOTAの結果よりも優れていた。

Pose estimation in the wild is a challenging problem, particularly in situations of (i) occlusions of varying degrees and (ii) crowded outdoor scenes. Most of the existing studies of pose estimation did not report the performance in similar situations. Moreover, pose annotations for occluded parts of human figures have not been provided in any of the relevant standard datasets which in turn creates further difficulties to the required studies for pose estimation of the entire figure of occluded humans. Well known pedestrian detection datasets such as CityPersons contains samples of outdoor scenes but it does not include pose annotations. Here, we propose a novel multi-task framework for end-to-end training towards the entire pose estimation of pedestrians including in situations of any kind of occlusion. To tackle this problem for training the network, we make use of a pose estimation dataset, MS-COCO, and employ unsupervised adversarial instance-level domain adaptation for estimating the entire pose of occluded pedestrians. The experimental studies show that the proposed framework outperforms the SOTA results for pose estimation, instance segmentation and pedestrian detection in cases of heavy occlusions (HO) and reasonable + heavy occlusions (R + HO) on the two benchmark datasets.
翻訳日:2022-12-31 23:22:07 公開日:2020-02-15
# 逆整合3次元画像登録のための多重デコーダcnn

A Multiple Decoder CNN for Inverse Consistent 3D Image Registration ( http://arxiv.org/abs/2002.06468v1 )

ライセンス: Link先を確認
Abdullah Nazib, Clinton Fookes, Olivier Salvado, Dimitri Perrin(参考訳) 近年, 医用画像登録における深層学習技術の応用により, 登録時間が指数関数的に減少し, 従来に比べて徐々に登録精度が向上している。 学習に基づく登録アプローチの多くは、このタスクを1つの方向性の問題と見なしている。 その結果、移動画像から対象画像への対応のみを考慮した。 しかし、一部の医療処置では双方向の登録が必要である。 他の学習ベース登録とは異なり、逆整合性を持つ登録フレームワークを提案する。 提案手法は,教師なし方式で前方変換と後方変換を同時に学習する。 LPBA40 MRIデータセット上で,本手法のトレーニングと試験を行い,ベースライン登録法よりも高い性能を示した。

The recent application of deep learning technologies in medical image registration has exponentially decreased the registration time and gradually increased registration accuracy when compared to their traditional counterparts. Most of the learning-based registration approaches considers this task as a one directional problem. As a result, only correspondence from the moving image to the target image is considered. However, in some medical procedures bidirectional registration is required to be performed. Unlike other learning-based registration, we propose a registration framework with inverse consistency. The proposed method simultaneously learns forward transformation and backward transformation in an unsupervised manner. We perform training and testing of the method on the publicly available LPBA40 MRI dataset and demonstrate strong performance than baseline registration methods.
翻訳日:2022-12-31 23:21:35 公開日:2020-02-15
# SIP-SegNet: 眼周囲領域の抑制に基づく統合意味的セマンティックセグメンテーションとSclera, Iris, Pupil抽出のための深部畳み込みエンコーダデコーダネットワーク

SIP-SegNet: A Deep Convolutional Encoder-Decoder Network for Joint Semantic Segmentation and Extraction of Sclera, Iris and Pupil based on Periocular Region Suppression ( http://arxiv.org/abs/2003.00825v1 )

ライセンス: Link先を確認
Bilal Hassan, Ramsha Ahmed, Taimur Hassan, and Naoufel Werghi(参考訳) 機械ビジョンの分野における最近の進歩は、様々な現実世界のアプリケーションにマルチモーダルバイオメトリック認識システムを導入するための新しいvistaを開いている。 これらのシステムは、スプーフィング、ノイズ、非普遍性、クラス内変異に弱いユニモーダルバイオメトリックシステムの制限に対処することができる。 また、これらの認識システムでは、種々の生体特性間の眼特性が好ましく用いられる。 このようなシステムには高い特性、永続性、性能があるが、他の生体特性(指紋、音声など)に基づく技術は容易に妥協できる。 この研究は、SIP-SegNetと呼ばれる新しいディープラーニングフレームワークを提示し、より精度の高い制約のないシナリオにおいて、目の特徴(視線、虹彩、瞳孔)を共同で意味的セグメンテーションする。 これらのシナリオの下で得られた画像は、プキンジェ反射、分光反射、視線、オフアングルショット、低解像度、特にまぶたやまつげによる様々な閉塞を示す。 これらの問題に対処するため、SIP-SegNetは、DnCNN(Denoising Convolutional Neural Network)を使用してプリスタン画像をデノベートし、続いてコントラスト限定適応ヒストグラム等化(CLAHE)に基づいた反射除去と画像強調を行う。 提案手法は,適応しきい値を用いて眼周囲情報を抽出し,ファジィフィルタリング技術を用いて情報を抑制する。 最後に、密結合された完全畳み込みエンコーダ・デコーダネットワークを用いて、強膜、虹彩、瞳孔のセグメンテーションを実現する。 各種評価指標に基づいて,5つのCASIAデータセットを用いてSIP-SegNetの性能評価を行った。 シミュレーションの結果、提案したSIP-SegNetの最適セグメンテーションは、それぞれ93.35、95.11、96.69のスコアで検証された。

The current developments in the field of machine vision have opened new vistas towards deploying multimodal biometric recognition systems in various real-world applications. These systems have the ability to deal with the limitations of unimodal biometric systems which are vulnerable to spoofing, noise, non-universality and intra-class variations. In addition, the ocular traits among various biometric traits are preferably used in these recognition systems. Such systems possess high distinctiveness, permanence, and performance while, technologies based on other biometric traits (fingerprints, voice etc.) can be easily compromised. This work presents a novel deep learning framework called SIP-SegNet, which performs the joint semantic segmentation of ocular traits (sclera, iris and pupil) in unconstrained scenarios with greater accuracy. The acquired images under these scenarios exhibit purkinje reflexes, specular reflections, eye gaze, off-angle shots, low resolution, and various occlusions particularly by eyelids and eyelashes. To address these issues, SIP-SegNet begins with denoising the pristine image using denoising convolutional neural network (DnCNN), followed by reflection removal and image enhancement based on contrast limited adaptive histogram equalization (CLAHE). Our proposed framework then extracts the periocular information using adaptive thresholding and employs the fuzzy filtering technique to suppress this information. Finally, the semantic segmentation of sclera, iris and pupil is achieved using the densely connected fully convolutional encoder-decoder network. We used five CASIA datasets to evaluate the performance of SIP-SegNet based on various evaluation metrics. The simulation results validate the optimal segmentation of the proposed SIP-SegNet, with the mean f1 scores of 93.35, 95.11 and 96.69 for the sclera, iris and pupil classes respectively.
翻訳日:2022-12-31 23:21:21 公開日:2020-02-15
# オフィス環境におけるマルチエージェント協調システムのインタラクション設計

Designing Interaction for Multi-agent Cooperative System in an Office Environment ( http://arxiv.org/abs/2002.06417v1 )

ライセンス: Link先を確認
Chao Wang, Stephan Hasler, Manuel Muehlig, Frank Joublin, Antonello Ceravola, Joerg Deigmoeller, Lydia Fischer(参考訳) 将来のインテリジェントシステムには,モバイルロボットやスマートホームインフラストラクチャ,あるいはパーソナルデバイスなど,非常にさまざまなタイプの人工エージェントが関与する。データを共有し,特定のタスクを実行するためのコラボレーションを行う。システムに対するニーズの表現を支援する効率的なヒューマンマシンインターフェースの設計,さまざまなエンティティのコラボレーションの進行を監督し,その結果を評価することは困難である。 本稿では,作業環境におけるロボットなどのスマートデバイスの多機能協調システムであるicps(human-machine interface of intelligent cyber-physical system)の設計と実装について述べる。 ICPSは、エンティティから知覚データを収集し、ユーザのコマンドを受け取り、異なるエンティティの能力を活用して人々に提供する計画を最適化する。 グラフィカルインタフェース、音声インタラクション、ジェスチャー、表情などのマルチモデルインタラクション手法を使用して、ICPSは異なるエンティティを通じてユーザから入力を受け取り、ユーザの進捗を認識させ、タスクを効率的に達成することができる。

Future intelligent system will involve very various types of artificial agents, such as mobile robots, smart home infrastructure or personal devices, which share data and collaborate with each other to execute certain tasks.Designing an efficient human-machine interface, which can support users to express needs to the system, supervise the collaboration progress of different entities and evaluate the result, will be challengeable. This paper presents the design and implementation of the human-machine interface of Intelligent Cyber-Physical system (ICPS),which is a multi-entity coordination system of robots and other smart devices in a working environment. ICPS gathers sensory data from entities and then receives users' command, then optimizes plans to utilize the capability of different entities to serve people. Using multi-model interaction methods, e.g. graphical interfaces, speech interaction, gestures and facial expressions, ICPS is able to receive inputs from users through different entities, keep users aware of the progress and accomplish the task efficiently
翻訳日:2022-12-31 23:20:41 公開日:2020-02-15
# 非線形階層統計逆問題に対する最適化に基づくmcmc法

Optimization-Based MCMC Methods for Nonlinear Hierarchical Statistical Inverse Problems ( http://arxiv.org/abs/2002.06358v1 )

ライセンス: Link先を確認
Johnathan Bardsley, Tiangang Cui(参考訳) 多くの階層的逆問題において、パラメータ・可観測写像の高次元・無限次元モデルパラメーターを推定するだけでなく、統計および数学的モデリングプロセスにおける臨界仮定を表すハイパーパラメーターを推定する必要がある。 高次元、非線形依存、非凹構造によるモデルパラメータとハイパーパラメータ上の後後方分布の合同効果として、階層ベイズ環境における逆問題を解くことは重要な計算課題となる。 本研究では,階層ベイズ逆問題を非線形パラメータ対可観測写像とより広い超パラメータのクラスで解くための,スケーラブルな最適化に基づくマルコフ連鎖モンテカルロ法(mcmc)の開発を目指している。 我々のアルゴリズム開発は,高次元あるいは無限次元のモデルパラメータ空間を探索するRTO法 [4] を最近開発した。 RTO をMetropolis-within-Gibbs の更新における提案分布として、あるいは擬行列MCMC [2] の偏り分布として使用することにより、階層ベイズ変換のための効率的なサンプリングツールを設計することができる。 特に、RTOと疑似マルチナルMCMCの統合は、モデルパラメータ次元に対して堅牢なサンプリング性能を有する。 また,ポアソン分布測定による非線形逆問題にも拡張する。 PDE制約逆問題とポジトロンエミッショントモグラフィ(PET)の数値例を用いて,本手法の性能を実証した。

In many hierarchical inverse problems, not only do we want to estimate high- or infinite-dimensional model parameters in the parameter-to-observable maps, but we also have to estimate hyperparameters that represent critical assumptions in the statistical and mathematical modeling processes. As a joint effect of high-dimensionality, nonlinear dependence, and non-concave structures in the joint posterior posterior distribution over model parameters and hyperparameters, solving inverse problems in the hierarchical Bayesian setting poses a significant computational challenge. In this work, we aim to develop scalable optimization-based Markov chain Monte Carlo (MCMC) methods for solving hierarchical Bayesian inverse problems with nonlinear parameter-to-observable maps and a broader class of hyperparameters. Our algorithmic development is based on the recently developed scalable randomize-then-optimize (RTO) method [4] for exploring the high- or infinite-dimensional model parameter space. By using RTO either as a proposal distribution in a Metropolis-within-Gibbs update or as a biasing distribution in the pseudo-marginal MCMC [2], we are able to design efficient sampling tools for hierarchical Bayesian inversion. In particular, the integration of RTO and the pseudo-marginal MCMC has sampling performance robust to model parameter dimensions. We also extend our methods to nonlinear inverse problems with Poisson-distributed measurements. Numerical examples in PDE-constrained inverse problems and positron emission tomography (PET) are used to demonstrate the performance of our methods.
翻訳日:2022-12-31 23:20:23 公開日:2020-02-15
# アセットバブル検出のための深層学習

Deep Learning for Asset Bubbles Detection ( http://arxiv.org/abs/2002.06405v1 )

ライセンス: Link先を確認
Oksana Bashchenko and Alexis Marchal(参考訳) ニューラルネットワークを用いてアセットバブルを検出する手法を開発した。 連続時間における局所マルティンゲールの理論に依拠し、ディープネットワークを用いて現在の推定値よりもより正確に価格プロセスの拡散係数を推定し、気泡の検出を改善した。 シミュレーションデータを用いた実験室において,既存の統計的手法に対するアルゴリズムの有効性を示す。 次に、ネットワーク分類を実データに適用し、2006年から2008年までの米国株式市場におけるバブルの存在から発生するリスクの高い仲裁を生かしたゼロネット露光取引戦略を構築する。 戦略の収益性は、バブルの経済的大きさの推定と、それに依存する理論的仮定のサポートを提供する。

We develop a methodology for detecting asset bubbles using a neural network. We rely on the theory of local martingales in continuous-time and use a deep network to estimate the diffusion coefficient of the price process more accurately than the current estimator, obtaining an improved detection of bubbles. We show the outperformance of our algorithm over the existing statistical method in a laboratory created with simulated data. We then apply the network classification to real data and build a zero net exposure trading strategy that exploits the risky arbitrage emanating from the presence of bubbles in the US equity market from 2006 to 2008. The profitability of the strategy provides an estimation of the economical magnitude of bubbles as well as support for the theoretical assumptions relied on.
翻訳日:2022-12-31 23:19:58 公開日:2020-02-15
# 終末音声認識のためのニューラルネットワーク訓練のための小エネルギーマスキング

Small energy masking for improved neural network training for end-to-end speech recognition ( http://arxiv.org/abs/2002.06312v1 )

ライセンス: Link先を確認
Chanwoo Kim, Kwangyoun Kim, and Sathish Reddy Indurthi(参考訳) 本稿では,特定のしきい値以下の値を持つ入力をマスキングするsem(small energy masking)アルゴリズムを提案する。 より具体的には、このビンのフィルタバンクエネルギーが特定のエネルギー閾値未満であれば、時間周波数ビンはマスクされる。 デシベルにおける各発話のピークフィルタバンクエネルギーに対するこのエネルギー閾値の比をランダムに生成するために均一分布を用いる。 マスクされていない特徴要素は、このマスキング手順により特徴値の総和が同じになるようにスケールされる。 この非常に単純なアルゴリズムは、標準のLibriSpeechテストクリーンと、ベースラインのエンドツーエンド音声認識システムに対する他のテストセットに対して、比較的1.2 %と13.5 %のワードエラー率(WER)が改善されている。 さらに、入力ドロップアウトアルゴリズムと比較して、semアルゴリズムは、同じlibrispeechテストクリーンおよびテストその他のセットに対して、比較的7.7 %と11.6 %の改善を示す。 また,Transformer LMを用いた浅層拡散法により,LibriSpeechテストクリーンセットでは2.62 % WER,LibriSpeechテストクリーンセットでは7.87 % WERを得た。

In this paper, we present a Small Energy Masking (SEM) algorithm, which masks inputs having values below a certain threshold. More specifically, a time-frequency bin is masked if the filterbank energy in this bin is less than a certain energy threshold. A uniform distribution is employed to randomly generate the ratio of this energy threshold to the peak filterbank energy of each utterance in decibels. The unmasked feature elements are scaled so that the total sum of the feature values remain the same through this masking procedure. This very simple algorithm shows relatively 11.2 % and 13.5 % Word Error Rate (WER) improvements on the standard LibriSpeech test-clean and test-other sets over the baseline end-to-end speech recognition system. Additionally, compared to the input dropout algorithm, SEM algorithm shows relatively 7.7 % and 11.6 % improvements on the same LibriSpeech test-clean and test-other sets. With a modified shallow-fusion technique with a Transformer LM, we obtained a 2.62 % WER on the LibriSpeech test-clean set and a 7.87 % WER on the LibriSpeech test-other set.
翻訳日:2022-12-31 23:19:04 公開日:2020-02-15
# 条件付き周期整合adversarial networkを用いた多対多音声変換

Many-to-Many Voice Conversion using Conditional Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2002.06328v1 )

ライセンス: Link先を確認
Shindong Lee, BongGu Ko, Keonnyeong Lee, In-Chul Yoo, and Dongsuk Yook(参考訳) 音声変換(vc)とは、言語内容を変更することなく発話の話者特性を変換することを指す。 音声変換に関する多くの研究は、取得に高コストの並列トレーニングデータを必要とする。 近年,並列学習データを必要としない周期整合逆ネットワーク(cyclegan)が音声変換に応用され,最先端の性能を示している。 しかし、CycleGANベースの音声変換は、1対の話者、すなわち2つの話者間の1対1の音声変換にのみ使用できる。 本稿では,CycleGANを話者にネットワークを調和させることにより拡張する。 提案手法は,複数の話者間で,GAN(Generative Adversarial Network)を用いて多対多の音声変換を行う。 提案手法は,各話者に対して複数のCycleGANを構築する場合と比較して,変換音声の音質を損なうことなく,計算コストと空間コストを大幅に削減する。 VCC2018コーパスを用いた実験により,提案手法の有効性が確認された。

Voice conversion (VC) refers to transforming the speaker characteristics of an utterance without altering its linguistic contents. Many works on voice conversion require to have parallel training data that is highly expensive to acquire. Recently, the cycle-consistent adversarial network (CycleGAN), which does not require parallel training data, has been applied to voice conversion, showing the state-of-the-art performance. The CycleGAN based voice conversion, however, can be used only for a pair of speakers, i.e., one-to-one voice conversion between two speakers. In this paper, we extend the CycleGAN by conditioning the network on speakers. As a result, the proposed method can perform many-to-many voice conversion among multiple speakers using a single generative adversarial network (GAN). Compared to building multiple CycleGANs for each pair of speakers, the proposed method reduces the computational and spatial cost significantly without compromising the sound quality of the converted voice. Experimental results using the VCC2018 corpus confirm the efficiency of the proposed method.
翻訳日:2022-12-31 23:18:38 公開日:2020-02-15
# クラウドIaaS上でのCNNに基づく行動マルウェア検出手法の解析

Analyzing CNN Based Behavioural Malware Detection Techniques on Cloud IaaS ( http://arxiv.org/abs/2002.06383v1 )

ライセンス: Link先を確認
Andrew McDole and Mahmoud Abdelsalam and Maanak Gupta and Sudip Mittal(参考訳) クラウドインフラストラクチャ・アズ・ア・サービス(IaaS)は、外部の敵に晒されているため、マルウェアに弱いため、悪意のあるアクターにとって有利な攻撃ベクターとなる。 マルウェアに感染したデータセンターは、データ損失やユーザへのサービス障害を引き起こす可能性がある。 本稿では,クラウドIaaSにおけるマルウェアのオンライン検出のために,さまざまな畳み込みニューラルネットワーク(CNN)を解析・比較する。 検出は、cpu使用量、メモリ使用量、ディスク使用量などのプロセスレベルのパフォーマンス指標を使用して、動作データに基づいて行われる。 我々はDenseNetsとResNetsの最先端をオンラインクラウドシステムにおけるマルウェアの効果的な検出に利用した。 CNNは、実際のクラウド環境で動作するライブマルウェアから収集されたデータから機能を抽出するように設計されている。 実験はopenstack(クラウドiaasソフトウェア)のテストベッドで行われ、典型的な3層webアーキテクチャを再現するように設計されている。 本研究で使用するcnnモデルの異なる指標について比較分析を行う。

Cloud Infrastructure as a Service (IaaS) is vulnerable to malware due to its exposure to external adversaries, making it a lucrative attack vector for malicious actors. A datacenter infected with malware can cause data loss and/or major disruptions to service for its users. This paper analyzes and compares various Convolutional Neural Networks (CNNs) for online detection of malware in cloud IaaS. The detection is performed based on behavioural data using process level performance metrics including cpu usage, memory usage, disk usage etc. We have used the state of the art DenseNets and ResNets in effectively detecting malware in online cloud system. CNN are designed to extract features from data gathered from a live malware running on a real cloud environment. Experiments are performed on OpenStack (a cloud IaaS software) testbed designed to replicate a typical 3-tier web architecture. Comparative analysis is performed for different metrics for different CNN models used in this research.
翻訳日:2022-12-31 23:12:06 公開日:2020-02-15
# タスク特化度の向上による統合エンティティと関係抽出

Deeper Task-Specificity Improves Joint Entity and Relation Extraction ( http://arxiv.org/abs/2002.06424v1 )

ライセンス: Link先を確認
Phil Crone(参考訳) マルチタスク学習(MTL)は、関連するタスクを学習するための効果的な方法であるが、MTLモデルを設計するには、タスク間で共有されるのとは対照的に、どのパラメータがタスク固有であるかを決定する必要がある。 本稿では、名前付きエンティティ認識(ner)と関係抽出(re)を共同で学習する問題について検討し、先行研究よりも深いタスク固有性を可能にする新しいニューラルアーキテクチャを提案する。 特に、NERタスクとREタスクの両方にタスク固有の双方向RNNレイヤを導入し、異なるデータセットに対して共有層とタスク固有のレイヤの数を個別に調整する。 CoNLL04データセットでは、現在のSOTAアーキテクチャよりもトレーニング可能なパラメータを桁違いに減らしながら、NERタスクとREタスクの競合結果のSOTA結果を得る。 アブレーション研究は、これらの結果を達成するために追加のタスク固有の層の重要性を確認する。 我々の研究は、従来のNERとREのアンダーバリュータスク固有性に対する解法は、一般的にMLLアプローチにおける共有パラメータとタスク固有パラメータの数とを正しくバランスさせることの重要性を示唆している。

Multi-task learning (MTL) is an effective method for learning related tasks, but designing MTL models necessitates deciding which and how many parameters should be task-specific, as opposed to shared between tasks. We investigate this issue for the problem of jointly learning named entity recognition (NER) and relation extraction (RE) and propose a novel neural architecture that allows for deeper task-specificity than does prior work. In particular, we introduce additional task-specific bidirectional RNN layers for both the NER and RE tasks and tune the number of shared and task-specific layers separately for different datasets. We achieve state-of-the-art (SOTA) results for both tasks on the ADE dataset; on the CoNLL04 dataset, we achieve SOTA results on the NER task and competitive results on the RE task while using an order of magnitude fewer trainable parameters than the current SOTA architecture. An ablation study confirms the importance of the additional task-specific layers for achieving these results. Our work suggests that previous solutions to joint NER and RE undervalue task-specificity and demonstrates the importance of correctly balancing the number of shared and task-specific parameters for MTL approaches in general.
翻訳日:2022-12-31 23:11:34 公開日:2020-02-15
# リアルタイムアクション戦略ゲームのためのディープRLエージェント

Deep RL Agent for a Real-Time Action Strategy Game ( http://arxiv.org/abs/2002.06290v1 )

ライセンス: Link先を確認
Michal Warchalski, Dimitrije Radojevic, Milos Milosevic(参考訳) 1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。 この領域はいくつかの理由で自明ではない:それはリアルタイムゲームであり、状態空間は大きい、マッチの各ステップの前後でプレイヤーに与えられる情報は不完全であり、アクションの分布は動的である。 当社の主な貢献は、ppoを使ってトレーニングし、複数の競合エージェントと自己プレイすることで、試合の結果に応じて単純な報酬として$\pm 1$を支払った、競争レベルでゲームで遊ぶ深い強化学習エージェントです。 我々の最高のセルフプレイエージェントは、既存のAIに対して約6,5\%の勝利率、トップヒューマンプレイヤーに対して50\%以上の勝利率を得る。

We introduce a reinforcement learning environment based on Heroic - Magic Duel, a 1 v 1 action strategy game. This domain is non-trivial for several reasons: it is a real-time game, the state space is large, the information given to the player before and at each step of a match is imperfect, and distribution of actions is dynamic. Our main contribution is a deep reinforcement learning agent playing the game at a competitive level that we trained using PPO and self-play with multiple competing agents, employing only a simple reward of $\pm 1$ depending on the outcome of a single match. Our best self-play agent, obtains around $65\%$ win rate against the existing AI and over $50\%$ win rate against a top human player.
翻訳日:2022-12-31 23:11:12 公開日:2020-02-15
# モーションアダプティブフィードバックセルを用いたビデオ顔超解像

Video Face Super-Resolution with Motion-Adaptive Feedback Cell ( http://arxiv.org/abs/2002.06378v1 )

ライセンス: Link先を確認
Jingwei Xin, Nannan Wang, Jie Li, Xinbo Gao, Zhifeng Li(参考訳) ビデオ超解像法(VSR)は近年,深層畳み込みニューラルネットワーク(CNN)の開発により,顕著な成功を収めている。 現在の最先端CNN法では、VSR問題を多数の個別のマルチフレーム超解像度タスクとして扱い、低解像度(LR)フレームのバッチを使用して単一の高解像度(HR)フレームを生成し、ビデオ全体にわたってLRフレームを選択するためのスライドウィンドウを実行すると、一連のHRフレームが得られる。 しかし, フレーム間の複雑な時間依存性に対して, LR入力フレーム数が増加するにつれて, 再構成HRフレームの性能は悪化する。 理由は、これらの手法には複雑な時間的依存をモデル化する能力がなく、VSRプロセスの正確な動き推定と補償を与えることが難しいからである。 フレーム内の動きが複雑になると性能が劇的に低下する。 本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。 本手法では,フレーム間移動に関する情報を効率的に活用し,ネットワークの動作推定と補償方法への依存性を回避できる。 さらに,MAFCの優れた特性を活かして,非常に複雑な動作シナリオにおいて,ネットワークの性能を向上させることができる。 広範な評価と比較は,提案手法の強みを検証し,提案手法が最先端手法よりも優れていることを実証した。

Video super-resolution (VSR) methods have recently achieved a remarkable success due to the development of deep convolutional neural networks (CNN). Current state-of-the-art CNN methods usually treat the VSR problem as a large number of separate multi-frame super-resolution tasks, at which a batch of low resolution (LR) frames is utilized to generate a single high resolution (HR) frame, and running a slide window to select LR frames over the entire video would obtain a series of HR frames. However, duo to the complex temporal dependency between frames, with the number of LR input frames increase, the performance of the reconstructed HR frames become worse. The reason is in that these methods lack the ability to model complex temporal dependencies and hard to give an accurate motion estimation and compensation for VSR process. Which makes the performance degrade drastically when the motion in frames is complex. In this paper, we propose a Motion-Adaptive Feedback Cell (MAFC), a simple but effective block, which can efficiently capture the motion compensation and feed it back to the network in an adaptive way. Our approach efficiently utilizes the information of the inter-frame motion, the dependence of the network on motion estimation and compensation method can be avoid. In addition, benefiting from the excellent nature of MAFC, the network can achieve better performance in the case of extremely complex motion scenarios. Extensive evaluations and comparisons validate the strengths of our approach, and the experimental results demonstrated that the proposed framework is outperform the state-of-the-art methods.
翻訳日:2022-12-31 23:09:34 公開日:2020-02-15
# ワイルドシーン画像におけるスケール不変多方向テキスト検出

Scale-Invariant Multi-Oriented Text Detection in Wild Scene Images ( http://arxiv.org/abs/2002.06423v1 )

ライセンス: Link先を確認
Kinjal Dasgupta, Sudip Das, Ujjwal Bhattacharya(参考訳) 野生環境におけるシーンテキストの自動検出は,特に処理の困難さから難しい課題である (i)異なる割合の閉塞 (ii)規模や方向が広く異なること。 (iii)画質等が著しく低下すること。 本稿では,情報の効率的な抽象化が可能な新しい特徴表現ブロック(FRB)からなる,完全な畳み込みニューラルネットワークアーキテクチャを提案する。 提案するネットワークは,画像サンプルの難易度と段階的画素単位のぼかしに関するカリキュラム学習を用いて訓練されている。 複数の可能なソースからぼやけているようなスケールや向きの異なるテキストや、一様でない照明、および様々なパーセンテージの部分的閉塞を検出することができる。 ICDAR 2015, ICDAR 2017 MLT, COCO-Text, MSRA-TD500など, 様々なベンチマークサンプルデータベース上でのフレームワークのテキスト検出性能は, それぞれの最先端結果を大幅に改善する。 提案されたアーキテクチャのソースコードはgithub.comで入手できる。

Automatic detection of scene texts in the wild is a challenging problem, particularly due to the difficulties in handling (i) occlusions of varying percentages, (ii) widely different scales and orientations, (iii) severe degradations in the image quality etc. In this article, we propose a fully convolutional neural network architecture consisting of a novel Feature Representation Block (FRB) capable of efficient abstraction of information. The proposed network has been trained using curriculum learning with respect to difficulties in image samples and gradual pixel-wise blurring. It is capable of detecting texts of different scales and orientations suffered by blurring from multiple possible sources, non-uniform illumination as well as partial occlusions of varying percentages. Text detection performance of the proposed framework on various benchmark sample databases including ICDAR 2015, ICDAR 2017 MLT, COCO-Text and MSRA-TD500 improves respective state-of-the-art results significantly. Source code of the proposed architecture will be made available at github.
翻訳日:2022-12-31 23:09:09 公開日:2020-02-15
# 模倣学習とゴール・コンディション強化学習のための普遍値密度推定

Universal Value Density Estimation for Imitation Learning and Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2002.06473v1 )

ライセンス: Link先を確認
Yannick Schroecker, Charles Isbell(参考訳) 本研究は,模倣学習と目標条件強化学習の2つの異なる設定を考察する。 いずれの場合も、効果的な解法はエージェントが特定の状態(ゴール)または一連の状態(デモ)に確実に到達する必要がある。 確率的長期ダイナミクスと所望の値関数との関係を描き,近年の密度推定の進歩を活かし,与えられた状態に到達するために効果的に学習する手法を提案する。 最初のコントリビューションとして、この手法を目標条件強化学習に使用し、これは効率的であり、確率的領域における後見バイアスに悩まされないことを示す。 第2の貢献として,模倣学習へのアプローチを拡張し,標準ベンチマークタスクにおける最先端のサンプル効率を実現することを示す。

This work considers two distinct settings: imitation learning and goal-conditioned reinforcement learning. In either case, effective solutions require the agent to reliably reach a specified state (a goal), or set of states (a demonstration). Drawing a connection between probabilistic long-term dynamics and the desired value function, this work introduces an approach which utilizes recent advances in density estimation to effectively learn to reach a given state. As our first contribution, we use this approach for goal-conditioned reinforcement learning and show that it is both efficient and does not suffer from hindsight bias in stochastic domains. As our second contribution, we extend the approach to imitation learning and show that it achieves state-of-the art demonstration sample-efficiency on standard benchmark tasks.
翻訳日:2022-12-31 23:02:42 公開日:2020-02-15
# 改良されたフレーズ境界埋め込み

Supervised Phrase-boundary Embeddings ( http://arxiv.org/abs/2002.06450v1 )

ライセンス: Link先を確認
Manni Singh, David Weston, Mark Levene(参考訳) 本稿では,教師付き句情報を含む新しい単語埋め込みモデルsphraseを提案する。 本手法は,句中のすべての対象語が全く同じ文脈を持つことを保証することにより,従来の単語埋め込みを修飾する。 コンテキストウィンドウにこの情報を含めれば,本質的な評価タスクと下流の外部タスクの両方に対して優れた埋め込みが可能になる。

We propose a new word embedding model, called SPhrase, that incorporates supervised phrase information. Our method modifies traditional word embeddings by ensuring that all target words in a phrase have exactly the same context. We demonstrate that including this information within a context window produces superior embeddings for both intrinsic evaluation tasks and downstream extrinsic tasks.
翻訳日:2022-12-31 23:02:28 公開日:2020-02-15
# 自分が本当に好きなものを学ぶ: 好みを学習するときに、騒々しい人間に対処する

Let Me At Least Learn What You Really Like: Dealing With Noisy Humans When Learning Preferences ( http://arxiv.org/abs/2002.06288v1 )

ライセンス: Link先を確認
Sriram Gopalakrishnan, Utkarsh Soni(参考訳) 人間の好みを学習することで、人間との相互作用の質が向上する。 好みを学習できるクエリの数は、特に人間と対話する場合に限られているため、アクティブな学習が必須である。 アクティブラーニングの1つのアプローチは、不確実性サンプリングを使用してクエリの情報性を決定することである。 本稿では,予測出力値を用いて選好の学習を高速化する不確実性サンプリングの修正を提案する。 本手法を不確実性サンプリングベースラインと比較し,各成分の有効性を検証するためにアブレーション試験を行った。

Learning the preferences of a human improves the quality of the interaction with the human. The number of queries available to learn preferences maybe limited especially when interacting with a human, and so active learning is a must. One approach to active learning is to use uncertainty sampling to decide the informativeness of a query. In this paper, we propose a modification to uncertainty sampling which uses the expected output value to help speed up learning of preferences. We compare our approach with the uncertainty sampling baseline, as well as conduct an ablation study to test the validity of each component of our approach.
翻訳日:2022-12-31 23:00:55 公開日:2020-02-15
# 画像分類器のマニフォールドによるテスト生成

Manifold-based Test Generation for Image Classifiers ( http://arxiv.org/abs/2002.06337v1 )

ライセンス: Link先を確認
Taejoon Byun, Abhishek Vijayakumar, Sanjai Rayadurgam, Darren Cofer(参考訳) 重要なアプリケーションで画像分類タスクに使用されるニューラルネットワークは、その正確性を保証するために十分な現実的なデータでテストされなければならない。 画像分類ニューラルネットワークを効果的にテストするには、暗黙の要求と学習モデルの違いが露呈するという自信を与えるのに十分な現実的なテストデータを取得する必要がある。 まず、データポイントの適切なサブセットを慎重に選択して信頼性を刺激し、次に、暗黙の要求を明示的なトレーニングセットを超えたデータポイントに有意義に外挿する必要があります。 本稿では,これらの課題に対処するための新しい枠組みを提案する。 提案手法は,大規模な入力データ空間のパターンをより小さな多様体空間で効果的にキャプチャできるという前提に基づいており,そこから入力とラベルの両方をサンプリングして生成することができる。 条件変分オートエンコーダ(CVAE)の変種を用いて、この多様体を生成関数で捕捉し、この多様体空間に探索手法を適用し、断層検出入力を効率的に見つける。 実験により、このアプローチにより、十分に訓練されたモデルでも、数千の現実的なフォールトトレバーテストケースを効率的に生成できることが示されている。

Neural networks used for image classification tasks in critical applications must be tested with sufficient realistic data to assure their correctness. To effectively test an image classification neural network, one must obtain realistic test data adequate enough to inspire confidence that differences between the implicit requirements and the learned model would be exposed. This raises two challenges: first, an adequate subset of the data points must be carefully chosen to inspire confidence, and second, the implicit requirements must be meaningfully extrapolated to data points beyond those in the explicit training set. This paper proposes a novel framework to address these challenges. Our approach is based on the premise that patterns in a large input data space can be effectively captured in a smaller manifold space, from which similar yet novel test cases---both the input and the label---can be sampled and generated. A variant of Conditional Variational Autoencoder (CVAE) is used for capturing this manifold with a generative function, and a search technique is applied on this manifold space to efficiently find fault-revealing inputs. Experiments show that this approach enables generation of thousands of realistic yet fault-revealing test cases efficiently even for well-trained models.
翻訳日:2022-12-31 23:00:44 公開日:2020-02-15
# 眼底画像における病変の自動分割と病理的近視分類

Automatic lesion segmentation and Pathological Myopia classification in fundus images ( http://arxiv.org/abs/2002.06382v1 )

ライセンス: Link先を確認
Cefas Rodrigues Freire, Julio Cesar da Costa Moura, Daniele Montenegro da Silva Barros and Ricardo Alexsandro de Medeiros Valentim(参考訳) 本稿では,病理組織学的近視(PM)の診断アルゴリズムと,視神経円板(OD),眼窩,萎縮,剥離などの網膜構造と病変の検出について述べる。 これらの課題は, PM患者からの根底画像撮影において実施され, PALM(Pathological Myopia Challenge)に参加する必要が生じた。 この課題は、イタリアで開かれたieee国際バイオメディカルイメージングシンポジウム(ieee international symposium on biomedical imaging in vene italy)の衛星イベント「a half day challenge」として組織された。 伝達学習はXceptionをベースラインモデルとしてすべてのタスクに適用する。 また、YOLOアーキテクチャのいくつかの重要なアイデアは、光学ディスクセグメンテーションアルゴリズムパイプラインで使用されている。 我々は,AUC-ROC,F1-Score,Mean Dice Score,Mean Euclidean Distanceの観点から,課題ルールに従ってモデルの性能を評価した。 初期活動において,本手法は良好な結果を示した。

In this paper we present algorithms to diagnosis Pathological Myopia (PM) and detection of retinal structures and lesions such asOptic Disc (OD), Fovea, Atrophy and Detachment. All these tasks were performed in fundus imaging from PM patients and they are requirements to participate in the Pathologic Myopia Challenge (PALM). The challenge was organized as a half day Challenge, a Satellite Event of The IEEE International Symposium on Biomedical Imaging in Venice Italy.Our method applies different Deep Learning techniques for each task. Transfer learning is applied in all tasks using Xception as the baseline model. Also, some key ideas of YOLO architecture are used in the Optic Disc segmentation algorithm pipeline. We have evaluated our model's performance according the challenge rules in terms of AUC-ROC, F1-Score, Mean Dice Score and Mean Euclidean Distance. For initial activities our method has shown satisfactory results.
翻訳日:2022-12-31 23:00:23 公開日:2020-02-15
# 顔分割によるハイパーグラフの高次共起テンソル

Higher order co-occurrence tensors for hypergraphs via face-splitting ( http://arxiv.org/abs/2002.06285v1 )

ライセンス: Link先を確認
Bryan Bischof(参考訳) ペアワイズ共起行列を計算するための一般的なトリックは、入射行列とその転置行列の積である。 本稿では, 顔分割生成物を用いた高次タプル共起のアナログ, あるいは転位ハトリ-ラオ生成物について述べる。 これらの高次共起は、他のトークンの会社におけるトークンの共通性を符号化し、よく研究される相互情報を一般化する。 我々は、このテンソルの使用を一般的なnlpモデルと類似性のハイパーグラフモデルを用いて実証する。

A popular trick for computing a pairwise co-occurrence matrix is the product of an incidence matrix and its transpose. We present an analog for higher order tuple co-occurrences using the face-splitting product, or alternately known as the transpose Khatri-Rao product. These higher order co-occurrences encode the commonality of tokens in the company of other tokens, and thus generalize the mutual information commonly studied. We demonstrate this tensor's use via a popular NLP model, and hypergraph models of similarity.
翻訳日:2022-12-31 22:53:40 公開日:2020-02-15
# 逆ソフトマックス近似による極端分類

Extreme Classification via Adversarial Softmax Approximation ( http://arxiv.org/abs/2002.06298v1 )

ライセンス: Link先を確認
Robert Bamler and Stephan Mandt(参考訳) 極端分類」として知られる多くのクラスにまたがる分類器の訓練は、技術、科学、電子商取引の応用において大きな関心を集めている。 従来のソフトマックス回帰は、クラス$c$の数に比例する勾配コストを誘導するが、これはしばしば禁止的に高価である。 スケーラブルなソフトマックス近似は一様負サンプリングに依存しており、信号対雑音比が低いため収束が遅い。 本稿では,データ分布を模倣する逆方向モデルから負のサンプルを描画することにより,勾配信号を大幅に向上する簡単なトレーニング手法を提案する。 私たちの貢献は3倍です。 (i)$c$の対数のみのコストで負のサンプルを生成する逆サンプリング機構で、それでも安価に勾配更新を行うことができる。 (ii)非一様サンプリングによるバイアスを除去しながら,この逆サンプリングが勾配分散を最小化する数学的証明。 3) 大規模データセットにおける実験結果から,複数の競争基準値に対して,トレーニング時間を桁違いに短縮することを示した。

Training a classifier over a large number of classes, known as 'extreme classification', has become a topic of major interest with applications in technology, science, and e-commerce. Traditional softmax regression induces a gradient cost proportional to the number of classes $C$, which often is prohibitively expensive. A popular scalable softmax approximation relies on uniform negative sampling, which suffers from slow convergence due a poor signal-to-noise ratio. In this paper, we propose a simple training method for drastically enhancing the gradient signal by drawing negative samples from an adversarial model that mimics the data distribution. Our contributions are three-fold: (i) an adversarial sampling mechanism that produces negative samples at a cost only logarithmic in $C$, thus still resulting in cheap gradient updates; (ii) a mathematical proof that this adversarial sampling minimizes the gradient variance while any bias due to non-uniform sampling can be removed; (iii) experimental results on large scale data sets that show a reduction of the training time by an order of magnitude relative to several competitive baselines.
翻訳日:2022-12-31 22:53:29 公開日:2020-02-15
# multi-task multicriteria ハイパーパラメータ最適化

Multi-Task Multicriteria Hyperparameter Optimization ( http://arxiv.org/abs/2002.06372v1 )

ライセンス: Link先を確認
Kirill Akhmetzyanov, Alexander Yuzhakov(参考訳) 本稿では,複数のタスクと複数の基準の最適なハイパーパラメータを探索する新しい手法を提案する。 multi-task multi criteria method (mtmc) はpareto-optimal solutionを提供し、その中の1つの解は与えられた条件の重要度係数で選択される。 この記事は最適なハイパーパラメータを選択する問題の数学的定式化から始まる。 次に、この問題を解決するmtmc法のステップについて述べる。 提案手法は畳み込みニューラルネットワークを用いて画像分類問題に対して評価する。 本稿では,様々な基準値係数に対する最適ハイパーパラメータを提案する。

We present a new method for searching optimal hyperparameters among several tasks and several criteria. Multi-Task Multi Criteria method (MTMC) provides several Pareto-optimal solutions, among which one solution is selected with given criteria significance coefficients. The article begins with a mathematical formulation of the problem of choosing optimal hyperparameters. Then, the steps of the MTMC method that solves this problem are described. The proposed method is evaluated on the image classification problem using a convolutional neural network. The article presents optimal hyperparameters for various criteria significance coefficients.
翻訳日:2022-12-31 22:52:23 公開日:2020-02-15
# MRRC:R-CNN特徴分布構成を用いた画像キャプションのための多役表現クロスオーバー解釈

MRRC: Multiple Role Representation Crossover Interpretation for Image Captioning With R-CNN Feature Distribution Composition (FDC) ( http://arxiv.org/abs/2002.06436v1 )

ライセンス: Link先を確認
Chiranjib Sur(参考訳) 機械による画像キャプションは構造化学習と解釈の基礎を必要とするが、改善には意味のある方法で複数のコンテキスト理解と処理が必要である。 本研究は、コンテキストの組み合わせに関する新しい概念を提供し、オブジェクト、アクティビティ、イベントの記述の等価性として視覚的特徴を扱う多くのアプリケーションに影響を与える。 アーキテクチャには、FDC(Feature Distribution composition)層アテンション、MRRC(Multiple Role Representation Crossover)層アテンション層、Language Decoderという3つのコンポーネントがあります。 FDC Layer AttentionはRCNNの機能から重み付けされた注意を生成するのに役立ち、MRRC Attention Layerは中間表現処理として機能し、次の単語の注意を生成するのに役立ち、Language Decoderは文中の次の可能な単語の可能性を推定するのに役立ちます。 画像から字幕を生成するための効果的な学習に, fdc, mrrc, regional object feature attention, reinforcement learningの有効性を実証した。 このモデルの性能は以前の性能を35.3\%向上させ、論理に基づく表現生成の新しい標準と理論を生み出し、解釈性と文脈を改善した。

While image captioning through machines requires structured learning and basis for interpretation, improvement requires multiple context understanding and processing in a meaningful way. This research will provide a novel concept for context combination and will impact many applications to deal visual features as an equivalence of descriptions of objects, activities and events. There are three components of our architecture: Feature Distribution Composition (FDC) Layer Attention, Multiple Role Representation Crossover (MRRC) Attention Layer and the Language Decoder. FDC Layer Attention helps in generating the weighted attention from RCNN features, MRRC Attention Layer acts as intermediate representation processing and helps in generating the next word attention, while Language Decoder helps in estimation of the likelihood for the next probable word in the sentence. We demonstrated effectiveness of FDC, MRRC, regional object feature attention and reinforcement learning for effective learning to generate better captions from images. The performance of our model enhanced previous performances by 35.3\% and created a new standard and theory for representation generation based on logic, better interpretability and contexts.
翻訳日:2022-12-31 22:52:03 公開日:2020-02-15
# マッチング平均化によるフェデレーション学習

Federated Learning with Matched Averaging ( http://arxiv.org/abs/2002.06440v1 )

ライセンス: Link先を確認
Hongyi Wang, Mikhail Yurochkin, Yuekai Sun, Dimitris Papailiopoulos, Yasaman Khazaeni(参考訳) フェデレーション学習(federated learning)は、エッジデバイスが共有モデルを共同的に学習し、トレーニングデータをデバイスに保持し、モデルトレーニングをクラウドに格納する必要性から切り離すことを可能にする。 本稿では、畳み込みニューラルネットワーク(CNN)やLSTMといった現代のニューラルネットワークアーキテクチャのフェデレーション学習を目的としたフェデレーションマッチング平均化(FedMA)アルゴリズムを提案する。 FedMAは、共通グローバルモデルを構築し、同様の特徴抽出シグネチャを持つ隠れた要素(畳み込み層のチャネル、LSTMの隠れ状態、完全に接続された層のためのニューロン)をマッチングし、平均化する。 実験の結果,FedMAは,実世界のデータセットで訓練された深層CNNおよびLSTMアーキテクチャ上で,最先端のフェデレーション学習アルゴリズムよりも優れるだけでなく,全体の通信負担を軽減することがわかった。

Federated learning allows edge devices to collaboratively learn a shared model while keeping the training data on device, decoupling the ability to do model training from the need to store the data in the cloud. We propose Federated matched averaging (FedMA) algorithm designed for federated learning of modern neural network architectures e.g. convolutional neural networks (CNNs) and LSTMs. FedMA constructs the shared global model in a layer-wise manner by matching and averaging hidden elements (i.e. channels for convolution layers; hidden states for LSTM; neurons for fully connected layers) with similar feature extraction signatures. Our experiments indicate that FedMA not only outperforms popular state-of-the-art federated learning algorithms on deep CNN and LSTM architectures trained on real world datasets, but also reduces the overall communication burden.
翻訳日:2022-12-31 22:51:40 公開日:2020-02-15
# サポートベクトルマシンのコアセットについて

On Coresets for Support Vector Machines ( http://arxiv.org/abs/2002.06469v1 )

ライセンス: Link先を確認
Murad Tukan, Cenk Baykal, Dan Feldman, Daniela Rus(参考訳) 本稿では,ビッグデータおよびストリーミングアプリケーションにおける大規模サポートベクトルマシン(SVM)トレーニングのための効率的なコアセット構築アルゴリズムを提案する。 coresetは、coresetでトレーニングされたモデルがオリジナルのデータセットでトレーニングされたモデルと確実に競合するように、オリジナルのデータポイントの小さな代表的なサブセットである。 コアセットのサイズは、通常、元のセットよりもはるかに小さいため、SVMモデルのトレーニングにおいて、プリプロセス-then-trainスキームが大幅に高速化される可能性がある。 我々は,SVM問題に対する小さなデータ要約を得るのに必要なコアセットのサイズについて,下限と上限を証明した。 結論として,本アルゴリズムは,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。 実世界および合成データセットにおけるアルゴリズムの性能を評価する。 実験結果から,本アルゴリズムの理論的特性を再確認し,svm学習の促進効果を実証した。

We present an efficient coreset construction algorithm for large-scale Support Vector Machine (SVM) training in Big Data and streaming applications. A coreset is a small, representative subset of the original data points such that a models trained on the coreset are provably competitive with those trained on the original data set. Since the size of the coreset is generally much smaller than the original set, our preprocess-then-train scheme has potential to lead to significant speedups when training SVM models. We prove lower and upper bounds on the size of the coreset required to obtain small data summaries for the SVM problem. As a corollary, we show that our algorithm can be used to extend the applicability of any off-the-shelf SVM solver to streaming, distributed, and dynamic data settings. We evaluate the performance of our algorithm on real-world and synthetic data sets. Our experimental results reaffirm the favorable theoretical properties of our algorithm and demonstrate its practical effectiveness in accelerating SVM training.
翻訳日:2022-12-31 22:51:22 公開日:2020-02-15
# 神経読解における過敏性

Undersensitivity in Neural Reading Comprehension ( http://arxiv.org/abs/2003.04808v1 )

ライセンス: Link先を確認
Johannes Welbl, Pasquale Minervini, Max Bartolo, Pontus Stenetorp, Sebastian Riedel(参考訳) 現在の読書理解モデルは、分布内テストセットによく一般化するが、敵対的に選択された入力では不十分である。 敵対的インプットに関するほとんどの先行研究は、過敏性(oversensitivity: semantically invariant text perturbation)の研究を行っている。 本研究は,入力テキストが有意に変化するが,モデルが予測できない過度な予測過敏性という相補的問題に焦点をあてる。 我々は、モデルが同じ答えを誤って予測し、さらに高い確率で予測する問題のセマンティックなバリエーションの中から探索するノイズの多い逆攻撃を定式化する。 SQuAD2.0とNewsQAモデルの両方がこの攻撃に対して脆弱である。 これは、正確ではあるが、モデルは素早いパターンに依存し、質問で指定された情報を十分に考慮していないことを示している。 防御としてデータ拡張と敵意トレーニングを実験し、共に保持されたデータに対する攻撃に対する脆弱性を大幅に減少させ、攻撃空間を保持できることを見出した。 過敏性に対処することで、加算と加算の結果も改善され、さらに列車/評価分布のミスマッチに直面した際にモデルがより一般化する: 彼らはトレーニングセットにのみ存在する予測的手がかりに過度に頼らず、従来のモデルよりも10.9%のf1よりも優れています。

Current reading comprehension models generalise well to in-distribution test sets, yet perform poorly on adversarially selected inputs. Most prior work on adversarial inputs studies oversensitivity: semantically invariant text perturbations that cause a model's prediction to change when it should not. In this work we focus on the complementary problem: excessive prediction undersensitivity, where input text is meaningfully changed but the model's prediction does not, even though it should. We formulate a noisy adversarial attack which searches among semantic variations of the question for which a model erroneously predicts the same answer, and with even higher probability. Despite comprising unanswerable questions, both SQuAD2.0 and NewsQA models are vulnerable to this attack. This indicates that although accurate, models tend to rely on spurious patterns and do not fully consider the information specified in a question. We experiment with data augmentation and adversarial training as defences, and find that both substantially decrease vulnerability to attacks on held out data, as well as held out attack spaces. Addressing undersensitivity also improves results on AddSent and AddOneSent, and models furthermore generalise better when facing train/evaluation distribution mismatch: they are less prone to overly rely on predictive cues present only in the training set, and outperform a conventional model by as much as 10.9% F1.
翻訳日:2022-12-31 22:45:18 公開日:2020-02-15
# 異なるモデルによる偽ニュース検出

Fake News Detection with Different Models ( http://arxiv.org/abs/2003.04978v1 )

ライセンス: Link先を確認
Sairamvinay Vijayaraghavan, Ye Wang, Zhiyuan Guo, John Voong, Wenda Xu, Armand Nasseri, Jiaru Cai, Linda Li, Kevin Vuong, and Eshan Wadhwa(参考訳) 本論文は,偽ニュース検出モデルの開発を目的とした様々なモデルを検討するための論文であり,我々は特定の機械学習アルゴリズムを用いており,テキストデータを処理する機能としてtfidf,cv,w2vなどの事前学習アルゴリズムを用いた。

This is a paper for exploring various different models aiming at developing fake news detection models and we had used certain machine learning algorithms and we had used pretrained algorithms such as TFIDF and CV and W2V as features for processing textual data.
翻訳日:2022-12-31 22:44:54 公開日:2020-02-15
# Jelly Bean World: 永遠の学習のためのテストベッド

Jelly Bean World: A Testbed for Never-Ending Learning ( http://arxiv.org/abs/2002.06306v1 )

ライセンス: Link先を確認
Emmanouil Antonios Platanios and Abulhair Saparov and Tom Mitchell(参考訳) 機械学習は近年、成功を収めている。 しかし、現在の機械学習システムは高度に専門化されており、特定の問題やドメインに対して訓練されている。 一方、人間の学習は非常に一般的で適応性が高い。 Never-ending Learningは、このギャップを埋めることを目的とした機械学習のパラダイムであり、研究者たちがより複雑な環境で、幅広い種類の関連するタスクを実行できる機械学習システムの設計を奨励することを目的としている。 これまでのところ、永遠の学習システムの開発と評価を容易にする環境やテストベッドはありません。 そこで我々はjelly bean world testbedを提案する。 Jelly Bean Worldは、アイテムで満たされ、エージェントがナビゲートできる2次元グリッドワールドに関する実験を可能にする。 このテストベッドは、十分に複雑で、より一般的にインテリジェントなアルゴリズムが現在の最先端の強化学習アプローチよりもうまく機能すべき環境を提供する。 非定常環境を生成し、マルチタスク、マルチエージェント、マルチモーダル、カリキュラム学習の設定による実験を容易にする。 この新しいフリーソフトウェアが、絶え間ない学習システムやより広範に汎用的な知能システムの開発と評価に新たな研究と関心を喚起することを期待している。

Machine learning has shown growing success in recent years. However, current machine learning systems are highly specialized, trained for particular problems or domains, and typically on a single narrow dataset. Human learning, on the other hand, is highly general and adaptable. Never-ending learning is a machine learning paradigm that aims to bridge this gap, with the goal of encouraging researchers to design machine learning systems that can learn to perform a wider variety of inter-related tasks in more complex environments. To date, there is no environment or testbed to facilitate the development and evaluation of never-ending learning systems. To this end, we propose the Jelly Bean World testbed. The Jelly Bean World allows experimentation over two-dimensional grid worlds which are filled with items and in which agents can navigate. This testbed provides environments that are sufficiently complex and where more generally intelligent algorithms ought to perform better than current state-of-the-art reinforcement learning approaches. It does so by producing non-stationary environments and facilitating experimentation with multi-task, multi-agent, multi-modal, and curriculum learning settings. We hope that this new freely-available software will prompt new research and interest in the development and evaluation of never-ending learning systems and more broadly, general intelligence systems.
翻訳日:2022-12-31 22:44:47 公開日:2020-02-15
# HighRes-net: 衛星画像のマルチフレーム超解像のための再帰核融合

HighRes-net: Recursive Fusion for Multi-Frame Super-Resolution of Satellite Imagery ( http://arxiv.org/abs/2002.06460v1 )

ライセンス: Link先を確認
Michel Deudon, Alfredo Kalaitzis, Israel Goytom, Md Rifat Arefin, Zhichao Lin, Kris Sankaran, Vincent Michalski, Samira E. Kahou, Julien Cornebise, Yoshua Bengio(参考訳) 生成的深層学習は、画像に印象的な美的結果を与える超解法(SR)アルゴリズムの新たな波を引き起こした。 MFSR(Multi-frame Super-Resolution)は、複数の低解像度ビューを条件付けすることで、不適切な問題に対するより基礎的なアプローチを提供する。 これは、信頼できる画像に依存する森林破壊から人権侵害まで、地球への人的影響を衛星で監視する上で重要である。 この目的のために、我々はMFSRに対する最初のディープラーニングアプローチであるHighRes-netを紹介し、そのサブタスクをエンドツーエンドで学習する。 (i)共同登録 (ii)融合。 (iii)アップサンプリング、及び (iv)失効時の登録。 低解像度ビューの共登録は、明示的な登録機構を持たない参照フレームチャネルを通じて暗黙的に学習される。 任意の数の低解像度ペアに対して再帰的に適用される大域的融合演算子を学習する。 我々は、ShiftNetを通じてSR出力を接地木に整列させることで、登録損失を導入する。 複数のビューの深い表現を学習することで、低解像度の信号を超解き、地球観測データを大規模に拡張できることを示す。 我々は最近、欧州宇宙機関(esa)の衛星画像に関するmfsrコンペティションを勝ち取った。

Generative deep learning has sparked a new wave of Super-Resolution (SR) algorithms that enhance single images with impressive aesthetic results, albeit with imaginary details. Multi-frame Super-Resolution (MFSR) offers a more grounded approach to the ill-posed problem, by conditioning on multiple low-resolution views. This is important for satellite monitoring of human impact on the planet -- from deforestation, to human rights violations -- that depend on reliable imagery. To this end, we present HighRes-net, the first deep learning approach to MFSR that learns its sub-tasks in an end-to-end fashion: (i) co-registration, (ii) fusion, (iii) up-sampling, and (iv) registration-at-the-loss. Co-registration of low-resolution views is learned implicitly through a reference-frame channel, with no explicit registration mechanism. We learn a global fusion operator that is applied recursively on an arbitrary number of low-resolution pairs. We introduce a registered loss, by learning to align the SR output to a ground-truth through ShiftNet. We show that by learning deep representations of multiple views, we can super-resolve low-resolution signals and enhance Earth Observation data at scale. Our approach recently topped the European Space Agency's MFSR competition on real-world satellite imagery.
翻訳日:2022-12-31 22:44:04 公開日:2020-02-15
# 微調整事前訓練言語モデル:軽量初期化、データ順序、早期停止

Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping ( http://arxiv.org/abs/2002.06305v1 )

ライセンス: Link先を確認
Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh Hajishirzi, Noah Smith(参考訳) 自然言語処理では、教師付きダウンストリームタスクに事前学習されたコンテキスト単語埋め込みモデルが一般的になっている。 しかし、この過程はしばしば不安定で、同じハイパーパラメータ値であっても、異なるランダムな種は、かなり異なる結果をもたらす。 この現象をよりよく理解するために、GLUEベンチマークから得られた4つのデータセットを実験し、ランダムな種だけを変更しながら、それぞれに数百回微調整されたBERTを実験した。 これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。 さらに,無作為種子の選択に影響を及ぼす2つの要因について検討した。 両者とも、サンプル外のパフォーマンスのばらつきに両立し、いくつかの重み初期化が探究されたすべてのタスクでうまく機能することを発見した。 小さなデータセットでは、多くの微調整試験がトレーニングの過程の一部に分かれているのを観察し、実践者が早期に有望でないトレーニングを止めるためのベストプラクティスを提供する。 我々は,2100のトライアルのトレーニングと検証スコアを含む実験データをすべて公開し,微調整中のトレーニングダイナミクスのさらなる分析を奨励する。

Fine-tuning pretrained contextual word embedding models to supervised downstream tasks has become commonplace in natural language processing. This process, however, is often brittle: even with the same hyperparameter values, distinct random seeds can lead to substantially different results. To better understand this phenomenon, we experiment with four datasets from the GLUE benchmark, fine-tuning BERT hundreds of times on each while varying only the random seeds. We find substantial performance increases compared to previously reported results, and we quantify how the performance of the best-found model varies as a function of the number of fine-tuning trials. Further, we examine two factors influenced by the choice of random seed: weight initialization and training data order. We find that both contribute comparably to the variance of out-of-sample performance, and that some weight initializations perform well across all tasks explored. On small datasets, we observe that many fine-tuning trials diverge part of the way through training, and we offer best practices for practitioners to stop training less promising runs early. We publicly release all of our experimental data, including training and validation scores for 2,100 trials, to encourage further analysis of training dynamics during fine-tuning.
翻訳日:2022-12-31 22:42:53 公開日:2020-02-15