このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200528となっている論文です。

PDF登録状況(公開日: 20200528)

TitleAuthorsAbstract論文公表日・翻訳日
# 無記憶量子衝突モデルの非平衡定常状態

Non-equilibrium steady-states of memoryless quantum collision models ( http://arxiv.org/abs/2001.01723v3 )

ライセンス: Link先を確認
Giacomo Guarnieri, Daniele Morrone, Bar{\i}\c{s} \c{C}akmak, Francesco Plastina, Steve Campbell(参考訳) 超強結合系におけるマスター方程式に対応する無記憶(マルコフ型)量子衝突モデルによって記述された開システムダイナミクスから生じる定常状態特性について検討する。 システム環境間相互作用のオン・オフの作業コストを慎重に評価することにより,エネルギー保存形式のカップリングハミルトニアンのみが系を熱平衡に導くのに対し,他の相互作用は定常電流によって支持される非平衡定常状態につながることを示した。 これらの電流は、ハウスキーピングの仕事と熱を巧みに例示している。 さらに,エネルギー固有ベイシスにおいて連系を示す定常状態へとシステムを駆動するシステム環境相互作用の特定の形態を特徴付け,非パッシブな状態の族を発生させる。

We investigate the steady state properties arising from the open system dynamics described by a memoryless (Markovian) quantum collision model, corresponding to a master equation in the ultra-strong coupling regime. By carefully assessing the work cost of switching on and off the system-environment interaction, we show that only a coupling Hamiltonian in the energy-preserving form drives the system to thermal equilibrium, while any other interaction leads to non-equilibrium steady states that are supported by steady-state currents. These currents provide a neat exemplification of the housekeeping work and heat. Furthermore, we characterize the specific form of system-environment interaction that drives the system to a steady-state exhibiting coherence in the energy eigenbasis, thus, giving rise to families of states that are non-passive.
翻訳日:2023-01-14 03:02:11 公開日:2020-05-28
# アルゴリズム選択のための学習曲線付きマルチArmed Bandit HAMLET

HAMLET -- A Learning Curve-Enabled Multi-Armed Bandit for Algorithm Selection ( http://arxiv.org/abs/2001.11261v3 )

ライセンス: Link先を確認
Mischa Schmidt, Julia Gastinger, S\'ebastien Nicolas, Anett Sch\"ulke (NEC Laboratories Europe GmbH)(参考訳) 自動アルゴリズム選択とハイパーパラメータチューニングは機械学習の適用を容易にする。 伝統的なマルチアームのバンディット戦略は、長期にわたって期待される総報酬を最適化するための最も有望な武器を特定するために観察された報酬の歴史に目を向ける。 限られた時間予算と計算資源を考慮すると、この報酬の後方ビューは不適切である。 この研究は、一連の機械学習アルゴリズムの中から選択するための学習曲線外挿と計算時間認識による帯域幅アプローチを拡張するHAMLETの導入による洞察に対処する。 その結果,HAMLET 変数 1-3 は,時間予算の大部分に対して記録されたハイパーパラメータチューニングトレースを用いた実験において,他の帯域ベースアルゴリズム選択手法と同等以上の性能を示した。 最高のパフォーマンスのHAMLETヴァリアント3は、学習曲線外挿とよく知られた高信頼境界探索ボーナスを組み合わせる。 この変種は、1,485ランの95%レベルで統計的に有意なすべての非HAMLETポリシーよりも優れている。

Automated algorithm selection and hyperparameter tuning facilitates the application of machine learning. Traditional multi-armed bandit strategies look to the history of observed rewards to identify the most promising arms for optimizing expected total reward in the long run. When considering limited time budgets and computational resources, this backward view of rewards is inappropriate as the bandit should look into the future for anticipating the highest final reward at the end of a specified time budget. This work addresses that insight by introducing HAMLET, which extends the bandit approach with learning curve extrapolation and computation time-awareness for selecting among a set of machine learning algorithms. Results show that the HAMLET Variants 1-3 exhibit equal or better performance than other bandit-based algorithm selection strategies in experiments with recorded hyperparameter tuning traces for the majority of considered time budgets. The best performing HAMLET Variant 3 combines learning curve extrapolation with the well-known upper confidence bound exploration bonus. That variant performs better than all non-HAMLET policies with statistical significance at the 95% level for 1,485 runs.
翻訳日:2023-01-05 11:27:03 公開日:2020-05-28
# 複数のビデオで測定した背景減算アルゴリズムの性能の要約

Summarizing the performances of a background subtraction algorithm measured on several videos ( http://arxiv.org/abs/2002.05654v2 )

ライセンス: Link先を確認
S\'ebastien Pi\'erard and Marc Van Droogenbroeck(参考訳) 動画中の動きを検出する背景減算アルゴリズムは数多く存在する。 それらの比較を支援するため、CDNETやLASIESTAといった地上データを用いたデータセットが提案されている。 これらのデータセットは、バックグラウンドサブトラクションの典型的な課題を表すカテゴリでビデオを整理する。 彼らの推奨する評価手順は、各ビデオのパフォーマンス指標を別々に測定し、それらを階層的に、まずカテゴリ内で、次にカテゴリ間で平均する。 パフォーマンス指標の平均化による要約は、評価手順を標準化するための貴重な取り組みであるが、理論的正当化はなく、要約指標間の本質的な関係を断ち切る。 これは解釈の矛盾につながる。 本稿では,パフォーマンス指標間の関係を保存した複数のビデオのパフォーマンスを要約する理論的アプローチを提案する。 さらに,要約性能を計算するための公式とアルゴリズムを与える。 最後に、CDNET 2014での観測について紹介する。

There exist many background subtraction algorithms to detect motion in videos. To help comparing them, datasets with ground-truth data such as CDNET or LASIESTA have been proposed. These datasets organize videos in categories that represent typical challenges for background subtraction. The evaluation procedure promoted by their authors consists in measuring performance indicators for each video separately and to average them hierarchically, within a category first, then between categories, a procedure which we name "summarization". While the summarization by averaging performance indicators is a valuable effort to standardize the evaluation procedure, it has no theoretical justification and it breaks the intrinsic relationships between summarized indicators. This leads to interpretation inconsistencies. In this paper, we present a theoretical approach to summarize the performances for multiple videos that preserves the relationships between performance indicators. In addition, we give formulas and an algorithm to calculate summarized performances. Finally, we showcase our observations on CDNET 2014.
翻訳日:2023-01-01 13:31:19 公開日:2020-05-28
# モデルフリー深層強化学習における単純物体表現の検討

Investigating Simple Object Representations in Model-Free Deep Reinforcement Learning ( http://arxiv.org/abs/2002.06703v2 )

ライセンス: Link先を確認
Guy Davidson, Brenden M. Lake(参考訳) 我々は、シンプルなオブジェクト表現を用いた最先端のモデルフリーディープ強化アルゴリズムの利点を探求する。 Lake et al. (2017) によるFrostbite チャレンジに続き、対象表現を現在の強化学習エージェントに欠ける重要な認知能力として認識する。 我々は,Rainbowモデル(Hessel et al.,2018)にシンプルな特徴工学的オブジェクト表現を提供することで,Atari 2600のFrostbiteゲームの性能を大幅に向上させることを発見した。 次に、異なる種類のオブジェクトの表現の相対的寄与を分析し、これらの表現が最も影響のある環境状態を特定し、これらの表現が新しい状況への一般化にどのように役立つかを検討する。

We explore the benefits of augmenting state-of-the-art model-free deep reinforcement algorithms with simple object representations. Following the Frostbite challenge posited by Lake et al. (2017), we identify object representations as a critical cognitive capacity lacking from current reinforcement learning agents. We discover that providing the Rainbow model (Hessel et al.,2018) with simple, feature-engineered object representations substantially boosts its performance on the Frostbite game from Atari 2600. We then analyze the relative contributions of the representations of different types of objects, identify environment states where these representations are most impactful, and examine how these representations aid in generalizing to novel situations.
翻訳日:2022-12-31 17:31:45 公開日:2020-05-28
# 3次元統合再構築に向けた空中特徴点マッチングのためのフォトグラムメッシュモデルの利用

Leveraging Photogrammetric Mesh Models for Aerial-Ground Feature Point Matching Toward Integrated 3D Reconstruction ( http://arxiv.org/abs/2002.09085v2 )

ライセンス: Link先を確認
Qing Zhu, Zhendong Wang, Han Hu, Linfu Xie, Xuming Ge, Yeting Zhang(参考訳) 地上画像の統合は,都市環境における表面の再構築を効果的に進めるためのアプローチとして証明されている。 しかし、第1段階として、視点や照明条件に大きな違いがあるため、地上画像と地上画像の特徴点マッチングは非常に困難である。 幾何認識画像整流法に基づくこれまでの研究はこの問題を緩和しているが、この戦略の性能と利便性は、例えば二次画像ペア、ディスクリプタの分離抽出、オクルージョンなど、いくつかの欠陥によって制限されている。 これらの問題に対処するため,我々はフォトグラムメッシュモデルを空中画像マッチングに活用する新しいアプローチを提案する。 提案手法は,画像数に関して線形時間的複雑性を持ち,マルチビュー画像によるオーバラップ処理を明示的に行うことができ,オフザシェルフ構造(SfM)とマルチビューステレオ(MVS)ソリューションに直接注入することができる。 まず、航空画像と地上画像は別々に再構成され、当初は弱いジオレファレンスデータによって共同登録される。 第2に、空気モデルが初期地上ビューに描画され、色、深さ、正常な画像が得られる。 そして、局所的な幾何学的情報によってフィルタリングされた記述子を比較して合成色画像と対応する地上画像とをマッチングし、深度画像とパッチベースのマッチングを用いて空中ビューに伝搬する。 各種データセットを用いた実験評価により,提案手法の有効性が確認された。 さらに、既存のSfMおよびMVSソリューションをこれらの手法に組み込むことで、より完全で正確なモデルを直接取得することができる。

Integration of aerial and ground images has been proved as an efficient approach to enhance the surface reconstruction in urban environments. However, as the first step, the feature point matching between aerial and ground images is remarkably difficult, due to the large differences in viewpoint and illumination conditions. Previous studies based on geometry-aware image rectification have alleviated this problem, but the performance and convenience of this strategy is limited by several flaws, e.g. quadratic image pairs, segregated extraction of descriptors and occlusions. To address these problems, we propose a novel approach: leveraging photogrammetric mesh models for aerial-ground image matching. The methods of this proposed approach have linear time complexity with regard to the number of images, can explicitly handle low overlap using multi-view images and can be directly injected into off-the-shelf structure-from-motion (SfM) and multi-view stereo (MVS) solutions. First, aerial and ground images are reconstructed separately and initially co-registered through weak georeferencing data. Second, aerial models are rendered to the initial ground views, in which the color, depth and normal images are obtained. Then, the synthesized color images and the corresponding ground images are matched by comparing the descriptors, filtered by local geometrical information, and then propagated to the aerial views using depth images and patch-based matching. Experimental evaluations using various datasets confirm the superior performance of the proposed methods in aerial-ground image matching. In addition, incorporation of the existing SfM and MVS solutions into these methods enables more complete and accurate models to be directly obtained.
翻訳日:2022-12-30 01:28:25 公開日:2020-05-28
# Deep RLのための自動カリキュラム学習: 簡単な調査

Automatic Curriculum Learning For Deep RL: A Short Survey ( http://arxiv.org/abs/2003.04664v2 )

ライセンス: Link先を確認
R\'emy Portelas, C\'edric Colas, Lilian Weng, Katja Hofmann and Pierre-Yves Oudeyer(参考訳) ACL(Automatic Curriculum Learning)は、近年のDeep Reinforcement Learning(DRL)の成功の基盤となっている。 これらの手法は、エージェントの能力に適応したタスクに挑戦することで、エージェントの学習軌跡を形成する。 近年では、サンプル効率と漸近性能の向上、探索の組織化、一般化の促進、スパース報酬問題の解決などに利用されてきた。 この仕事の野心は二重である。 1) オートマチックカリキュラムラーニング文献のコンパクトでアクセスしやすい紹介と紹介 2) 既存の概念の交配と新たなアイデアの出現を促進するため,ACL における最先端の図面を描くこと。

Automatic Curriculum Learning (ACL) has become a cornerstone of recent successes in Deep Reinforcement Learning (DRL).These methods shape the learning trajectories of agents by challenging them with tasks adapted to their capacities. In recent years, they have been used to improve sample efficiency and asymptotic performance, to organize exploration, to encourage generalization or to solve sparse reward problems, among others. The ambition of this work is dual: 1) to present a compact and accessible introduction to the Automatic Curriculum Learning literature and 2) to draw a bigger picture of the current state of the art in ACL to encourage the cross-breeding of existing concepts and the emergence of new ideas.
翻訳日:2022-12-24 20:16:27 公開日:2020-05-28
# 軌道予測ベンチマークにおけるシーケンス複雑度の分析

A Short Note on Analyzing Sequence Complexity in Trajectory Prediction Benchmarks ( http://arxiv.org/abs/2004.04677v2 )

ライセンス: Link先を確認
Ronny Hug, Stefan Becker, Wolfgang H\"ubner and Michael Arens(参考訳) シーケンス複雑性の分析と定量化は、軌道予測ベンチマークを定義する際に頻繁に発生するオープン問題である。 データ基底のより情報的なアセンブリを可能にするために、識別可能な原型的なサブシーケンスの小さなセットの観点でデータセット表現を決定するアプローチが提案されている。 このアプローチではシーケンスアライメントを使用し、学習ベクトル量子化(LVQ)ステージが続く。 合成生成および実世界のデータセットの概念の最初の証明は、アプローチの実行可能性を示している。

The analysis and quantification of sequence complexity is an open problem frequently encountered when defining trajectory prediction benchmarks. In order to enable a more informative assembly of a data basis, an approach for determining a dataset representation in terms of a small set of distinguishable prototypical sub-sequences is proposed. The approach employs a sequence alignment followed by a learning vector quantization (LVQ) stage. A first proof of concept on synthetically generated and real-world datasets shows the viability of the approach.
翻訳日:2022-12-19 05:39:34 公開日:2020-05-28
# オープン集合認識のための one-vs-rest network-based deep probability model

One-vs-Rest Network-based Deep Probability Model for Open Set Recognition ( http://arxiv.org/abs/2004.08067v2 )

ライセンス: Link先を確認
Jaeyeon Jang and Chang Ouk Kim(参考訳) トレーニング中に見えない未知の例は、実世界のコンピュータビジョンタスクにしばしば現れ、インテリジェントな自己学習システムは、既知の例と未知の例を区別することができる。 この問題に対処するオープンセット認識は、約10年間研究されてきた。 しかし、ディープニューラルネットワーク(DNN)に基づく従来のオープンセット認識手法は、ポスト認識スコア分析の基礎を欠いている。 本稿では,複数の1-vs-restシグモノイドネットワークが畳み込みニューラルネットワーク特徴抽出器に従うDNN構造を提案する。 隠れレイヤと単一のsgmoidターゲットクラス出力ノードに対する整流線形単位活性化関数からなるone-vs-restネットワークは、非マッチング例から情報を学習する能力を最大化することができる。 さらに、ネットワークは、特徴空間で説明可能な洗練された非線形特徴対出力マッピングをもたらす。 極限値理論に基づくキャリブレーション手法を導入することで、非線形かつ説明可能なマッピングは、よく考えられたクラスメンバーシップ確率モデルを提供する。 実験により, 1-vs-restネットワークは, 一般に使用されるsoftmax層よりも, 未知の例に対してより有益な隠れ表現を提供できることを示した。 さらに,提案する確率モデルは,オープン集合の分類シナリオにおいて最先端の手法を上回った。

Unknown examples that are unseen during training often appear in real-world computer vision tasks, and an intelligent self-learning system should be able to differentiate between known and unknown examples. Open set recognition, which addresses this problem, has been studied for approximately a decade. However, conventional open set recognition methods based on deep neural networks (DNNs) lack a foundation for post recognition score analysis. In this paper, we propose a DNN structure in which multiple one-vs-rest sigmoid networks follow a convolutional neural network feature extractor. A one-vs-rest network, which is composed of rectified linear unit activation functions for the hidden layers and a single sigmoid target class output node, can maximize the ability to learn information from nonmatch examples. Furthermore, the network yields a sophisticated nonlinear features-to-output mapping that is explainable in the feature space. By introducing extreme value theory-based calibration techniques, the nonlinear and explainable mapping provides a well-grounded class membership probability models. Our experiments show that one-vs-rest networks can provide more informative hidden representations for unknown examples than the commonly used SoftMax layer. In addition, the proposed probability model outperformed the state-of-the art methods in open set classification scenarios.
翻訳日:2022-12-12 12:50:26 公開日:2020-05-28
# m^3vsnet:教師なしマルチメトリックマルチビューステレオネットワーク

M^3VSNet: Unsupervised Multi-metric Multi-view Stereo Network ( http://arxiv.org/abs/2004.09722v2 )

ライセンス: Link先を確認
Baichuan Huang, Hongwei Yi, Can Huang, Yijia He, Jingbin Liu, Xiao Liu(参考訳) 教師付き学習ネットワークを用いたマルチビューステレオ(MVS)方式は,従来のMVS方式と比較して優れた性能を示した。 しかし、訓練用地中深度マップは入手が困難であり、限られたシナリオの範囲内である。 本稿では,M^3VSNetと呼ばれる非教師付きマルチメトリックMVSネットワークを提案する。 点雲再構成の堅牢性と完全性を改善するために,画素ワイドと特徴ワイドのロス関数を組み合わせた新しい多値損失関数を提案し,マッチングの異なる視点から固有制約を学習する。 さらに,推定深度マップの精度と連続性を改善するため,3dポイントクラウドフォーマットの正規深い一貫性も取り入れた。 実験の結果、M3VSNetは最先端の教師なし手法を確立し、DTUデータセット上で従来の教師付きMVSNetと同等の性能を達成し、効果的に改善されたタンク&テンプルベンチマーク上での強力な一般化能力を示す。 私たちのコードはhttps://github.com/whubaichuan/m3vsnetで利用可能です。

The present Multi-view stereo (MVS) methods with supervised learning-based networks have an impressive performance comparing with traditional MVS methods. However, the ground-truth depth maps for training are hard to be obtained and are within limited kinds of scenarios. In this paper, we propose a novel unsupervised multi-metric MVS network, named M^3VSNet, for dense point cloud reconstruction without any supervision. To improve the robustness and completeness of point cloud reconstruction, we propose a novel multi-metric loss function that combines pixel-wise and feature-wise loss function to learn the inherent constraints from different perspectives of matching correspondences. Besides, we also incorporate the normal-depth consistency in the 3D point cloud format to improve the accuracy and continuity of the estimated depth maps. Experimental results show that M3VSNet establishes the state-of-the-arts unsupervised method and achieves comparable performance with previous supervised MVSNet on the DTU dataset and demonstrates the powerful generalization ability on the Tanks and Temples benchmark with effective improvement. Our code is available at https://github.com/whubaichuan/M3VSNet.
翻訳日:2022-12-11 06:11:56 公開日:2020-05-28
# 工場床の産業用信号光の検出と分類

Detection and Classification of Industrial Signal Lights for Factory Floors ( http://arxiv.org/abs/2004.11187v2 )

ライセンス: Link先を確認
Felix Nilsson, Jens Jakobsen, Fernando Alonso-Fernandez(参考訳) 工業生産は、機械の労働集約的な手動制御から完全に接続された自動化プロセスまで、ここ数十年の間に発展してきた。 次の大きな飛躍は、業界4.0(スマートマニュファクチャリング)として知られる。 業界 4.0 では、ITシステムとファクトリフロアが顧客注文システムから製品の最終納品まで統合されていく。 この統合の利点の1つは、個別にカスタマイズされた製品の大量生産である。 しかし、その寿命が最大30年であることを考えると、既存の工場への導入は困難であることが証明されている。 工場で測定すべき最も重要なパラメータは、各マシンの動作時間である。 運用時間は、マシンのメンテナンスや、さまざまな製品の再設定に影響される可能性がある。 接続性のない古いマシンでは、通常、動作状態は緑、黄色、赤の信号灯で示される。 そのため,工場のフロアを撮影するビデオカメラからの入力を用いて運転状態を計測できるソリューションを開発することが目的である。 自動運転車における交通光認識に一般的に用いられる手法を用いて, 特定条件における精度99%以上のシステムを提案する。 より多様なビデオデータが利用可能になれば、同様の手法で優れた信頼性を持つシステムを開発することができると信じられている。

Industrial manufacturing has developed during the last decades from a labor-intensive manual control of machines to a fully-connected automated process. The next big leap is known as industry 4.0, or smart manufacturing. With industry 4.0 comes increased integration between IT systems and the factory floor from the customer order system to final delivery of the product. One benefit of this integration is mass production of individually customized products. However, this has proven challenging to implement into existing factories, considering that their lifetime can be up to 30 years. The single most important parameter to measure in a factory is the operating hours of each machine. Operating hours can be affected by machine maintenance as well as re-configuration for different products. For older machines without connectivity, the operating state is typically indicated by signal lights of green, yellow and red colours. Accordingly, the goal is to develop a solution which can measure the operational state using the input from a video camera capturing a factory floor. Using methods commonly employed for traffic light recognition in autonomous cars, a system with an accuracy of over 99% in the specified conditions is presented. It is believed that if more diverse video data becomes available, a system with high reliability that generalizes well could be developed using a similar methodology.
翻訳日:2022-12-10 09:56:48 公開日:2020-05-28
# 解釈可能な公式を学ぶための解釈可能性の式を学ぶ

Learning a Formula of Interpretability to Learn Interpretable Formulas ( http://arxiv.org/abs/2004.11170v2 )

ライセンス: Link先を確認
Marco Virgolin, Andrea De Lorenzo, Eric Medvet, and Francesca Randone(参考訳) 多くのリスクに敏感なアプリケーションは、機械学習(ML)モデルを解釈する必要がある。 解釈可能なモデルを得る試みは、典型的には、解釈可能性にゆるやかな関係しか持たないモデル複雑性の試行錯誤によって、チューニングに依存する。 非自明な人間解釈可能性プロキシ(PHI)のMLモデルは人間のフィードバックから学習でき、このモデルはMLトレーニングプロセスに組み込んで解釈可能性を直接最適化することができる。 これを進化的記号回帰として示す。 まず,数式の特徴と2つの確立されたphi,simulatability と decomposability の関連を究明したサーベイを設計,配布した。 次に、得られたデータセットを使用して、解釈可能性のMLモデルを学ぶ。 最後に,二目的遺伝的プログラミングにおける進化する解の解釈可能性を評価するために,このモデルに照会する。 5つの合成問題と8つの実世界の記号回帰問題の実験を行い、従来の解サイズ最小化法と比較した。 その結果,本モデルの利用は,同一レベルの正確性・解釈可能性のトレードオフに対して,著しく正確か等しく導かれることが判明した。 さらに、式はより解釈可能である。 非常にポジティブな結果を考えると、当社のアプローチは次世代の解釈可能(進化的)mlアルゴリズムの設計において重要な一歩となると思います。

Many risk-sensitive applications require Machine Learning (ML) models to be interpretable. Attempts to obtain interpretable models typically rely on tuning, by trial-and-error, hyper-parameters of model complexity that are only loosely related to interpretability. We show that it is instead possible to take a meta-learning approach: an ML model of non-trivial Proxies of Human Interpretability (PHIs) can be learned from human feedback, then this model can be incorporated within an ML training process to directly optimize for interpretability. We show this for evolutionary symbolic regression. We first design and distribute a survey finalized at finding a link between features of mathematical formulas and two established PHIs, simulatability and decomposability. Next, we use the resulting dataset to learn an ML model of interpretability. Lastly, we query this model to estimate the interpretability of evolving solutions within bi-objective genetic programming. We perform experiments on five synthetic and eight real-world symbolic regression problems, comparing to the traditional use of solution size minimization. The results show that the use of our model leads to formulas that are, for a same level of accuracy-interpretability trade-off, either significantly more or equally accurate. Moreover, the formulas are also arguably more interpretable. Given the very positive results, we believe that our approach represents an important stepping stone for the design of next-generation interpretable (evolutionary) ML algorithms.
翻訳日:2022-12-10 09:12:24 公開日:2020-05-28
# CascadeTabNet:画像ベースの文書からエンドツーエンドのテーブル検出と構造認識のためのアプローチ

CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents ( http://arxiv.org/abs/2004.12629v2 )

ライセンス: Link先を確認
Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave and Kavita Sultanpure(参考訳) 文書画像における表データ解釈のための自動テーブル認識手法は,テーブル検出と表構造認識の2つの課題を主に解決する。 以前の作業では、両方の問題を2つの別々のアプローチで独立して解決する必要があった。 より最近の研究は、エンドツーエンドのソリューションを設計しながら、ディープラーニングベースのソリューションの使用を示している。 本稿では,単一畳み込みニューラルネットワーク(cnn)モデルを用いて,テーブル検出と構造認識の問題を解決するための,深層学習に基づくエンド・ツー・エンドアプローチの改善を提案する。 本研究ではカスケードマスクを用いたcnn高分解能ネットワーク(cascade mask r-cnn hrnet)モデルであるカスケードマスクを提案する。 ICDAR 2013 ICDAR 2019とTableBankの公開データセットで結果を評価した。 ICDAR 2013とTableBankデータセットの最も正確な結果を得ると同時に、テーブル検出の競合後の結果で3位を獲得しました。 また、icdar 2019テーブル構造認識データセットにおいて、最も精度の高い結果を得る。 さらに、CNNが極めて正確なテーブル検出結果が得られる効果的な転送学習および画像拡張手法を実証する。 コードとデータセットは、https://github.com/DevashishPrasad/CascadeTabNetで公開されている。

An automatic table recognition method for interpretation of tabular data in document images majorly involves solving two problems of table detection and table structure recognition. The prior work involved solving both problems independently using two separate approaches. More recent works signify the use of deep learning-based solutions while also attempting to design an end to end solution. In this paper, we present an improved deep learning-based end to end approach for solving both problems of table detection and structure recognition using a single Convolution Neural Network (CNN) model. We propose CascadeTabNet: a Cascade mask Region-based CNN High-Resolution Network (Cascade mask R-CNN HRNet) based model that detects the regions of tables and recognizes the structural body cells from the detected tables at the same time. We evaluate our results on ICDAR 2013, ICDAR 2019 and TableBank public datasets. We achieved 3rd rank in ICDAR 2019 post-competition results for table detection while attaining the best accuracy results for the ICDAR 2013 and TableBank dataset. We also attain the highest accuracy results on the ICDAR 2019 table structure recognition dataset. Additionally, we demonstrate effective transfer learning and image augmentation techniques that enable CNNs to achieve very accurate table detection results. Code and dataset has been made available at: https://github.com/DevashishPrasad/CascadeTabNet
翻訳日:2022-12-09 05:30:14 公開日:2020-05-28
# 密度推定のための三角形ネットワーク

A Triangular Network For Density Estimation ( http://arxiv.org/abs/2004.14593v2 )

ライセンス: Link先を確認
Xi-Lin Li(参考訳) 神経自己回帰流(NAF)の三角形ニューラルネットワーク実装について報告する。 多くの普遍的自己回帰密度モデルとは異なり、我々の設計は高度にモジュール化され、パラメータ経済性、計算効率が高く、高次元のデータの密度推定に適用できる。 MNIST と CIFAR-10 (それぞれ 1.1 と 3.7 ) で、汎用密度推定器のカテゴリで、最先端のビット単位の指数を達成する。

We report a triangular neural network implementation of neural autoregressive flow (NAF). Unlike many universal autoregressive density models, our design is highly modular, parameter economy, computationally efficient, and applicable to density estimation of data with high dimensions. It achieves state-of-the-art bits-per-dimension indices on MNIST and CIFAR-10 (about 1.1 and 3.7, respectively) in the category of general-purpose density estimators.
翻訳日:2022-12-08 03:21:37 公開日:2020-05-28
# 形と意味から級数を予測すること

Predicting Declension Class from Form and Meaning ( http://arxiv.org/abs/2005.00626v2 )

ライセンス: Link先を確認
Adina Williams, Tiago Pimentel, Arya D. McCarthy, Hagen Blix, Eleanor Chodroff, Ryan Cotterell(参考訳) 多くの自然言語の名詞 lexica は、特徴的な形態的特徴を持ついくつかの派生クラスに分けられる。 クラスのメンバーシップは決定論的とは程遠いが、名詞とその意味の音韻形式は、しばしば不完全な手がかりを与える。 ここでは、これらの手がかりの強さを調査します。 より具体的には、ビット内の情報量を測定することで、名詞の形や意味を知ることの難しさを抑えることができる。 形式と意味は、しばしば文法的なジェンダーの表れでもある ― 定量的に検証しているように、情報そのものをデレンションクラスと共有できる ― だから、私たちはジェンダーを制御できる。 2つのインド・ヨーロッパ語(チェコ語とドイツ語)は、それぞれに大量の情報をクラスと共有する(そして、上と上以上の情報を提供する)。 クラス、フォーム、意味(性)の3方向の相互作用も重要である。 本研究は2つの理由から重要である。まず,名詞の音節分類において,形と意味が関係する古典的な言語学的発見を定量的に支援する手法を提案する。 第二に、個々の分数クラスが言語内の手がかりの強さによって異なるだけでなく、これらのバリエーション自体が言語によって異なることを示す。

The noun lexica of many natural languages are divided into several declension classes with characteristic morphological properties. Class membership is far from deterministic, but the phonological form of a noun and/or its meaning can often provide imperfect clues. Here, we investigate the strength of those clues. More specifically, we operationalize this by measuring how much information, in bits, we can glean about declension class from knowing the form and/or meaning of nouns. We know that form and meaning are often also indicative of grammatical gender---which, as we quantitatively verify, can itself share information with declension class---so we also control for gender. We find for two Indo-European languages (Czech and German) that form and meaning respectively share significant amounts of information with class (and contribute additional information above and beyond gender). The three-way interaction between class, form, and meaning (given gender) is also significant. Our study is important for two reasons: First, we introduce a new method that provides additional quantitative support for a classic linguistic finding that form and meaning are relevant for the classification of nouns into declensions. Secondly, we show not only that individual declensions classes vary in the strength of their clues within a language, but also that these variations themselves vary across languages.
翻訳日:2022-12-07 23:54:39 公開日:2020-05-28
# ボアホール比抵抗測定の深部学習インバージョンにおける誤差制御と損失関数

Error Control and Loss Functions for the Deep Learning Inversion of Borehole Resistivity Measurements ( http://arxiv.org/abs/2005.08868v3 )

ライセンス: Link先を確認
M. Shahriari, D. Pardo, J. A. Rivera, C. Torres-Verd\'in, A. Picon, J. Del Ser, S. Ossand\'on, V. M. Calo(参考訳) deep learning (dl) は関数を近似する数値的手法である。 近年,石油・ガス利用のためのボーリング検層測定のインバージョンなど,計算力学における複数の問題のシミュレーションとインバージョンに利用が注目されている。 この文脈では、DLメソッドには2つの重要な特徴がある。 a) 一度トレーニングすると、彼らは1秒で逆問題を解くことができる。これはボーリングホールのジオステアリング操作や、他のリアルタイムの反転アプリケーションで便利である。 b) dl法は、異なる知識領域にまたがる高複素関数を近似する優れた能力を示す。 しかしながら、ほとんどの数値的な手法で発生するため、DLは信頼性と堅牢性を達成するために問題固有の専門家の設計決定にも依存している。 本稿では,深層ニューラルネットワーク(dnn)のボアホール比抵抗測定のインバージョンに適用するにあたって,誤差制御と損失関数の適切な選択という2つの重要な側面について検討する。 理論的な考察と広範な数値実験を通して説明するように、これらの相互関係の側面は正確な逆解析結果の復元に不可欠である。

Deep learning (DL) is a numerical method that approximates functions. Recently, its use has become attractive for the simulation and inversion of multiple problems in computational mechanics, including the inversion of borehole logging measurements for oil and gas applications. In this context, DL methods exhibit two key attractive features: a) once trained, they enable to solve an inverse problem in a fraction of a second, which is convenient for borehole geosteering operations as well as in other real-time inversion applications. b) DL methods exhibit a superior capability for approximating highly-complex functions across different areas of knowledge. Nevertheless, as it occurs with most numerical methods, DL also relies on expert design decisions that are problem specific to achieve reliable and robust results. Herein, we investigate two key aspects of deep neural networks (DNNs) when applied to the inversion of borehole resistivity measurements: error control and adequate selection of the loss function. As we illustrate via theoretical considerations and extensive numerical experiments, these interrelated aspects are critical to recover accurate inversion results.
翻訳日:2022-12-06 00:22:22 公開日:2020-05-28
# ヘイトスピーチと虐待的言語データセットにおける交叉バイアス

Intersectional Bias in Hate Speech and Abusive Language Datasets ( http://arxiv.org/abs/2005.05921v3 )

ライセンス: Link先を確認
Jae Yeon Kim, Carlos Ortiz, Sarah Nam, Sarah Santiago, Vivek Datta(参考訳) アルゴリズムはソーシャルメディアでヘイトスピーチや虐待言語を検出するために広く利用されている。 これらのアルゴリズムの学習に使用される人間の注釈データにバイアスがあるか検討した。 公開アノテートされたtwitterデータセット(founta et al. 2018)を利用して、99,996ツイートの人種、性別、政党の識別範囲を分類した。 その結果、アフリカ系アメリカ人のツイートの3.7倍は虐待的であり、アフリカ系アメリカ人のツイートの77%は、他のツイートに比べて憎悪的と分類される可能性が高かった。 これらのパターンは,パーティ識別を制御変数として追加しても統計的に有意かつ堅牢であった。 本研究はヘイトスピーチと虐待言語のデータセットにおける交差バイアスに関する最初の体系的な証拠を提供する。

Algorithms are widely applied to detect hate speech and abusive language in social media. We investigated whether the human-annotated data used to train these algorithms are biased. We utilized a publicly available annotated Twitter dataset (Founta et al. 2018) and classified the racial, gender, and party identification dimensions of 99,996 tweets. The results showed that African American tweets were up to 3.7 times more likely to be labeled as abusive, and African American male tweets were up to 77% more likely to be labeled as hateful compared to the others. These patterns were statistically significant and robust even when party identification was added as a control variable. This study provides the first systematic evidence on intersectional bias in datasets of hate speech and abusive language.
翻訳日:2022-12-03 19:25:40 公開日:2020-05-28
# 意味的および構造的変化を考慮した知識グラフにおけるリンク予測のためのベンチマークニューラルネットワーク埋め込み

Benchmarking neural embeddings for link prediction in knowledge graphs under semantic and structural changes ( http://arxiv.org/abs/2005.07654v2 )

ライセンス: Link先を確認
Asan Agibetov, Matthias Samwald(参考訳) 近年,ニューラルネットワークを用いたリンク予測アルゴリズムがセマンティックウェブコミュニティで急速に普及し,知識グラフの補完に広く利用されている。 アルゴリズムの進歩は、埋め込みの効率的な学習方法に強く焦点を合わせてきたが、その性能と堅牢性の評価方法にはあまり注意が向けられていない。 本研究では,知識グラフが意味的および構造的変化を経験する可能性のある状況において,神経埋め込みの精度をベンチマークするオープンソースの評価パイプラインを提案する。 我々は,リンク予測能力と知識グラフの構造を接続する関係中心の接続手段を定義する。 このような評価パイプラインは、頻繁に更新されるであろう知識グラフの埋め込みの精度をシミュレートするために特に重要である。

Recently, link prediction algorithms based on neural embeddings have gained tremendous popularity in the Semantic Web community, and are extensively used for knowledge graph completion. While algorithmic advances have strongly focused on efficient ways of learning embeddings, fewer attention has been drawn to the different ways their performance and robustness can be evaluated. In this work we propose an open-source evaluation pipeline, which benchmarks the accuracy of neural embeddings in situations where knowledge graphs may experience semantic and structural changes. We define relation-centric connectivity measures that allow us to connect the link prediction capacity to the structure of the knowledge graph. Such an evaluation pipeline is especially important to simulate the accuracy of embeddings for knowledge graphs that are expected to be frequently updated.
翻訳日:2022-12-02 22:16:52 公開日:2020-05-28
# ジェネレーティブ・ツイーニング:3次元人間の動作の長期的インテウィーニング

Generative Tweening: Long-term Inbetweening of 3D Human Motions ( http://arxiv.org/abs/2005.08891v2 )

ライセンス: Link先を確認
Yi Zhou, Jingwan Lu, Connelly Barnes, Jimei Yang, Sitao Xiang, Hao li(参考訳) 芸術的な制約に従わず、複雑で現実的な人体アニメーションを大規模に生成する能力は、ゲームとアニメーション産業にとって何十年にもわたって基本的な目標となっている。 一般的なテクニックとしては、キーフラーミング、物理ベースのシミュレーション、モーショングラフによるデータベース手法などがある。 近年,ディープラーニングに基づくモーションジェネレータが導入された。 これらの学習モデルは任意の長さの高度に複雑なスタイルの動作を自動的に生成するが、それでもユーザコントロールは欠如している。 この目的のために,ユーザによるキーフレームの狭い長い間隔で複雑な動きを自動的に合成する,長期的内在化の問題を導入する。 生体力学およびキーフレームの制約の維持,自然運動の保存,および全ての制約を考慮した全動作シーケンスの設計など,この問題に関連する課題を数多く挙げる。 本稿では,キーフレームの制約を条件に,人間の動作の長期的包摂を行うバイオメカニカル拘束型生成対向ネットワークを提案する。 このネットワークは、まずジョイント角度の形で局所的な動きを予測し、次に大域的な動き、すなわちキャラクターが従う大域的な動きを予測する新しい二段階アプローチを用いる。 通常、与えられたユーザの制約を満たす可能性のある動作が多数存在するので、私たちのネットワークはモーションDNAと呼ばれるスキームでさまざまな出力を生成することができます。 このアプローチにより、ユーザはシードモーション(DNA)をネットワークに供給することで、出力内容を操作および影響することができる。 79種類のキャプチャー・モーション・データを学習し、ネットワークは様々な複雑なモーション・スタイルで頑健に動作している。

The ability to generate complex and realistic human body animations at scale, while following specific artistic constraints, has been a fundamental goal for the game and animation industry for decades. Popular techniques include key-framing, physics-based simulation, and database methods via motion graphs. Recently, motion generators based on deep learning have been introduced. Although these learning models can automatically generate highly intricate stylized motions of arbitrary length, they still lack user control. To this end, we introduce the problem of long-term inbetweening, which involves automatically synthesizing complex motions over a long time interval given very sparse keyframes by users. We identify a number of challenges related to this problem, including maintaining biomechanical and keyframe constraints, preserving natural motions, and designing the entire motion sequence holistically while considering all constraints. We introduce a biomechanically constrained generative adversarial network that performs long-term inbetweening of human motions, conditioned on keyframe constraints. This network uses a novel two-stage approach where it first predicts local motion in the form of joint angles, and then predicts global motion, i.e. the global path that the character follows. Since there are typically a number of possible motions that could satisfy the given user constraints, we also enable our network to generate a variety of outputs with a scheme that we call Motion DNA. This approach allows the user to manipulate and influence the output content by feeding seed motions (DNA) to the network. Trained with 79 classes of captured motion data, our network performs robustly on a variety of highly complex motion styles.
翻訳日:2022-12-02 00:26:03 公開日:2020-05-28
# ノイズサンプリングクロスエントロピー損失:コスト量認識正規化による不均一回帰の改善

Noise-Sampling Cross Entropy Loss: Improving Disparity Regression Via Cost Volume Aware Regularizer ( http://arxiv.org/abs/2005.08806v2 )

ライセンス: Link先を確認
Yang Chen, Zongqing Lu, Xuechen Zhang, Lei Chen and Qingmin Liao(参考訳) 最近のend-to-end deep neural networks for disparity regressionは最先端のパフォーマンスを達成している。 しかしながら、これらの深層学習アルゴリズムでは、不均質な推定の十分な認識特性が省略されている。 特に、最も重要な手順の一つであるコストボリュームのマッチングは、従来のアルゴリズムと比較して明示的な制約を欠いた次のソフトアーグミン回帰の通常の中間機能として扱われる。 本稿では,従来のコスト容積の標準的定義に着想を得て,ディープニューラルネットワークが生成するコスト量を一様かつ整合的に調整するノイズサンプリングクロスエントロピー損失関数を提案する。 広汎な実験により、提案されたノイズサンプリングクロスエントロピー損失は、ニューラルネットワークがより情報的なコストボリュームを学ぶのに役立つだけでなく、いくつかの代表アルゴリズムと比較してステレオマッチング性能が向上することを示した。

Recent end-to-end deep neural networks for disparity regression have achieved the state-of-the-art performance. However, many well-acknowledged specific properties of disparity estimation are omitted in these deep learning algorithms. Especially, matching cost volume, one of the most important procedure, is treated as a normal intermediate feature for the following softargmin regression, lacking explicit constraints compared with those traditional algorithms. In this paper, inspired by previous canonical definition of cost volume, we propose the noise-sampling cross entropy loss function to regularize the cost volume produced by deep neural networks to be unimodal and coherent. Extensive experiments validate that the proposed noise-sampling cross entropy loss can not only help neural networks learn more informative cost volume, but also lead to better stereo matching performance compared with several representative algorithms.
翻訳日:2022-12-01 23:58:37 公開日:2020-05-28
# 階層的クラスタリングと教師付き学習によるスパムメールの分類

Classification of Spam Emails through Hierarchical Clustering and Supervised Learning ( http://arxiv.org/abs/2005.08773v2 )

ライセンス: Link先を確認
Francisco J\'a\~nez-Martino, Eduardo Fidalgo, Santiago Gonz\'alez-Mart\'inez, Javier Velasco-Mata(参考訳) スパマーはメールの人気を利用して、無差別に孤立したメールを送る。 研究者や組織は二項分類に基づくアンチスパムフィルタを継続的に開発しているが、スパマーは単語難読化や画像ベースのスパムといった新しい戦略をバイパスする。 文献ではじめてスパムメールをカテゴリに分類し、単にバイナリモデルを使用するのではなく、既に検出されたスパムメールのハンドリングを改善することを提案する。 まず,SPEMC-$11$K (SPam EMail Classification) の階層的クラスタリングアルゴリズムを適用し,スパムメール3種類(Health and Technology, Personal Scams, Sexual Content)を含む,最初のマルチクラスデータセットを作成した。 次に、SPEMC-$11$Kを用いて、TF-IDFとBOWエンコーディングとNa\\"ive Bayes, Decision Trees, SVM分類器の組み合わせを評価した。 最後に,マルチクラススパム分類の課題について提案する。 (i)TF-IDFとSVMを組み合わせることで、最高のマイクロF1スコア、95.39\%$、そして (ii)TD-IDFとNBが最速のスパム分類を行い、電子メールを2.13$msで分析する。

Spammers take advantage of email popularity to send indiscriminately unsolicited emails. Although researchers and organizations continuously develop anti-spam filters based on binary classification, spammers bypass them through new strategies, like word obfuscation or image-based spam. For the first time in literature, we propose to classify spam email in categories to improve the handle of already detected spam emails, instead of just using a binary model. First, we applied a hierarchical clustering algorithm to create SPEMC-$11$K (SPam EMail Classification), the first multi-class dataset, which contains three types of spam emails: Health and Technology, Personal Scams, and Sexual Content. Then, we used SPEMC-$11$K to evaluate the combination of TF-IDF and BOW encodings with Na\"ive Bayes, Decision Trees and SVM classifiers. Finally, we recommend for the task of multi-class spam classification the use of (i) TF-IDF combined with SVM for the best micro F1 score performance, $95.39\%$, and (ii) TD-IDF along with NB for the fastest spam classification, analyzing an email in $2.13$ms.
翻訳日:2022-12-01 22:56:09 公開日:2020-05-28
# トランスファー学習におけるハイブリッドトランスフォーマーLSTMに基づくエンドツーエンドASRを用いたテキストデータの活用

Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR in Transfer Learning ( http://arxiv.org/abs/2005.10407v2 )

ライセンス: Link先を確認
Zhiping Zeng, Van Tung Pham, Haihua Xu, Yerbolat Khassanov, Eng Siong Chng, Chongjia Ni and Bin Ma(参考訳) 本研究では,多言語間転送学習環境において,低リソースのasrを改善するために,追加のテキストデータを活用することを検討する。 この目的のために、我々は以前の作業 [1] を拡張し、Transformer-LSTM ベースのハイブリッドアーキテクチャを提案する。 このアーキテクチャはトランスフォーマーネットワークの高効率な符号化能力を利用するだけでなく、LSTMベースの独立言語モデルネットワークによる追加のテキストデータも活用する。 我々は、限られたラベル付きデータと大量の余分なテキストを含む社内マレーコーパスで実験を行う。 提案したアーキテクチャは,ラベル付き限られたデータを用いてトレーニングした場合,従来のLSTMアーキテクチャ[1]よりも24.2%高い性能を示した。 このことから、他のリソース豊富な言語からの学習を転送することで、さらに25.4%削減できる。 さらに,転送モデルのlstmデコーダを余分なテキストデータで増加させることにより,13.6%の相対 wer 削減が可能となった。 全体として、我々の最良のモデルはバニラトランスフォーマーasrを11.9%上回っている。 最後に、提案されているハイブリッドアーキテクチャはLSTMおよびTransformerアーキテクチャと比較してはるかに高速な推論を提供する。

In this work, we study leveraging extra text data to improve low-resource end-to-end ASR under cross-lingual transfer learning setting. To this end, we extend our prior work [1], and propose a hybrid Transformer-LSTM based architecture. This architecture not only takes advantage of the highly effective encoding capacity of the Transformer network but also benefits from extra text data due to the LSTM-based independent language model network. We conduct experiments on our in-house Malay corpus which contains limited labeled data and a large amount of extra text. Results show that the proposed architecture outperforms the previous LSTM-based architecture [1] by 24.2% relative word error rate (WER) when both are trained using limited labeled data. Starting from this, we obtain further 25.4% relative WER reduction by transfer learning from another resource-rich language. Moreover, we obtain additional 13.6% relative WER reduction by boosting the LSTM decoder of the transferred model with the extra text data. Overall, our best model outperforms the vanilla Transformer ASR by 11.9% relative WER. Last but not least, the proposed hybrid architecture offers much faster inference compared to both LSTM and Transformer architectures.
翻訳日:2022-12-01 00:11:57 公開日:2020-05-28
# 深層学習に基づくコンクリートペトログラフィー解析のための自動画像分割

Deep Learning-Based Automated Image Segmentation for Concrete Petrographic Analysis ( http://arxiv.org/abs/2005.10434v3 )

ライセンス: Link先を確認
Yu Song, Zilong Huang, Chuanyue Shen, Humphrey Shi, and David A Lange(参考訳) コンクリート中の空気空洞(ASTM C457)を測定する標準的なペトグラフィー試験法では, 立体顕微鏡下での試料相組成の精密かつ長期の検査が必要である。 高い専門性と専門的な装置は、日常的なコンクリート品質管理のためのこの試験を妨げている。 タスクはカラーベースイメージセグメンテーションによって軽減できるが、追加の表面色処理が必要である。 近年,畳み込みニューラルネットワーク(CNN)を用いたディープラーニングアルゴリズムは,画像テストベンチマークにおいて前例のないセグメンテーション性能を実現している。 本研究では,CNNをカラー処理を使わずにコンクリートセグメンテーションの実現可能性について検討した。 CNNは、模型訓練に関わらない人々を含む幅広いコンクリートを処理する強力な可能性を示した。 実験の結果、cnnは色に基づくセグメンテーションをかなりのマージンで上回り、人間の専門家に匹敵する精度を示した。 さらに、セグメンテーション時間はほんの数秒に短縮される。

The standard petrography test method for measuring air voids in concrete (ASTM C457) requires a meticulous and long examination of sample phase composition under a stereomicroscope. The high expertise and specialized equipment discourage this test for routine concrete quality control. Though the task can be alleviated with the aid of color-based image segmentation, additional surface color treatment is required. Recently, deep learning algorithms using convolutional neural networks (CNN) have achieved unprecedented segmentation performance on image testing benchmarks. In this study, we investigated the feasibility of using CNN to conduct concrete segmentation without the use of color treatment. The CNN demonstrated a strong potential to process a wide range of concretes, including those not involved in model training. The experimental results showed that CNN outperforms the color-based segmentation by a considerable margin, and has comparable accuracy to human experts. Furthermore, the segmentation time is reduced to mere seconds.
翻訳日:2022-11-30 23:11:35 公開日:2020-05-28
# ベイズ型ニューラルネットワークの大規模化:性能解析とpruning研究

Bayesian Neural Networks at Scale: A Performance Analysis and Pruning Study ( http://arxiv.org/abs/2005.11619v2 )

ライセンス: Link先を確認
Himanshu Sharma and Elise Jennings(参考訳) ベイズニューラルネットワーク(bnns)は、ニューラルネットワーク予測の統計的不確実性を得る有望な方法であるが、その実用性を制限する計算オーバーヘッドが高い。 この研究は、大規模bnnのトレーニングの課題に対処するために、分散トレーニングによるハイパフォーマンスコンピューティングの利用を探求する。 我々は,Cray-XC40クラスタ上でのVGG-16とResnet-18モデルのトレーニング性能とスケーラビリティの比較を行った。 ネットワークプルーニングは精度を損なうことなく推論を高速化し、このプルーニングを自動化するためのオープンソースソフトウェアパッケージである {\it{bprune}} を提供する。 特定のモデルでは、ネットワークの80 %までプルーニングすると精度が7.0 %しか低下しないことがわかった。 ディープラーニングのための新しいハードウェアアクセラレータの開発により、BNNはパフォーマンスのベンチマークにかなりの関心を持っている。 BNNを大規模にトレーニングするこの分析は、従来のニューラルネットワークと比較して制限と利点を概説している。

Bayesian neural Networks (BNNs) are a promising method of obtaining statistical uncertainties for neural network predictions but with a higher computational overhead which can limit their practical usage. This work explores the use of high performance computing with distributed training to address the challenges of training BNNs at scale. We present a performance and scalability comparison of training the VGG-16 and Resnet-18 models on a Cray-XC40 cluster. We demonstrate that network pruning can speed up inference without accuracy loss and provide an open source software package, {\it{BPrune}} to automate this pruning. For certain models we find that pruning up to 80\% of the network results in only a 7.0\% loss in accuracy. With the development of new hardware accelerators for Deep Learning, BNNs are of considerable interest for benchmarking performance. This analysis of training a BNN at scale outlines the limitations and benefits compared to a conventional neural network.
翻訳日:2022-11-30 03:20:15 公開日:2020-05-28
# 新たな目的関数からの対称PCA学習規則の導出

Derivation of Symmetric PCA Learning Rules from a Novel Objective Function ( http://arxiv.org/abs/2005.11689v2 )

ライセンス: Link先を確認
Ralf M\"oller(参考訳) 主成分/部分空間分析(pca / psa)のためのニューラルネットワークルールは、正規直交制約の下で目的関数(部分空間軸上の投影の分散を推定)を最大化することで導出することができる。 単一の軸を持つ部分空間に対して、最適化はデータ共分散行列の主固有ベクトルを生成する。 デフレ手順による階層的学習ルールは、複数の固有ベクトルを抽出するのに使うことができる。 しかし、多重軸を持つ部分空間に対しては、最適化は主部分空間にまたがる軸にのみ収束するが主固有ベクトルに収束しないPSA学習規則につながる。 異なる重み要因を持つ修正対象関数を導入し,PCA学習ルールを作成する必要があった。 複数の軸に対する目的関数の最適化は、デフレ手順を必要としない対称学習規則につながる。 PCAの場合、推定された主固有ベクトルは、重み係数の順序に応じて順序付けされる(すなわち対応する固有値)。 ここでは、固定重み要素を導入する必要のない代替目的関数を導入し、代わりに、代替目的関数は平方和を用いる。 最適化は、主固有ベクトルに収束するが順序を与えることなく対称なpca学習規則をもたらす。 一定の重み係数を持つ対角行列の代わりに、可変対角行列が学習規則に現れる。 制約付き最適化の固定点を決定することによって、この代替手法を解析する。 固定点における制約対象関数の挙動を解析し、PCAの挙動と命令が課されない事実の両方を確認する。 目的関数の最適化から学習ルールを導出する方法が異なる。 これらの導出から得られる学習規則における用語の役割を考察する。

Neural learning rules for principal component / subspace analysis (PCA / PSA) can be derived by maximizing an objective function (summed variance of the projection on the subspace axes) under an orthonormality constraint. For a subspace with a single axis, the optimization produces the principal eigenvector of the data covariance matrix. Hierarchical learning rules with deflation procedures can then be used to extract multiple eigenvectors. However, for a subspace with multiple axes, the optimization leads to PSA learning rules which only converge to axes spanning the principal subspace but not to the principal eigenvectors. A modified objective function with distinct weight factors had to be introduced produce PCA learning rules. Optimization of the objective function for multiple axes leads to symmetric learning rules which do not require deflation procedures. For the PCA case, the estimated principal eigenvectors are ordered (w.r.t. the corresponding eigenvalues) depending on the order of the weight factors. Here we introduce an alternative objective function where it is not necessary to introduce fixed weight factors; instead, the alternative objective function uses squared summands. Optimization leads to symmetric PCA learning rules which converge to the principal eigenvectors, but without imposing an order. In place of the diagonal matrices with fixed weight factors, variable diagonal matrices appear in the learning rules. We analyze this alternative approach by determining the fixed points of the constrained optimization. The behavior of the constrained objective function at the fixed points is analyzed which confirms both the PCA behavior and the fact that no order is imposed. Different ways to derive learning rules from the optimization of the objective function are presented. The role of the terms in the learning rules obtained from these derivations is explored.
翻訳日:2022-11-29 13:52:17 公開日:2020-05-28
# 1つまたは数個のサンプルから動的システムのワンショット学習のための物理ベースの多項式ニューラルネットワーク

Physics-based polynomial neural networks for one-shot learning of dynamical systems from one or a few samples ( http://arxiv.org/abs/2005.11699v2 )

ライセンス: Link先を確認
Andrei Ivanov, Uwe Iben, Anna Golovkina(参考訳) 本稿では,ニューラルネットワークに事前の物理知識を取り入れたデータ効率の向上と予測モデルの一般化について論じる。 システムのダイナミクスが与えられた微分方程式に概ね従えば、テイラー写像法は多項式ニューラルネットワークの重みを初期化するために使うことができる。 これにより、実システムダイナミクスのトレーニングサンプルからモデルの微調整が可能になる。 本稿では,単純な振り子と世界最大規模のX線源の双方を用いた実測実験について述べる。 提案手法は, ノイズ, 制限, 部分的な観測から複雑な物理を復元することができ, 従来見られなかった入力に対して有意義な予測を与える。 このアプローチは、トレーニングデータがないため、最先端のモデルの適用が難しい場合の物理システムの学習を主にターゲットとしている。

This paper discusses an approach for incorporating prior physical knowledge into the neural network to improve data efficiency and the generalization of predictive models. If the dynamics of a system approximately follows a given differential equation, the Taylor mapping method can be used to initialize the weights of a polynomial neural network. This allows the fine-tuning of the model from one training sample of real system dynamics. The paper describes practical results on real experiments with both a simple pendulum and one of the largest worldwide X-ray source. It is demonstrated in practice that the proposed approach allows recovering complex physics from noisy, limited, and partial observations and provides meaningful predictions for previously unseen inputs. The approach mainly targets the learning of physical systems when state-of-the-art models are difficult to apply given the lack of training data.
翻訳日:2022-11-29 13:51:52 公開日:2020-05-28
# コンピュータ診断における不確実性推定のための機能空間変動推定

Functional Space Variational Inference for Uncertainty Estimation in Computer Aided Diagnosis ( http://arxiv.org/abs/2005.11797v2 )

ライセンス: Link先を確認
Pranav Poduval, Hrushikesh Loya, Amit Sethi(参考訳) ディープニューラルネットワークは医療画像分析と疾患診断に革命をもたらした。 優れた性能にもかかわらず、そのようなネットワークに対してよく校正された確率出力を生成することは困難であり、解釈不能なブラックボックスとなる。 ベイジアンニューラルネットワークは、不確実性をモデル化し、患者の安全性を高めるための原則的なアプローチを提供するが、計算オーバーヘッドが大きく、キャリブレーションの改善も制限されている。 本研究では, 皮膚病変の分類を例題として, ベイズ推定を機能空間にシフトさせることで, 計算コストをはるかに低く抑えられるような有意義な事前推定を行うことができることを示す。

Deep neural networks have revolutionized medical image analysis and disease diagnosis. Despite their impressive performance, it is difficult to generate well-calibrated probabilistic outputs for such networks, which makes them uninterpretable black boxes. Bayesian neural networks provide a principled approach for modelling uncertainty and increasing patient safety, but they have a large computational overhead and provide limited improvement in calibration. In this work, by taking skin lesion classification as an example task, we show that by shifting Bayesian inference to the functional space we can craft meaningful priors that give better calibrated uncertainty estimates at a much lower computational cost.
翻訳日:2022-11-29 13:16:41 公開日:2020-05-28
# 視覚ナビゲーションのためのニューラルトポロジカルSLAM

Neural Topological SLAM for Visual Navigation ( http://arxiv.org/abs/2005.12256v2 )

ライセンス: Link先を確認
Devendra Singh Chaplot, Ruslan Salakhutdinov, Abhinav Gupta, Saurabh Gupta(参考訳) そこで本稿では,これまで見つからなかった新しい環境において,目標画像が示す位置をナビゲートするという課題について検討する。 この問題に取り組むため,我々は意味論を効果的に活用し,近似幾何学的推論を可能にする空間の位相表現を設計する。 私たちの表現の中心は、粗い幾何学的情報を使って相互に繋がる、関連する意味的特徴を持つノードです。 ノイズの多い動作下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。 視覚的および身体的現実的なシミュレーション実験により,本手法は構造的規則性を捕捉し,長距離航法問題を効率的に解決する効果的な表現を構築することが示唆された。 この課題を研究対象とする既存手法に比べて50%以上の相対的な改善が見られた。

This paper studies the problem of image-goal navigation which involves navigating to the location indicated by a goal image in a novel previously unseen environment. To tackle this problem, we design topological representations for space that effectively leverage semantics and afford approximate geometric reasoning. At the heart of our representations are nodes with associated semantic features, that are interconnected using coarse geometric information. We describe supervised learning-based algorithms that can build, maintain and use such representations under noisy actuation. Experimental study in visually and physically realistic simulation suggests that our method builds effective representations that capture structural regularities and efficiently solve long-horizon navigation problems. We observe a relative improvement of more than 50% over existing methods that study this task.
翻訳日:2022-11-29 05:11:40 公開日:2020-05-28
# 私が求めているもの:ビジュアル検索におけるゼロショットターゲットアイデンティティ推論

What am I Searching for: Zero-shot Target Identity Inference in Visual Search ( http://arxiv.org/abs/2005.12741v2 )

ライセンス: Link先を確認
Mengmi Zhang, Gabriel Kreiman(参考訳) 人の行動から意図を推測できますか。 例として,眼球運動の振る舞いを復号することで,何を探しているのかを解読する方法を検討する。 対象物体の探索中に眼球運動をモニターする心理物理学実験を2回行った。 私たちは、 \textit{non-target}オブジェクトに落ちる修正を"エラー修正"と定義しました。 これらのエラー修正を用いて、ターゲットが何であるかを推測するモデル(InferNet)を開発した。 InferNetは、トレーニング済みの畳み込みニューラルネットワークを使用して、エラー修正から特徴を抽出し、エラー修正と検索イメージ全体にわたるすべてのロケーション間の類似マップを算出する。 このモデルはレイヤ間の類似度マップを統合し、これらのマップをすべてのエラーフィックスに統合する。 InferNetは、オブジェクト固有の推論タスクのトレーニングがなくても、被験者の目標を特定し、競合するnullモデルを上回っます。

Can we infer intentions from a person's actions? As an example problem, here we consider how to decipher what a person is searching for by decoding their eye movement behavior. We conducted two psychophysics experiments where we monitored eye movements while subjects searched for a target object. We defined the fixations falling on \textit{non-target} objects as "error fixations". Using those error fixations, we developed a model (InferNet) to infer what the target was. InferNet uses a pre-trained convolutional neural network to extract features from the error fixations and computes a similarity map between the error fixations and all locations across the search image. The model consolidates the similarity maps across layers and integrates these maps across all error fixations. InferNet successfully identifies the subject's goal and outperforms competitive null models, even without any object-specific training on the inference task.
翻訳日:2022-11-29 05:11:25 公開日:2020-05-28
# マルチモーダルデータによる血栓摘出機能予後の予測

Prediction of Thrombectomy Functional Outcomes using Multimodal Data ( http://arxiv.org/abs/2005.13061v2 )

ライセンス: Link先を確認
Zeynel A. Samak, Philip Clatworthy and Majid Mirmehdi(参考訳) 近年の無作為化臨床試験により,脳卒中患者の脳内血管閉塞は血管内血栓摘出に有用であることが示された。 しかし、個々の患者の治療結果を予測することは依然として課題である。 本稿では,マルチモーダルデータ(画像から抽出した臨床メタデータ情報,画像データ,画像バイオマーカー)を直接活用し,血管内治療の成功を推定する新しいディープラーニング手法を提案する。 我々は、チャネルワイドおよび空間的にグローバルな特徴間距離をモデル化するための注意機構をアーキテクチャに組み込んだ。 ユニモーダルデータとマルチモーダルデータを用いて比較実験を行い,機能的結果(修飾ランキン尺度,mrs)を予測し,mrs得点を0.75 auc,mrsスコアを0.35 aucとした。

Recent randomised clinical trials have shown that patients with ischaemic stroke {due to occlusion of a large intracranial blood vessel} benefit from endovascular thrombectomy. However, predicting outcome of treatment in an individual patient remains a challenge. We propose a novel deep learning approach to directly exploit multimodal data (clinical metadata information, imaging data, and imaging biomarkers extracted from images) to estimate the success of endovascular treatment. We incorporate an attention mechanism in our architecture to model global feature inter-dependencies, both channel-wise and spatially. We perform comparative experiments using unimodal and multimodal data, to predict functional outcome (modified Rankin Scale score, mRS) and achieve 0.75 AUC for dichotomised mRS scores and 0.35 classification accuracy for individual mRS scores.
翻訳日:2022-11-29 00:41:11 公開日:2020-05-28
# 変圧器を用いた終端物体検出

End-to-End Object Detection with Transformers ( http://arxiv.org/abs/2005.12872v3 )

ライセンス: Link先を確認
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko(参考訳) 本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。 提案手法は検出パイプラインを合理化し,タスクに関する事前知識を明示的にエンコードする非最大抑制手順やアンカー生成といった,多くの手設計コンポーネントの必要性を効果的に排除する。 この新しいフレームワークの主な構成要素は、Detection TRansformer(DETR)と呼ばれ、二部マッチングによるユニークな予測を強制するセットベースのグローバル損失と、トランスフォーマーエンコーダ・デコーダアーキテクチャである。 学習対象クエリの固定された小さなセットが与えられた場合、DETRはオブジェクトとグローバルイメージコンテキストの関係について、最終的な予測セットを並列に出力する。 新しいモデルは概念的に単純であり、他の多くの現代の検出器とは異なり、特別なライブラリを必要としない。 DETRは、困難なCOCOオブジェクト検出データセットに基づいて、確立された高最適化のFaster RCNNベースラインと同等の精度と実行時のパフォーマンスを示す。 さらに、detrは簡単に一般化でき、統一的な方法でパンオプティカルセグメンテーションを生成することができる。 競合ベースラインを大きく上回っていることがわかります。 トレーニングコードと事前トレーニングされたモデルは、https://github.com/facebookresearch/detr.comで入手できる。

We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task. The main ingredients of the new framework, called DEtection TRansformer or DETR, are a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture. Given a fixed small set of learned object queries, DETR reasons about the relations of the objects and the global image context to directly output the final set of predictions in parallel. The new model is conceptually simple and does not require a specialized library, unlike many other modern detectors. DETR demonstrates accuracy and run-time performance on par with the well-established and highly-optimized Faster RCNN baseline on the challenging COCO object detection dataset. Moreover, DETR can be easily generalized to produce panoptic segmentation in a unified manner. We show that it significantly outperforms competitive baselines. Training code and pretrained models are available at https://github.com/facebookresearch/detr.
翻訳日:2022-11-29 00:23:26 公開日:2020-05-28
# 物理ベースの学習の方法

How to do Physics-based Learning ( http://arxiv.org/abs/2005.13531v2 )

ライセンス: Link先を確認
Michael Kellman, Michael Lustig, Laura Waller(参考訳) 本チュートリアルの目的は、計算画像システムの高速プロトタイピングのための物理ベースの学習の実装方法を説明することである。 本稿では,物理に基づく学習,物理に基づくネットワークの構築,実践への還元について概説する。 具体的には、物理ベースのネットワークを構築し、物理ベースの学習を行うために、自動微分機能を2回活用することを提唱する。 したがって、ユーザはシステムのためにフォワードモデルプロセスを実装するだけで、プロトタイピング時間を短縮できる。 物理学に基づくネットワークのオープンソースのPytorch実装と汎用スパースリカバリ問題のトレーニング手順を提供する。

The goal of this tutorial is to explain step-by-step how to implement physics-based learning for the rapid prototyping of a computational imaging system. We provide a basic overview of physics-based learning, the construction of a physics-based network, and its reduction to practice. Specifically, we advocate exploiting the auto-differentiation functionality twice, once to build a physics-based network and again to perform physics-based learning. Thus, the user need only implement the forward model process for their system, speeding up prototyping time. We provide an open-source Pytorch implementation of a physics-based network and training procedure for a generic sparse recovery problem
翻訳日:2022-11-28 09:51:28 公開日:2020-05-28
# 貫通点分類器を用いた3次元車両検出のための偽陽性除去

False Positive Removal for 3D Vehicle Detection with Penetrated Point Classifier ( http://arxiv.org/abs/2005.13153v2 )

ライセンス: Link先を確認
Sungmin Woo, Sangwon Hwang, Woojin Kim, Junhyeop Lee, Dogyoon Lee, Sangyoun Lee(参考訳) 近年、研究者はlidar point cloudを利用して3d車両検出の精度を高めている。 最先端の手法のほとんどはディープラーニングに基づいていますが、オブジェクトに生成されたポイントの数に影響を受けやすいのです。 この脆弱性は多数の偽陽性ボックスを高いリコール位置で引き起こし、そこではオブジェクトはわずかなポイントで予測される。 この問題に対処するために、LiDARの基本的な特性に基づいてPPCを導入し、車両の後方でポイントを生成できないようにする。 予測された箱の車体の後ろに点が存在するか否かを判定し、もしそうであれば、箱を偽陽性と区別する。 当社の直接的かつ前例のないアプローチは,kittiデータセット上で評価され,最先端手法であるpointrcnnのパフォーマンス向上を達成した。 実験の結果,車種別中等度・難易度では,最高リコール位置での精度が15.46ポイント,14.63ポイントと劇的に向上した。

Recently, researchers have been leveraging LiDAR point cloud for higher accuracy in 3D vehicle detection. Most state-of-the-art methods are deep learning based, but are easily affected by the number of points generated on the object. This vulnerability leads to numerous false positive boxes at high recall positions, where objects are occasionally predicted with few points. To address the issue, we introduce Penetrated Point Classifier (PPC) based on the underlying property of LiDAR that points cannot be generated behind vehicles. It determines whether a point exists behind the vehicle of the predicted box, and if does, the box is distinguished as false positive. Our straightforward yet unprecedented approach is evaluated on KITTI dataset and achieved performance improvement of PointRCNN, one of the state-of-the-art methods. The experiment results show that precision at the highest recall position is dramatically increased by 15.46 percentage points and 14.63 percentage points on the moderate and hard difficulty of car class, respectively.
翻訳日:2022-11-28 09:16:18 公開日:2020-05-28
# 1枚の写真から3D編集可能な物体を復元するAutoSweep

AutoSweep: Recovering 3D Editable Objectsfrom a Single Photograph ( http://arxiv.org/abs/2005.13312v2 )

ライセンス: Link先を確認
Xin Chen, Yuwei Li, Xi Luo, Tianjia Shao, Jingyi Yu, Kun Zhou, Youyi Zheng(参考訳) 本論文では,1枚の写真から編集可能な3dオブジェクトを自動抽出するフレームワークを提案する。 深度マップ,点雲,メッシュ表面のいずれかを復元する従来の手法とは異なり,我々はセマンティックな部分で3Dオブジェクトを復元し,直接編集することを目指している。 我々は、ほとんどの人造オブジェクトが部品で構成されており、これらの部品は一般化されたプリミティブによってうまく表現できるという仮定に基づいて研究を行っている。 本研究は,2種類の原始的な物体,すなわち一般化された立方体と一般化されたシリンダの回収を試みるものである。 この目的のために,新しいインスタンス対応セグメンテーションネットワークを構築し,正確な部分分離を行う。 GeoNetは、プロファイルとボディとラベル付けされたスムーズな部分レベルのマスクを出力します。 そして, 基本段階において, 認識された形状を輪郭に沿って掃き, 回収されたマスクと整合する形状を共同で最適化することにより, 形状-身体関係を識別し, 3次元部品を回収する。 定性的かつ定量的な実験により,我々のアルゴリズムは高品質な3Dモデルを復元し,既存の手法をインスタンスセグメンテーションと3D再構成の両方で上回っていることを示す。 AutoSweepのデータセットとコードはhttps://chenxin.tech/AutoSweep.htmlで公開されている。

This paper presents a fully automatic framework for extracting editable 3D objects directly from a single photograph. Unlike previous methods which recover either depth maps, point clouds, or mesh surfaces, we aim to recover 3D objects with semantic parts and can be directly edited. We base our work on the assumption that most human-made objects are constituted by parts and these parts can be well represented by generalized primitives. Our work makes an attempt towards recovering two types of primitive-shaped objects, namely, generalized cuboids and generalized cylinders. To this end, we build a novel instance-aware segmentation network for accurate part separation. Our GeoNet outputs a set of smooth part-level masks labeled as profiles and bodies. Then in a key stage, we simultaneously identify profile-body relations and recover 3D parts by sweeping the recognized profile along their body contour and jointly optimize the geometry to align with the recovered masks. Qualitative and quantitative experiments show that our algorithm can recover high quality 3D models and outperforms existing methods in both instance segmentation and 3D reconstruction. The dataset and code of AutoSweep are available at https://chenxin.tech/AutoSweep.html.
翻訳日:2022-11-28 09:14:30 公開日:2020-05-28
# ポインタネットワークを用いた遷移型意味的依存関係解析

Transition-based Semantic Dependency Parsing with Pointer Networks ( http://arxiv.org/abs/2005.13344v2 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez and Carlos G\'omez-Rodr\'iguez(参考訳) Pointer Networksで実装されたトランジッションベースのパーサは、依存性解析の新たな状態となり、ラベル付き構文木の生成や、このタスクにおけるグラフベースのモデルのパフォーマンスに優れています。 より難しいNLP問題において、これらの強力なニューラルネットワークの機能をテストするために、Pointer Networksにより、ラベル付き非巡回グラフを簡単に生成し、セマンティック依存解析を行うことができる遷移システムを提案する。 さらに, BERT から抽出した深層文脈化単語埋め込みによるアプローチを強化する。 その結果得られたシステムは、既存のトランジッションベースのモデルをすべて上回るだけでなく、以前の最先端のグラフベースのパーサーであるsemeval 2015 task 18の英語データセットにおいて、これまでで最高の教師付き精度に匹敵する。

Transition-based parsers implemented with Pointer Networks have become the new state of the art in dependency parsing, excelling in producing labelled syntactic trees and outperforming graph-based models in this task. In order to further test the capabilities of these powerful neural networks on a harder NLP problem, we propose a transition system that, thanks to Pointer Networks, can straightforwardly produce labelled directed acyclic graphs and perform semantic dependency parsing. In addition, we enhance our approach with deep contextualized word embeddings extracted from BERT. The resulting system not only outperforms all existing transition-based models, but also matches the best fully-supervised accuracy to date on the SemEval 2015 Task 18 English datasets among previous state-of-the-art graph-based parsers.
翻訳日:2022-11-28 08:57:23 公開日:2020-05-28
# ビデオレビューにおける微細オピニオンマイニングへのマルチモーダルアプローチ

A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews ( http://arxiv.org/abs/2005.13362v2 )

ライセンス: Link先を確認
Edison Marrese-Taylor, Cristian Rodriguez-Opazo, Jorge A. Balazs, Stephen Gould, Yutaka Matsuo(参考訳) 書評に対する意見採鉱の最近の進歩にもかかわらず、他の書評の出所でこの問題に取り組む研究はほとんどない。 本稿では,議論中の項目の側面と,それに対する感情の方向性を判断できる映像レビューから詳細な意見を抽出するためのマルチモーダルアプローチを提案する。 本手法は時間アノテーションを必要とせずに文レベルで動作し,その内容の音声,ビデオ,言語文の書き起こしから得られる特徴を利用する。 我々は2つのデータセットに対するアプローチを評価し、ビデオとオーディオのモダリティを活用することで、テキストのみのベースラインよりもパフォーマンスが向上することを示す。

Despite the recent advances in opinion mining for written reviews, few works have tackled the problem on other sources of reviews. In light of this issue, we propose a multi-modal approach for mining fine-grained opinions from video reviews that is able to determine the aspects of the item under review that are being discussed and the sentiment orientation towards them. Our approach works at the sentence level without the need for time annotations and uses features derived from the audio, video and language transcriptions of its contents. We evaluate our approach on two datasets and show that leveraging the video and audio modalities consistently provides increased performance over text-only baselines, providing evidence these extra modalities are key in better understanding video reviews.
翻訳日:2022-11-28 08:01:18 公開日:2020-05-28
# カオス, 過激主義, 最適主義: ゲームにおける学習のボリューム分析

Chaos, Extremism and Optimism: Volume Analysis of Learning in Games ( http://arxiv.org/abs/2005.13996v1 )

ライセンス: Link先を確認
Yun Kuen Cheung and Georgios Piliouras(参考訳) 本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。 このような分析は、コンピュータサイエンスと機械学習の古典的な技術を通して達成が難しいこれらのゲーム力学システムに対する新たな洞察を提供する。 最初のステップは、これらのダイナミクスを元の空間(行動の複合体)ではなく双対空間(行動のペイオフ空間を集約する)で調べることである。 第2のステップは、初期条件の集合の体積がアルゴリズムに従って前進する時間とともにどのように進化するかを探索することである。 これは、mwuの連続時間類似であるレプリケータダイナミクスが全てのゲームにおいて常にボリュームを保存することが知られている進化ゲーム理論のアプローチを想起させる。 興味深いことに、離散時間ダイナミクスを調べる際には、ゲームの選択とアルゴリズムの選択の両方が重要な役割を果たす。 したがって、MWUはゼロサムゲームにおいて体積を拡大し、したがってリアプノフカオスであるのに対し、OMWUは体積を縮小し、既知の収束挙動の代替的な理解を提供する。 しかし、コーディネートゲームを調べる際に役割が逆になるという意味では、自由ランチ型の定理も証明する: OMWU は指数関数的に体積を拡大するが、MWU は収縮する。 これらのツールを用いて、ゼロサムゲームにおけるMWUのより否定的な2つの新しい特性を証明した: (1) エクストリーム主義: 一意に混合されたナッシュ均衡を持つゲームにおいても、ゲーム理論の観点から明らかな不安定性にもかかわらず、システムは純粋ストラテジープロファイルの近くに立ち往生する。 2) 不可避性: よい点の集合("よい"という独自の解釈を持つ)が与えられた場合、システムは、悪い点を無期限に避けることはできない。

We present volume analyses of Multiplicative Weights Updates (MWU) and Optimistic Multiplicative Weights Updates (OMWU) in zero-sum as well as coordination games. Such analyses provide new insights into these game dynamical systems, which seem hard to achieve via the classical techniques within Computer Science and Machine Learning. The first step is to examine these dynamics not in their original space (simplex of actions) but in a dual space (aggregate payoff space of actions). The second step is to explore how the volume of a set of initial conditions evolves over time when it is pushed forward according to the algorithm. This is reminiscent of approaches in Evolutionary Game Theory where replicator dynamics, the continuous-time analogue of MWU, is known to always preserve volume in all games. Interestingly, when we examine discrete-time dynamics, both the choice of the game and the choice of the algorithm play a critical role. So whereas MWU expands volume in zero-sum games and is thus Lyapunov chaotic, we show that OMWU contracts volume, providing an alternative understanding for its known convergent behavior. However, we also prove a no-free-lunch type of theorem, in the sense that when examining coordination games the roles are reversed: OMWU expands volume exponentially fast, whereas MWU contracts. Using these tools, we prove two novel, rather negative properties of MWU in zero-sum games: (1) Extremism: even in games with unique fully mixed Nash equilibrium, the system recurrently gets stuck near pure-strategy profiles, despite them being clearly unstable from game theoretic perspective. (2) Unavoidability: given any set of good points (with your own interpretation of "good"), the system cannot avoid bad points indefinitely.
翻訳日:2022-11-27 06:10:32 公開日:2020-05-28
# ソーシャルプラットフォームにおける退職者保護のための虚偽削除

Deceptive Deletions for Protecting Withdrawn Posts on Social Platforms ( http://arxiv.org/abs/2005.14113v1 )

ライセンス: Link先を確認
Mohsen Minaei, S Chandra Mouli, Mainack Mondal, Bruno Ribeiro, Aniket Kate(参考訳) 言葉の不自由な考えや個人情報の過剰共有は、オンラインソーシャルプラットフォームで一般的である。 多くの場合、ユーザーはそのようなコンテンツを投稿することを後悔している。 ユーザーの共有決定におけるこれらの誤りを遡及的に正すために、ほとんどのプラットフォームはコンテンツを取り下げる(削除)メカニズムを提供し、ソーシャルメディアユーザーはそれらを利用することが多い。 皮肉なことに、おそらく残念なことに、こうした削除は、大規模な削除を特に追求する悪意のある俳優によるプライバシー侵害の影響を受けやすくする。 このような狩猟の理由は単純で、ポストを削除することは、そのポストが所有者に損傷を与えているという強力なシグナルである。 現在、複数のアーカイブサービスが削除された投稿のソーシャルメディアをスキャンしている。 さらに、本研究で示すように、強力な機械学習モデルでは、大規模に障害のある削除を検出できる。 忘れられる権利に対するこのようなグローバルな敵意を抑えるために,敵の優位性を最小限に抑えるデコイ機構であるDeceptive Deletionを導入する。 本機構は,削除された投稿のうち損傷したコンテンツを分類しようとする敵と,実際の損傷的削除をマスカケードするためにデコイ削除を利用する挑戦者との間に,デコイ削除を注入する。 我々は,2人のプレイヤー間での認知ゲームを形式化し,相手または挑戦者がゲームに確実に勝つ条件を決定し,この2つのエクストリーム間のシナリオについて議論する。 私たちは、Deceptive DeletionメカニズムをTwitterの現実世界のタスクに適用します。 我々は、強力な世界的敵が強力な挑戦者に打ち負かされ、バーを大きく上げ、ソーシャルプラットフォームで本当に忘れられる能力に希望の光を与えていることを示す。

Over-sharing poorly-worded thoughts and personal information is prevalent on online social platforms. In many of these cases, users regret posting such content. To retrospectively rectify these errors in users' sharing decisions, most platforms offer (deletion) mechanisms to withdraw the content, and social media users often utilize them. Ironically and perhaps unfortunately, these deletions make users more susceptible to privacy violations by malicious actors who specifically hunt post deletions at large scale. The reason for such hunting is simple: deleting a post acts as a powerful signal that the post might be damaging to its owner. Today, multiple archival services are already scanning social media for these deleted posts. Moreover, as we demonstrate in this work, powerful machine learning models can detect damaging deletions at scale. Towards restraining such a global adversary against users' right to be forgotten, we introduce Deceptive Deletion, a decoy mechanism that minimizes the adversarial advantage. Our mechanism injects decoy deletions, hence creating a two-player minmax game between an adversary that seeks to classify damaging content among the deleted posts and a challenger that employs decoy deletions to masquerade real damaging deletions. We formalize the Deceptive Game between the two players, determine conditions under which either the adversary or the challenger provably wins the game, and discuss the scenarios in-between these two extremes. We apply the Deceptive Deletion mechanism to a real-world task on Twitter: hiding damaging tweet deletions. We show that a powerful global adversary can be beaten by a powerful challenger, raising the bar significantly and giving a glimmer of hope in the ability to be really forgotten on social platforms.
翻訳日:2022-11-27 06:09:58 公開日:2020-05-28
# 空間k-foldクロス検証による空間モデルの予測性能の推定

Estimating the Prediction Performance of Spatial Models via Spatial k-Fold Cross Validation ( http://arxiv.org/abs/2005.14263v1 )

ライセンス: Link先を確認
Jonne Pohjankukka, Tapio Pahikkala, Paavo Nevalainen, Jukka Heikkonen(参考訳) 機械学習では、モデル性能を評価する際にデータが独立であると仮定することが多い。 しかし、これはほとんど実践的ではない。 地理的情報データセットは、データポイントが地理的に近付くほど、互いに強い依存関係を持つ例である。 空間自己相関 (sac) として知られるこの現象は、標準クロス検証 (cv) 法によって空間モデルに対する楽観的に偏りのある予測性能を推定し、実際の用途においてコストと事故の増加をもたらす。 そこで本研究では,spatial k-fold cross validation (skcv) と呼ばれるcv法の改良版を提案する。 オープンな自然データを含む実世界の3つのケースでSKCVを試験したところ、通常のCVによる推定値がSKCVよりも最大40%楽観的であることがわかった。 回帰例と分類例の両方が実験で検討されている。 また,新たな研究領域におけるデータサンプリング密度の選択基準としてskcv法をどのように適用できるかを示す。

In machine learning one often assumes the data are independent when evaluating model performance. However, this rarely holds in practise. Geographic information data sets are an example where the data points have stronger dependencies among each other the closer they are geographically. This phenomenon known as spatial autocorrelation (SAC) causes the standard cross validation (CV) methods to produce optimistically biased prediction performance estimates for spatial models, which can result in increased costs and accidents in practical applications. To overcome this problem we propose a modified version of the CV method called spatial k-fold cross validation (SKCV), which provides a useful estimate for model prediction performance without optimistic bias due to SAC. We test SKCV with three real world cases involving open natural data showing that the estimates produced by the ordinary CV are up to 40% more optimistic than those of SKCV. Both regression and classification cases are considered in our experiments. In addition, we will show how the SKCV method can be applied as a criterion for selecting data sampling density for new research area.
翻訳日:2022-11-27 06:05:55 公開日:2020-05-28
# 多スペクトルデータからのミネラル認識のための機械学習

Machine Learning for recognition of minerals from multispectral data ( http://arxiv.org/abs/2005.14324v1 )

ライセンス: Link先を確認
Pavel Jahoda, Igor Drozdovskiy, Francesco Sauro, Leonardo Turchi, Samuel Payler, and Loredana Bessone(参考訳) 機械学習(ML)は、鉱物の認識や元素組成の推定など、分光学におけるいくつかの応用を見出した。 本研究では,異なる分光法から得られたデータを組み合わせた鉱物の自動同定手法を提案する。 我々は、振動ラマン散乱、反射可視外赤外(VNIR)、レーザー誘起破壊分光(LIBS)の3つの分光法から得られるデータを組み合わせて評価した。 これらの手法はRaman + VNIR, Raman + LIBS, VNIR + LIBSと組み合わせられ, それぞれに異なるデータ融合法を適用してミネラルを分類した。 ここで示される手法は、単一のデータソースの使用をかなりのマージンで上回ることを示す。 さらに,ラマンスペクトルからミネラル分類を行うためのディープラーニングアルゴリズムを提案する。 本手法は様々なオープンアクセス実験raman (rruff) およびvnir (usgs, relab, ecostress) および合成libs nistスペクトルライブラリを用いて実験を行った。 クロスバリデーション試験により,mlと組み合わせたマルチメソッドスペクトロスコピーが,岩石や鉱物の迅速かつ正確なキャラクタリゼーションへの道筋を示した。

Machine Learning (ML) has found several applications in spectroscopy, including being used to recognise minerals and estimate elemental composition. In this work, we present novel methods for automatic mineral identification based on combining data from different spectroscopic methods. We evaluate combining data from three spectroscopic methods: vibrational Raman scattering, reflective Visible-Near Infrared (VNIR), and Laser-Induced Breakdown Spectroscopy (LIBS). These methods were paired into Raman + VNIR, Raman + LIBS and VNIR + LIBS, and different methods of data fusion applied to each pair to classify minerals. The methods presented here are shown to outperform the use of a single data source by a significant margin. Additionally, we present a Deep Learning algorithm for mineral classification from Raman spectra that outperforms previous state-of-the-art methods. Our approach was tested on various open access experimental Raman (RRUFF) and VNIR (USGS, Relab, ECOSTRESS), as well as synthetic LIBS NIST spectral libraries. Our cross-validation tests show that multi-method spectroscopy paired with ML paves the way towards rapid and accurate characterization of rocks and minerals.
翻訳日:2022-11-27 06:05:34 公開日:2020-05-28
# CGGAN:単一画像デハジングのためのコンテキストガイド付きジェネレーターネットワーク

CGGAN: A Context Guided Generative Adversarial Network For Single Image Dehazing ( http://arxiv.org/abs/2005.13884v1 )

ライセンス: Link先を確認
Zhaorun Zhou, Zhenghao Shi, Mingtao Guo, Yaning Feng, Minghua Zhao(参考訳) 画像ヘイズ除去はコンピュータビジョンの応用に非常に望まれている。 本稿では,単一画像デハージングのための新しいコンテクストガイド生成適応ネットワーク(CGGAN)を提案する。 その内、新しいエンコーダデコーダがジェネレータとして使用される。 そして、特徴抽出ネット、文脈抽出ネット、および連続した融合ネットで構成される。 特徴抽出ネットはエンコーダとして機能し、ヘイズの特徴抽出に用いられる。 context-extraction netはマルチスケールの並列ピラミッドデコーダであり、エンコーダの深い特徴の抽出と粗いデハジング画像の生成に使用される。 fusion-netはデコーダであり、最終的なhazeフリー画像を取得するために使用される。 より良好な結果を得るため、コンテキスト抽出デコーダのデコードプロセス中に得られたマルチスケール情報が、フュージョンデコーダの案内に使用される。 元のエンコーダデコーダに余分な粗いデコーダを導入することにより、CGGANは、エンコーダによって抽出された深い特徴情報をよりよく利用することができる。 異なるヘイズシナリオに対してCGGANを効果的に動作させるために、2つのデコーダに対して異なる損失関数が使用される。 実験の結果,提案したCGGANの利点と有効性を示し,既存の最先端手法に対する明らかな改善が得られた。

Image haze removal is highly desired for the application of computer vision. This paper proposes a novel Context Guided Generative Adversarial Network (CGGAN) for single image dehazing. Of which, an novel new encoder-decoder is employed as the generator. And it consists of a feature-extraction-net, a context-extractionnet, and a fusion-net in sequence. The feature extraction-net acts as a encoder, and is used for extracting haze features. The context-extraction net is a multi-scale parallel pyramid decoder, and is used for extracting the deep features of the encoder and generating coarse dehazing image. The fusion-net is a decoder, and is used for obtaining the final haze-free image. To obtain more better results, multi-scale information obtained during the decoding process of the context extraction decoder is used for guiding the fusion decoder. By introducing an extra coarse decoder to the original encoder-decoder, the CGGAN can make better use of the deep feature information extracted by the encoder. To ensure our CGGAN work effectively for different haze scenarios, different loss functions are employed for the two decoders. Experiments results show the advantage and the effectiveness of our proposed CGGAN, evidential improvements over existing state-of-the-art methods are obtained.
翻訳日:2022-11-27 06:05:10 公開日:2020-05-28
# パーソナライズのためのデータ最小化法則の運用

Operationalizing the Legal Principle of Data Minimization for Personalization ( http://arxiv.org/abs/2005.13718v1 )

ライセンス: Link先を確認
Asia J. Biega, Peter Potash, Hal Daum\'e III, Fernando Diaz, Mich\`ele Finck(参考訳) 欧州連合(EU)の一般データ保護規則(GDPR)第5条(1)(c)は、「個人データは、(...)適切で、関係があり、それらが処理される目的(「データ最小化」)に関連するものに限定される」ことを要求している。 現在まで「目的制限」と「データ最小化」の法的および計算的定義はほとんど不明である。 特に、これらの原則の解釈は、ユーザエクスペリエンスをパーソナライズすることで最適化し、基本サービスの配信に個人データ収集を厳密に必要としない情報アクセスシステムにとって、オープンな問題である。 本稿では,データ最小化原理の同種解釈の欠如を特定し,パーソナライゼーションの文脈に適用可能な2つの操作定義を探索する。 レコメンダシステム領域における経験的研究の焦点は、その基礎的な洞察を提供することです。 (i)異なるデータ最小化定義の実現可能性 (二)最小化のための異なる推薦アルゴリズムの堅牢性及び (iii) 異なる最小化戦略の性能は、データ最小化によって生じる性能低下は、実質的なものではないが、異なるユーザに影響を与える可能性があること、すなわち、異なる形式的最小化定義の存続可能性に影響を及ぼすこと。 全体としては、パーソナライゼーションの文脈におけるデータ最小化問題の複雑さを明らかにし、残りの計算および規制上の課題をマップする。

Article 5(1)(c) of the European Union's General Data Protection Regulation (GDPR) requires that "personal data shall be [...] adequate, relevant, and limited to what is necessary in relation to the purposes for which they are processed (`data minimisation')". To date, the legal and computational definitions of `purpose limitation' and `data minimization' remain largely unclear. In particular, the interpretation of these principles is an open issue for information access systems that optimize for user experience through personalization and do not strictly require personal data collection for the delivery of basic service. In this paper, we identify a lack of a homogeneous interpretation of the data minimization principle and explore two operational definitions applicable in the context of personalization. The focus of our empirical study in the domain of recommender systems is on providing foundational insights about the (i) feasibility of different data minimization definitions, (ii) robustness of different recommendation algorithms to minimization, and (iii) performance of different minimization strategies.We find that the performance decrease incurred by data minimization might not be substantial, but that it might disparately impact different users---a finding which has implications for the viability of different formal minimization definitions. Overall, our analysis uncovers the complexities of the data minimization problem in the context of personalization and maps the remaining computational and regulatory challenges.
翻訳日:2022-11-27 06:04:32 公開日:2020-05-28
# 新型コロナウイルスとスマートフォン: BLEベースのスマートコンタクト

COVID-19 and Your Smartphone: BLE-based Smart Contact Tracing ( http://arxiv.org/abs/2005.13754v1 )

ライセンス: Link先を確認
Pai Chet Ng, Petros Spachos, Konstantinos Plataniotis(参考訳) 感染性疾患の拡散を予防する上で、接触追跡が最も重要である。 接触追跡は通常、公認職員によって手動で行われる。 手動接触追跡は、感染した個人と密接な接触をした人々に対して、数日後に通知されるため、人口に限られたユーティリティーの非効率で、エラーを起こし、時間のかかるプロセスである。 本稿では手動接触追跡に代わる方法を提案する。 提案したSmart Contact Tracing (SCT) システムは,スマートフォンのBluetooth Low Energy (BLE) 信号と機械学習分類器を用いて,接触プロファイルの正確かつ迅速な決定を行う。 SCTの貢献は2つあります。 a) 正確な近接センシングを用いて、利用者の接触をハイ/ローリスクと分類し、 b) プライバシー保護通信プロトコルを用いたユーザ匿名性。 SCTはBLEの非接続広告機能を利用して、ユーザーがパブリックスペースにいるときに署名パケットをブロードキャストする。 放送された署名と観察された署名はいずれもユーザのスマートフォンに格納され、公衆衛生当局によって感染が確認された場合にのみセキュアな署名データベースにアップロードされる。 受信信号強度(RSS)を用いて、各スマートフォンは他のユーザの携帯電話からの距離を推定し、ソーシャルディスタンシングルールに違反した場合にリアルタイムアラートを発行する。 本論文は,実生活スマートフォンの位置を利用した広範囲な実験と,5つの機械学習分類器の比較評価を含む。 報告された結果から,決定木分類器は,技術分類方法の他の状態よりも精度が高いことがわかった。 最後に、この分野の研究を容易にし、先進的なソリューションのタイムリーな開発に貢献するために、約123,000のデータポイントによる6つの実験全体のデータセットが公開されている。

Contact tracing is of paramount importance when it comes to preventing the spreading of infectious diseases. Contact tracing is usually performed manually by authorized personnel. Manual contact tracing is an inefficient, error-prone, time-consuming process of limited utility to the population at large as those in close contact with infected individuals are informed hours, if not days, later. This paper introduces an alternative way to manual contact tracing. The proposed Smart Contact Tracing (SCT) system utilizes the smartphone's Bluetooth Low Energy (BLE) signals and machine learning classifier to accurately and quickly determined the contact profile. SCT's contribution is two-fold: a) classification of the user's contact as high/low-risk using precise proximity sensing, and b) user anonymity using a privacy-preserving communications protocol. SCT leverages BLE's non-connectable advertising feature to broadcast a signature packet when the user is in the public space. Both broadcasted and observed signatures are stored in the user's smartphone and they are only uploaded to a secure signature database when a user is confirmed by public health authorities to be infected. Using received signal strength (RSS) each smartphone estimates its distance from other user's phones and issues real-time alerts when social distancing rules are violated. The paper includes extensive experimentation utilizing real-life smartphone positions and a comparative evaluation of five machine learning classifiers. Reported results indicate that a decision tree classifier outperforms other states of the art classification methods in terms of accuracy. Lastly, to facilitate research in this area, and to contribute to the timely development of advanced solutions the entire data set of six experiments with about 123,000 data points is made publicly available.
翻訳日:2022-11-27 06:04:10 公開日:2020-05-28
# Fr'echet Proximity Queries をトラジェクトリ間で支援する実用的なインデックス構造

A Practical Index Structure Supporting Fr\'echet Proximity Queries Among Trajectories ( http://arxiv.org/abs/2005.13773v1 )

ライセンス: Link先を確認
Joachim Gudmundsson, Michael Horton, John Pfeifer, Martin P. Seybold(参考訳) トラジェクトリデータ上の連続的なFr'echet距離など,計算コストの高い測定値の下で,レンジと近接するクエリに対して,スケーラブルなアプローチを提案する。 計量指標のクラスタリングに基づいて, 軌道の個々の大きさや空間次元にかかわらず, 軌道数に線形な大きさの動的木構造を得る。 距離計算は高価であるため、一般的な計量インデックス化手法は実用的でない。 戦略を提示します (i)既知の上界と下界の計算を改善すること。 (ii)距離コールをほとんど必要とせずにクラスタツリーを構築し、 (3) 計量プルーニングのための境界を用いた探索, 縮小のための区間順序付け, 最終結果の報告のためのランダム化ピボット。 本手法の効率性と有効性について,多種多様な合成データと実世界のデータセットを用いた広範囲な実験を行った。 その結果、正確なクエリに対する最先端のメソッドよりも改善が見られ、近似結果を返すクエリではさらにスピードアップが達成される。 驚いたことに、実際のデータセットに最も近いクエリのほとんどは、距離計算なしで答えられる。

We present a scalable approach for range and $k$ nearest neighbor queries under computationally expensive metrics, like the continuous Fr\'echet distance on trajectory data. Based on clustering for metric indexes, we obtain a dynamic tree structure whose size is linear in the number of trajectories, regardless of the trajectory's individual sizes or the spatial dimension, which allows one to exploit low `intrinsic dimensionality' of data sets for effective search space pruning. Since the distance computation is expensive, generic metric indexing methods are rendered impractical. We present strategies that (i) improve on known upper and lower bound computations, (ii) build cluster trees without any or very few distance calls, and (iii) search using bounds for metric pruning, interval orderings for reduction, and randomized pivoting for reporting the final results. We analyze the efficiency and effectiveness of our methods with extensive experiments on diverse synthetic and real-world data sets. The results show improvement over state-of-the-art methods for exact queries, and even further speed-ups are achieved for queries that may return approximate results. Surprisingly, the majority of exact nearest-neighbor queries on real data sets are answered without any distance computations.
翻訳日:2022-11-27 06:03:41 公開日:2020-05-28
# つながりを知らずに中心性を評価する

Assessing Centrality Without Knowing Connections ( http://arxiv.org/abs/2005.13787v1 )

ライセンス: Link先を確認
Leyla Roohi, Benjamin I. P. Rubinstein and Vanessa Teague(参考訳) 本研究では,分散ソーシャルネットワークにおけるノード影響のプライバシー保護計算を,egocentric betweenness centrality (EBC) によって測定した。 複数のプロバイダにまたがる現代の通信ネットワークに動機付けられて、複数の信頼関係の当事者が内部ネットワーク接続に関する情報のみを公開しながら、ノードEBCをうまく計算できることを示す。 理論的効用分析上界は、プライベートEBCエラーの一次発生源である--egoネットワークのプライベートリリース--高い確率で-である。 実証的な結果は、Facebookグラフ上で強いプライバシー予算$\epsilon=0.1$で達成可能な1.07の相対誤差が低いこと、およびネットワークプロバイダの数が増加するにつれて顕著なパフォーマンス低下を示す。

We consider the privacy-preserving computation of node influence in distributed social networks, as measured by egocentric betweenness centrality (EBC). Motivated by modern communication networks spanning multiple providers, we show for the first time how multiple mutually-distrusting parties can successfully compute node EBC while revealing only differentially-private information about their internal network connections. A theoretical utility analysis upper bounds a primary source of private EBC error---private release of ego networks---with high probability. Empirical results demonstrate practical applicability with a low 1.07 relative error achievable at strong privacy budget $\epsilon=0.1$ on a Facebook graph, and insignificant performance degradation as the number of network provider parties grows.
翻訳日:2022-11-27 06:03:22 公開日:2020-05-28
# 脳腫瘍セグメンテーションの不確実性評価指標

Uncertainty Evaluation Metric for Brain Tumour Segmentation ( http://arxiv.org/abs/2005.14262v1 )

ライセンス: Link先を確認
Raghav Mehta, Angelos Filos, Yarin Gal, Tal Arbel(参考訳) 本稿では,BraTS 2019サブチャレンジにおける脳腫瘍のサブタスクに対する不確実性評価と,不確実性定量化のための指標の開発を行う。 1) 信頼度の高いアサーションが正しいアサーションに割り当てられ、誤ったアサーションが低いアサーションに割り当てられ、(2) 信頼度の低いアサーションの比率が高いアサーションを罰する不確実性尺度を報奨する。 ここでは、BraTS 2019データセットで評価された多くの一般的な不確実性尺度に基づいて、メトリックのコンポーネントの動作を調査する。

In this paper, we develop a metric designed to assess and rank uncertainty measures for the task of brain tumour sub-tissue segmentation in the BraTS 2019 sub-challenge on uncertainty quantification. The metric is designed to: (1) reward uncertainty measures where high confidence is assigned to correct assertions, and where incorrect assertions are assigned low confidence and (2) penalize measures that have higher percentages of under-confident correct assertions. Here, the workings of the components of the metric are explored based on a number of popular uncertainty measures evaluated on the BraTS 2019 dataset.
翻訳日:2022-11-27 05:56:08 公開日:2020-05-28
# 人工知能によるコミュニティのレジリエンス向上と緊急対応

Improving Community Resiliency and Emergency Response With Artificial Intelligence ( http://arxiv.org/abs/2005.14212v1 )

ライセンス: Link先を確認
Ben Ortiz and Laura Kahn and Marc Bosch and Philip Bogden and Viveca Pavon-Harr and Onur Savas and Ian McCulloh(参考訳) 最新の情報技術を取り入れた新たな危機対応およびマネジメントアプローチは、計画、対応、回復、評価フェーズを含む、緊急準備と対応のあらゆる段階において不可欠である。 正確なタイムリーな情報は、応答する組織間の迅速かつ一貫性のある調整と同じくらい重要です。 我々は、ステークホルダーが包括的で関連性があり、信頼できる情報にタイムリーにアクセスできるようにする、多段階の緊急対応ツールを目指しています。 より早い救急隊員は、重要な情報を分析し、伝達し、行動することができる。 本ツールは, 浸水リスク位置, 道路ネットワーク強度, 浸水マップ, 浸水地や被害インフラを推定するコンピュータビジョンセマンティックセマンティックセマンティックセグメンテーションなど, オープンソースの地理空間データの複数の層を符号化して構成する。 これらのデータ層を結合して機械学習アルゴリズムの入力データとして使用し、例えば、緊急時の前後の最良の避難経路を見つけたり、最初に影響を受けたエリアの第一応答者に対して利用可能な宿泊先のリストを提供したりする。 我々のシステムは、人々がある場所から別の場所へ強制される多くのユースケースで使用できるが、ノースカロライナ州ランバートンのハリケーン・フィレンス(Hurricane Florence)のユースケースにおける我々のシステムの有効性を実証する。

New crisis response and management approaches that incorporate the latest information technologies are essential in all phases of emergency preparedness and response, including the planning, response, recovery, and assessment phases. Accurate and timely information is as crucial as is rapid and coherent coordination among the responding organizations. We are working towards a multipronged emergency response tool that provide stakeholders timely access to comprehensive, relevant, and reliable information. The faster emergency personnel are able to analyze, disseminate and act on key information, the more effective and timelier their response will be and the greater the benefit to affected populations. Our tool consists of encoding multiple layers of open source geospatial data including flood risk location, road network strength, inundation maps that proxy inland flooding and computer vision semantic segmentation for estimating flooded areas and damaged infrastructure. These data layers are combined and used as input data for machine learning algorithms such as finding the best evacuation routes before, during and after an emergency or providing a list of available lodging for first responders in an impacted area for first. Even though our system could be used in a number of use cases where people are forced from one location to another, we demonstrate the feasibility of our system for the use case of Hurricane Florence in Lumberton, North Carolina.
翻訳日:2022-11-27 05:55:39 公開日:2020-05-28
# 生成優先度を用いた教師なし音源分離

Unsupervised Audio Source Separation using Generative Priors ( http://arxiv.org/abs/2005.13769v1 )

ライセンス: Link先を確認
Vivek Narayanaswamy, Jayaraman J. Thiagarajan, Rushil Anirudh and Andreas Spanias(参考訳) 最先端の未決定のオーディオソース分離システムは、時間領域とスペクトル領域の両方で動作する注意深く調整されたニューラルネットワークアーキテクチャの教師付きエンドツーエンドトレーニングに依存している。 しかし、これらの手法は、高価なソースレベルのラベル付きデータにアクセスし、与えられたソースセットと、それらの仮定が変化したときの完全な再トレーニングを必要とする混合プロセスに特化する必要があるという点で、厳しい課題を抱えている。 これは、データ駆動モデリングの最近の進歩を活用し、有意義な事前によってラベル付きデータの欠如を補償できる教師なしメソッドの必要性を強く強調する。 そこで本研究では,個々の音源で学習した生成前処理に基づく音源分離手法を提案する。 提案手法は,予測勾配勾配勾配最適化を用いて,ソース固有の潜在空間を同時に探索し,構成源を効率的に回収する。 生成前駆体は、例えばWaveGANのように時間領域で直接定義することができるが、最適化のためにスペクトル領域損失関数を用いることで、良質なソース推定が得られる。 標準音声桁と計器データセットに関する実証研究は、古典的および最先端の教師なしベースラインに対する我々のアプローチの有効性を明らかに示している。

State-of-the-art under-determined audio source separation systems rely on supervised end-end training of carefully tailored neural network architectures operating either in the time or the spectral domain. However, these methods are severely challenged in terms of requiring access to expensive source level labeled data and being specific to a given set of sources and the mixing process, which demands complete re-training when those assumptions change. This strongly emphasizes the need for unsupervised methods that can leverage the recent advances in data-driven modeling, and compensate for the lack of labeled data through meaningful priors. To this end, we propose a novel approach for audio source separation based on generative priors trained on individual sources. Through the use of projected gradient descent optimization, our approach simultaneously searches in the source-specific latent spaces to effectively recover the constituent sources. Though the generative priors can be defined in the time domain directly, e.g. WaveGAN, we find that using spectral domain loss functions for our optimization leads to good-quality source estimates. Our empirical studies on standard spoken digit and instrument datasets clearly demonstrate the effectiveness of our approach over classical as well as state-of-the-art unsupervised baselines.
翻訳日:2022-11-27 05:55:14 公開日:2020-05-28
# ソースコード密度を用いた自動コミット分類の保守作業における精度向上

Using Source Code Density to Improve the Accuracy of Automatic Commit Classification into Maintenance Activities ( http://arxiv.org/abs/2005.13904v1 )

ライセンス: Link先を確認
Sebastian H\"onel, Morgan Ericsson, Welf L\"owe, Anna Wingkvist(参考訳) ソースコードは、例えば、適応、修正、適応などのために変更される。 この理由は開発プロセスに関する貴重な洞察を提供するが、変更がソースコードリポジトリにコミットされた時に明示的に文書化されることは滅多にない。 自動コミット分類は、この理由を推定するためにコミットから抽出された機能を使用する。 我々は、コミットのネットサイズを測定するソースコード密度を導入し、以前のサイズベースの分類と比較して、コミットの自動分類の精度をいかに改善するかを示す。 また,コミットの前の世代がコミットのクラスに与える影響や,コミットのコード密度を考慮に入れれば,その精度が向上するかどうかについても検討する。 1つのプロジェクトでモデルをトレーニングし、他のプロジェクトに適用するクロスプロジェクトコミット分類において、最大89%の精度と0.82のKappaを達成する。 単一のプロジェクトで訓練されたモデルは最大で93%、カッパは0.90に近づいた。 自動コミット分類の精度は、その分類を利用するソフトウェア(プロセス)の品質分析に直接的な影響を与えるので、精度の改善もその分析の信頼性を向上させることができる。

Source code is changed for a reason, e.g., to adapt, correct, or adapt it. This reason can provide valuable insight into the development process but is rarely explicitly documented when the change is committed to a source code repository. Automatic commit classification uses features extracted from commits to estimate this reason. We introduce source code density, a measure of the net size of a commit, and show how it improves the accuracy of automatic commit classification compared to previous size-based classifications. We also investigate how preceding generations of commits affect the class of a commit, and whether taking the code density of previous commits into account can improve the accuracy further. We achieve up to 89% accuracy and a Kappa of 0.82 for the cross-project commit classification where the model is trained on one project and applied to other projects. Models trained on single projects yield accuracies of up to 93% with a Kappa approaching 0.90. The accuracy of the automatic commit classification has a direct impact on software (process) quality analyses that exploit the classification, so our improvements to the accuracy will also improve the confidence in such analyses.
翻訳日:2022-11-27 05:54:25 公開日:2020-05-28
# コンフォーマルアレイ型UAVMmWaveネットワークのためのコードブックに基づくビームトラッキング

Codebook-Based Beam Tracking for Conformal ArrayEnabled UAV MmWave Networks ( http://arxiv.org/abs/2005.14064v1 )

ライセンス: Link先を確認
Jinglin Zhang, Wenjun Xu, Hui Gao, Miao Pan, Zhu Han, and Ping Zhang(参考訳) ミリ波(mmWave)通信は無人航空機(UAV)ネットワークの高データレート要件を満たす可能性がある。 しかし,mmWave通信の前提条件として,UAVの3次元移動と姿勢変化のため,狭方向ビーム追跡は非常に困難である。 ビームトラッキングの難しさに対処するため,高ダイナミックUAVmmWaveネットワークにおける全空間カバレッジとアジャイルビームトラッキングを実現するために,各UAVの表面に共形アレイ(CA)を統合することを提案する。 具体的には、私たちの仕事の重要な貢献は3倍です。 1)CA対応UAVmmWaveネットワークのための新しいmmWaveビームトラッキングフレームワークを構築した。 2) 角ビームパターンとサブアレイパターンの両方を含む指向性放射素子(DRE)被覆円筒形状アレー(CCA)を駆動してCAのポテンシャルを完全に活用するために、特殊な階層コードブックを構築する。 3) コードブックに基づくマルチユーザビームトラッキング方式を提案し, ガウスプロセス機械学習によりUAV位置/姿勢の予測が可能となり, トラッキングエラーを意識したアダプティブビーム幅制御とともにビームトラッキング効率を向上させる。 シミュレーションの結果、CA対応UAV mmWaveネットワークにおけるコードブックに基づくビームトラッキング方式の有効性を検証し、高ダイナミックシナリオにおけるスペクトル効率と停止確率の観点から、従来のプランナーアレイよりもCAの利点を実証した。

Millimeter wave (mmWave) communications can potentially meet the high data-rate requirements of unmanned aerial vehicle (UAV) networks. However, as the prerequisite of mmWave communications, the narrow directional beam tracking is very challenging because of the three-dimensional (3D) mobility and attitude variation of UAVs. Aiming to address the beam tracking difficulties, we propose to integrate the conformal array (CA) with the surface of each UAV, which enables the full spatial coverage and the agile beam tracking in highly dynamic UAV mmWave networks. More specifically, the key contributions of our work are three-fold. 1) A new mmWave beam tracking framework is established for the CA-enabled UAV mmWave network. 2) A specialized hierarchical codebook is constructed to drive the directional radiating element (DRE)-covered cylindrical conformal array (CCA), which contains both the angular beam pattern and the subarray pattern to fully utilize the potential of the CA. 3) A codebook-based multiuser beam tracking scheme is proposed, where the Gaussian process machine learning enabled UAV position/attitude predication is developed to improve the beam tracking efficiency in conjunction with the tracking-error aware adaptive beamwidth control. Simulation results validate the effectiveness of the proposed codebook-based beam tracking scheme in the CA-enabled UAV mmWave network, and demonstrate the advantages of CA over the conventional planner array in terms of spectrum efficiency and outage probability in the highly dynamic scenarios.
翻訳日:2022-11-27 05:54:08 公開日:2020-05-28
# フィードフォワード層による自己意識の置き換えはいつ可能か?

When Can Self-Attention Be Replaced by Feed Forward Layers? ( http://arxiv.org/abs/2005.13895v1 )

ライセンス: Link先を確認
Shucong Zhang, Erfan Loweimi, Peter Bell, Steve Renals(参考訳) 近年,トランスフォーマーなどの自己着脱モデルが,音声認識における再帰ニューラルネットワークシステムと比較して競争的な結果をもたらしている。 自己注意モデルの卓越した性能の鍵となる要素は、2つの関連する事象間の距離に制限されることなく時間的関係を捉える能力である。 しかし,学習コンテキストの範囲は下層から上層へと徐々に拡大する一方,音響事象は左から右の順序で短時間に発生することが多いことに留意する。 音声認識では、トランスフォーマーのエンコーダの上位自己注意層において、シーケンス全体のグローバルビューが依然として重要であるか? これを調べるために、これらの自己注意層をフィードフォワード層に置き換える。 音声認識実験(Wall Street Journal と Switchboard)では,エンコーダ上の自己注意層をフィードフォワード層に置き換えることで,パフォーマンスが低下せず,多少の利益も得られない,という興味深い結果が得られた。 実験では, 音声信号の自己注意層がどのように処理するかの知見が得られ, エンコーダの下位の自己意識層は十分な範囲の入力を符号化し, 上層での文脈情報を学習する必要がないという結論に至った。

Recently, self-attention models such as Transformers have given competitive results compared to recurrent neural network systems in speech recognition. The key factor for the outstanding performance of self-attention models is their ability to capture temporal relationships without being limited by the distance between two related events. However, we note that the range of the learned context progressively increases from the lower to upper self-attention layers, whilst acoustic events often happen within short time spans in a left-to-right order. This leads to a question: for speech recognition, is a global view of the entire sequence still important for the upper self-attention layers in the encoder of Transformers? To investigate this, we replace these self-attention layers with feed forward layers. In our speech recognition experiments (Wall Street Journal and Switchboard), we indeed observe an interesting result: replacing the upper self-attention layers in the encoder with feed forward layers leads to no performance drop, and even minor gains. Our experiments offer insights to how self-attention layers process the speech signal, leading to the conclusion that the lower self-attention layers of the encoder encode a sufficiently wide range of inputs, hence learning further contextual information in the upper layers is unnecessary.
翻訳日:2022-11-27 05:47:34 公開日:2020-05-28
# ステレオビジョンを用いたロボットマニピュレータによるビンピッキングのためのシングルショット6Dオブジェクトポス推定

Stereo Vision Based Single-Shot 6D Object Pose Estimation for Bin-Picking by a Robot Manipulator ( http://arxiv.org/abs/2005.13759v1 )

ライセンス: Link先を確認
Yoshihiro Nakano(参考訳) ロボットマニピュレータによる機械部品のビンピッキングのための高速で正確な6次元オブジェクトポーズ推定法を提案する。 我々は、アテンションアーキテクチャの適用により、シングルショットアプローチをステレオビジョンに拡張する。 我々の畳み込みニューラルネットワークモデルは、深度情報のない左画像または右画像から物体の位置と回転に回帰する。 そして、ステレオグリッドアテンションに指定されたステレオ特徴マッチングモジュールがステレオグリッドマッチングマップを生成する。 本手法の重要なポイントは,ステレオ画像からの注意によって見出される物体の差を,画像全体の点雲を計算するのではなく,計算することである。 そして、三角測量の原理によって物体の深さを計算するために不一致値が用いられる。 提案手法は, 単写式アーキテクチャによるポーズ推定の高速な処理速度を実現し, 半フロートモデルで実装したJetson AGX Xavier上で1024×1024ピクセルの画像を75ミリ秒で処理することができる。 弱テクスチャの機械部品を用いて方法の例示を行う。 まず,提案モデルの学習と評価のために,独自の合成データセットを作成する。 このデータセットは、仮想空間内の複数の種類の機械部品の多数の3dモデルをキャプチャしてレンダリングすることで作成される。 最後に、電磁グリップを備えたロボットマニピュレータを用いて、乱れ状態の機械部品を拾い上げ、実際のシーンでの手法の有効性を検証する。 提案したステレオカメラを用いて黒鋼スクリュー,ステンレススクリュー,直流モータ部品,すなわちローターコア,コンピュテータキャップを検出する場合,ビンピッキングタスクはそれぞれ76.3%,64.0%,50.5%,89.1%,64.2%の確率で成功する。

We propose a fast and accurate method of 6D object pose estimation for bin-picking of mechanical parts by a robot manipulator. We extend the single-shot approach to stereo vision by application of attention architecture. Our convolutional neural network model regresses to object locations and rotations from either a left image or a right image without depth information. Then, a stereo feature matching module, designated as Stereo Grid Attention, generates stereo grid matching maps. The important point of our method is only to calculate disparity of the objects found by the attention from stereo images, instead of calculating a point cloud over the entire image. The disparity value is then used to calculate the depth to the objects by the principle of triangulation. Our method also achieves a rapid processing speed of pose estimation by the single-shot architecture and it is possible to process a 1024 x 1024 pixels image in 75 milliseconds on the Jetson AGX Xavier implemented with half-float model. Weakly textured mechanical parts are used to exemplify the method. First, we create original synthetic datasets for training and evaluating of the proposed model. This dataset is created by capturing and rendering numerous 3D models of several types of mechanical parts in virtual space. Finally, we use a robotic manipulator with an electromagnetic gripper to pick up the mechanical parts in a cluttered state to verify the validity of our method in an actual scene. When a raw stereo image is used by the proposed method from our stereo camera to detect black steel screws, stainless screws, and DC motor parts, i.e., cases, rotor cores and commutator caps, the bin-picking tasks are successful with 76.3%, 64.0%, 50.5%, 89.1% and 64.2% probability, respectively.
翻訳日:2022-11-27 05:47:12 公開日:2020-05-28
# CNNによる全スライディング組織像の頸部癌分類

CNN-based Approach for Cervical Cancer Classification in Whole-Slide Histopathology Images ( http://arxiv.org/abs/2005.13924v1 )

ライセンス: Link先を確認
Ferdaous Idlahcen, Mohammed Majid Himmi, Abdelhak Mahmoudi(参考訳) 子宮頸がんは2040年までに年間460万人が死亡し、約90%がサハラ以南のアフリカ人女性である。 世界保健機関(WHO)は、アフリカにおける子宮頸癌の発生頻度を常に増加させ、スクリーニング、診断、治療の面で優先している。 従来、がん診断は主に病理組織学的評価に依存しており、知的コンピュータ支援システムを低コストの患者安全メカニズムとして必要としているが、デジタル病理学におけるラベル付きデータの欠如は適用可能性を制限する。 本研究は,TCGAデータポータルからの頚部組織デジタルスライドを前処理し,全スライディング画像障害を克服し,提案したVGG16-CNN分類手法に含めた。 結果は98,26%の精度と97,9%のf1スコアを達成し,この弱教師付きタスクにおけるトランスファー学習の可能性を確認した。

Cervical cancer will cause 460 000 deaths per year by 2040, approximately 90% are Sub-Saharan African women. A constantly increasing incidence in Africa making cervical cancer a priority by the World Health Organization (WHO) in terms of screening, diagnosis, and treatment. Conventionally, cancer diagnosis relies primarily on histopathological assessment, a deeply error-prone procedure requiring intelligent computer-aided systems as low-cost patient safety mechanisms but lack of labeled data in digital pathology limits their applicability. In this study, few cervical tissue digital slides from TCGA data portal were pre-processed to overcome whole-slide images obstacles and included in our proposed VGG16-CNN classification approach. Our results achieved an accuracy of 98,26% and an F1-score of 97,9%, which confirm the potential of transfer learning on this weakly-supervised task.
翻訳日:2022-11-27 05:46:41 公開日:2020-05-28
# てんかん性精神状態のロバストモデリング

Robust Modeling of Epistemic Mental States ( http://arxiv.org/abs/2005.13982v1 )

ライセンス: Link先を確認
AKMMahbubur Rahman, ASM Iftekhar Anam, and Mohammed Yeasin(参考訳) 本研究は、ディヤド会話における顔の特徴と認識論的精神状態の時間的ダイナミクスの分析におけるいくつかの研究課題を特定し、発展させるものである。 疫病国家は、合意、集中、思慮、確信、関心である。 本稿では,顔の特徴とてんかん状態との関係を明らかにするための統計分析とシミュレーションを行う。 非線形関係はより広く見られるが、元の顔特徴に由来する時間的特徴は強度変化と強い相関を示す。 そこで本稿では, 顔の特徴と非線形関係のスコアを入力として捉え, ビデオ中の異なるてんかん状態を予測する新しい予測フレームワークを提案する。 上昇、降下、定常といった感情変化領域の分類を時間的特徴に組み込むと、認識状態の予測が促進される。 相関係数 (coerr) は 0.827、濃度 0.901、思慮深い 0.794、ある 0.854、利子 0.913 である。

This work identifies and advances some research challenges in the analysis of facial features and their temporal dynamics with epistemic mental states in dyadic conversations. Epistemic states are: Agreement, Concentration, Thoughtful, Certain, and Interest. In this paper, we perform a number of statistical analyses and simulations to identify the relationship between facial features and epistemic states. Non-linear relations are found to be more prevalent, while temporal features derived from original facial features have demonstrated a strong correlation with intensity changes. Then, we propose a novel prediction framework that takes facial features and their nonlinear relation scores as input and predict different epistemic states in videos. The prediction of epistemic states is boosted when the classification of emotion changing regions such as rising, falling, or steady-state are incorporated with the temporal features. The proposed predictive models can predict the epistemic states with significantly improved accuracy: correlation coefficient (CoERR) for Agreement is 0.827, for Concentration 0.901, for Thoughtful 0.794, for Certain 0.854, and for Interest 0.913.
翻訳日:2022-11-27 05:46:23 公開日:2020-05-28
# 知覚認識時最適経路パラメータ化

Perception-aware time optimal path parameterization for quadrotors ( http://arxiv.org/abs/2005.13986v1 )

ライセンス: Link先を確認
Igor Spasojevic, Varun Murali, and Sertac Karaman(参考訳) 四輪車の人気が高まったことで、主に視覚駆動の車両が出現した。 本稿では,クワッドロータに対する知覚・認識時間最適パスパラメトリゼーションの問題に対処する。 知覚的モダリティの選択肢は多種多様であるが、クワッドローターシステムの低重量と電力予算は、オンボードナビゲーションと推定アルゴリズムに理想的なカメラとなる。 しかし、これにはいくつかの課題がある。 カメラの視野が限られているため、環境中のサルエント領域の可視性が制限され、知覚と計画を同時に考慮する必要がある。 本論文の主な貢献は、視野の制限されたクワッドロータに対する効率的な時間最適経路パラメトリゼーションアルゴリズムである。 シミュレーション実験では,最先端のコントローラが計画された軌道を追跡できることを示し,提案手法を四角形プラットフォーム上で検証した。

The increasing popularity of quadrotors has given rise to a class of predominantly vision-driven vehicles. This paper addresses the problem of perception-aware time optimal path parametrization for quadrotors. Although many different choices of perceptual modalities are available, the low weight and power budgets of quadrotor systems makes a camera ideal for on-board navigation and estimation algorithms. However, this does come with a set of challenges. The limited field of view of the camera can restrict the visibility of salient regions in the environment, which dictates the necessity to consider perception and planning jointly. The main contribution of this paper is an efficient time optimal path parametrization algorithm for quadrotors with limited field of view constraints. We show in a simulation study that a state-of-the-art controller can track planned trajectories, and we validate the proposed algorithm on a quadrotor platform in experiments.
翻訳日:2022-11-27 05:46:05 公開日:2020-05-28
# ハイパースペクトル画像分類のためのアクティブラーニングを保存するファジィベース空間スペクトル分類情報

Fuzziness-based Spatial-Spectral Class Discriminant Information Preserving Active Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2005.14236v1 )

ライセンス: Link先を確認
Muhammad Ahmad(参考訳) hsic(hyperspectral image classification)の従来のアクティブ/セルフ/インタラクティブ学習は、既存のサンプルや新しいサンプルのクラス分散やランダム性を考慮して、トレーニングセットのサイズを増加させる。 第2に,共同のスペクトル空間情報に関する極めて限定的な研究が行われており,最後に,コミュニティがあまり考慮していない停止基準についても言及する価値がある。 そこで本研究では,局所クラス識別情報保存(FLG)法とグローバルクラス識別情報保存(FLG)法の両方において,ファジィに基づく新しい空間スペクトルを提案する。 まず,空間的事前ファジィに基づく誤分類サンプル情報について検討する。 次に、クラス情報内とクラス情報間の合計ローカルおよびグローバルを計算し、きめ細かい方法で定式化する。 その後、この情報は識別目的関数に供給され、トレーニングサンプル間のランダム性を排除する異種サンプルを照会する。 ベンチマークHSIデータセットを用いた実験結果から,FLG法がSMLR-LORSAL分類器の生成, 極端学習機械, スパース多項ロジスティック回帰(Sparse Multinomial Logistic Regression)に与える影響が示された。

Traditional Active/Self/Interactive Learning for Hyperspectral Image Classification (HSIC) increases the size of the training set without considering the class scatters and randomness among the existing and new samples. Second, very limited research has been carried out on joint spectral-spatial information and finally, a minor but still worth mentioning is the stopping criteria which not being much considered by the community. Therefore, this work proposes a novel fuzziness-based spatial-spectral within and between for both local and global class discriminant information preserving (FLG) method. We first investigate a spatial prior fuzziness-based misclassified sample information. We then compute the total local and global for both within and between class information and formulate it in a fine-grained manner. Later this information is fed to a discriminative objective function to query the heterogeneous samples which eliminate the randomness among the training samples. Experimental results on benchmark HSI datasets demonstrate the effectiveness of the FLG method on Generative, Extreme Learning Machine and Sparse Multinomial Logistic Regression (SMLR)-LORSAL classifiers.
翻訳日:2022-11-27 05:45:41 公開日:2020-05-28
# ロバストマルチパラメータマッピングのための共同全変量評価法

Joint Total Variation ESTATICS for Robust Multi-Parameter Mapping ( http://arxiv.org/abs/2005.14247v1 )

ライセンス: Link先を確認
Ya\"el Balbastre, Mikael Brudfors, Michela Azzarito, Christian Lambert, Martina F. Callaghan, John Ashburner(参考訳) 定量的磁気共鳴イメージング(qMRI)は、組織固有のパラメーター、例えば見かけの横緩和率R2*、長手緩和率R1、磁化移動飽和など、サイトやスキャナー間で比較でき、基礎となるミクロ構造に関する重要な情報を運ぶことができる。 マルチパラメータマッピング(MPM)プロトコルは、可変フリップ角を持つマルチエチョ取得を利用して、これらのパラメータを臨床的に許容されるスキャン時間で抽出する。 この文脈では、ESTATICSは複数のエコー系列の連接対数整合を行い、R2*および複数の外挿インターセプトを抽出することにより、運動に対するロバスト性を改善し、推定子の分散を減少させる。 本稿では,(1)インターセプトと崩壊に先立って関節総変分(JTV)を導入し,(2)非線形最大値(emph{a reari})推定を導出することにより,このモデルを2つの方法で拡張する。 提案アルゴリズムは,リッチな単目的データセットにおける左からのエコーを予測して評価した。 この検証では,他の最先端手法よりも優れており,提案手法はバイアスを伴わずに推定マップのばらつきを大幅に低減することを示した。

Quantitative magnetic resonance imaging (qMRI) derives tissue-specific parameters -- such as the apparent transverse relaxation rate R2*, the longitudinal relaxation rate R1 and the magnetisation transfer saturation -- that can be compared across sites and scanners and carry important information about the underlying microstructure. The multi-parameter mapping (MPM) protocol takes advantage of multi-echo acquisitions with variable flip angles to extract these parameters in a clinically acceptable scan time. In this context, ESTATICS performs a joint loglinear fit of multiple echo series to extract R2* and multiple extrapolated intercepts, thereby improving robustness to motion and decreasing the variance of the estimators. In this paper, we extend this model in two ways: (1) by introducing a joint total variation (JTV) prior on the intercepts and decay, and (2) by deriving a nonlinear maximum \emph{a posteriori} estimate. We evaluated the proposed algorithm by predicting left-out echoes in a rich single-subject dataset. In this validation, we outperformed other state-of-the-art methods and additionally showed that the proposed approach greatly reduces the variance of the estimated maps, without introducing bias.
翻訳日:2022-11-27 05:45:18 公開日:2020-05-28
# 概要: コンピュータビジョンと機械学習による微細構造のキャラクタリゼーションと解析

Overview: Computer vision and machine learning for microstructural characterization and analysis ( http://arxiv.org/abs/2005.14260v1 )

ライセンス: Link先を確認
Elizabeth A. Holm, Ryan Cohn, Nan Gao, Andrew R. Kitahara, Thomas P. Matson, Bo Lei, Srujana Rao Yarasi(参考訳) 微細構造のキャラクタリゼーションと解析は、構造科学の基礎であり、材料構造とその組成、過程履歴、性質を結びつけている。 伝統的に、構造的定量化には、人間が何を計測するかを事前に決め、それを目的に構築した方法を考案することが含まれる。 しかし、コンピュータビジョン(cv)や機械学習(ml)を含むデータサイエンスの最近の進歩は、マイクロ構造画像から情報を抽出する新しいアプローチを提供する。 この概要は、CV手法を用いて、微細構造画像に含まれる視覚情報を数値的に符号化し、高次元画像表現における関連や傾向を見つける教師付きまたは教師なしMLアルゴリズムへの入力を提供する。 画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,画像解析タスクの分類と解析のためのCV/MLシステム。 これらのツールは、新しいリッチビジュアルメトリクスの開発や、プロセス-ミクロ構造-プロパティ関係の発見など、ミクロ構造解析への新たなアプローチを可能にする。

The characterization and analysis of microstructure is the foundation of microstructural science, connecting the materials structure to its composition, process history, and properties. Microstructural quantification traditionally involves a human deciding a priori what to measure and then devising a purpose-built method for doing so. However, recent advances in data science, including computer vision (CV) and machine learning (ML) offer new approaches to extracting information from microstructural images. This overview surveys CV approaches to numerically encode the visual information contained in a microstructural image, which then provides input to supervised or unsupervised ML algorithms that find associations and trends in the high-dimensional image representation. CV/ML systems for microstructural characterization and analysis span the taxonomy of image analysis tasks, including image classification, semantic segmentation, object detection, and instance segmentation. These tools enable new approaches to microstructural analysis, including the development of new, rich visual metrics and the discovery of processing-microstructure-property relationships.
翻訳日:2022-11-27 05:44:54 公開日:2020-05-28
# Unlucky Explorer: 完全な非オーバーラップマップ探索

Unlucky Explorer: A Complete non-Overlapping Map Exploration ( http://arxiv.org/abs/2005.14156v1 )

ライセンス: Link先を確認
Mohammad Sina Kiarostami and Saleh Khalaj Monfared and Mohammadreza Daneshvaramoli and Ali Oliayi and Negar Yousefian and Dara Rahmati and Saeid Gorgin(参考訳) 現在、コンピュータゲームにおける人工知能(AI in Computer Games)の分野は、コンピュータゲームが幅広い問題、特に一般的な問題でAIの多くの側面に挑戦するため、より順調に進んでいる。 このような問題の1つは探索であり、未知の環境を1つまたは複数のエージェントによって探索する必要がある。 本研究では, エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として, Maze Dashパズルを導入した。 そこで我々は,モンテカルロ木探索(MCTS)とSATに着目し,この問題を迅速かつ正確に解くための適切な手法を探索した。 提案したMCTSアルゴリズムに最適化を適用し,有望な結果を得た。 また,本パズルの事前作成されたテストケースは,提案手法を検証できるほど大きくないので,そのアプローチを評価するために,解決可能なテストケースを生成する手法を提案し,活用した。 最終的に、MCTSベースの手法は自動生成テストケースによって評価され、実装されたSATアプローチと比較された。 比較の結果,MCTS ベースのアプローチは,SAT と比較して高速な実行時間で,中小のテストケースに対処できる,先進的な手法であることが示唆された。 しかし,問題の特徴,木探索機構,シミュレーションステップにおけるMCTSのアプローチなど,特定の理由から,MCTSは大規模シナリオの実行により多くの時間を要する。 その結果、2つの実世界の問題で改善できる重要なテストケースにおいて,mctsに基づく方法のボトルネックが見つかった。

Nowadays, the field of Artificial Intelligence in Computer Games (AI in Games) is going to be more alluring since computer games challenge many aspects of AI with a wide range of problems, particularly general problems. One of these kinds of problems is Exploration, which states that an unknown environment must be explored by one or several agents. In this work, we have first introduced the Maze Dash puzzle as an exploration problem where the agent must find a Hamiltonian Path visiting all the cells. Then, we have investigated to find suitable methods by a focus on Monte-Carlo Tree Search (MCTS) and SAT to solve this puzzle quickly and accurately. An optimization has been applied to the proposed MCTS algorithm to obtain a promising result. Also, since the prefabricated test cases of this puzzle are not large enough to assay the proposed method, we have proposed and employed a technique to generate solvable test cases to evaluate the approaches. Eventually, the MCTS-based method has been assessed by the auto-generated test cases and compared with our implemented SAT approach that is considered a good rival. Our comparison indicates that the MCTS-based approach is an up-and-coming method that could cope with the test cases with small and medium sizes with faster run-time compared to SAT. However, for certain discussed reasons, including the features of the problem, tree search organization, and also the approach of MCTS in the Simulation step, MCTS takes more time to execute in Large size scenarios. Consequently, we have found the bottleneck for the MCTS-based method in significant test cases that could be improved in two real-world problems.
翻訳日:2022-11-27 05:37:14 公開日:2020-05-28
# empathic ai painter: 身体的な会話対話を伴う計算的創造性システム

Empathic AI Painter: A Computational Creativity System with Embodied Conversational Interaction ( http://arxiv.org/abs/2005.14223v1 )

ライセンス: Link先を確認
Ozge Nilay Yalcin, Nouf Abukhodair and Steve DiPaola(参考訳) アーティストは芸術作品(DiPaola et al., 2010; Zeki, 2001)において、望ましい経験や物語を伝えるための認知的・知覚的なメカニズムを理解し、作業するために貴重な方法を使用しているという認識が高まりつつある。 本稿では,人間の特性(人格や感情)を理解して芸術を知らせるポートレート画家の創造過程を計算的にモデル化する試みについて述べる。 我々のシステムには、ユーザの優越した性格カテゴリーをキャプチャする共感的な会話インタラクションコンポーネントと、この分類を用いてユーザの肖像画をパーソナライズする生成AIポートレイチャーシステムが含まれる。 本稿では,NeurIPS 2019 Conferenceのデモセッションで得られたシステムとリアルタイムインタラクション結果について述べる。

There is a growing recognition that artists use valuable ways to understand and work with cognitive and perceptual mechanisms to convey desired experiences and narrative in their created artworks (DiPaola et al., 2010; Zeki, 2001). This paper documents our attempt to computationally model the creative process of a portrait painter, who relies on understanding human traits (i.e., personality and emotions) to inform their art. Our system includes an empathic conversational interaction component to capture the dominant personality category of the user and a generative AI Portraiture system that uses this categorization to create a personalized stylization of the user's portrait. This paper includes the description of our systems and the real-time interaction results obtained during the demonstration session of the NeurIPS 2019 Conference.
翻訳日:2022-11-27 05:36:48 公開日:2020-05-28
# 機械学習と励起状態分子動力学

Machine learning and excited-state molecular dynamics ( http://arxiv.org/abs/2005.14139v1 )

ライセンス: Link先を確認
Julia Westermayr, Philipp Marquetand(参考訳) 機械学習は量子化学の研究分野において急速に使われている。 多くのアプローチは電子基底状態における化学系の研究をターゲットとしているが、プロセスに光を挿入すると電子励起状態となり、いくつかの新しい課題を引き起こす。 本稿では,機械学習に基づく励起状態ダイナミクスの最近の進歩について調査する。 そうすることで、光誘起分子プロセスのための機械学習アプローチの成功、落とし穴、課題、将来の道筋を強調する。

Machine learning is employed at an increasing rate in the research field of quantum chemistry. While the majority of approaches target the investigation of chemical systems in their electronic ground state, the inclusion of light into the processes leads to electronically excited states and gives rise to several new challenges. Here, we survey recent advances for excited-state dynamics based on machine learning. In doing so, we highlight successes, pitfalls, challenges and future avenues for machine learning approaches for light-induced molecular processes.
翻訳日:2022-11-27 05:36:06 公開日:2020-05-28
# 異種高ボリュームニュースストリームにおけるイベント検出のための複雑なネットワーク

Complex networks for event detection in heterogeneous high volume news streams ( http://arxiv.org/abs/2005.13751v1 )

ライセンス: Link先を確認
Iraklis Moutidis and Hywel T.P. Williams(参考訳) 高頻度ニュースストリームにおける重要なイベントの検出は,様々な目的において重要な課題であり,オンラインニュースの量と頻度は,リアルタイムに動作可能な自動イベント検出方法の必要性を高めている。 本稿では、重要なニュースイベントが常に、ニュース記事にリンクする名前付きエンティティ(人、場所、組織など)を巻き込む、ネットワークベースのアプローチを開発する。 本手法では,自然言語処理技術を用いてニュース記事のストリーム内でこれらのエンティティを検出し,検出されたエンティティを記事と文の共起によってリンクする時系列ネットワークを構築する。 このプロトタイプでは、重み付きノード次数は時間とともに追跡され、変更点検出は重要なイベントを見つけるために使用される。 潜在的なイベントは、名前付きエンティティと関連する記事からの情報的名詞句を関連付けるキーグラフを用いて特徴付けされ、区別される。 この手法はすでに有望な結果をもたらしており、将来的には複雑なネットワーク分析技術の範囲を広げる予定である。

Detecting important events in high volume news streams is an important task for a variety of purposes.The volume and rate of online news increases the need for automated event detection methods thatcan operate in real time. In this paper we develop a network-based approach that makes the workingassumption that important news events always involve named entities (such as persons, locationsand organizations) that are linked in news articles. Our approach uses natural language processingtechniques to detect these entities in a stream of news articles and then creates a time-stamped seriesof networks in which the detected entities are linked by co-occurrence in articles and sentences. Inthis prototype, weighted node degree is tracked over time and change-point detection used to locateimportant events. Potential events are characterized and distinguished using community detectionon KeyGraphs that relate named entities and informative noun-phrases from related articles. Thismethodology already produces promising results and will be extended in future to include a widervariety of complex network analysis techniques.
翻訳日:2022-11-27 05:35:58 公開日:2020-05-28
# 自己教師付きモーダルとビュー不変特徴学習

Self-supervised Modal and View Invariant Feature Learning ( http://arxiv.org/abs/2005.14169v1 )

ライセンス: Link先を確認
Longlong Jing, Yucheng Chen, Ling Zhang, Mingyi He, Yingli Tian(参考訳) 既存の3Dデータのための自己教師付き特徴学習手法のほとんどは、ポイントクラウドデータやマルチビューイメージから3D特徴を学習する。 本稿では,3次元オブジェクトに固有のマルチモーダル特性を探索することにより,画像,点雲,メッシュなど,さまざまなモダリティからモーダル不変およびビュー不変の特徴を3次元データのための異種ネットワークで共同学習することを提案する。 モードとビュー不変性を学ぶために, クロスモーダル不変性制約とクロスビュー不変性制約の2種類の制約を提案する。 クロスモーダル不変性制約は、同一オブジェクトに対する異なるモダリティからの特徴の一致を最大化させ、クロスビュー不変性制約は、同一オブジェクトに対する異なるビューからの特徴の最大一致をネットワークに強制する。 学習した機能の質は、ポイントクラウド、マルチビューイメージ、メッシュを含む3つのデータモードで、さまざまな下流タスクでテストされている。 さらに、異なるモーダル性およびビューの不変性を、クロスモーダル検索タスクで評価する。 広範囲な評価結果から,学習した特徴は頑健であり,様々なタスクにまたがる強い一般化性を有することが示された。

Most of the existing self-supervised feature learning methods for 3D data either learn 3D features from point cloud data or from multi-view images. By exploring the inherent multi-modality attributes of 3D objects, in this paper, we propose to jointly learn modal-invariant and view-invariant features from different modalities including image, point cloud, and mesh with heterogeneous networks for 3D data. In order to learn modal- and view-invariant features, we propose two types of constraints: cross-modal invariance constraint and cross-view invariant constraint. Cross-modal invariance constraint forces the network to maximum the agreement of features from different modalities for same objects, while the cross-view invariance constraint forces the network to maximum agreement of features from different views of images for same objects. The quality of learned features has been tested on different downstream tasks with three modalities of data including point cloud, multi-view images, and mesh. Furthermore, the invariance cross different modalities and views are evaluated with the cross-modal retrieval task. Extensive evaluation results demonstrate that the learned features are robust and have strong generalizability across different tasks.
翻訳日:2022-11-27 05:30:20 公開日:2020-05-28
# fcn+rl: 完全な畳み込みネットワークと、オフラインの手書き署名セグメンテーションの改善

FCN+RL: A Fully Convolutional Network followed by Refinement Layers to Offline Handwritten Signature Segmentation ( http://arxiv.org/abs/2005.14229v1 )

ライセンス: Link先を確認
Celso A. M. Lopes Junior, Matheus Henrique M. da Silva, Byron Leite Dantas Bezerra, Bruno Jose Torres Fernandes, and Donato Impedovo(参考訳) 世俗的だが手書きの署名は、ほとんどの国で使われている最も信頼できる生体認証手法の1つである。 過去10年間で,手書き署名の検証技術が,法医学的側面を含めて大きく発展してきた。 背景の複雑さや関心領域の小さなサイズなど、いくつかの要因は、ターゲットタスクの難しさをシグネチャとして生み出しています。 その他の難題となる要因としては、位置、インクの種類、色、ペンの種類、ストロークの種類など手書きの署名に存在する様々なバリエーションがある。 本研究では,署名の位置に関する事前情報なしで手書き署名の画素を識別文書上に特定・抽出する手法を提案する。 使用される手法は、完全に畳み込みエンコーダ/デコーダネットワークと、予測画像のアルファチャネルのための改良層のブロックを組み合わせたものである。 実験の結果,従来の手法よりも忠実度の高いクリーンシグネチャを出力し,シグネチャの綴りに関連する特性を保存できることが示されている。 提案手法の品質を評価するために,SSIM,SIFT,Dice Coefficientという画像類似度指標を用いた。 定性的および定量的な結果は,ベースラインシステムと比較して有意に改善した。

Although secular, handwritten signature is one of the most reliable biometric methods used by most countries. In the last ten years, the application of technology for verification of handwritten signatures has evolved strongly, including forensic aspects. Some factors, such as the complexity of the background and the small size of the region of interest - signature pixels - increase the difficulty of the targeting task. Other factors that make it challenging are the various variations present in handwritten signatures such as location, type of ink, color and type of pen, and the type of stroke. In this work, we propose an approach to locate and extract the pixels of handwritten signatures on identification documents, without any prior information on the location of the signatures. The technique used is based on a fully convolutional encoder-decoder network combined with a block of refinement layers for the alpha channel of the predicted image. The experimental results demonstrate that the technique outputs a clean signature with higher fidelity in the lines than the traditional approaches and preservation of the pertinent characteristics to the signer's spelling. To evaluate the quality of our proposal, we use the following image similarity metrics: SSIM, SIFT, and Dice Coefficient. The qualitative and quantitative results show a significant improvement in comparison with the baseline system.
翻訳日:2022-11-27 05:29:56 公開日:2020-05-28
# コンピュータ断層撮影における顔を用いた人間の認識

Human Recognition Using Face in Computed Tomography ( http://arxiv.org/abs/2005.14238v1 )

ライセンス: Link先を確認
Jiuwen Zhu, Hu Han, and S. Kevin Zhou(参考訳) 臨床診断におけるCT画像のキノコ利用により,CTデータの管理がますます困難になる。 患者識別の観点からは、標準DICOMタグを使用して患者の情報を追跡することは、ミススペルやファイルの紛失、サイトの変化といった問題に悩まされる。 本稿では3次元CT画像における顔の生体的特徴の活用の可能性を検討する。 具体的には、ROI抽出のための3次元顔のランドマークを最初に検出し、自動認識に使用する2次元深度画像を生成する自動処理パイプラインを提案する。 認識性能を向上させるため,データスパシティ問題を低減するために転送学習を採用し,グループサンプリング戦略を導入し,認識ネットワークを訓練する際のクラス間差別を高める。 提案手法は,メモリ消費を低減しつつ,医用画像の基盤となるアイデンティティ特性を捉えることができる。 有効性を検証するため,複数の検査源から280例の3dct画像600枚を収集し,評価を行った。 実験の結果,92.53%の1:56識別精度と96.12%の1:1検証精度を達成し,他の競合手法を上回った。

With the mushrooming use of computed tomography (CT) images in clinical decision making, management of CT data becomes increasingly difficult. From the patient identification perspective, using the standard DICOM tag to track patient information is challenged by issues such as misspelling, lost file, site variation, etc. In this paper, we explore the feasibility of leveraging the faces in 3D CT images as biometric features. Specifically, we propose an automatic processing pipeline that first detects facial landmarks in 3D for ROI extraction and then generates aligned 2D depth images, which are used for automatic recognition. To boost the recognition performance, we employ transfer learning to reduce the data sparsity issue and to introduce a group sampling strategy to increase inter-class discrimination when training the recognition network. Our proposed method is capable of capturing underlying identity characteristics in medical images while reducing memory consumption. To test its effectiveness, we curate 600 3D CT images of 280 patients from multiple sources for performance evaluation. Experimental results demonstrate that our method achieves a 1:56 identification accuracy of 92.53% and a 1:1 verification accuracy of 96.12%, outperforming other competing approaches.
翻訳日:2022-11-27 05:29:39 公開日:2020-05-28
# LR-CNN:航空画像における車両検出のための地域認識領域CNN

LR-CNN: Local-aware Region CNN for Vehicle Detection in Aerial Imagery ( http://arxiv.org/abs/2005.14264v1 )

ライセンス: Link先を確認
Wentong Liao, Xiang Chen, Jingfeng Yang, Stefan Roth, Michael Goesele, Michael Ying Yang, Bodo Rosenhahn(参考訳) Fast/Faster R-CNN, SSD, YOLOといった最先端のオブジェクト検出手法では, 大規模な空中画像において, 任意の向きの高密度で小さなターゲットを検出するのが困難である。 主な理由は、補間を使ってRoI機能を整列させると、精度の欠如や位置情報の喪失につながるためである。 本稿では,航空画像における車両検出のための新しい2段階アプローチである,ローカルアウェア領域畳み込みニューラルネットワーク(lr-cnn)を提案する。 我々は,高精度RoIsの特徴を集約することにより,高密度車両の翻訳不変性を高め,高密度車両の境界量子化問題に対処する。 さらに,より浅い畳み込みブロックの特徴から,高レベルのセマンティックプール機能を再サンプリングし,位置情報を復元する。 これにより、再サンプリングされた特徴に対する局所的特徴不変性を強化し、任意の向きで車両を検出することができる。 局所的特徴不変性は、焦点損失関数の学習能力を高め、焦点損失はさらに、難しい例に焦点を合わせるのに役立つ。 本手法は,航空画像の課題に対処する。 我々は,いくつかの挑戦的データセット(VEDAI,DOTA)に対するアプローチを評価し,最先端手法よりも大幅に改善したことを示す。 DLR 3Kデータセットに対するアプローチの優れた一般化能力を示す。

State-of-the-art object detection approaches such as Fast/Faster R-CNN, SSD, or YOLO have difficulties detecting dense, small targets with arbitrary orientation in large aerial images. The main reason is that using interpolation to align RoI features can result in a lack of accuracy or even loss of location information. We present the Local-aware Region Convolutional Neural Network (LR-CNN), a novel two-stage approach for vehicle detection in aerial imagery. We enhance translation invariance to detect dense vehicles and address the boundary quantization issue amongst dense vehicles by aggregating the high-precision RoIs' features. Moreover, we resample high-level semantic pooled features, making them regain location information from the features of a shallower convolutional block. This strengthens the local feature invariance for the resampled features and enables detecting vehicles in an arbitrary orientation. The local feature invariance enhances the learning ability of the focal loss function, and the focal loss further helps to focus on the hard examples. Taken together, our method better addresses the challenges of aerial imagery. We evaluate our approach on several challenging datasets (VEDAI, DOTA), demonstrating a significant improvement over state-of-the-art methods. We demonstrate the good generalization ability of our approach on the DLR 3K dataset.
翻訳日:2022-11-27 05:29:18 公開日:2020-05-28
# 単眼深度推定器:脆弱性と攻撃

Monocular Depth Estimators: Vulnerabilities and Attacks ( http://arxiv.org/abs/2005.14302v1 )

ライセンス: Link先を確認
Alwyn Mathew, Aditya Prakash Patra, Jimson Mathew(参考訳) ニューラルネットワークの最近の進歩は、信頼性の高い単眼深度推定に繋がる。 単眼深度推定技術は、従来の深度推定技術よりも上手であり、推論中に1つの画像しか必要としない。 深さの推定はロボティクスにおける重要なタスクの1つであり、単眼深度推定は自動運転車や手術用デバイスなど、様々な安全クリティカルな応用がある。 したがって、このようなテクニックの堅牢性は非常に重要です。 これらのディープニューラルネットワークは、分類、検出、セグメンテーションといったタスクにおいて、敵のサンプルに対して非常に脆弱であることが最近の研究で示されている。 これらの敵対的なサンプルはシステムの出力を完全に破壊し、リアルタイムデプロイメントにおける信頼性を疑わしいものにする。 本稿では,最も最先端な単分子深度推定ネットワークの敵攻撃に対する堅牢性について検討する。 私たちの実験では、裸眼では見えない画像上の小さな摂動(摂動攻撃)と、画像の約1%未満の腐敗(パッチ攻撃)が、深度推定に大きく影響することを示しています。 本稿では,ネットワークのデコーダが低深度マップを出力することを強制する隠れた特徴空間表現を損なう,新しい深層特徴消滅損失を提案する。 ホワイトボックスとブラックボックステストは、提案された攻撃の有効性を補完する。 また、主にデータ間転送可能性に関する逆例転送可能性試験を行う。

Recent advancements of neural networks lead to reliable monocular depth estimation. Monocular depth estimated techniques have the upper hand over traditional depth estimation techniques as it only needs one image during inference. Depth estimation is one of the essential tasks in robotics, and monocular depth estimation has a wide variety of safety-critical applications like in self-driving cars and surgical devices. Thus, the robustness of such techniques is very crucial. It has been shown in recent works that these deep neural networks are highly vulnerable to adversarial samples for tasks like classification, detection and segmentation. These adversarial samples can completely ruin the output of the system, making their credibility in real-time deployment questionable. In this paper, we investigate the robustness of the most state-of-the-art monocular depth estimation networks against adversarial attacks. Our experiments show that tiny perturbations on an image that are invisible to the naked eye (perturbation attack) and corruption less than about 1% of an image (patch attack) can affect the depth estimation drastically. We introduce a novel deep feature annihilation loss that corrupts the hidden feature space representation forcing the decoder of the network to output poor depth maps. The white-box and black-box test compliments the effectiveness of the proposed attack. We also perform adversarial example transferability tests, mainly cross-data transferability.
翻訳日:2022-11-27 05:28:55 公開日:2020-05-28
# 不整合映像系列に対する自己注意深度推定ネットワーク

Self-Attention Dense Depth Estimation Network for Unrectified Video Sequences ( http://arxiv.org/abs/2005.14313v1 )

ライセンス: Link先を確認
Alwyn Mathew, Aditya Prakash Patra, Jimson Mathew(参考訳) 3Dシーンの深度推定は、主にロボット工学や監視において多くの応用がある。 LiDARとレーダーセンサーは、リアルタイム深度推定のためのハードウェアソリューションであるが、これらのセンサーはスパース深度マップを生成し、時には信頼できない。 近年,単一2次元画像を用いた深度推定のための研究が注目されている。 修正ステレオおよび単眼ビデオフレームからの深層学習に基づく自己教師型深度推定法は有望な結果を示した。 未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。 また,トレーニングパイプラインにカメラの非微分歪みを導入する。 提案手法は, 深度推定に補正画像を用いた他の既存の手法と比較して, 競合的に機能する。

The dense depth estimation of a 3D scene has numerous applications, mainly in robotics and surveillance. LiDAR and radar sensors are the hardware solution for real-time depth estimation, but these sensors produce sparse depth maps and are sometimes unreliable. In recent years research aimed at tackling depth estimation using single 2D image has received a lot of attention. The deep learning based self-supervised depth estimation methods from the rectified stereo and monocular video frames have shown promising results. We propose a self-attention based depth and ego-motion network for unrectified images. We also introduce non-differentiable distortion of the camera into the training pipeline. Our approach performs competitively when compared to other established approaches that used rectified images for depth estimation.
翻訳日:2022-11-27 05:28:13 公開日:2020-05-28
# 簡潔な発表:GPU上の畳み込みニューラルネットワークの並列化の限界について

Brief Announcement: On the Limits of Parallelizing Convolutional Neural Networks on GPUs ( http://arxiv.org/abs/2005.13823v1 )

ライセンス: Link先を確認
Behnam Pourghassemi (1), Chenghao Zhang (1), Joo Hwan Lee (2), Aparna Chandramowlishwaran (1) ((1) University of California, Irvine, (2) Samsung Semiconductor)(参考訳) gpuは現在、ニューラルネットワークのトレーニングに最適なプラットフォームである。 しかし、深層ニューラルネットワーク(dnn)のトレーニングは、学習しなければならないパラメータが膨大なため、gpu上でも時間を要するプロセスである。 結果として、DNNトレーニングの加速は、ここ数年で重要な研究の領域となっている。 AlexNetのような以前のネットワークはレイヤとオペレーションの間に線形な依存関係を持っていたが、ResNet、PathNet、GoogleNetのような最先端のネットワークは、高いレベルの相互運用並列性を示す非線形構造を持っている。 しかしながら、TensorFlowやPyTorchといった一般的なディープラーニング(DL)フレームワークは、ニューラルネットワーク操作の大部分、特に畳み込み(convolution)をGPU上でシリアルに起動し、この相互並列性を利用していない。 この短い発表では、トレーニング時間を短縮するために最先端の非線形ネットワークにおいて、このリッチな並列性を利用する必要性と潜在的な利点について述べる。 DLフレームワークのGPUバックエンド(cuDNNなど)上で並列レイヤの実行を可能にする上での課題と制限を特定し、潜在的なソリューションを提案する。

GPUs are currently the platform of choice for training neural networks. However, training a deep neural network (DNN) is a time-consuming process even on GPUs because of the massive number of parameters that have to be learned. As a result, accelerating DNN training has been an area of significant research in the last couple of years. While earlier networks such as AlexNet had a linear dependency between layers and operations, state-of-the-art networks such as ResNet, PathNet, and GoogleNet have a non-linear structure that exhibits a higher level of inter-operation parallelism. However, popular deep learning (DL) frameworks such as TensorFlow and PyTorch launch the majority of neural network operations, especially convolutions, serially on GPUs and do not exploit this inter-op parallelism. In this brief announcement, we make a case for the need and potential benefit of exploiting this rich parallelism in state-of-the-art non-linear networks for reducing the training time. We identify the challenges and limitations in enabling concurrent layer execution on GPU backends (such as cuDNN) of DL frameworks and propose potential solutions.
翻訳日:2022-11-27 05:21:00 公開日:2020-05-28
# 産業事故防止のためのビデオを用いた深層学習に基づく異常検出

Anomaly Detection Based on Deep Learning Using Video for Prevention of Industrial Accidents ( http://arxiv.org/abs/2005.13734v1 )

ライセンス: Link先を確認
Satoshi Hashimoto, Yonghoon Ji, Kenichi Kudo, Takayuki Takahashi, and Kazunori Umeda(参考訳) 本稿では,機械学習技術を用いた産業事故防止のための異常検出手法を提案する。

This paper proposes an anomaly detection method for the prevention of industrial accidents using machine learning technology.
翻訳日:2022-11-27 05:20:39 公開日:2020-05-28
# 複数の異種ラベル付きデータセットからの学習によるユニバーサル病変検出

Universal Lesion Detection by Learning from Multiple Heterogeneously Labeled Datasets ( http://arxiv.org/abs/2005.13753v1 )

ライセンス: Link先を確認
Ke Yan, Jinzheng Cai, Adam P. Harrison, Dakai Jin, Jing Xiao, Le Lu(参考訳) 病変検出は医用画像解析において重要な問題である。 これまでのほとんどの研究は、特殊な病変(肺結節など)の検出とセグメンテーションに重点を置いていた。 しかし、臨床において、放射線科医はあらゆる種類の異常を見つける責任がある。 全身から多種多様な病変を検出することで,この課題に対処するために,ユニバーサル病変検出(ULD)の課題が提案された。 ラベル完全度が異なる複数の不均質なラベル付きデータセットがあり、32,735個の注釈付き病変の最大のデータセットであるdeeplesionや、肺結節のlunaや肝腫瘍のlitsなど、複数の完全ラベル付き単一型病変データセットがある。 本研究では,これらのデータセットを併用して ULD の性能を向上させる新しいフレームワークを提案する。 まず,全データセットを用いてマルチヘッドマルチタスク病変検出法を学習し,DeepLesionの病変提案を生成する。 第二に、DeepLesionに欠けているアノテーションは、臨床の事前知識を活用する新しい方法によって検索される。 最後に, 単一型病変検出装置からの知識伝達による疑わしい病変の発見を行った。 これにより、部分的にラベル付けされた画像とラベル付けされていない画像から信頼性の高い正負領域が得られる。 臨床的に現実的な3DボリュームUDDのプロトコルを評価するため,DeepLesionに1071CTサブボリュームを全注した。 本手法は, 平均感度測定値において, 最先端のアプローチを29%向上させる。

Lesion detection is an important problem within medical imaging analysis. Most previous work focuses on detecting and segmenting a specialized category of lesions (e.g., lung nodules). However, in clinical practice, radiologists are responsible for finding all possible types of anomalies. The task of universal lesion detection (ULD) was proposed to address this challenge by detecting a large variety of lesions from the whole body. There are multiple heterogeneously labeled datasets with varying label completeness: DeepLesion, the largest dataset of 32,735 annotated lesions of various types, but with even more missing annotation instances; and several fully-labeled single-type lesion datasets, such as LUNA for lung nodules and LiTS for liver tumors. In this work, we propose a novel framework to leverage all these datasets together to improve the performance of ULD. First, we learn a multi-head multi-task lesion detector using all datasets and generate lesion proposals on DeepLesion. Second, missing annotations in DeepLesion are retrieved by a new method of embedding matching that exploits clinical prior knowledge. Last, we discover suspicious but unannotated lesions using knowledge transfer from single-type lesion detectors. In this way, reliable positive and negative regions are obtained from partially-labeled and unlabeled images, which are effectively utilized to train ULD. To assess the clinically realistic protocol of 3D volumetric ULD, we fully annotated 1071 CT sub-volumes in DeepLesion. Our method outperforms the current state-of-the-art approach by 29% in the metric of average sensitivity.
翻訳日:2022-11-27 05:20:22 公開日:2020-05-28
# エッジ検出のための従来手法に基づく深層ニューラルネットワーク

Traditional Method Inspired Deep Neural Network for Edge Detection ( http://arxiv.org/abs/2005.13862v1 )

ライセンス: Link先を確認
Jan Kristanto Wibisono and Hsueh-Ming Hang(参考訳) 近年,Deep-Neural-Network (DNN)に基づくエッジ予測が急速に進んでいる。 DNNベースのスキームは従来のエッジ検出器よりも優れているが、計算の複雑さははるかに高い。 DNNベースのエッジ検出器は、イメージセグメンテーションやオブジェクト認識など、高レベルのコンピュータビジョンタスク用に設計されたニューラルネットワーク構造を採用することが多い。 エッジ検出は比較的局所的で単純な仕事であり、過剰に複雑なアーキテクチャと大量のパラメータは不要かもしれない。 そこで本研究では,最小限の複雑性で優れたエッジを生成する伝統的な手法を提案する。 従来のエッジ検出方式では,グラデーション,ローパスフィルタ,ピクセル接続に大まかに対応する特徴抽出器,エンリッチメント,要約器を含むネットワークアーキテクチャを単純化する。 提案した構造は、複雑さを効果的に低減し、エッジ予測品質を維持することができる。 我々のTIN2(Traditional Inspired Network)モデルは、最近のBDCN2(Bi-Directional Cascade Network)よりも精度が高いが、より小さいモデルである。

Recently, Deep-Neural-Network (DNN) based edge prediction is progressing fast. Although the DNN based schemes outperform the traditional edge detectors, they have much higher computational complexity. It could be that the DNN based edge detectors often adopt the neural net structures designed for high-level computer vision tasks, such as image segmentation and object recognition. Edge detection is a rather local and simple job, the over-complicated architecture and massive parameters may be unnecessary. Therefore, we propose a traditional method inspired framework to produce good edges with minimal complexity. We simplify the network architecture to include Feature Extractor, Enrichment, and Summarizer, which roughly correspond to gradient, low pass filter, and pixel connection in the traditional edge detection schemes. The proposed structure can effectively reduce the complexity and retain the edge prediction quality. Our TIN2 (Traditional Inspired Network) model has an accuracy higher than the recent BDCN2 (Bi-Directional Cascade Network) but with a smaller model.
翻訳日:2022-11-27 05:19:36 公開日:2020-05-28
# p2b:ポイントクラウド内の3dオブジェクト追跡のためのポイントツーボックスネットワーク

P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds ( http://arxiv.org/abs/2005.13888v1 )

ライセンス: Link先を確認
Haozhe Qi, Chen Feng, Zhiguo Cao, Feng Zhao, and Yang Xiao(参考訳) ポイントクラウドにおける3dオブジェクト追跡に向けて,p2bと呼ばれる新しいポイントツーボックスネットワークをエンドツーエンド学習方式で提案する。 私たちの主なアイデアは、ターゲット情報を埋め込んだ3d検索エリアのターゲットセンターを最初にローカライズすることです。 そして、ポイント駆動3d目標提案と検証を共同で実行する。 これにより、時間を要する3D排他探索を回避できる。 具体的には,まず,テンプレートと検索領域の点群から種子を採取した。 次に,テンプレートからターゲットのヒントを検索領域の種に埋め込み,ターゲット固有の特徴で表現するために,置換不変な特徴拡張を実行する。 その結果、強化された検索エリア種子はハフ投票によって潜在的ターゲットセンターを後退させる。 センターはさらに種子方向の目標スコアで強化される。 最後に、各センターは隣人をクラスタし、3dターゲットの提案と検証にアンサンブルパワーを利用する。 我々はPointNet++をバックボーンとして採用し、KITTI追跡データセットの実験を行い、P2Bの優位性(最先端よりも約10%向上)を実証した。 なお、p2bはnvidia 1080ti gpuで40fpsで動作する。 私たちのコードとモデルはhttps://github.com/haozheqi/p2bで利用可能です。

Towards 3D object tracking in point clouds, a novel point-to-box network termed P2B is proposed in an end-to-end learning manner. Our main idea is to first localize potential target centers in 3D search area embedded with target information. Then point-driven 3D target proposal and verification are executed jointly. In this way, the time-consuming 3D exhaustive search can be avoided. Specifically, we first sample seeds from the point clouds in template and search area respectively. Then, we execute permutation-invariant feature augmentation to embed target clues from template into search area seeds and represent them with target-specific features. Consequently, the augmented search area seeds regress the potential target centers via Hough voting. The centers are further strengthened with seed-wise targetness scores. Finally, each center clusters its neighbors to leverage the ensemble power for joint 3D target proposal and verification. We apply PointNet++ as our backbone and experiments on KITTI tracking dataset demonstrate P2B's superiority (~10%'s improvement over state-of-the-art). Note that P2B can run with 40FPS on a single NVIDIA 1080Ti GPU. Our code and model are available at https://github.com/HaozheQi/P2B.
翻訳日:2022-11-27 05:19:18 公開日:2020-05-28
# 絡み合いと再構成:教師なしドメイン適応のためのコンパクトな特徴の学習

Disentanglement Then Reconstruction: Learning Compact Features for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2005.13947v1 )

ライセンス: Link先を確認
Lihua Zhou, Mao Ye, Xinpeng Li, Ce Zhu, Yiguang Liu, and Xue Li(参考訳) ドメイン適応における最近の研究は、常にドメイン不変の特徴を学習し、ソースとターゲットのドメイン間のギャップを敵法で緩和する。 カテゴリ情報は十分に使われておらず、学習された領域不変な特徴が十分に判別できない。 本稿では,データクラスタのキャプチャーを好むプロトタイプ構築に基づく新しいドメイン適応手法を提案する。 具体的には、絡み合いと再構成の2つの部分からなる。 まず、ドメイン固有の機能とドメイン不変機能は、元の機能から切り離されている。 同時に、両ドメインのドメインプロトタイプとクラスプロトタイプが推定される。 そして、不等角化領域不変特徴とドメイン固有特徴から元の特徴を再構成して再構成子を訓練する。 この再構築により、クラスプロトタイプとドメインプロトタイプを用いて、元の機能のプロトタイプを構築できる。 最終的に、特徴抽出ネットワークはこれらのプロトタイプに近い特徴を抽出せざるを得ない。 我々の貢献は、コンストラクタの技術的利用によって、コンパクトで差別的な特徴を学習するのに役立つオリジナルの特徴プロトタイプを得ることです。 私たちの知る限りでは、このアイデアは初めて提案されています。 いくつかの公開データセットにおける実験結果から,本手法の最先端性能を確認した。

Recent works in domain adaptation always learn domain invariant features to mitigate the gap between the source and target domains by adversarial methods. The category information are not sufficiently used which causes the learned domain invariant features are not enough discriminative. We propose a new domain adaptation method based on prototype construction which likes capturing data cluster centers. Specifically, it consists of two parts: disentanglement and reconstruction. First, the domain specific features and domain invariant features are disentangled from the original features. At the same time, the domain prototypes and class prototypes of both domains are estimated. Then, a reconstructor is trained by reconstructing the original features from the disentangled domain invariant features and domain specific features. By this reconstructor, we can construct prototypes for the original features using class prototypes and domain prototypes correspondingly. In the end, the feature extraction network is forced to extract features close to these prototypes. Our contribution lies in the technical use of the reconstructor to obtain the original feature prototypes which helps to learn compact and discriminant features. As far as we know, this idea is proposed for the first time. Experiment results on several public datasets confirm the state-of-the-art performance of our method.
翻訳日:2022-11-27 05:18:59 公開日:2020-05-28
# sigmorphon 2020 の非教師なし形態的パラダイム完成に関するタスク

The SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm Completion ( http://arxiv.org/abs/2005.13756v1 )

ライセンス: Link先を確認
Katharina Kann, Arya McCarthy, Garrett Nicolai, Mans Hulden(参考訳) 本稿では, インフレクション形態学の新しい課題である非教師なし形態学パラダイム完了タスク(SIGMORPHON 2020 Task 2)について, SIGMORPHON 2020共有タスクの発見について述べる。 参加者は生のテキストと補題のリストを入力として入力し、各補題の形態的パラダイム全体を含む全ての帰納形式を出力するシステムを提出した。 現実的なユースケースをシミュレートするために、5つの開発言語のためのデータをリリースした。 しかし、システムは9つのサプライズ言語で公式に評価され、提出期限の数日前に公表された。 4つのコンポーネントからなるパイプラインであるモジュラーベースラインシステムを提供した。 3つのチームが合計7つのシステムを提出したが、驚いたことに、どのシステムもベースラインよりも平均して9つのテスト言語を改善できなかった。 3つの言語でのみ、提出されたシステムが最高の結果を得た。 これは、教師なし形態素パラダイムの完備化は、まだほとんど未解決であることを示している。 ここでは、この共有タスクがトピックに関するさらなる研究の基礎となるよう分析を行う。

In this paper, we describe the findings of the SIGMORPHON 2020 shared task on unsupervised morphological paradigm completion (SIGMORPHON 2020 Task 2), a novel task in the field of inflectional morphology. Participants were asked to submit systems which take raw text and a list of lemmas as input, and output all inflected forms, i.e., the entire morphological paradigm, of each lemma. In order to simulate a realistic use case, we first released data for 5 development languages. However, systems were officially evaluated on 9 surprise languages, which were only revealed a few days before the submission deadline. We provided a modular baseline system, which is a pipeline of 4 components. 3 teams submitted a total of 7 systems, but, surprisingly, none of the submitted systems was able to improve over the baseline on average over all 9 test languages. Only on 3 languages did a submitted system obtain the best results. This shows that unsupervised morphological paradigm completion is still largely unsolved. We present an analysis here, so that this shared task will ground further research on the topic.
翻訳日:2022-11-27 05:12:34 公開日:2020-05-28
# ConCET: オープンドメイン対話エージェントのエンティティ対応トピック分類

ConCET: Entity-Aware Topic Classification for Open-Domain Conversational Agents ( http://arxiv.org/abs/2005.13798v1 )

ライセンス: Link先を確認
Ali Ahmadvand, Harshita Sahijwani, Jason Ingyu Choi, Eugene Agichtein(参考訳) オープンドメイン会話システムにおける各ユーザの発話のトピック(ドメイン)を識別することは、その後のすべての言語理解および応答タスクにとって重要なステップである。 特に複雑なドメインでは、発話はそのドメインに責任を持つ単一のコンポーネントにルーティングされることが多い。 したがって、ユーザの発話を正しいドメインに正しくマッピングすることが重要である。 この問題に対処するために,我々は,エンティティ型情報と発話内容の特徴を併用したコンカレントエンティティ対応対話型トピック分類器concetを提案する。 具体的には、ConCETはエンティティ情報を利用して発話表現を強化し、文字、単語、エンティティタイプの埋め込みを単一の表現に結合する。 しかし、数百万のエンティティを持つリッチドメインでは、非現実的な量のラベル付きトレーニングデータが必要である。 このモデルを補完するために,一般的に利用可能な知識ベースを用いて,通常限られたラベル付きトレーニングデータを増やし,追加のラベル付き発話を生成する,簡易かつ効果的な合成トレーニングデータ生成手法を提案する。 本稿では,ConCETと提案したトレーニング手法を,まず公開可能な人間対話データセットであるSelf-Dialogueを用いて,従来の最先端手法に対するアプローチの校正を行い,次に,Amazon Alexa Prizeの一部として収集された実ユーザとの人間機械会話の大規模なデータセット上で,ConCETを評価する。 以上の結果から,ConCETは両データセットのトピック分類性能を大幅に改善し,最先端のディープラーニング手法よりも8~10%向上した。 我々は,対話エージェントのさらなる改良に使用できるシステム性能の詳細な分析により,定量的結果を補完する。

Identifying the topic (domain) of each user's utterance in open-domain conversational systems is a crucial step for all subsequent language understanding and response tasks. In particular, for complex domains, an utterance is often routed to a single component responsible for that domain. Thus, correctly mapping a user utterance to the right domain is critical. To address this problem, we introduce ConCET: a Concurrent Entity-aware conversational Topic classifier, which incorporates entity-type information together with the utterance content features. Specifically, ConCET utilizes entity information to enrich the utterance representation, combining character, word, and entity-type embeddings into a single representation. However, for rich domains with millions of available entities, unrealistic amounts of labeled training data would be required. To complement our model, we propose a simple and effective method for generating synthetic training data, to augment the typically limited amounts of labeled training data, using commonly available knowledge bases to generate additional labeled utterances. We extensively evaluate ConCET and our proposed training method first on an openly available human-human conversational dataset called Self-Dialogue, to calibrate our approach against previous state-of-the-art methods; second, we evaluate ConCET on a large dataset of human-machine conversations with real users, collected as part of the Amazon Alexa Prize. Our results show that ConCET significantly improves topic classification performance on both datasets, including 8-10% improvements over state-of-the-art deep learning methods. We complement our quantitative results with detailed analysis of system performance, which could be used for further improvements of conversational agents.
翻訳日:2022-11-27 05:12:17 公開日:2020-05-28
# 今、スポーツについて話しませんか。 オープンドメイン対話エージェントの文脈的話題提案に向けて

Would you Like to Talk about Sports Now? Towards Contextual Topic Suggestion for Open-Domain Conversational Agents ( http://arxiv.org/abs/2005.13803v1 )

ライセンス: Link先を確認
Ali Ahmadvand, Harshita Sahijwani, Eugene Agichtein(参考訳) 真の会話を行うには、インテリジェントエージェントは時々イニシアチブを受け取り、次の自然な会話トピックを推奨できるべきである。 これは難しい仕事です。 エージェントが提案するトピックは、その人に関連するものでなければならず、会話のコンテキストに適しており、エージェントはそれについて何か面白いことを言うべきである。 したがって、スクリプト化された、あるいはすべてに適合する、人気に基づくトピックの提案は失敗の運命にある。 代わりに、オープンドメイン会話のためのパーソナライズされたコンテキストトピック提案のためのさまざまな方法を検討する。 我々は,会話トピック提案問題(CTS)を形式化し,仮定と要件をより明確に識別する。 1)会話コンテキストをキャプチャするためのモデルベースの逐次トピック提案(CTS-Seq)、(2)類似ユーザ(CTS-CF)からの以前の会話をキャプチャするための協調フィルタリングに基づく提案(CTS-CF)、(3)会話コンテキストと協調フィルタリングを組み合わせたハイブリッドアプローチ(リンク)である。 これらの手法の有効性を評価するために、Amazon Alexa Prize 2018 Conversational AI Challengeの一部として収集された実際の会話を使用する。 CTS-Seqモデルでは、ベースラインよりも23%高い精度のトピックが提案され、協調フィルタリング信号をハイブリッドCTS-Seq-CFモデルに組み込むことで、推奨精度が12%向上する。 提案するモデル,実験,分析により,オープンドメイン会話エージェントの研究が大幅に進展し,今後の改善に向けた有望な方向性が示唆された。

To hold a true conversation, an intelligent agent should be able to occasionally take initiative and recommend the next natural conversation topic. This is a challenging task. A topic suggested by the agent should be relevant to the person, appropriate for the conversation context, and the agent should have something interesting to say about it. Thus, a scripted, or one-size-fits-all, popularity-based topic suggestion is doomed to fail. Instead, we explore different methods for a personalized, contextual topic suggestion for open-domain conversations. We formalize the Conversational Topic Suggestion problem (CTS) to more clearly identify the assumptions and requirements. We also explore three possible approaches to solve this problem: (1) model-based sequential topic suggestion to capture the conversation context (CTS-Seq), (2) Collaborative Filtering-based suggestion to capture previous successful conversations from similar users (CTS-CF), and (3) a hybrid approach combining both conversation context and collaborative filtering. To evaluate the effectiveness of these methods, we use real conversations collected as part of the Amazon Alexa Prize 2018 Conversational AI challenge. The results are promising: the CTS-Seq model suggests topics with 23% higher accuracy than the baseline, and incorporating collaborative filtering signals into a hybrid CTS-Seq-CF model further improves recommendation accuracy by 12%. Together, our proposed models, experiments, and analysis significantly advance the study of open-domain conversational agents, and suggest promising directions for future improvements.
翻訳日:2022-11-27 05:11:51 公開日:2020-05-28
# オープンドメイン会話エージェントの文脈対話行為分類

Contextual Dialogue Act Classification for Open-Domain Conversational Agents ( http://arxiv.org/abs/2005.13804v1 )

ライセンス: Link先を確認
Ali Ahmadvand, Jason Ingyu Choi, Eugene Agichtein(参考訳) 会話におけるユーザ発話の一般的な意図を分類することは、会話エージェントのための自然言語理解(NLU)において重要なステップである。 DA分類は人間と人間の会話において広く研究されているが、新たなオープンドメイン自動会話エージェントでは十分に研究されていない。 さらに、発話レベルDA分類の大幅な進歩にもかかわらず、対話発話の完全な理解には会話の文脈が必要である。 もうひとつの課題は、オープンドメインのヒューマンマシン会話のためのラベル付きデータがないことだ。 このような問題に対処するために,文脈対話行為分類法CDAC (Contextual Dialogue Act Classifier) を提案する。 具体的には,人間-機械対話における対話行動を予測するために,人間-人間対話を訓練したモデルを適用するためにトランスファー学習を用いる。 提案手法の有効性を検討するため,Amazon Alexa Prize 2018コンペティションの一環として収集された,人間と機械の対話データにおける対話行動を予測するために,よく知られたSwitchboard人間対話データセットを用いてモデルを訓練した。 以上の結果から,CDACモデルは,Switchboardデータセットの発話レベルを8.0%向上させ,最新の最先端DA分類結果に匹敵する結果を示した。 さらに,本研究の結果から,手動でラベル付けされた人間と機械の会話の小さなサンプルに対してCDACモデルを微調整することにより,実際のユーザの会話における対話行動をより正確に予測し,今後の改善に向けて期待できる方向が示唆された。

Classifying the general intent of the user utterance in a conversation, also known as Dialogue Act (DA), e.g., open-ended question, statement of opinion, or request for an opinion, is a key step in Natural Language Understanding (NLU) for conversational agents. While DA classification has been extensively studied in human-human conversations, it has not been sufficiently explored for the emerging open-domain automated conversational agents. Moreover, despite significant advances in utterance-level DA classification, full understanding of dialogue utterances requires conversational context. Another challenge is the lack of available labeled data for open-domain human-machine conversations. To address these problems, we propose a novel method, CDAC (Contextual Dialogue Act Classifier), a simple yet effective deep learning approach for contextual dialogue act classification. Specifically, we use transfer learning to adapt models trained on human-human conversations to predict dialogue acts in human-machine dialogues. To investigate the effectiveness of our method, we train our model on the well-known Switchboard human-human dialogue dataset, and fine-tune it for predicting dialogue acts in human-machine conversation data, collected as part of the Amazon Alexa Prize 2018 competition. The results show that the CDAC model outperforms an utterance-level state of the art baseline by 8.0% on the Switchboard dataset, and is comparable to the latest reported state-of-the-art contextual DA classification results. Furthermore, our results show that fine-tuning the CDAC model on a small sample of manually labeled human-machine conversations allows CDAC to more accurately predict dialogue acts in real users' conversations, suggesting a promising direction for future improvements.
翻訳日:2022-11-27 05:11:25 公開日:2020-05-28
# 大規模音声タイポロジーのためのコーパス

A Corpus for Large-Scale Phonetic Typology ( http://arxiv.org/abs/2005.13962v1 )

ライセンス: Link先を確認
Elizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner, Ryan Cotterell, Alan W Black and Jason Eisner(参考訳) タイポロジーに関するデータ駆動研究における大きなハードルは、意味のある結論を引き出すために、多くの言語で十分なデータを持つことである。 我々は635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと、母音とシビラントの音響・音韻測定を併用した最初の音素タイプ分類用大規模コーパスであるVoxClamantis v1.0を提示する。 このようなデータへのアクセスは、大規模で多くの言語で音韻的タイポロジーの調査を大いに助ける。 しかし、数百の言語でそのようなアライメントを得るのは非自明で計算集約的であり、その多くが現在利用可能なリソースは少ない。 コーパスを作成するための方法論を解説し、現在の手法とそれらのデータの有用性への影響を議論し、48の最高品質読解に関する一連のケーススタディを通して研究の方向性を説明する。 私たちのコーパスとスクリプトは、https://voxclamantisproject.github.io.com/commercial useで公開されています。

A major hurdle in data-driven research on typology is having sufficient data in many languages to draw meaningful conclusions. We present VoxClamantis v1.0, the first large-scale corpus for phonetic typology, with aligned segments and estimated phoneme-level labels in 690 readings spanning 635 languages, along with acoustic-phonetic measures of vowels and sibilants. Access to such data can greatly facilitate investigation of phonetic typology at a large scale and across many languages. However, it is non-trivial and computationally intensive to obtain such alignments for hundreds of languages, many of which have few to no resources presently available. We describe the methodology to create our corpus, discuss caveats with current methods and their impact on the utility of this data, and illustrate possible research directions through a series of case studies on the 48 highest-quality readings. Our corpus and scripts are publicly available for non-commercial use at https://voxclamantisproject.github.io.
翻訳日:2022-11-27 05:10:58 公開日:2020-05-28
# 正規化流を用いた変動型ニューラルマシン翻訳

Variational Neural Machine Translation with Normalizing Flows ( http://arxiv.org/abs/2005.13978v1 )

ライセンス: Link先を確認
Hendra Setiawan, Matthias Sperber, Udhay Nallasamy, Matthias Paulik(参考訳) 変分ニューラルネットワーク変換(VNMT)は、原文だけでなく、潜在確率変数にも条件付けされたターゲット翻訳の生成をモデル化するための魅力的なフレームワークである。 潜在変数モデリングは、翻訳精度を向上させる有用な統計依存性をもたらすかもしれない。 残念ながら、潜時空間は禁止的に大きくなり、潜時符号は訓練時に多くの翻訳モデルによって無視される傾向があるため、潜時変数の学習は簡単ではない。 以前の作品は潜在コードの分布に強い仮定を課しており、nmtアーキテクチャの選択を制限している。 本稿では,VNMTフレームワークを最先端の変圧器に適用し,正規化フローに基づくより柔軟な近似後流を導入することを提案する。 本提案の有効性をドメイン内およびドメイン外の両方の条件下で示し,強力なベースラインを著しく上回っている。

Variational Neural Machine Translation (VNMT) is an attractive framework for modeling the generation of target translations, conditioned not only on the source sentence but also on some latent random variables. The latent variable modeling may introduce useful statistical dependencies that can improve translation accuracy. Unfortunately, learning informative latent variables is non-trivial, as the latent space can be prohibitively large, and the latent codes are prone to be ignored by many translation models at training time. Previous works impose strong assumptions on the distribution of the latent code and limit the choice of the NMT architecture. In this paper, we propose to apply the VNMT framework to the state-of-the-art Transformer and introduce a more flexible approximate posterior based on normalizing flows. We demonstrate the efficacy of our proposal under both in-domain and out-of-domain conditions, significantly outperforming strong baselines.
翻訳日:2022-11-27 05:10:40 公開日:2020-05-28
# 対話応答生成を改善する構造情報の導入について

On Incorporating Structural Information to improve Dialogue Response Generation ( http://arxiv.org/abs/2005.14315v1 )

ライセンス: Link先を確認
Nikita Moghe, Priyesh Vijayan, Balaraman Ravindran, Mitesh M. Khapra(参考訳) ドメイン固有資源からなる背景知識から対話応答を生成するタスクについて考察する。 具体的には、映画に関する会話を前提として、プロット、レビュー、Redditコメントなど、映画の背景知識に基づいて次のレスポンスを生成する。 これには、会話コンテキストと背景リソースから構造的、シーケンシャル、セマンティックな情報をキャプチャする必要がある。 これは新しい作業であり、コミュニティからはあまり注目されていない。 本稿では,BERT を用いて,明示的な構造やシーケンス情報とともに,文脈の深い表現をキャプチャする新しいアーキテクチャを提案する。 より具体的に言えば 一 構造情報を取得するためのグラフ畳み込みネットワーク(GCN) (ii)シーケンシャルな情報をキャプチャするLSTM (iii)意味情報をキャプチャする深い文脈化表現のためのBERT。 提案したアーキテクチャを広範囲に分析する。 そこで本研究では,このような言語情報を効果的に結合できるsss(plug-and-play semantics-sequences-structures)フレームワークを提案する。 一連の実験を通して、興味深い観察を行う。 まず,シーケンシャル情報(lstms)上に構造情報(gcns)を付加したnlpタスクに対するgcnモデルの一般的な適応が,タスクに悪影響を及ぼすことを観察した。 これにより、セマンティックな情報と構造的な情報を組み合わせてパフォーマンスを向上させる興味深い方法を探ることができます。 第二に、BERTはELMoのような他の深い文脈表現よりも優れていますが、GCNを使って明示的に付加された構造情報から恩恵を受けています。 BERTがすでに構造情報をキャプチャしているという最近の主張を考えると、これは少々驚きだ。 最後に、提案されたSSフレームワークはベースラインよりも7.95%改善されている。

We consider the task of generating dialogue responses from background knowledge comprising of domain specific resources. Specifically, given a conversation around a movie, the task is to generate the next response based on background knowledge about the movie such as the plot, review, Reddit comments etc. This requires capturing structural, sequential and semantic information from the conversation context and the background resources. This is a new task and has not received much attention from the community. We propose a new architecture that uses the ability of BERT to capture deep contextualized representations in conjunction with explicit structure and sequence information. More specifically, we use (i) Graph Convolutional Networks (GCNs) to capture structural information, (ii) LSTMs to capture sequential information and (iii) BERT for the deep contextualized representations that capture semantic information. We analyze the proposed architecture extensively. To this end, we propose a plug-and-play Semantics-Sequences-Structures (SSS) framework which allows us to effectively combine such linguistic information. Through a series of experiments we make some interesting observations. First, we observe that the popular adaptation of the GCN model for NLP tasks where structural information (GCNs) was added on top of sequential information (LSTMs) performs poorly on our task. This leads us to explore interesting ways of combining semantic and structural information to improve the performance. Second, we observe that while BERT already outperforms other deep contextualized representations such as ELMo, it still benefits from the additional structural information explicitly added using GCNs. This is a bit surprising given the recent claims that BERT already captures structural information. Lastly, the proposed SSS framework gives an improvement of 7.95% over the baseline.
翻訳日:2022-11-27 05:09:46 公開日:2020-05-28
# 肺炎自動検出のための深層学習

Deep Learning for Automatic Pneumonia Detection ( http://arxiv.org/abs/2005.13899v1 )

ライセンス: Link先を確認
Tatiana Gabruseva, Dmytro Poplavskiy, Alexandr A. Kalinin(参考訳) 肺炎は幼児の主要な死因であり、世界でも最大の死亡原因の一つである。 肺炎の検出は通常、高度に訓練された専門家による胸部X線写真検査によって行われる。 このプロセスは退屈であり、しばしば放射線科医の間で意見の相違を引き起こす。 コンピュータ支援診断システムは, 診断精度の向上の可能性を示した。 本研究では, 単発検出, 圧縮励起深部畳み込みニューラルネットワーク, 拡張, マルチタスク学習に基づく肺炎領域検出のための計算手法を開発した。 提案手法は, 北米肺炎検出チャレンジ放射線学会の文脈で評価され, 課題の最良の結果の1つとなった。

Pneumonia is the leading cause of death among young children and one of the top mortality causes worldwide. The pneumonia detection is usually performed through examine of chest X-ray radiograph by highly-trained specialists. This process is tedious and often leads to a disagreement between radiologists. Computer-aided diagnosis systems showed the potential for improving diagnostic accuracy. In this work, we develop the computational approach for pneumonia regions detection based on single-shot detectors, squeeze-and-excitation deep convolution neural networks, augmentations and multi-task learning. The proposed approach was evaluated in the context of the Radiological Society of North America Pneumonia Detection Challenge, achieving one of the best results in the challenge.
翻訳日:2022-11-27 05:04:10 公開日:2020-05-28
# X線画像のインテリジェント解析によるSARS-CoV-2の早期スクリーニング

Early Screening of SARS-CoV-2 by Intelligent Analysis of X-Ray Images ( http://arxiv.org/abs/2005.13928v1 )

ライセンス: Link先を確認
D. Gil, K. D\'iaz-Chito, C. S\'anchez, A. Hern\'andez-Sabat\'e(参考訳) 将来のsars-cov-2感染拡大は今後数年間に起こる可能性がある。 しかし、ヒトの病態は非常に最近のため、合併症の早期発見、回復後の副作用、早期スクリーニングなど、多くの臨床的側面が現在不明である。 新型コロナウイルス(COVID-19)の感染者数にもかかわらず、多くの衛生系が崩壊の危機に陥り、適切な収集や臨床データの分析が妨げられている。 我々は,SARS-CoV-2オープンな疑問のいくつかを明らかにすることを目的として,臨床研究と画像診断,人工知能や放射能などの新しい技術の利用を統合する学際的イニシアティブについて述べる。 このイニシアチブは3つの主要なポイントに対処している。 1) 画像,臨床データ及び分析を含む標準化データの収集 2)プライマリケアセンターでの早期診断のための新型コロナウイルススクリーニング 3) 合併症の早期治療のための、covid-19の進化と関連する病理の放射線学的シグネチャを定義する。 特に本論文では,HoGに基づく古典的アプローチと特徴選択を用いたX線COVID-19検出の総合的な概要,実験設計,第1報について述べる。 我々の実験は、X線検査における新型コロナウイルススクリーニングの最近の方法との比較と、X線検査の可能性の探索的分析を含む。 その結果、この実験環境では、古典的なアプローチは深層学習法よりも優れており、早期の新型コロナウイルススクリーニングの可能性を示し、非ウイルス浸潤は、X線を放射線学的に記述する上で最もよく似た患者のグループであることが示された。 したがって、これらの症例をよりよく識別するために、効率的な新型コロナウイルススクリーニングを他の臨床データと補完するべきである。

Future SARS-CoV-2 virus outbreak COVID-XX might possibly occur during the next years. However the pathology in humans is so recent that many clinical aspects, like early detection of complications, side effects after recovery or early screening, are currently unknown. In spite of the number of cases of COVID-19, its rapid spread putting many sanitary systems in the edge of collapse has hindered proper collection and analysis of the data related to COVID-19 clinical aspects. We describe an interdisciplinary initiative that integrates clinical research, with image diagnostics and the use of new technologies such as artificial intelligence and radiomics with the aim of clarifying some of SARS-CoV-2 open questions. The whole initiative addresses 3 main points: 1) collection of standardize data including images, clinical data and analytics; 2) COVID-19 screening for its early diagnosis at primary care centers; 3) define radiomic signatures of COVID-19 evolution and associated pathologies for the early treatment of complications. In particular, in this paper we present a general overview of the project, the experimental design and first results of X-ray COVID-19 detection using a classic approach based on HoG and feature selection. Our experiments include a comparison to some recent methods for COVID-19 screening in X-Ray and an exploratory analysis of the feasibility of X-Ray COVID-19 screening. Results show that classic approaches can outperform deep-learning methods in this experimental setting, indicate the feasibility of early COVID-19 screening and that non-COVID infiltration is the group of patients most similar to COVID-19 in terms of radiological description of X-ray. Therefore, an efficient COVID-19 screening should be complemented with other clinical data to better discriminate these cases.
翻訳日:2022-11-27 05:04:01 公開日:2020-05-28
# 投影されたアースモーブの差による領域適応によるマルチモーダル画像登録の教師なし学習

Unsupervised learning of multimodal image registration using domain adaptation with projected Earth Move's discrepancies ( http://arxiv.org/abs/2005.14107v1 )

ライセンス: Link先を確認
Mattias P Heinrich and Lasse Hansen(参考訳) マルチモーダル画像登録は、ディープラーニングアプローチにおいて非常に難しい問題である。 現在のほとんどの研究は、ラベル付きトレーニングスキャンを必要とする教師付き学習に重点を置いており、注釈付き構造に偏るモデルや、手作りの類似度メトリクスに基づいた教師なしアプローチをもたらす可能性がある。 優れたメトリクスを定義するのが難しいマルチモーダル登録の現在の制限を克服する上で、教師なしのドメイン適応は有益であると考えています。 ドメイン適応は、これまで主に分類問題に限られてきた。 離散マルチモーダル登録における教師なしドメイン適応の最初の利用を提案する。 量子化された変位ラベルを監視対象とするソースドメインに基づいて,ネットワークの出力分布を,分類器の相違を利用して目的領域(他のモダリティ)によく似ているように転送する。 2次元ヒストグラムのスライスされたワッサースタイン計量を改善するために、予測を1dに投影し、累積和のl1距離を計算する新しい近似を提案する。 概念実証は、犬MRIスキャンのモノモダルからマルチコントラスト(マルチコントラスト)2Dへのドメイン転送の適用性を実証し、登録精度を33%(スライスしたワッサースタイン)から44%に向上させる。

Multimodal image registration is a very challenging problem for deep learning approaches. Most current work focuses on either supervised learning that requires labelled training scans and may yield models that bias towards annotated structures or unsupervised approaches that are based on hand-crafted similarity metrics and may therefore not outperform their classical non-trained counterparts. We believe that unsupervised domain adaptation can be beneficial in overcoming the current limitations for multimodal registration, where good metrics are hard to define. Domain adaptation has so far been mainly limited to classification problems. We propose the first use of unsupervised domain adaptation for discrete multimodal registration. Based on a source domain for which quantised displacement labels are available as supervision, we transfer the output distribution of the network to better resemble the target domain (other modality) using classifier discrepancies. To improve upon the sliced Wasserstein metric for 2D histograms, we present a novel approximation that projects predictions into 1D and computes the L1 distance of their cumulative sums. Our proof-of-concept demonstrates the applicability of domain transfer from mono- to multimodal (multi-contrast) 2D registration of canine MRI scans and improves the registration accuracy from 33% (using sliced Wasserstein) to 44%.
翻訳日:2022-11-27 05:03:16 公開日:2020-05-28
# 深層学習を用いた眼底画像における視神経乳頭局在と緑内障分類の2段階フレームワーク

Two-stage framework for optic disc localization and glaucoma classification in retinal fundus images using deep learning ( http://arxiv.org/abs/2005.14284v1 )

ライセンス: Link先を確認
Muhammad Naseer Bajwa, Muhammad Imran Malik, Shoaib Ahmed Siddiqui, Andreas Dengel, Faisal Shafait, Wolfgang Neumeier, Sheraz Ahmed(参考訳) 強力な画像処理技術や機械学習技術の進歩により、CADは眼科を含むあらゆる分野においてより普及してきた。 光ディスクは緑内障検出のための網膜底部画像の最も重要な部分であるため、まず視ディスクを検出・局所化し、それから健康または緑内障に分類する2段階の枠組みを提案する。 第1段階はRCNNに基づいて網膜基底画像から視ディスクを局在させ抽出し、第2段階はDeep CNNを用いて抽出したディスクを健康または緑内障に分類する。 提案手法に加えて,自動ディスクローカライゼーションのためのRCNNベースモデルのトレーニングに必要なアノテーションを提供するルールベースの半自動基底真理生成手法も開発した。 提案手法は,ディスクローカライゼーションのための7つの公開データセットと,緑内障分類用として最大であるORIGAデータセットを用いて評価する。 6つのデータセットで自動ローカライズマークを新たに作成し,その4つのデータセットにおいて精度100%に達した。 緑内障の分類は0.874例に相当し,オリガの分類で得られた最新結果を2.7%改善した。 注意深い注釈付きデータでトレーニングされたDeep Learningベースの光学ディスク検出とローカライゼーションは、堅牢で正確で完全に自動化されているだけでなく、データセット依存のヒューリスティックアルゴリズムの必要性も排除している。 ORIGAを用いた緑内障分類の実験的評価では, クラス不均衡なデータセットに対してのみAUCを報告し, 事前に定義された列車とテストの分割がない場合には, 分類器の性能の真相を示さず, 結果の裏付けとなる追加のパフォーマンス指標を求める。

With the advancement of powerful image processing and machine learning techniques, CAD has become ever more prevalent in all fields of medicine including ophthalmology. Since optic disc is the most important part of retinal fundus image for glaucoma detection, this paper proposes a two-stage framework that first detects and localizes optic disc and then classifies it into healthy or glaucomatous. The first stage is based on RCNN and is responsible for localizing and extracting optic disc from a retinal fundus image while the second stage uses Deep CNN to classify the extracted disc into healthy or glaucomatous. In addition to the proposed solution, we also developed a rule-based semi-automatic ground truth generation method that provides necessary annotations for training RCNN based model for automated disc localization. The proposed method is evaluated on seven publicly available datasets for disc localization and on ORIGA dataset, which is the largest publicly available dataset for glaucoma classification. The results of automatic localization mark new state-of-the-art on six datasets with accuracy reaching 100% on four of them. For glaucoma classification we achieved AUC equal to 0.874 which is 2.7% relative improvement over the state-of-the-art results previously obtained for classification on ORIGA. Once trained on carefully annotated data, Deep Learning based methods for optic disc detection and localization are not only robust, accurate and fully automated but also eliminates the need for dataset-dependent heuristic algorithms. Our empirical evaluation of glaucoma classification on ORIGA reveals that reporting only AUC, for datasets with class imbalance and without pre-defined train and test splits, does not portray true picture of the classifier's performance and calls for additional performance metrics to substantiate the results.
翻訳日:2022-11-27 05:02:52 公開日:2020-05-28
# 糖尿病網膜症検出のための細粒度および粗粒度分類器の組み合わせ

Combining Fine- and Coarse-Grained Classifiers for Diabetic Retinopathy Detection ( http://arxiv.org/abs/2005.14308v1 )

ライセンス: Link先を確認
Muhammad Naseer Bajwa, Yoshinobu Taniguchi, Muhammad Imran Malik, Wolfgang Neumeier, Andreas Dengel, Sheraz Ahmed(参考訳) 網膜基底画像における早期糖尿病網膜症の視覚アーチファクトは、通常小さく、目立たない、網膜全体に散らばっている。 糖尿病網膜症を検出するためには、医師は画像全体を見て特定の領域に固定し、疾患の潜在的なバイオマーカーを見つける必要がある。 そこで,眼科医のインスピレーションを得て,画像全体の識別特徴を検出する粗粒度分類器と,病理学的に重要な領域に特に注意を払っている細粒度分類器の組み合わせを提案する。 提案アンサンブルの性能を評価するため,EyePACSとMessidorのデータセットを用いた。 二分体、三分体、四分体に対する大規模な実験は、このアンサンブルが糖尿病網膜症検出のためのほとんどのトレーニングセットにおいて、個々の画像分類器よりもはるかに優れていることを示している。 さらに、細粒度分類器の性能は、専門眼科医をモデルとしたタスク指向の細粒度分類器の開発を促進する粗粒度分類器よりも顕著に優れている。

Visual artefacts of early diabetic retinopathy in retinal fundus images are usually small in size, inconspicuous, and scattered all over retina. Detecting diabetic retinopathy requires physicians to look at the whole image and fixate on some specific regions to locate potential biomarkers of the disease. Therefore, getting inspiration from ophthalmologist, we propose to combine coarse-grained classifiers that detect discriminating features from the whole images, with a recent breed of fine-grained classifiers that discover and pay particular attention to pathologically significant regions. To evaluate the performance of this proposed ensemble, we used publicly available EyePACS and Messidor datasets. Extensive experimentation for binary, ternary and quaternary classification shows that this ensemble largely outperforms individual image classifiers as well as most of the published works in most training setups for diabetic retinopathy detection. Furthermore, the performance of fine-grained classifiers is found notably superior than coarse-grained image classifiers encouraging the development of task-oriented fine-grained classifiers modelled after specialist ophthalmologists.
翻訳日:2022-11-27 05:02:19 公開日:2020-05-28
# 脊椎X線画像における形状認識ランドマーク検出のための両部距離

Bipartite Distance for Shape-Aware Landmark Detection in Spinal X-Ray Images ( http://arxiv.org/abs/2005.14330v1 )

ライセンス: Link先を確認
Abdullah-Al-Zubaer Imran, Chao Huang, Hui Tang, Wei Fan, Kenneth M.C. Cheung, Michael To, Zhen Qian, Demetri Terzopoulos(参考訳) スコリシス(scoliosis)は、脊椎の外側の湾曲を引き起こす先天性疾患である。 その評価は脊髄x線画像における椎骨の同定と局在に依存しており、従来は、主観的および観察的変動しやすい、退屈で時間のかかる手作業によるx線撮影手順によって行われる。 脊髄ランドマークの自動検出と局在化により、信頼性が向上する。 x線画像中のランドマークを検知しながら、cnnを脊髄形状の学習に導くために、二成分距離(bpd)尺度に基づく新たな損失を提案し、ランドマーク検出性能を一貫して向上させることを示す。

Scoliosis is a congenital disease that causes lateral curvature in the spine. Its assessment relies on the identification and localization of vertebrae in spinal X-ray images, conventionally via tedious and time-consuming manual radiographic procedures that are prone to subjectivity and observational variability. Reliability can be improved through the automatic detection and localization of spinal landmarks. To guide a CNN in the learning of spinal shape while detecting landmarks in X-ray images, we propose a novel loss based on a bipartite distance (BPD) measure, and show that it consistently improves landmark detection performance.
翻訳日:2022-11-27 05:01:47 公開日:2020-05-28
# G1020:コンピュータ支援緑内障検出のためのベンチマーク網膜基底画像データセット

G1020: A Benchmark Retinal Fundus Image Dataset for Computer-Aided Glaucoma Detection ( http://arxiv.org/abs/2006.09158v1 )

ライセンス: Link先を確認
Muhammad Naseer Bajwa, Gur Amrit Pal Singh, Wolfgang Neumeier, Muhammad Imran Malik, Andreas Dengel, Sheraz Ahmed(参考訳) 緑内障自動検出のための大規模な網膜基底画像データセットの公開は、実用的なコンピュータ支援診断(CAD)への人工知能の応用の成功のボトルネックとなっている。 研究コミュニティで利用可能な少数の小さなデータセットは、通常、非現実的な画像キャプチャ条件と厳格な包摂基準に悩まされる。 既存のデータセットの選択肢が限られているこれらの欠点は、CADシステムの成熟を難しくし、実際の環境で実行できるようにする。 本稿ではG1020と呼ばれる緑内障分類のための大規模な網膜基底画像データセットを提案する。 このデータセットは、通常の眼科における標準のプラクティスに準拠し、緑内障検出の標準ベンチマークデータセットとして機能することが期待されている。 本データベースは、1020枚の高解像度カラー・ファンドス画像からなり、緑内障の診断、光学ディスクと光学カップのセグメンテーション、垂直カップ対ディスク比、下限のニューロ網膜リムのサイズ、上限、鼻側、側頭四肢、および光学ディスクのバウンディングボックス位置のグラウンド真実アノテーションを提供する。 また,眼底緑内障の診断と視神経円板と視神経カップの分画に関する広範な実験を行った。

Scarcity of large publicly available retinal fundus image datasets for automated glaucoma detection has been the bottleneck for successful application of artificial intelligence towards practical Computer-Aided Diagnosis (CAD). A few small datasets that are available for research community usually suffer from impractical image capturing conditions and stringent inclusion criteria. These shortcomings in already limited choice of existing datasets make it challenging to mature a CAD system so that it can perform in real-world environment. In this paper we present a large publicly available retinal fundus image dataset for glaucoma classification called G1020. The dataset is curated by conforming to standard practices in routine ophthalmology and it is expected to serve as standard benchmark dataset for glaucoma detection. This database consists of 1020 high resolution colour fundus images and provides ground truth annotations for glaucoma diagnosis, optic disc and optic cup segmentation, vertical cup-to-disc ratio, size of neuroretinal rim in inferior, superior, nasal and temporal quadrants, and bounding box location for optic disc. We also report baseline results by conducting extensive experiments for automated glaucoma diagnosis and segmentation of optic disc and optic cup.
翻訳日:2022-11-27 05:01:31 公開日:2020-05-28
# 一般化準次数によるロバスト推定

Robust estimation via generalized quasi-gradients ( http://arxiv.org/abs/2005.14073v1 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao and Jacob Steinhardt(参考訳) 最近提案された多くのロバストな推定問題が、基礎となる最適化問題は凸ではないにもかかわらず、効率的に解ける理由を考察する。 本研究では、これらのロバストな推定問題の損失状況を調査し、「一般化された準次数」の存在を同定する。 これらの準勾配が存在する場合、大域的な最小値に近似することが保証され、一般に使用されるフィルタリングアルゴリズムを含む。 有界共分散の下での分布のロバストな平均推定について、関連する最適化問題の1次定常点が {approximate global minimum} であることは、汚職レベル $\epsilon < 1/3$ であることと同値である。 その結果、定常点を推定する最適化アルゴリズムは、破壊点$1/3$を持つ効率的なロバスト推定器が得られる。 注意深い初期化とステップサイズによって、これを1/2$に改善します。 線形回帰、結合平均および共分散推定を含む他のタスクでは、損失のランドスケープはより頑丈である。 それでも、一般化された準勾配が存在することを示し、効率的なアルゴリズムを構築する。 これらのアルゴリズムは、文献の以前のアルゴリズムよりも単純であり、線形回帰では、推定誤差を$o(\sqrt{\epsilon})$から$o(\epsilon)$の最適レートに改善する。 近似共分散による平均推定では、単純な勾配降下アルゴリズムが分解点$1/3$ と反復複雑性 $\tilde{o}(d/\epsilon^2)$ を達成することを示す。

We explore why many recently proposed robust estimation problems are efficiently solvable, even though the underlying optimization problems are non-convex. We study the loss landscape of these robust estimation problems, and identify the existence of "generalized quasi-gradients". Whenever these quasi-gradients exist, a large family of low-regret algorithms are guaranteed to approximate the global minimum; this includes the commonly-used filtering algorithm. For robust mean estimation of distributions under bounded covariance, we show that any first-order stationary point of the associated optimization problem is an {approximate global minimum} if and only if the corruption level $\epsilon < 1/3$. Consequently, any optimization algorithm that aproaches a stationary point yields an efficient robust estimator with breakdown point $1/3$. With careful initialization and step size, we improve this to $1/2$, which is optimal. For other tasks, including linear regression and joint mean and covariance estimation, the loss landscape is more rugged: there are stationary points arbitrarily far from the global minimum. Nevertheless, we show that generalized quasi-gradients exist and construct efficient algorithms. These algorithms are simpler than previous ones in the literature, and for linear regression we improve the estimation error from $O(\sqrt{\epsilon})$ to the optimal rate of $O(\epsilon)$ for small $\epsilon$ assuming certified hypercontractivity. For mean estimation with near-identity covariance, we show that a simple gradient descent algorithm achieves breakdown point $1/3$ and iteration complexity $\tilde{O}(d/\epsilon^2)$.
翻訳日:2022-11-27 05:00:47 公開日:2020-05-28
# 深層強化学習を用いた知的住宅エネルギー管理システム

Intelligent Residential Energy Management System using Deep Reinforcement Learning ( http://arxiv.org/abs/2005.14259v1 )

ライセンス: Link先を確認
Alwyn Mathew, Abhijit Roy, Jimson Mathew(参考訳) 電力需要の増加と、今日の世界での本質的な性質は、エネルギー消費を減らすインテリジェントホームエネルギー管理システム(HEM)を求めている。 これは、エネルギー消費がピーク時からピーク時までの負荷をスケジューリングし、エネルギー消費が比較的低い日のオフピーク期間をゆるやかにすることで、システムのピーク負荷需要を減少させ、結果としてエネルギー請求額を少なくし、負荷需要プロファイルを改善することを含む。 本研究は,一度のインスタンスから別のインスタンスへ負荷をシフトする経験から学習し,ピーク負荷を最小化する学習システムを開発するための新しい手法を提案する。 本稿では、仮想エージェントが人間のようにタスクを学習する要求応答のための深層強化学習(DRL)モデルを提案する。 これらのフィードバックにより、エージェントは環境について学び、学習段階の後にずっとスマートなステップを踏むようになる。 本手法は,負荷ピーク低減のための混合整数線形計画法(MILP)の性能を向上した。 著者らはまた、消費者の電力料金と公共事業システムのピーク負荷を同時に最小化するエージェントを設計した。 提案手法は,電力料金を劇的に削減するとともに,時間シフト可能な負荷を提案手法で処理した場合のシステムのピーク負荷を最小化することにより,各消費者の月々の貯蓄量を増大させる。

The rising demand for electricity and its essential nature in today's world calls for intelligent home energy management (HEM) systems that can reduce energy usage. This involves scheduling of loads from peak hours of the day when energy consumption is at its highest to leaner off-peak periods of the day when energy consumption is relatively lower thereby reducing the system's peak load demand, which would consequently result in lesser energy bills, and improved load demand profile. This work introduces a novel way to develop a learning system that can learn from experience to shift loads from one time instance to another and achieve the goal of minimizing the aggregate peak load. This paper proposes a Deep Reinforcement Learning (DRL) model for demand response where the virtual agent learns the task like humans do. The agent gets feedback for every action it takes in the environment; these feedbacks will drive the agent to learn about the environment and take much smarter steps later in its learning stages. Our method outperformed the state of the art mixed integer linear programming (MILP) for load peak reduction. The authors have also designed an agent to learn to minimize both consumers' electricity bills and utilities' system peak load demand simultaneously. The proposed model was analyzed with loads from five different residential consumers; the proposed method increases the monthly savings of each consumer by reducing their electricity bill drastically along with minimizing the peak load on the system when time shiftable loads are handled by the proposed method.
翻訳日:2022-11-27 04:54:53 公開日:2020-05-28
# エージェントモデルによる分散型電力市場における炭素税の最適化

Optimizing carbon tax for decentralized electricity markets using an agent-based model ( http://arxiv.org/abs/2006.01601v1 )

ライセンス: Link先を確認
Alexander J. M. Kell, A. Stephen McGough, Matthew Forshaw(参考訳) 気候変動の影響を回避するためには、化石燃料から低炭素技術への移行が必要である。 これを実現する方法の1つは、電力網の脱炭である。 しかし、完全脱炭のための輸送や加熱といった他の分野でのさらなる努力が必要となる。 これにより、発電による二酸化炭素排出量が減少し、自動車や暖房などの他のエネルギー源の脱炭にも寄与する。 炭素税は、この移行を支援する効率的な方法であることが示されている。 本稿では, 電力市場エージェントモデルであるElecSimを用いて, 遺伝的アルゴリズムによる最適炭素税政策の探索方法を示す。 これを実現するために、NSGA-II遺伝的アルゴリズムを用いて、電気ミックスの平均電気価格と相対炭素強度を最小化する。 異なる目的に適合する炭素税の範囲を見出すことが可能であることを実証する。 以上の結果から, 電力コストを<textsterling10/MWh以下に抑え, 炭素強度を0以下に抑えることが可能であることが示唆された。 最適炭素税戦略については,2020年から2035年にかけての増税戦略が好まれていた。 pareto-frontの最適税制戦略は、少なくとも毎年、textsterling81/tco2より上である。 平均炭素税戦略はtextsterling240/tco2であった。

Averting the effects of anthropogenic climate change requires a transition from fossil fuels to low-carbon technology. A way to achieve this is to decarbonize the electricity grid. However, further efforts must be made in other fields such as transport and heating for full decarbonization. This would reduce carbon emissions due to electricity generation, and also help to decarbonize other sources such as automotive and heating by enabling a low-carbon alternative. Carbon taxes have been shown to be an efficient way to aid in this transition. In this paper, we demonstrate how to to find optimal carbon tax policies through a genetic algorithm approach, using the electricity market agent-based model ElecSim. To achieve this, we use the NSGA-II genetic algorithm to minimize average electricity price and relative carbon intensity of the electricity mix. We demonstrate that it is possible to find a range of carbon taxes to suit differing objectives. Our results show that we are able to minimize electricity cost to below \textsterling10/MWh as well as carbon intensity to zero in every case. In terms of the optimal carbon tax strategy, we found that an increasing strategy between 2020 and 2035 was preferable. Each of the Pareto-front optimal tax strategies are at least above \textsterling81/tCO2 for every year. The mean carbon tax strategy was \textsterling240/tCO2.
翻訳日:2022-11-27 04:54:30 公開日:2020-05-28
# VMI-VAE: 離散的および連続的優先度を持つVAEのための変分相互情報最大化フレームワーク

VMI-VAE: Variational Mutual Information Maximization Framework for VAE With Discrete and Continuous Priors ( http://arxiv.org/abs/2005.13953v1 )

ライセンス: Link先を確認
Andriy Serdega, Dae-Shik Kim(参考訳) variational autoencoderは、複雑なデータの潜在変数モデルを学ぶためのスケーラブルな方法である。 最適化が容易な明確な目的を採用している。 しかし、学習表現の品質を明示的に測定しない。 本稿では,VAEのための変分相互情報最大化フレームワークを提案する。 潜在コードと観測の間の相互情報を最大化する目的を提供する。 目的は正則化器として機能し、VOEは潜伏したコードを無視し、その中の特定のコンポーネントを観察に関して最も有益なものにすることができる。 それに加えて、提案フレームワークは、固定されたVAEモデルの潜在符号と観測値の相互情報を評価する方法を提供する。

Variational Autoencoder is a scalable method for learning latent variable models of complex data. It employs a clear objective that can be easily optimized. However, it does not explicitly measure the quality of learned representations. We propose a Variational Mutual Information Maximization Framework for VAE to address this issue. It provides an objective that maximizes the mutual information between latent codes and observations. The objective acts as a regularizer that forces VAE to not ignore the latent code and allows one to select particular components of it to be most informative with respect to the observations. On top of that, the proposed framework provides a way to evaluate mutual information between latent codes and observations for a fixed VAE model.
翻訳日:2022-11-27 04:53:54 公開日:2020-05-28
# MACER: コンパイルエラーの高速化のためのモジュールフレームワーク

MACER: A Modular Framework for Accelerated Compilation Error Repair ( http://arxiv.org/abs/2005.14015v1 )

ライセンス: Link先を確認
Darshak Chhatbar and Umair Z. Ahmed and Purushottam Kar(参考訳) 自動コンパイルエラー修正は、コンパイルに失敗するバグのあるプログラムの修正を提案する問題であり、近年は大きな関心を集めている。 汎用的なツールであるだけでなく、自動化されたコード修復は、コンパイラエラーメッセージの暗号的かつ非ヘルパフルを見つける初心者プログラマにとって、重要な教育的応用である。 既存のアプローチでは、sequence-to-sequence prediction (tracer) や reinforcement learning (rlassist) といった、ヘビーデューティな生成学習技術のブラックボックス応用によって、この問題を解決している。 このようなブラックボックスによる学習手法の応用は有用ではあるが、既存のアプローチはトレーニング時間や特定のエラータイプをターゲットする非効率性という点で大きすぎる。 本稿では,修復プロセスのモジュール分離に基づく誤り修正を高速化する新しい手法であるMACERについて述べる。 MACERは、マルチラベル分類器やローダのような強力で安価な識別学習技術を使用して、必要な修復の種類を特定し、提案された修復を適用する。 実験によると、macerが採用したきめ細かいアプローチは、優れた誤り訂正だけでなく、より高速なトレーニングと予測を提供する。 実際の学生応募から収集された4Kバグギープログラムのベンチマークデータセットでは、MACERは、学生が望む修正と正確に一致する一般的なエラーの修正を提案する際に、既存のメソッドを20%上回ります。 MACERは、すべてのエラータイプの既存のメソッドよりも、人気でも稀でも、競争力がある。 MACERはTRACERで2倍、RLAssistで800倍、テスト時間で2-4倍のスピードアップを提供する。

Automated compilation error repair, the problem of suggesting fixes to buggy programs that fail to compile, has generated significant interest in recent years. Apart from being a tool of general convenience, automated code repair has significant pedagogical applications for novice programmers who find compiler error messages cryptic and unhelpful. Existing approaches largely solve this problem using a blackbox-application of a heavy-duty generative learning technique, such as sequence-to-sequence prediction (TRACER) or reinforcement learning (RLAssist). Although convenient, such black-box application of learning techniques makes existing approaches bulky in terms of training time, as well as inefficient at targeting specific error types. We present MACER, a novel technique for accelerated error repair based on a modular segregation of the repair process into repair identification and repair application. MACER uses powerful yet inexpensive discriminative learning techniques such as multi-label classifiers and rankers to first identify the type of repair required and then apply the suggested repair. Experiments indicate that the fine-grained approach adopted by MACER offers not only superior error correction, but also much faster training and prediction. On a benchmark dataset of 4K buggy programs collected from actual student submissions, MACER outperforms existing methods by 20% at suggesting fixes for popular errors that exactly match the fix desired by the student. MACER is also competitive or better than existing methods at all error types -- whether popular or rare. MACER offers a training time speedup of 2x over TRACER and 800x over RLAssist, and a test time speedup of 2-4x over both.
翻訳日:2022-11-27 04:53:24 公開日:2020-05-28
# AIおよびHPC対応リードジェネレーションによるSARS-CoV-2のターゲット:最初のデータリリース

Targeting SARS-CoV-2 with AI- and HPC-enabled Lead Generation: A First Data Release ( http://arxiv.org/abs/2006.02431v1 )

ライセンス: Link先を確認
Yadu Babuji, Ben Blaiszik, Tom Brettin, Kyle Chard, Ryan Chard, Austin Clyde, Ian Foster, Zhi Hong, Shantenu Jha, Zhuozhao Li, Xuefeng Liu, Arvind Ramanathan, Yi Ren, Nicholaus Saint, Marcus Schwarting, Rick Stevens, Hubertus van Dam, Rick Wagner(参考訳) 世界中の研究者が、急性呼吸器症候群(SARS-CoV-2)による新型コロナウイルス(COVID-19)対策として、既存の薬物の迅速な再利用や新薬の発見を目指している。 有望なアプローチのひとつは、機械学習(ML)と人工知能(AI)ツールをトレーニングして、多数の小さな分子をスクリーニングすることだ。 この取り組みへの貢献として、我々は、ハイパフォーマンスコンピューティング(HPC)を用いて、それらの分子の様々な特性をコンピュータで計算し、計算された特性を使ってML/AIモデルを訓練し、その結果のモデルをスクリーニングするために、様々なソースから多数の小さな分子を集約しています。 この最初のデータリリースでは、事前計算された4.2b以上の分子を表現したコミュニティソースから収集した23のデータセットを利用可能にする。 1)類似性検索を支援する分子指紋。 2)画像に基づく深層学習法の探索と応用を可能にする分子の2次元画像と 3)機械学習モデルの開発を高速化する2次元および3次元分子記述子。 このデータは4.2b分子と60tbの計算済みデータの構造情報を包含する。 将来のリリースでは、より詳細な分子シミュレーション、計算モデル、その他の製品を含むようにデータを拡大する予定である。

Researchers across the globe are seeking to rapidly repurpose existing drugs or discover new drugs to counter the the novel coronavirus disease (COVID-19) caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). One promising approach is to train machine learning (ML) and artificial intelligence (AI) tools to screen large numbers of small molecules. As a contribution to that effort, we are aggregating numerous small molecules from a variety of sources, using high-performance computing (HPC) to computer diverse properties of those molecules, using the computed properties to train ML/AI models, and then using the resulting models for screening. In this first data release, we make available 23 datasets collected from community sources representing over 4.2 B molecules enriched with pre-computed: 1) molecular fingerprints to aid similarity searches, 2) 2D images of molecules to enable exploration and application of image-based deep learning methods, and 3) 2D and 3D molecular descriptors to speed development of machine learning models. This data release encompasses structural information on the 4.2 B molecules and 60 TB of pre-computed data. Future releases will expand the data to include more detailed molecular simulations, computed models, and other products.
翻訳日:2022-11-27 04:52:04 公開日:2020-05-28
# 医用画像解析における説明可能な深層学習モデル

Explainable deep learning models in medical image analysis ( http://arxiv.org/abs/2005.13799v1 )

ライセンス: Link先を確認
Amitojdeep Singh, Sourya Sengupta, Vasudevan Lakshminarayanan(参考訳) 深層学習は様々な医学的診断タスクに非常に効果的であり、その一部で人間の専門家を圧倒している。 しかし、アルゴリズムのブラックボックスの性質は臨床使用を制限している。 最近の説明可能性研究は、モデルの決定に最も影響を及ぼす特徴を示すことを目的としている。 この領域の文献レビューの大半は分類学、倫理学、説明の必要性に焦点を当てている。 本稿では,様々な医用画像課題に対する説明可能な深層学習の応用について概観する。 本稿では, 深層学習研究者が臨床エンドユーザのためのシステムを設計する実践的視点から, 様々なアプローチ, 臨床展開の課題, さらなる研究を必要とする領域について論じる。

Deep learning methods have been very effective for a variety of medical diagnostic tasks and has even beaten human experts on some of those. However, the black-box nature of the algorithms has restricted clinical use. Recent explainability studies aim to show the features that influence the decision of a model the most. The majority of literature reviews of this area have focused on taxonomy, ethics, and the need for explanations. A review of the current applications of explainable deep learning for different medical imaging tasks is presented here. The various approaches, challenges for clinical deployment, and the areas requiring further research are discussed here from a practical standpoint of a deep learning researcher designing a system for the clinical end-users.
翻訳日:2022-11-27 04:51:43 公開日:2020-05-28
# ジョイント確率近似とその離散潜在変数モデル学習への応用

Joint Stochastic Approximation and Its Application to Learning Discrete Latent Variable Models ( http://arxiv.org/abs/2005.14001v1 )

ライセンス: Link先を確認
Zhijian Ou, Yunfu Song(参考訳) 補助償却推論モデルの導入が進んでいるが、離散的潜在変数モデルの学習は依然として困難である。 本稿では,robbins-monro型確率近似 (sa) 理論に基づく新しい手法において,推論モデルの信頼性の高い確率勾配を得ることの難しさと,目標対数を間接的に最適化することの欠点を浮き彫りにできることを示す。 具体的には,対象のログ類似度を直接最大化し,後方モデルと推論モデルとの包括的発散を最小化する。 その結果得られる学習アルゴリズムはジョイントsa(jsa)と呼ばれる。 我々の知る限り、JSAは、EM(Expectation-maximization)アルゴリズム(SAEM)のSAバージョンと適応MCMCプロシージャを結合する最初の方法である。 いくつかのベンチマーク生成モデルと構造化予測タスクの実験により、JSAは、より高速な収束、より良い最終可能性、より低い勾配推定の分散により、最近の競争アルゴリズムより一貫して優れていることが示された。

Although with progress in introducing auxiliary amortized inference models, learning discrete latent variable models is still challenging. In this paper, we show that the annoying difficulty of obtaining reliable stochastic gradients for the inference model and the drawback of indirectly optimizing the target log-likelihood can be gracefully addressed in a new method based on stochastic approximation (SA) theory of the Robbins-Monro type. Specifically, we propose to directly maximize the target log-likelihood and simultaneously minimize the inclusive divergence between the posterior and the inference model. The resulting learning algorithm is called joint SA (JSA). To the best of our knowledge, JSA represents the first method that couples an SA version of the EM (expectation-maximization) algorithm (SAEM) with an adaptive MCMC procedure. Experiments on several benchmark generative modeling and structured prediction tasks show that JSA consistently outperforms recent competitive algorithms, with faster convergence, better final likelihoods, and lower variance of gradient estimates.
翻訳日:2022-11-27 04:45:25 公開日:2020-05-28
# ニューラルモデル圧縮における非線形冗長性の利用

Exploiting Non-Linear Redundancy for Neural Model Compression ( http://arxiv.org/abs/2005.14070v1 )

ライセンス: Link先を確認
Muhammad A. Shah, Raphael Olivier and Bhiksha Raj(参考訳) 現実世界のメモリ、パワー、計算の制約を考えると、数百万、何十億というパラメータの非線形組み合わせからなるディープラーニングモデルのデプロイは困難である。 この状況はモデル圧縮技術の研究を導いており、そのほとんどが準最適ヒューリスティックに依存しており、超パラメータネットワークにおけるニューロン活性化の線形依存性によるパラメータ冗長性を考慮していない。 本稿では, 線形依存の活用に基づく新しいモデル圧縮手法を提案する。これは, 学習中に, ニューロン全体の除去と他のニューロンへの活性化の再分配により, ネットワークを圧縮するものである。 このアプローチをトレーニング中に,あるいはトレーニングされたモデル上でも適用可能なアニーリングアルゴリズムと組み合わせることで,一般的なデータセットを用いて,本手法がネットワークサイズ全体の最大99倍の削減を実現し,性能の低下を実証する。 さらに,冗長な特徴が存在する過パラメータ化,局所線形(relu)ニューラルネットワークでは,ハイパーパラメータ選択が正しければ,その依存性をキャプチャして抑制できることを示す理論的結果を提供する。

Deploying deep learning models, comprising of non-linear combination of millions, even billions, of parameters is challenging given the memory, power and compute constraints of the real world. This situation has led to research into model compression techniques most of which rely on suboptimal heuristics and do not consider the parameter redundancies due to linear dependence between neuron activations in overparametrized networks. In this paper, we propose a novel model compression approach based on exploitation of linear dependence, that compresses networks by elimination of entire neurons and redistribution of their activations over other neurons in a manner that is provably lossless while training. We combine this approach with an annealing algorithm that may be applied during training, or even on a trained model, and demonstrate, using popular datasets, that our method results in a reduction of up to 99\% in overall network size with small loss in performance. Furthermore, we provide theoretical results showing that in overparametrized, locally linear (ReLU) neural networks where redundant features exist, and with correct hyperparameter selection, our method is indeed able to capture and suppress those dependencies.
翻訳日:2022-11-27 04:45:07 公開日:2020-05-28
# 適応受容場と拡張時間畳み込みを用いた3次元ポーズ推定

3D human pose estimation with adaptive receptive fields and dilated temporal convolutions ( http://arxiv.org/abs/2005.13797v1 )

ライセンス: Link先を確認
Michael Shin, Eduardo Castillo, Irene Font Peradejordi, Shobhna Jayaraman(参考訳) 本研究では,3次元ポーズ推定における受容場を光流を用いて効果的に特定できることを実証する。 我々は,光学的フロー推論に基づくポーズ推定モデルにおいて,適応的受容場(adaptive receptive field)を導入する。 固定受容場上で動作させるベンチマーク・オブ・ザ・アーティファクト・モデルと適応場の性能を対比する。 受容場を小さくすることで、我々のモデルは通常の速度で走るベンチマークモデルよりも23%速くスローモーションシーケンス(10倍長くなる)を処理できる。 ポーズ予測精度をベンチマークモデルの0.36%以内に生成しながら、計算コストの削減を実現する。

In this work, we demonstrate that receptive fields in 3D pose estimation can be effectively specified using optical flow. We introduce adaptive receptive fields, a simple and effective method to aid receptive field selection in pose estimation models based on optical flow inference. We contrast the performance of a benchmark state-of-the-art model running on fixed receptive fields with their adaptive field counterparts. By using a reduced receptive field, our model can process slow-motion sequences (10x longer) 23% faster than the benchmark model running at regular speed. The reduction in computational cost is achieved while producing a pose prediction accuracy to within 0.36% of the benchmark model.
翻訳日:2022-11-27 04:44:48 公開日:2020-05-28
# ボケ効果発生のためのスムース画像の深さ認識ブレンディング

Depth-aware Blending of Smoothed Images for Bokeh Effect Generation ( http://arxiv.org/abs/2005.14214v1 )

ライセンス: Link先を確認
Saikat Dutta(参考訳) ボケ効果は、近くにある物体が鋭く見え、他の物体がすべて焦点外にある画像の撮影に使用される。 ボケ写真は通常、浅い深度を使ってシングルレンズ反射カメラで撮影される。 現代のスマートフォンのほとんどが、デュアルリアカメラやオートフォーカスのハードウェアを利用してボケ画像を撮ることができる。 しかし、オートフォーカスハードウェアのない単眼カメラを持つスマートフォンでは、bokehイメージを生成するのにソフトウェアを頼らなければならない。 この種のシステムは、既に撮影された画像にボケ効果をもたらすのにも有用である。 本稿では,画像から高品質なボケ効果を生成するために,エンドツーエンドのディープラーニングフレームワークを提案する。 元の画像と異なるバージョンの平滑化画像とをブレンドし、単眼深度推定ネットワークの助けを借りてボケ効果を生成する。 提案手法は,saliency detection based base と aim 2019 challenge on bokeh effect synthesis で提案されたいくつかのアプローチと比較した。 提案アルゴリズムの異なる部分を理解するために,広範な実験を行った。 ネットワークは軽量で、HD画像を0.03秒で処理できる。 このアプローチは、AIM 2019 Bokeh effect Challenge-Perceptual Trackで2位にランクインした。

Bokeh effect is used in photography to capture images where the closer objects look sharp and every-thing else stays out-of-focus. Bokeh photos are generally captured using Single Lens Reflex cameras using shallow depth-of-field. Most of the modern smartphones can take bokeh images by leveraging dual rear cameras or a good auto-focus hardware. However, for smartphones with single-rear camera without a good auto-focus hardware, we have to rely on software to generate bokeh images. This kind of system is also useful to generate bokeh effect in already captured images. In this paper, an end-to-end deep learning framework is proposed to generate high-quality bokeh effect from images. The original image and different versions of smoothed images are blended to generate Bokeh effect with the help of a monocular depth estimation network. The proposed approach is compared against a saliency detection based baseline and a number of approaches proposed in AIM 2019 Challenge on Bokeh Effect Synthesis. Extensive experiments are shown in order to understand different parts of the proposed algorithm. The network is lightweight and can process an HD image in 0.03 seconds. This approach ranked second in AIM 2019 Bokeh effect challenge-Perceptual Track.
翻訳日:2022-11-27 04:44:25 公開日:2020-05-28
# 動的最適化によるグラフカラー化のためのより効率的なランダム化探索ヒューリスティックス

More Effective Randomized Search Heuristics for Graph Coloring Through Dynamic Optimization ( http://arxiv.org/abs/2005.13825v1 )

ライセンス: Link先を確認
Jakob Bossek, Frank Neumann, Pan Peng, Dirk Sudholt(参考訳) 進化アルゴリズム(EA)は変化する環境に容易に適応できるため、動的最適化問題は進化計算において大きな注目を集めている。 両部グラフのグラフカラー化問題を動的最適化によりより効率的に解けることを示す。 このアプローチでは、グラフインスタンスは段階的に与えられ、新しいエッジが競合を起こすと、eaは色付けを再最適化できます。 グラフ接続性を維持する方法としてエッジを挿入した場合、ランダム化局所探索(RLS)は、すべての二部グラフに対して適切な2色付けを効率的に見つける。 これには、静的最適化シナリオにおいてRSSや他のEAが指数関数的な期待時間を必要とするグラフが含まれる。 本研究では,広帯域探索や奥行き優先探索などの一般的なグラフトラバーサルによるグラフ構築方法を調査し,実行時の動作解析を行う。 また、子孫の個体数(例)も示す。 g. 1+$\lambda$) rls) は、$\lambda$ で指数関数的な高速化をもたらす。 最後に、3つの島を使った島モデルは、1つの$m$-edge二分グラフで$\theta(m)$という最適な時間に成功し、子孫の個体数を上回っている。 これは、島数に制限されないスピードアップを島モデルが保証する最初の例である。

Dynamic optimization problems have gained significant attention in evolutionary computation as evolutionary algorithms (EAs) can easily adapt to changing environments. We show that EAs can solve the graph coloring problem for bipartite graphs more efficiently by using dynamic optimization. In our approach the graph instance is given incrementally such that the EA can reoptimize its coloring when a new edge introduces a conflict. We show that, when edges are inserted in a way that preserves graph connectivity, Randomized Local Search (RLS) efficiently finds a proper 2-coloring for all bipartite graphs. This includes graphs for which RLS and other EAs need exponential expected time in a static optimization scenario. We investigate different ways of building up the graph by popular graph traversals such as breadth-first-search and depth-first-search and analyse the resulting runtime behavior. We further show that offspring populations (e. g. a (1+$\lambda$) RLS) lead to an exponential speedup in $\lambda$. Finally, an island model using 3 islands succeeds in an optimal time of $\Theta(m)$ on every $m$-edge bipartite graph, outperforming offspring populations. This is the first example where an island model guarantees a speedup that is not bounded in the number of islands.
翻訳日:2022-11-27 04:44:07 公開日:2020-05-28
# 動的双方向車両ルーティングにおける意思決定支援に向けて

Towards Decision Support in Dynamic Bi-Objective Vehicle Routing ( http://arxiv.org/abs/2005.13865v1 )

ライセンス: Link先を確認
Jakob Bossek, Christian Grimme, G\"unter Rudolph, Heike Trautmann(参考訳) 我々は、顧客のサブセットが時間とともにサービスを要求する動的な双方向車両ルーティングの問題を考える。 これにより、単一の車両で走行する距離と保存されていない動的要求の数は、離散時間窓(eras)で動作する動的進化的多目的アルゴリズム(demoa)によって最小化される。 決定は意思決定者によって行われるため、いかなる決定も先代でなされた不可逆的な決定に依存する。 意思決定の順序と意思決定間の相互作用/依存性の効果を理解するために,一連の実験を行った。 より正確には、意思決定者選好のセットをd$と eras $n_t$の数で修正し、すべての$|d|^{n_t}$の組み合わせを意思決定者オプションで分析します。 ランダムな一様例では a) 最終選択されたソリューションは、決定履歴ではなく、主に最終決定に依存する。 (b)ソリューションは、目に見えない動的顧客の数に関して非常に堅牢であり、 (c) 動的アプローチの解は、透視型EMOAによって得られる解を支配できる。 対照的に、クラスタ化された顧客の場合、私たちは意思決定履歴への強い依存と、ソリューションの多様性のばらつきを観察します。

We consider a dynamic bi-objective vehicle routing problem, where a subset of customers ask for service over time. Therein, the distance traveled by a single vehicle and the number of unserved dynamic requests is minimized by a dynamic evolutionary multi-objective algorithm (DEMOA), which operates on discrete time windows (eras). A decision is made at each era by a decision-maker, thus any decision depends on irreversible decisions made in foregoing eras. To understand effects of sequences of decision-making and interactions/dependencies between decisions made, we conduct a series of experiments. More precisely, we fix a set of decision-maker preferences $D$ and the number of eras $n_t$ and analyze all $|D|^{n_t}$ combinations of decision-maker options. We find that for random uniform instances (a) the final selected solutions mainly depend on the final decision and not on the decision history, (b) solutions are quite robust with respect to the number of unvisited dynamic customers, and (c) solutions of the dynamic approach can even dominate solutions obtained by a clairvoyant EMOA. In contrast, for instances with clustered customers, we observe a strong dependency on decision-making history as well as more variance in solution diversity.
翻訳日:2022-11-27 04:43:43 公開日:2020-05-28
# 屋内環境における自律移動ロボットナビゲーションのための深層強化学習

Deep Reinforcement learning for real autonomous mobile robot navigation in indoor environments ( http://arxiv.org/abs/2005.13857v1 )

ライセンス: Link先を確認
Hartmut Surmann, Christian Jestel, Robin Marchel, Franziska Musberg, Houssem Elhadj and Mahbube Ardani(参考訳) 深層強化学習は様々なコンピュータゲームでうまく適用されている [8]。 しかし、実世界のアプリケーション、特に実際の移動ロボットのナビゲーションと連続制御で使われることは、まだ稀である [13]。 以前のアプローチでは、安全性と堅牢性、あるいは構造化された環境が欠如していた。 本稿では,地図やプランナーを持たない実ロボットの未知環境における自律型自己学習ロボットナビゲーションの概念実証を行う。 ロボットの入力は、2DレーザースキャナーとRGB-Dカメラからの融合データと目標への向きのみである。 環境の地図は不明。 Asynchronous Advantage Actor-Critic Network(GA3C)の出力動作は、ロボットの線形および角速度である。 ナビゲータ/コントローラネットワークは、高速で並列で自己実装されたシミュレーション環境で事前訓練され、学習プロセスを高速化し、実際のロボットにデプロイされる。 オーバーフィッティングを避けるため、比較的小さなネットワークを訓練し、入力レーザデータにランダムなガウスノイズを加える。 センサーデータとrgb-dカメラの融合により、ロボットは実際の3d障害物を回避し、ロボットの感覚能力に環境を適合させることなく、実際の環境をナビゲートできる。 さらにロバスト性を高めるために、さまざまな困難環境をトレーニングし、32のトレーニングインスタンスを同時に実行します。 ビデオ: 補足ファイル / youtube, コード: github

Deep Reinforcement Learning has been successfully applied in various computer games [8]. However, it is still rarely used in real-world applications, especially for the navigation and continuous control of real mobile robots [13]. Previous approaches lack safety and robustness and/or need a structured environment. In this paper we present our proof of concept for autonomous self-learning robot navigation in an unknown environment for a real robot without a map or planner. The input for the robot is only the fused data from a 2D laser scanner and a RGB-D camera as well as the orientation to the goal. The map of the environment is unknown. The output actions of an Asynchronous Advantage Actor-Critic network (GA3C) are the linear and angular velocities for the robot. The navigator/controller network is pretrained in a high-speed, parallel, and self-implemented simulation environment to speed up the learning process and then deployed to the real robot. To avoid overfitting, we train relatively small networks, and we add random Gaussian noise to the input laser data. The sensor data fusion with the RGB-D camera allows the robot to navigate in real environments with real 3D obstacle avoidance and without the need to fit the environment to the sensory capabilities of the robot. To further increase the robustness, we train on environments of varying difficulties and run 32 training instances simultaneously. Video: supplementary File / YouTube, Code: GitHub
翻訳日:2022-11-27 04:43:20 公開日:2020-05-28
# サイバー攻撃検出のためのアルゴリズム選択フレームワーク

Algorithm Selection Framework for Cyber Attack Detection ( http://arxiv.org/abs/2005.14230v1 )

ライセンス: Link先を確認
Marc Chal\'e, Nathaniel D. Bastian, Jeffery Weir(参考訳) 有線および無線コンピュータシステムおよびモノのインターネットの他のコンポーネントに対するサイバー脅威の数は年々増加している。 本研究では,NSL-KDDデータセットにアルゴリズム選択フレームワークを導入し,機械学習分類の新しいパラダイムを提案する。 このフレームワークは、ユーザの入力とメタ機能を組み合わせて、ネットワーク上のサイバー攻撃を検出する最良のアルゴリズムを選択する。 パフォーマンスはルールオブthumb戦略とメタラーニング戦略で比較される。 このフレームワークは、common trial-and-errorアルゴリズム選択メソッドの予想を削除する。 このフレームワークは分類から5つのアルゴリズムを推奨する。 どちらの戦略も高いパフォーマンスのアルゴリズムを推奨している。 この研究は、アルゴリズムの選択とそれが前提となっている分類学との密接な関係を示す。

The number of cyber threats against both wired and wireless computer systems and other components of the Internet of Things continues to increase annually. In this work, an algorithm selection framework is employed on the NSL-KDD data set and a novel paradigm of machine learning taxonomy is presented. The framework uses a combination of user input and meta-features to select the best algorithm to detect cyber attacks on a network. Performance is compared between a rule-of-thumb strategy and a meta-learning strategy. The framework removes the conjecture of the common trial-and-error algorithm selection method. The framework recommends five algorithms from the taxonomy. Both strategies recommend a high-performing algorithm, though not the best performing. The work demonstrates the close connectedness between algorithm selection and the taxonomy for which it is premised.
翻訳日:2022-11-27 04:42:48 公開日:2020-05-28
# SemEvalの評価とは? NLPにおける評価キャンペーンの体系的分析

What is SemEval evaluating? A Systematic Analysis of Evaluation Campaigns in NLP ( http://arxiv.org/abs/2005.14299v1 )

ライセンス: Link先を確認
Oskar Wysocki, Malina Florea, Andre Freitas(参考訳) SemEvalは、新しい課題の提案とNLPシステムの体系的な経験的評価のために、NLPコミュニティの主要な場所である。 本稿では,SemEvalの背後にあるコントリビューションのパターンを実証することを目的とした,SemEvalの体系的定量的分析を行う。 タスクタイプ、メトリクス、アーキテクチャ、参加と引用の分散を理解することで、SemEvalで何が評価されているのかという質問に答えることを目指しています。

SemEval is the primary venue in the NLP community for the proposal of new challenges and for the systematic empirical evaluation of NLP systems. This paper provides a systematic quantitative analysis of SemEval aiming to evidence the patterns of the contributions behind SemEval. By understanding the distribution of task types, metrics, architectures, participation and citations over time we aim to answer the question on what is being evaluated by SemEval.
翻訳日:2022-11-27 04:36:11 公開日:2020-05-28
# k中心問題に対するドラグーンの一般適用性の評価

Evaluation of the general applicability of Dragoon for the k-center problem ( http://arxiv.org/abs/2006.00917v1 )

ライセンス: Link先を確認
Tobias Uhlig and Peter Hillmann and Oliver Rose(参考訳) k-center問題は、複雑なサービスシステムを考える際に直面する根本的な問題です。 典型的な課題は、物流における倉庫の配置や、コンテンツ配信ネットワークのためのサーバーの位置決めなどである。 我々は以前,k中心問題にアプローチするための効果的なアルゴリズムとしてDragoonを提案する。 本稿では,他の手法と比較して,潜在的最悪の事例行動に着目したDragoonの評価を行う。 我々は進化的アルゴリズムを用いて、特にドラグーンにとって困難なk中心問題の例を生成する。 最終的に、我々の実験は、Dragoonの以前の良い結果を確認するが、他のアプローチで明らかに優れているシナリオも確実に見つけることができる。

The k-center problem is a fundamental problem we often face when considering complex service systems. Typical challenges include the placement of warehouses in logistics or positioning of servers for content delivery networks. We previously have proposed Dragoon as an effective algorithm to approach the k-center problem. This paper evaluates Dragoon with a focus on potential worst case behavior in comparison to other techniques. We use an evolutionary algorithm to generate instances of the k-center problem that are especially challenging for Dragoon. Ultimately, our experiments confirm the previous good results of Dragoon, however, we also can reliably find scenarios where it is clearly outperformed by other approaches.
翻訳日:2022-11-27 04:36:03 公開日:2020-05-28
# 感情と虐待言語検出の連成モデリング

Joint Modelling of Emotion and Abusive Language Detection ( http://arxiv.org/abs/2005.14028v1 )

ライセンス: Link先を確認
Santhosh Rajamanickam, Pushkar Mishra, Helen Yannakoudakis, Ekaterina Shutova(参考訳) オンラインコミュニケーションプラットフォームの台頭には、攻撃的で虐待的な行動のオンライン化など、望ましくない効果が伴っている。 この問題に対処するために、自然言語処理(NLP)コミュニティは、乱用検出のための様々なテクニックを実験してきた。 これまでのところ、これらの手法は、コメントの言語特性とユーザのオンラインコミュニティをモデル化することだけに重点を置いており、ユーザの感情状態やそれが言語に与える影響を無視している。 しかし後者は、虐待行為と密接な関係がある。 本稿では,感情と虐待的言語検出の最初のジョイントモデルを提案し,一方のタスクが他方のタスクに通知できるマルチタスク学習フレームワークで実験を行った。 その結果,感情的機能の導入により,データセット全体の乱用検出性能が大幅に向上することが示された。

The rise of online communication platforms has been accompanied by some undesirable effects, such as the proliferation of aggressive and abusive behaviour online. Aiming to tackle this problem, the natural language processing (NLP) community has experimented with a range of techniques for abuse detection. While achieving substantial success, these methods have so far only focused on modelling the linguistic properties of the comments and the online communities of users, disregarding the emotional state of the users and how this might affect their language. The latter is, however, inextricably linked to abusive behaviour. In this paper, we present the first joint model of emotion and abusive language detection, experimenting in a multi-task learning framework that allows one task to inform the other. Our results demonstrate that incorporating affective features leads to significant improvements in abuse detection performance across datasets.
翻訳日:2022-11-27 04:35:29 公開日:2020-05-28
# 教師付きエンティティリンクのための事前学習戦略の実証評価

Empirical Evaluation of Pretraining Strategies for Supervised Entity Linking ( http://arxiv.org/abs/2005.14253v1 )

ライセンス: Link先を確認
Thibault F\'evry, Nicholas FitzGerald, Livio Baldini Soares, Tom Kwiatkowski(参考訳) 本稿では,TransformerアーキテクチャとWikipediaリンクからの大規模事前学習を組み合わせたエンティティリンクモデルを提案する。 我々のモデルは、CoNLLの96.7%、TAC-KBPの94.9%という2つの一般的なエンティティリンクデータセットの最先端を実現する。 本稿では, 否定的エンティティ候補の選択, トランスフォーマーアーキテクチャ, 入力摂動を含む, エンティティリンクにおける設計選択の重要性を明らかにする。 最後に、ドメイン内のトレーニングデータを使わずに、エンドツーエンドのエンティティリンクやエンティティリンクのようなより困難な設定に関する有望な結果を示す。

In this work, we present an entity linking model which combines a Transformer architecture with large scale pretraining from Wikipedia links. Our model achieves the state-of-the-art on two commonly used entity linking datasets: 96.7% on CoNLL and 94.9% on TAC-KBP. We present detailed analyses to understand what design choices are important for entity linking, including choices of negative entity candidates, Transformer architecture, and input perturbations. Lastly, we present promising results on more challenging settings such as end-to-end entity linking and entity linking without in-domain training data.
翻訳日:2022-11-27 04:35:15 公開日:2020-05-28
# 木系アンサンブルを用いた旅行時間予測

Travel Time Prediction using Tree-Based Ensembles ( http://arxiv.org/abs/2005.13818v1 )

ライセンス: Link先を確認
He Huang, Martin Pouls, Anne Meyer, and Markus Pauly(参考訳) 本稿では,都市シナリオにおける2つの任意の地点間の移動時間予測の課題について考察する。 我々はこの問題を2つの時間的視点から見る: 長期予測は数日間、短期予測は1時間である。 これら2つの視点は、都市移動と交通サービスの観点からの計画作業に関係している。 我々は,ニューヨーク市のタクシー旅行記録のデータセットをトレーニングし,評価する木に基づくアンサンブル手法を利用する。 広範囲なデータ分析により,時間的特徴と空間的特徴を同定する。 天気やルーティングデータに基づいた追加機能も開発しています。 後者は、道路網で動作するルーティング解決器を介して得られる。 計算結果から, このルーティングデータの追加はモデルの性能に有益であることが示唆された。 さらに,交通状況の反映として短期モデルの方が適しているため,短期予測と長期予測に異なるモデルを用いる方が有用である。 実際、トレーニングデータが少ないだけで、正確な短期予測が得られ得ることを示す。

In this paper, we consider the task of predicting travel times between two arbitrary points in an urban scenario. We view this problem from two temporal perspectives: long-term forecasting with a horizon of several days and short-term forecasting with a horizon of one hour. Both of these perspectives are relevant for planning tasks in the context of urban mobility and transportation services. We utilize tree-based ensemble methods that we train and evaluate on a dataset of taxi trip records from New York City. Through extensive data analysis, we identify relevant temporal and spatial features. We also engineer additional features based on weather and routing data. The latter is obtained via a routing solver operating on the road network. The computational results show that the addition of this routing data can be beneficial to the model performance. Moreover, employing different models for short and long-term prediction is useful as short-term models are better suited to mirror current traffic conditions. In fact, we show that accurate short-term predictions may be obtained with only little training data.
翻訳日:2022-11-27 04:34:22 公開日:2020-05-28
# 双曲型マニフォールド回帰

Hyperbolic Manifold Regression ( http://arxiv.org/abs/2005.13885v1 )

ライセンス: Link先を確認
Gian Maria Marconi, Lorenzo Rosasco and Carlo Ciliberto(参考訳) 幾何学的表現学習は、リレーショナルラーニングから言語処理、生成モデルまで、いくつかの機械学習環境で大きな可能性を示している。 本研究では,多くの機械学習アプリケーションのための中間成分として,双曲空間上で多様体値回帰を行う問題を考える。 特に、双曲空間における木ノードを多様体回帰タスクとして予測する問題を定式化することにより、2つの課題に対する新しい視点を提案する。 1)ラベル埋め込みによる階層分類 2)双曲表現の分類学的拡張。 回帰問題に対処するために,従来の手法と,より計算的に有利な2つの新しいアプローチを提案する。対象空間の測地線から情報を得るパラメトリック深層学習モデルと,過剰なリスク境界を証明できる非パラメトリックカーネルメソッドである。 実験の結果,双曲幾何学を活用する戦略が期待できることがわかった。 特に分類学の展開設定では、双曲型推定器は環境ユークリッド空間における回帰を行う手法よりも著しく優れていた。

Geometric representation learning has recently shown great promise in several machine learning settings, ranging from relational learning to language processing and generative models. In this work, we consider the problem of performing manifold-valued regression onto an hyperbolic space as an intermediate component for a number of relevant machine learning applications. In particular, by formulating the problem of predicting nodes of a tree as a manifold regression task in the hyperbolic space, we propose a novel perspective on two challenging tasks: 1) hierarchical classification via label embeddings and 2) taxonomy extension of hyperbolic representations. To address the regression problem we consider previous methods as well as proposing two novel approaches that are computationally more advantageous: a parametric deep learning model that is informed by the geodesics of the target space and a non-parametric kernel-method for which we also prove excess risk bounds. Our experiments show that the strategy of leveraging the hyperbolic geometry is promising. In particular, in the taxonomy expansion setting, we find that the hyperbolic-based estimators significantly outperform methods performing regression in the ambient Euclidean space.
翻訳日:2022-11-27 04:34:06 公開日:2020-05-28
# デュアルリカレントニューラルネットワークによる長さ依存性の学習

Learning Various Length Dependence by Dual Recurrent Neural Networks ( http://arxiv.org/abs/2005.13867v1 )

ライセンス: Link先を確認
Chenpeng Zhang (1), Shuai Li (2), Mao Ye (1), Ce Zhu (2), Xue Li (3) ((1) School of Computer Science and Engineering, University of Electronic Science and Technology of China, (2) School of Information and Communication Engineering, University of Electronic Science and Technology of China, (3) School of Information Technology and Electronic Engineering, The University of Queensland)(参考訳) リカレントニューラルネットワーク(RNN)はシーケンス関連問題のメモリモデルとして広く利用されている。 RNNの多くの変種が、RNNの訓練とプロセス長シーケンスの勾配問題を解くために提案されている。 古典的なモデルもいくつか提案されているが、短期的な変化に対応しながら長期依存を捉えることは課題である。 そこで本研究では,DuRNN(Dual Recurrent Neural Networks)と呼ばれる新しいモデルを提案する。 durnnは短期依存を学習し、段階的に長期依存を学習する2つの部分からなる。 第1部は、シーケンスの短期的依存と短期記憶を生成するために、完全再帰接続を制約したリカレントニューラルネットワークである。 もう1つの部分は、独立したリカレント接続を持つリカレントニューラルネットワークで、長期依存を学習し、長期記憶を生成するのに役立つ。 2つの部分の間に選択機構を追加して、必要な長期的な情報伝達を独立なニューロンに支援する。 複数のモジュールを積み重ねてマルチレイヤモデルを構築すれば、パフォーマンスが向上する。 私たちの貢献は 1)長期的・短期的依存を別々に学習する分断・分断戦略に基づく新たな再帰モデル 2)異なる時間的依存尺度の分離と学習を強化するための選択メカニズム。 モデルの性能を評価するため, 理論解析と広範囲な実験を行い, モデル解釈可能性に関する簡易な可視化実験とアブレーション解析を行った。 実験結果から,提案したDuRNNモデルは非常に長いシーケンス(5000以上のタイムステップ)だけでなく,短いシーケンスも処理可能であることが示唆された。 多くの最先端RNNモデルと比較して、我々のモデルは効率的で優れた性能を示してきた。

Recurrent neural networks (RNNs) are widely used as a memory model for sequence-related problems. Many variants of RNN have been proposed to solve the gradient problems of training RNNs and process long sequences. Although some classical models have been proposed, capturing long-term dependence while responding to short-term changes remains a challenge. To this problem, we propose a new model named Dual Recurrent Neural Networks (DuRNN). The DuRNN consists of two parts to learn the short-term dependence and progressively learn the long-term dependence. The first part is a recurrent neural network with constrained full recurrent connections to deal with short-term dependence in sequence and generate short-term memory. Another part is a recurrent neural network with independent recurrent connections which helps to learn long-term dependence and generate long-term memory. A selection mechanism is added between two parts to help the needed long-term information transfer to the independent neurons. Multiple modules can be stacked to form a multi-layer model for better performance. Our contributions are: 1) a new recurrent model developed based on the divide-and-conquer strategy to learn long and short-term dependence separately, and 2) a selection mechanism to enhance the separating and learning of different temporal scales of dependence. Both theoretical analysis and extensive experiments are conducted to validate the performance of our model, and we also conduct simple visualization experiments and ablation analyses for the model interpretability. Experimental results indicate that the proposed DuRNN model can handle not only very long sequences (over 5000 time steps), but also short sequences very well. Compared with many state-of-the-art RNN models, our model has demonstrated efficient and better performance.
翻訳日:2022-11-27 04:28:15 公開日:2020-05-28
# hat: 効率的な自然言語処理のためのハードウェア対応トランスフォーマー

HAT: Hardware-Aware Transformers for Efficient Natural Language Processing ( http://arxiv.org/abs/2005.14187v1 )

ライセンス: Link先を確認
Hanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang Gan, Song Han(参考訳) トランスフォーマーは自然言語処理(NLP)タスクではユビキタスだが,計算量が多いためハードウェア上での展開は困難である。 資源制約のあるハードウェアプラットフォーム上での低遅延推論を可能にするために,ニューラルアーキテクチャ検索を用いたハードウェアアウェアトランスフォーマー(hat)の設計を提案する。 まず、$\textit{arbitrary encoder-decoder attention}$と$\textit{heterogeneous layers}$という大きな設計空間を構築します。 次に、設計空間のすべての候補をカバーする$\textit{SuperTransformer}$をトレーニングし、多くの$\textit{SubTransformer}$を重量共有で効率的に生成します。 最後に、ターゲットハードウェア上で高速に動作するための特別な$\textit{SubTransformer}$を見つけるために、ハードウェア遅延制約付きの進化的検索を実行する。 4つの機械翻訳タスクに関する大規模な実験は、HATが異なるハードウェア(CPU、GPU、IoTデバイス)の効率的なモデルを見つけることを実証している。 Raspberry Pi-4上でWMT'14翻訳タスクを実行する場合、HATは$\textbf{3}\times$ Speedup, $\textbf{3.7}\times$ smaller size over baseline Transformer; $\textbf{2.7}\times$ speedup, $\textbf{3.6}\times$ smaller size over Evolved Transformer with $\textbf{12,041}\times$ less search cost and no performance lossを達成できる。 HATコードはhttps://github.com/mit-han-lab/hardware-aware-aware-transformers.gitである。

Transformers are ubiquitous in Natural Language Processing (NLP) tasks, but they are difficult to be deployed on hardware due to the intensive computation. To enable low-latency inference on resource-constrained hardware platforms, we propose to design Hardware-Aware Transformers (HAT) with neural architecture search. We first construct a large design space with $\textit{arbitrary encoder-decoder attention}$ and $\textit{heterogeneous layers}$. Then we train a $\textit{SuperTransformer}$ that covers all candidates in the design space, and efficiently produces many $\textit{SubTransformers}$ with weight sharing. Finally, we perform an evolutionary search with a hardware latency constraint to find a specialized $\textit{SubTransformer}$ dedicated to run fast on the target hardware. Extensive experiments on four machine translation tasks demonstrate that HAT can discover efficient models for different hardware (CPU, GPU, IoT device). When running WMT'14 translation task on Raspberry Pi-4, HAT can achieve $\textbf{3}\times$ speedup, $\textbf{3.7}\times$ smaller size over baseline Transformer; $\textbf{2.7}\times$ speedup, $\textbf{3.6}\times$ smaller size over Evolved Transformer with $\textbf{12,041}\times$ less search cost and no performance loss. HAT code is https://github.com/mit-han-lab/hardware-aware-transformers.git
翻訳日:2022-11-27 04:27:50 公開日:2020-05-28
# 組込み学生用変分オートエンコーダ-著者属性のための$t$混合モデル

Variational Autoencoder with Embedded Student-$t$ Mixture Model for Authorship Attribution ( http://arxiv.org/abs/2005.13930v1 )

ライセンス: Link先を確認
Benedikt Boenninghoff, Steffen Zeiler, Robert M. Nickel, Dorothea Kolossa(参考訳) 従来の計算オーサシップ属性は、クローズドセットシナリオにおける分類タスクを記述する。 候補作家の有限集合と対応するラベル付きテキストが与えられると、どちらの著者が別の匿名または論争のあるテキストを書いたかを決定するのが目的である。 本稿では,この教師付き分類タスクに対応する確率的自動エンコーディングフレームワークを提案する。 より正確には、組込みガウス混合モデルによる変分オートエンコーダ(VAE)を、学生=$t$混合モデルに拡張している。 オートエンコーダは潜在表現の学習に多大な成功を収めた。 しかしながら、既存のVAEは、現在なお、潜在空間の基底確率分布のガウス性によって課せられる制限によって拘束されている。 本研究では,vaeのガウスモデルを拡張して,暗黙の確率密度の各テールの「重み」を独立に制御できる学生$t$モデルに拡張する。 amazon reviewデータセット上での実験は、提案手法の優れた性能を示している。

Traditional computational authorship attribution describes a classification task in a closed-set scenario. Given a finite set of candidate authors and corresponding labeled texts, the objective is to determine which of the authors has written another set of anonymous or disputed texts. In this work, we propose a probabilistic autoencoding framework to deal with this supervised classification task. More precisely, we are extending a variational autoencoder (VAE) with embedded Gaussian mixture model to a Student-$t$ mixture model. Autoencoders have had tremendous success in learning latent representations. However, existing VAEs are currently still bound by limitations imposed by the assumed Gaussianity of the underlying probability distributions in the latent space. In this work, we are extending the Gaussian model for the VAE to a Student-$t$ model, which allows for an independent control of the "heaviness" of the respective tails of the implied probability densities. Experiments over an Amazon review dataset indicate superior performance of the proposed method.
翻訳日:2022-11-27 04:26:25 公開日:2020-05-28
# サンプル効率強化学習のための勾配マッチングによるドメイン知識の統合

Domain Knowledge Integration By Gradient Matching For Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2005.13778v1 )

ライセンス: Link先を確認
Parth Chadha(参考訳) モデルフリー深部強化学習(RL)エージェントはブラックボックス環境との繰り返し相互作用から直接効果的なポリシーを学習することができる。 しかし実際には、アルゴリズムは学習と一般化のために大量のトレーニング経験を必要とすることが多い。 さらに、古典的なモデルなし学習は状態遷移タプルに含まれるドメイン情報を無視する。 一方、モデルに基づくRLは、経験から環境のモデルを学習しようと試みており、かなりサンプル効率が良いが、不完全な力学モデルのため、非常に大きな漸近バイアスに悩まされている。 本稿では,モデルフリー学習者を支援するために,動的予測器の目標勾配情報を利用して,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。 本稿では,抽象的低次元空間におけるモデルベース学習者からの勾配情報をモデルフリー成分とマッチングする手法を示し,提案手法の有効性を示す実験結果を用いて検証する。

Model-free deep reinforcement learning (RL) agents can learn an effective policy directly from repeated interactions with a black-box environment. However in practice, the algorithms often require large amounts of training experience to learn and generalize well. In addition, classic model-free learning ignores the domain information contained in the state transition tuples. Model-based RL, on the other hand, attempts to learn a model of the environment from experience and is substantially more sample efficient, but suffers from significantly large asymptotic bias owing to the imperfect dynamics model. In this paper, we propose a gradient matching algorithm to improve sample efficiency by utilizing target slope information from the dynamics predictor to aid the model-free learner. We demonstrate this by presenting a technique for matching the gradient information from the model-based learner with the model-free component in an abstract low-dimensional space and validate the proposed technique through experimental results that demonstrate the efficacy of this approach.
翻訳日:2022-11-27 04:26:11 公開日:2020-05-28
# ディープニューラルネットワークのプルーニングのための特徴マップ判別視点

A Feature-map Discriminant Perspective for Pruning Deep Neural Networks ( http://arxiv.org/abs/2005.13796v1 )

ライセンス: Link先を確認
Zejiang Hou and Sun-Yuan Kung(参考訳) ネットワークプルーニングは、モバイルおよびエッジアプリケーションのディープニューラルネットワークを加速するデファクトツールとなっている。 近年,複数のクラスを識別するcnnの目標に適合し,pruning決定の解釈性が向上するなど,特徴マップ判別に基づくチャネルpruningが有望な結果を示している。 しかし,特徴マップ識別能力の定量化に関する理論的ガイダンスが乏しいため,既存の判別法は計算不効率によって問題視されている。 本稿では,特徴マップの判別性を正確にかつ効率的に定量化するための新しい数学的定式化法を提案する。 本研究では,di の理論的性質,特に非破壊的性質を解析し,di を有効な選択基準とする。 DIベースのプルーニングは、識別力に関する情報をほとんど含まないため、DI値に対する最小の影響のチャネルを除去する。 di基準の汎用性により、層内混合精度量子化によりネットワークをさらに圧縮することができる。 さらに, 資源予算を充足できる構造を自動的に決定する手法として, diに基づくグリーディプルーニング法と構造蒸留法を提案する。 当社のPruned ResNet50 on ImageNetは,Top-1の精度損失を伴わずに44%のFLOP削減を実現しています。

Network pruning has become the de facto tool to accelerate deep neural networks for mobile and edge applications. Recently, feature-map discriminant based channel pruning has shown promising results, as it aligns well with the CNN objective of differentiating multiple classes and offers better interpretability of the pruning decision. However, existing discriminant-based methods are challenged by computation inefficiency, as there is a lack of theoretical guidance on quantifying the feature-map discriminant power. In this paper, we present a new mathematical formulation to accurately and efficiently quantify the feature-map discriminativeness, which gives rise to a novel criterion,Discriminant Information(DI). We analyze the theoretical property of DI, specifically the non-decreasing property, that makes DI a valid selection criterion. DI-based pruning removes channels with minimum influence to DI value, as they contain little information regarding to the discriminant power. The versatility of DI criterion also enables an intra-layer mixed precision quantization to further compress the network. Moreover, we propose a DI-based greedy pruning algorithm and structure distillation technique to automatically decide the pruned structure that satisfies certain resource budget, which is a common requirement in reality. Extensive experiments demonstratethe effectiveness of our method: our pruned ResNet50 on ImageNet achieves 44% FLOPs reduction without any Top-1 accuracy loss compared to unpruned model
翻訳日:2022-11-27 04:25:56 公開日:2020-05-28
# Adaptive Margin LossによるFew-Shot学習の促進

Boosting Few-Shot Learning With Adaptive Margin Loss ( http://arxiv.org/abs/2005.13826v1 )

ライセンス: Link先を確認
Aoxue Li and Weiran Huang and Xu Lan and Jiashi Feng and Zhenguo Li and Liwei Wang(参考訳) 近年、FSL(Few-shot Learning)が注目されているが、いくつかの例から学習を一般化することが本質的に困難であることから、いまだに困難である。 本稿では,数発学習問題に対するメトリックベースメタラーニング手法の一般化能力を向上させるための適応マージン原理を提案する。 具体的には、まず、各クラス間の意味的類似性が類似したクラスから特徴埋め込み空間内のサンプルを分離すると見なされるクラス関連加法マージン損失を開発する。 さらに,すべてのクラスに意味的コンテキストを組み込んで,異なるクラスからのサンプルをよりよく識別するために,タスク関連加法的マージン損失を開発する。 適応マージン法はより現実的な一般化fsl設定に容易に拡張できる。 大規模な実験により,提案手法は標準的なFSLと一般化FSL設定の両方の下で,現行のメトリックベースメタラーニング手法の性能を向上させることができることが示された。

Few-shot learning (FSL) has attracted increasing attention in recent years but remains challenging, due to the intrinsic difficulty in learning to generalize from a few examples. This paper proposes an adaptive margin principle to improve the generalization ability of metric-based meta-learning approaches for few-shot learning problems. Specifically, we first develop a class-relevant additive margin loss, where semantic similarity between each pair of classes is considered to separate samples in the feature embedding space from similar classes. Further, we incorporate the semantic context among all classes in a sampled training task and develop a task-relevant additive margin loss to better distinguish samples from different classes. Our adaptive margin method can be easily extended to a more realistic generalized FSL setting. Extensive experiments demonstrate that the proposed method can boost the performance of current metric-based meta-learning approaches, under both the standard FSL and generalized FSL settings.
翻訳日:2022-11-27 04:25:31 公開日:2020-05-28
# QEBA: クエリ効率の良い境界ベースのブラックボックス攻撃

QEBA: Query-Efficient Boundary-Based Blackbox Attack ( http://arxiv.org/abs/2005.14137v1 )

ライセンス: Link先を確認
Huichen Li, Xiaojun Xu, Xiaolu Zhang, Shuang Yang, Bo Li(参考訳) 機械学習(ML)、特にディープニューラルネットワーク(DNN)は、安全クリティカルないくつかのアプリケーション(例えば自動運転)など、様々なアプリケーションで広く使われている。 その結果、近年の敵の事例に関する研究は大きな関心を集めている。 このような敵攻撃は、ミスリードモデル予測に入力に少量の摂動を加えることで達成できる。 ホワイトボックス攻撃は、攻撃者が機械学習モデルに完全にアクセスできると仮定するホワイトボックス攻撃がいくつかあるが、ブラックボックス攻撃は実際より現実的である。 本稿では,モデルの最終予測ラベルのみに基づいて,クエリ効率の良い境界ベースのブラックボックスアタック(QEBA)を提案する。 従来の勾配空間全体の勾配推定を伴う境界ベース攻撃がクエリ数で効率的でない理由を理論的に示し,次元縮小に基づく勾配推定の最適性解析を提供する。 一方,imagenet と celeba データセットを用いた広範囲な実験を行い,qeba の評価を行った。 現状のブラックボックス攻撃と比較して、QEBAは、100%攻撃成功率の低い摂動量を達成するために、より少ないクエリを使用できることを示す。 また,MEGVII Face++やMicrosoft Azureなど,現実世界のAPIに対する攻撃のケーススタディを示す。

Machine learning (ML), especially deep neural networks (DNNs) have been widely used in various applications, including several safety-critical ones (e.g. autonomous driving). As a result, recent research about adversarial examples has raised great concerns. Such adversarial attacks can be achieved by adding a small magnitude of perturbation to the input to mislead model prediction. While several whitebox attacks have demonstrated their effectiveness, which assume that the attackers have full access to the machine learning models; blackbox attacks are more realistic in practice. In this paper, we propose a Query-Efficient Boundary-based blackbox Attack (QEBA) based only on model's final prediction labels. We theoretically show why previous boundary-based attack with gradient estimation on the whole gradient space is not efficient in terms of query numbers, and provide optimality analysis for our dimension reduction-based gradient estimation. On the other hand, we conducted extensive experiments on ImageNet and CelebA datasets to evaluate QEBA. We show that compared with the state-of-the-art blackbox attacks, QEBA is able to use a smaller number of queries to achieve a lower magnitude of perturbation with 100% attack success rate. We also show case studies of attacks on real-world APIs including MEGVII Face++ and Microsoft Azure.
翻訳日:2022-11-27 04:25:15 公開日:2020-05-28
# 複数車両の動的双方向ルーティング

Dynamic Bi-Objective Routing of Multiple Vehicles ( http://arxiv.org/abs/2005.13872v1 )

ライセンス: Link先を確認
Jakob Bossek, Christian Grimme, Heike Trautmann(参考訳) 実際には、例えばデリバリーやサービスのシナリオでは、Vine-Routing-Problems (VRPs) は動的顧客の要求に基づいて意思決定を繰り返している。 従来のvrpと同様に、ツアーは短期間で計画され、サービスの顧客の数は同時に最大化され、結果として多目的問題が発生する。 しかし、動的な要求は、まだ実現されていないツアー部品の再計画の必要性を招き、既に実現されたツアー部品は不可逆である。 本稿では,決定の逐次的決定と同時実現を含む,この2目的動的vrpについて検討する。 我々は,最近提案された動的進化多目的アルゴリズム(demoa)を,関連するvrp問題に適用し,より現実的な複数の車両のシナリオに拡張する。 実験により,提案手法が提案されている複数車両のオフライン型と透視型と,従来提案されていた動的単一車両方式との競合性を示す。

In practice, e.g. in delivery and service scenarios, Vehicle-Routing-Problems (VRPs) often imply repeated decision making on dynamic customer requests. As in classical VRPs, tours have to be planned short while the number of serviced customers has to be maximized at the same time resulting in a multi-objective problem. Beyond that, however, dynamic requests lead to the need for re-planning of not yet realized tour parts, while already realized tour parts are irreversible. In this paper we study this type of bi-objective dynamic VRP including sequential decision making and concurrent realization of decisions. We adopt a recently proposed Dynamic Evolutionary Multi-Objective Algorithm (DEMOA) for a related VRP problem and extend it to the more realistic (here considered) scenario of multiple vehicles. We empirically show that our DEMOA is competitive with a multi-vehicle offline and clairvoyant variant of the proposed DEMOA as well as with the dynamic single-vehicle approach proposed earlier.
翻訳日:2022-11-27 04:24:55 公開日:2020-05-28