このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200414となっている論文です。

PDF登録状況(公開日: 20200414)

TitleAuthorsAbstract論文公表日・翻訳日
# サブタスク依存の自律推論によるメタ強化学習

Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies ( http://arxiv.org/abs/2001.00248v2 )

ライセンス: Link先を確認
Sungryull Sohn, Hyunjae Woo, Jongwook Choi, Honglak Lee(参考訳) 本稿では,タスクがサブタスクの集合とエージェントに未知な依存関係を記述するサブタスクグラフによって特徴付けられる,新しい数ショットRL問題を提案し,対処する。 エージェントは、テストフェーズでのリターンを最大化するために、適応フェーズ中の数回にわたってタスクに迅速に適応する必要があります。 メタポリシーを直接学習する代わりに,Subtask Graph Inference(MSGI)を用いたメタラーナーを開発し,環境と相互作用してタスクの潜時パラメータを推論し,潜時パラメータが与えられたリターンを最大化する。 学習を容易にするために,我々は,高信頼境界(UCB)にインスパイアされた本質的な報酬を採用する。 2つのグリッドワールド領域とStarCraft II環境における実験結果から,提案手法は既存のメタRL法や階層RL法よりも高い効率で遅延タスクパラメータを正確に推定できることが示された。

We propose and address a novel few-shot RL problem, where a task is characterized by a subtask graph which describes a set of subtasks and their dependencies that are unknown to the agent. The agent needs to quickly adapt to the task over few episodes during adaptation phase to maximize the return in the test phase. Instead of directly learning a meta-policy, we develop a Meta-learner with Subtask Graph Inference(MSGI), which infers the latent parameter of the task by interacting with the environment and maximizes the return given the latent parameter. To facilitate learning, we adopt an intrinsic reward inspired by upper confidence bound (UCB) that encourages efficient exploration. Our experiment results on two grid-world domains and StarCraft II environments show that the proposed method is able to accurately infer the latent task parameter, and to adapt more efficiently than existing meta RL and hierarchical RL methods.
翻訳日:2023-01-16 09:11:55 公開日:2020-04-14
# 大規模MECネットワークにおけるオンラインリソーススケジューリングのためのスタック型オートエンコーダによる深層強化学習

Stacked Auto Encoder Based Deep Reinforcement Learning for Online Resource Scheduling in Large-Scale MEC Networks ( http://arxiv.org/abs/2001.09223v2 )

ライセンス: Link先を確認
Feibo Jiang, Kezhi Wang, Li Dong, Cunhua Pan, Kun Yang(参考訳) 大規模モバイルエッジコンピューティング(MEC)システムにおいて、オフロード決定、送信電力、リソース割り当てを最適化することにより、IoT(Internet of Things)ユーザのタスク遅延の重み付けを最小化するためのオンラインリソーススケジューリングフレームワークを提案する。 この目的のために、以下のコンポーネントを含む深層強化学習(DRL)に基づくソリューションを提案する。 まず、教師なし学習を伴う関連かつ規則化されたスタックドオートエンコーダ(2r-SAE)を適用して、高次元チャネル品質情報(CQI)データに対するデータ圧縮および表現を行い、DRLの状態を低減できる。 次に,drlの動作探索法として,適応型アニーリングに基づくアプローチ(asa)を提案し,探索方向の誘導に適応型h変換を用い,drlプロセス中の探索効率を高めるために適応型反復を提案する。 第3に、DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。 提案アルゴリズムは,既存のベンチマークと比較して計算時間を著しく短縮し,ほぼ最適性能が得られることを示した。

An online resource scheduling framework is proposed for minimizing the sum of weighted task latency for all the Internet of things (IoT) users, by optimizing offloading decision, transmission power and resource allocation in the large-scale mobile edge computing (MEC) system. Towards this end, a deep reinforcement learning (DRL) based solution is proposed, which includes the following components. Firstly, a related and regularized stacked auto encoder (2r-SAE) with unsupervised learning is applied to perform data compression and representation for high dimensional channel quality information (CQI) data, which can reduce the state space for DRL. Secondly, we present an adaptive simulated annealing based approach (ASA) as the action search method of DRL, in which an adaptive h-mutation is used to guide the search direction and an adaptive iteration is proposed to enhance the search efficiency during the DRL process. Thirdly, a preserved and prioritized experience replay (2p-ER) is introduced to assist the DRL to train the policy network and find the optimal offloading policy. Numerical results are provided to demonstrate that the proposed algorithm can achieve near-optimal performance while significantly decreasing the computational time compared with existing benchmarks.
翻訳日:2023-01-07 05:07:10 公開日:2020-04-14
# 実演からの異種学習

Heterogeneous Learning from Demonstration ( http://arxiv.org/abs/2001.09569v2 )

ライセンス: Link先を確認
Rohan Paleja, Matthew Gombolay(参考訳) 人間とロボットの双方の強みを活用できる人間ロボットシステムの開発は、産業や研究にまたがる先進的かつ幅広い影響により、大いに求められている。 ロボットが高度な自律性を持ち、手動作業や遠隔操作の負担を軽減しない限り、これらのシステムの真の可能性は到達できないと我々は信じている。 このレベルの自律性を達成するためには、ロボットは人間のパートナーとスムーズに働き、明確な命令なしでニーズを推測する必要がある。 この推論では、ロボットはパートナーの異質性を検出して分類する必要がある。 本稿では,ベイズ推定に基づく異種実演から学習するためのフレームワークを提案し,StarCraft IIの現実的なゲームプレイデータセットに対する一組のアプローチを評価する。 この評価は、ベイズ的アプローチが従来の手法を最大12.8$%$で上回ることを示す。

The development of human-robot systems able to leverage the strengths of both humans and their robotic counterparts has been greatly sought after because of the foreseen, broad-ranging impact across industry and research. We believe the true potential of these systems cannot be reached unless the robot is able to act with a high level of autonomy, reducing the burden of manual tasking or teleoperation. To achieve this level of autonomy, robots must be able to work fluidly with its human partners, inferring their needs without explicit commands. This inference requires the robot to be able to detect and classify the heterogeneity of its partners. We propose a framework for learning from heterogeneous demonstration based upon Bayesian inference and evaluate a suite of approaches on a real-world dataset of gameplay from StarCraft II. This evaluation provides evidence that our Bayesian approach can outperform conventional methods by up to 12.8$%$.
翻訳日:2023-01-06 07:30:38 公開日:2020-04-14
# 物理世界から常識的な事実を採掘する

Mining Commonsense Facts from the Physical World ( http://arxiv.org/abs/2002.03149v3 )

ライセンス: Link先を確認
Yanyan Zou, Wei Lu and Xu Sun(参考訳) 物理的世界のテクスト記述は暗黙的にコモンセンスの事実を言及し、コモンセンスの知識ベースはこれらの事実を三重項として明示的に表現する。 劇的に増加するテキストデータと比較すると、既存の知識ベースの範囲は完成に遠く及ばない。 知識ベースの普及に関する以前の研究のほとんどは、主にFreebaseに焦点を当てていた。 コモンセンスの知識ベースを自動で完成させ、そのカバレッジを向上させること。 本稿では,物理世界を記述する原文からコモンセンスの事実をマイニングする新たなタスクを提案する。 我々は、シーケンステキストと既存の知識ベースリソースの両方から情報を融合する効果的な新しいモデルを構築します。 次に、2つの大きなアノテートデータセットを作成し、それぞれ200k近いインスタンスでコモンセンス知識ベースを補完する。 実験結果から,本モデルがベースラインを著しく上回ることが示された。

Textual descriptions of the physical world implicitly mention commonsense facts, while the commonsense knowledge bases explicitly represent such facts as triples. Compared to dramatically increased text data, the coverage of existing knowledge bases is far away from completion. Most of the prior studies on populating knowledge bases mainly focus on Freebase. To automatically complete commonsense knowledge bases to improve their coverage is under-explored. In this paper, we propose a new task of mining commonsense facts from the raw text that describes the physical world. We build an effective new model that fuses information from both sequence text and existing knowledge base resource. Then we create two large annotated datasets each with approximate 200k instances for commonsense knowledge base completion. Empirical results demonstrate that our model significantly outperforms baselines.
翻訳日:2023-01-02 22:57:09 公開日:2020-04-14
# 二元分類のための希釈エロージョンパーセプトロンの低減

Reduced Dilation-Erosion Perceptron for Binary Classification ( http://arxiv.org/abs/2003.02306v2 )

ライセンス: Link先を確認
Marcos Eduardo Valle(参考訳) 拡張と浸食は、画像処理と解析に広く使われる非線形格子計算方法論である数学的形態学の2つの基本的な操作である。 ディレーション・エロージョン・パーセプトロン(Dilation-erosion Perceptron、DEP)は、ディレーションとエロージョンの凸結合によって得られるモルフォロジーニューラルネットワークであり、続いて二項分類タスクにハードリミター関数を適用する。 DEP分類器は、ヒンジ損失関数の最小化とともに凸凹法を用いて訓練することができる。 格子計算モデルとして、DEP分類器は特徴空間とクラス空間が部分的に順序集合であると仮定する。 しかし、多くの実践的な状況において、特徴パターンの自然な順序付けは存在しない。 本稿では,多値数学的形態学の概念を用いて,r-dep分類法を提案する。 特徴空間を適切に縮小順序付けしてr−DEP分類器を得る。 このような縮小順序は、異なるカーネルを持つサポートベクトル分類器(svcs)のアンサンブルに基づくものと、トレーニングセットの異なるサンプルを用いて訓練された類似のsvcのバッキングに基づく2つのアプローチによって決定できる。 OpenMLリポジトリからのいくつかのバイナリ分類データセットを用いて、アンサンブルとバギングr-DEP分類器は、線形、多項式、ラジアル基底関数(RBF)のSVCと、そのアンサンブルとRBF SVCのバギングよりも平均的なバランスの取れた精度スコアを得た。

Dilation and erosion are two elementary operations from mathematical morphology, a non-linear lattice computing methodology widely used for image processing and analysis. The dilation-erosion perceptron (DEP) is a morphological neural network obtained by a convex combination of a dilation and an erosion followed by the application of a hard-limiter function for binary classification tasks. A DEP classifier can be trained using a convex-concave procedure along with the minimization of the hinge loss function. As a lattice computing model, the DEP classifier assumes the feature and class spaces are partially ordered sets. In many practical situations, however, there is no natural ordering for the feature patterns. Using concepts from multi-valued mathematical morphology, this paper introduces the reduced dilation-erosion (r-DEP) classifier. An r-DEP classifier is obtained by endowing the feature space with an appropriate reduced ordering. Such reduced ordering can be determined using two approaches: One based on an ensemble of support vector classifiers (SVCs) with different kernels and the other based on a bagging of similar SVCs trained using different samples of the training set. Using several binary classification datasets from the OpenML repository, the ensemble and bagging r-DEP classifiers yielded in mean higher balanced accuracy scores than the linear, polynomial, and radial basis function (RBF) SVCs as well as their ensemble and a bagging of RBF SVCs.
翻訳日:2022-12-26 12:33:10 公開日:2020-04-14
# バイオメトリックスにおけるDemographic Bias : 創発的挑戦に関する調査

Demographic Bias in Biometrics: A Survey on an Emerging Challenge ( http://arxiv.org/abs/2003.02488v2 )

ライセンス: Link先を確認
P. Drozdowski, C. Rathgeb, A. Dantcheva, N. Damer, C. Busch(参考訳) 生体認証技術を組み込んだシステムは、個人、商業、政府によるアイデンティティ管理アプリケーションで広く普及している。 協力的(例えばアクセス制御)と非協力的(例えば監視と法医学)の両方のシステムは生体認証の恩恵を受けている。 このようなシステムは、人間の特定の生物学的・行動特性の特異性に依存しており、個人が自動化されたアルゴリズムを使って確実に認識できる。 しかし,近年,自動意思決定システム(バイオメトリックスを含む)におけるシステムバイアスの存在に関して,公衆や学術的な懸念が高まっている。 最も目立つのは、顔認識アルゴリズムがしばしばメディアや非政府組織、研究者によって「人種差別的」あるいは「偏見」と分類されていることである。 本論の主な貢献は,(1)バイオメトリクスの文脈におけるアルゴリズムバイアスの話題の概要,(2)バイオメトリックバイアスの予測と緩和に関する既存文献の包括的調査,(3)関連する技術的・社会的問題に関する議論,(4)技術的・社会的観点からの課題と今後の作業項目の概要である。

Systems incorporating biometric technologies have become ubiquitous in personal, commercial, and governmental identity management applications. Both cooperative (e.g. access control) and non-cooperative (e.g. surveillance and forensics) systems have benefited from biometrics. Such systems rely on the uniqueness of certain biological or behavioural characteristics of human beings, which enable for individuals to be reliably recognised using automated algorithms. Recently, however, there has been a wave of public and academic concerns regarding the existence of systemic bias in automated decision systems (including biometrics). Most prominently, face recognition algorithms have often been labelled as "racist" or "biased" by the media, non-governmental organisations, and researchers alike. The main contributions of this article are: (1) an overview of the topic of algorithmic bias in the context of biometrics, (2) a comprehensive survey of the existing literature on biometric bias estimation and mitigation, (3) a discussion of the pertinent technical and social matters, and (4) an outline of the remaining challenges and future work items, both from technological and social points of view.
翻訳日:2022-12-26 07:43:34 公開日:2020-04-14
# 長尾物体認識における等化損失

Equalization Loss for Long-Tailed Object Recognition ( http://arxiv.org/abs/2003.05176v2 )

ライセンス: Link先を確認
Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, Junjie Yan(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた物体認識技術は大きな成功を収めた。 しかし、最先端のオブジェクト検出手法は、LVISのような大きな語彙と長い尾を持つデータセットでは依然として不十分である。 本研究は, あるカテゴリの正のサンプルを他のカテゴリの負のサンプルとみなすことができ, テールカテゴリーの勾配を抑えることができる,という新しい視点から, この問題を解析する。 そこで本論文では, 比較的単純な損失である等化損失(等化損失)を提案し, 希少なカテゴリーの勾配を無視することで, 長期的希少なカテゴリーの問題に対処する。 等化損失は、ネットワークパラメータの更新中にまれなカテゴリの学習が不利になるのを防ぐ。 したがって、このモデルは希少クラスのオブジェクトに対するより良い識別的特徴を学習することができる。 提案手法では,マスクr-cnnのベースラインと比較して,lvisベンチマークにおいて4.1%,4.8%の ap 向上を達成している。 効果的な等化損失の活用により、LVIS Challenge 2019で最終的に1位を獲得した。 https: //github.com/tztztztz/eql.detectron2

Object recognition techniques using convolutional neural networks (CNN) have achieved great success. However, state-of-the-art object detection methods still perform poorly on large vocabulary and long-tailed datasets, e.g. LVIS. In this work, we analyze this problem from a novel perspective: each positive sample of one category can be seen as a negative sample for other categories, making the tail categories receive more discouraging gradients. Based on it, we propose a simple but effective loss, named equalization loss, to tackle the problem of long-tailed rare categories by simply ignoring those gradients for rare categories. The equalization loss protects the learning of rare categories from being at a disadvantage during the network parameter updating. Thus the model is capable of learning better discriminative features for objects of rare classes. Without any bells and whistles, our method achieves AP gains of 4.1% and 4.8% for the rare and common categories on the challenging LVIS benchmark, compared to the Mask R-CNN baseline. With the utilization of the effective equalization loss, we finally won the 1st place in the LVIS Challenge 2019. Code has been made available at: https: //github.com/tztztztztz/eql.detectron2
翻訳日:2022-12-24 14:51:01 公開日:2020-04-14
# MLPerfトレーニングと推論のための推奨ベンチマークの開発

Developing a Recommendation Benchmark for MLPerf Training and Inference ( http://arxiv.org/abs/2003.07336v2 )

ライセンス: Link先を確認
Carole-Jean Wu and Robin Burke and Ed H. Chi and Joseph Konstan and Julian McAuley and Yves Raimond and Hao Zhang(参考訳) ディープラーニングベースのレコメンデーションモデルは、例えば、ユーザエクスペリエンスを向上させるために、映画、製品、その他のユーザに最も関係のある情報を推薦するために、広く広く使用される。 画像分類、オブジェクト検出、言語と音声の翻訳など、重要な産業や学術研究の注目を集めている多くのアプリケーションドメインの中で、大規模データセンター群におけるAI推論サイクルを必然的に表すようなレコメンデーションタスクであっても、ディープラーニングベースのレコメンデーションモデルのパフォーマンスはあまりよく調査されていない。 機械学習システムの開発と商業分野の最適化を前進させ、その実現のために、mlperf training andinference suitesの業界関連レコメンデーションベンチマークを策定することを目指している。 本論文はパーソナライズドレコメンデーションシステムのための望ましいモデリング戦略を合成する。 推奨モデルアーキテクチャとデータセットの望ましい特徴を概説する。 次に、MLPerf勧告諮問委員会からの議論とアドバイスを要約する。

Deep learning-based recommendation models are used pervasively and broadly, for example, to recommend movies, products, or other information most relevant to users, in order to enhance the user experience. Among various application domains which have received significant industry and academia research attention, such as image classification, object detection, language and speech translation, the performance of deep learning-based recommendation models is less well explored, even though recommendation tasks unarguably represent significant AI inference cycles at large-scale datacenter fleets. To advance the state of understanding and enable machine learning system development and optimization for the commerce domain, we aim to define an industry-relevant recommendation benchmark for the MLPerf Training andInference Suites. The paper synthesizes the desirable modeling strategies for personalized recommendation systems. We lay out desirable characteristics of recommendation model architectures and data sets. We then summarize the discussions and advice from the MLPerf Recommendation Advisory Board.
翻訳日:2022-12-23 02:55:27 公開日:2020-04-14
# 画像における不確かさの定量化と自動地平線追跡--ベイズ深層優先法

Uncertainty quantification in imaging and automatic horizon tracking: a Bayesian deep-prior based approach ( http://arxiv.org/abs/2004.00227v3 )

ライセンス: Link先を確認
Ali Siahkoohi, Gabrio Rizzuti, Felix J. Herrmann(参考訳) 逆問題では、不確実量化(UQ)は解の非特異性とデータノイズ感度の確率論的記述を扱う。 ベイズの枠組みに地震イメージングを設定すれば、モデル後方分布の解法によって不確実性を研究する原理的な方法が得られる。 しかし、イメージングは典型的にはシーケンシャルワークフローの第1段階に過ぎず、UQはインバージョン結果に非常に敏感な後続のタスクに適用するとさらに重要になる。 本稿では, 層序モデル決定のための地平線追跡へのUQの適用方法に着目し, 撮像結果に対する感度について検討する。 この研究の主な貢献は、地平線追跡の不確実性分析に対するデータ誘導アプローチである。 この研究は基本的には「深みの前」として知られる反射率の特別なパラメータ化に基づいている。 実現可能なモデルは、固定入力を持つ畳み込みニューラルネットワークの出力に制限されるが、重みとバイアスはガウス確率変数である。 深い事前モデルが与えられると、ネットワークパラメータはマルコフ連鎖モンテカルロ法によって後方分布からサンプリングされ、そこから推定された反射率の条件平均とポイントワイズ標準偏差が近似される。 後方分布の各試料に対して反射率を生成し、水平線を自動的に追跡する。 このように、モデルパラメータの不確かさは自然に地平線追跡に変換される。 提案手法の検証の一環として,地平線追跡における推定信頼区間と断層等の地質学的に複雑な領域との一致を確認した。

In inverse problems, uncertainty quantification (UQ) deals with a probabilistic description of the solution nonuniqueness and data noise sensitivity. Setting seismic imaging into a Bayesian framework allows for a principled way of studying uncertainty by solving for the model posterior distribution. Imaging, however, typically constitutes only the first stage of a sequential workflow, and UQ becomes even more relevant when applied to subsequent tasks that are highly sensitive to the inversion outcome. In this paper, we focus on how UQ trickles down to horizon tracking for the determination of stratigraphic models and investigate its sensitivity with respect to the imaging result. As such, the main contribution of this work consists in a data-guided approach to horizon tracking uncertainty analysis. This work is fundamentally based on a special reparameterization of reflectivity, known as "deep prior". Feasible models are restricted to the output of a convolutional neural network with a fixed input, while weights and biases are Gaussian random variables. Given a deep prior model, the network parameters are sampled from the posterior distribution via a Markov chain Monte Carlo method, from which the conditional mean and point-wise standard deviation of the inferred reflectivities are approximated. For each sample of the posterior distribution, a reflectivity is generated, and the horizons are tracked automatically. In this way, uncertainty on model parameters naturally translates to horizon tracking. As part of the validation for the proposed approach, we verified that the estimated confidence intervals for the horizon tracking coincide with geologically complex regions, such as faults.
翻訳日:2022-12-17 19:38:11 公開日:2020-04-14
# オフライン手書き署名検証における書き手非依存二分法変換のホワイトボックス解析

A white-box analysis on the writer-independent dichotomy transformation applied to offline handwritten signature verification ( http://arxiv.org/abs/2004.03370v2 )

ライセンス: Link先を確認
Victor L. F. Souza, Adriano L. I. Oliveira, Rafael M. O. Cruz, Robert Sabourin(参考訳) オフライン手書き署名検証(HSV)問題の課題と課題には,多人数のライターや,高いクラス内変動と高不均衡なクラス分布を持つライター毎のトレーニングサンプルがあげられる。 これらの問題に取り組むためのよい選択肢は、ライター非依存(wi)フレームワークを使用することです。 WIシステムでは、二分法変換によって生成された異種性空間から全ての著者に対して署名検証を行うために単一のモデルを訓練する。 このフレームワークの利点の1つは、これらの課題のいくつかに対処するためのスケーラビリティと、新しいライターの管理が容易であることだ。 本研究では,本手法の問題点の扱い方,融合関数による参照の動的選択,および伝達学習への応用について,ホワイトボックス解析を行った。 すべての分析は、インスタンス硬度(IH)測定を用いてインスタンスレベルで実行される。 実験の結果,IH分析により,正試料と負試料のフロンティア領域だけでなく,品質の高い偽造品の「良い」と「悪い」を特徴付けることができた。 これにより、これらの特徴を考慮し、真正銘の署名と熟練した偽造の識別を改善する方法に関する今後の調査が可能になる。

High number of writers, small number of training samples per writer with high intra-class variability and heavily imbalanced class distributions are among the challenges and difficulties of the offline Handwritten Signature Verification (HSV) problem. A good alternative to tackle these issues is to use a writer-independent (WI) framework. In WI systems, a single model is trained to perform signature verification for all writers from a dissimilarity space generated by the dichotomy transformation. Among the advantages of this framework is its scalability to deal with some of these challenges and its ease in managing new writers, and hence of being used in a transfer learning context. In this work, we present a white-box analysis of this approach highlighting how it handles the challenges, the dynamic selection of references through fusion function, and its application for transfer learning. All the analyses are carried out at the instance level using the instance hardness (IH) measure. The experimental results show that, using the IH analysis, we were able to characterize "good" and "bad" quality skilled forgeries as well as the frontier region between positive and negative samples. This enables futures investigations on methods for improving discrimination between genuine signatures and skilled forgeries by considering these characterizations.
翻訳日:2022-12-17 04:55:45 公開日:2020-04-14
# 限定的な通信によるベイズ行列分解の高性能実装

A High-Performance Implementation of Bayesian Matrix Factorization with Limited Communication ( http://arxiv.org/abs/2004.02561v2 )

ライセンス: Link先を確認
Tom Vander Aa, Xiangju Qin, Paul Blomstedt, Roel Wuyts, Wilfried Verachtert, Samuel Kaski(参考訳) 行列分解は、レコメンダシステムにおいて非常に一般的な機械学習技術である。 ベイズ行列分解(BMF)アルゴリズムは、予測の不確実性を定量化し、過剰適合を避ける能力と高い予測精度を併せ持つため、魅力的である。 しかし、計算コストの制限のため、大規模データでは広く使われていない。 近年,BMFアルゴリズムのスケーラビリティ向上と実装の両面において,コスト削減への取り組みがなされている。 本稿では,両手法のスケーラビリティを両立させることが可能であることを示す。 本稿では,行列のブロックの計算を並列化するBMFアルゴリズムと,各ブロック内で非同期通信を行う分散型BMF実装を組み合わせる。 この2つの手法を組み合わせることで,壁時計時間の短縮を目標として,webスケールデータセットにおけるbmfのスケーラビリティが大幅に向上することを示す。

Matrix factorization is a very common machine learning technique in recommender systems. Bayesian Matrix Factorization (BMF) algorithms would be attractive because of their ability to quantify uncertainty in their predictions and avoid over-fitting, combined with high prediction accuracy. However, they have not been widely used on large-scale data because of their prohibitive computational cost. In recent work, efforts have been made to reduce the cost, both by improving the scalability of the BMF algorithm as well as its implementation, but so far mainly separately. In this paper we show that the state-of-the-art of both approaches to scalability can be combined. We combine the recent highly-scalable Posterior Propagation algorithm for BMF, which parallelizes computation of blocks of the matrix, with a distributed BMF implementation that users asynchronous communication within each block. We show that the combination of the two methods gives substantial improvements in the scalability of BMF on web-scale datasets, when the goal is to reduce the wall-clock time.
翻訳日:2022-12-16 05:43:37 公開日:2020-04-14
# MobileBERT: リソース制限デバイスのための小型タスク非依存BERT

MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices ( http://arxiv.org/abs/2004.02984v2 )

ライセンス: Link先を確認
Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou(参考訳) 自然言語処理(NLP)は、最近、数億のパラメータを持つ巨大な事前学習モデルを使用することで大きな成功を収めた。 しかし、これらのモデルは、リソース制限されたモバイルデバイスにデプロイできないような、重いモデルサイズと高いレイテンシに苦しむ。 本稿では,人気のあるBERTモデルの圧縮と高速化を目的としたMobileBERTを提案する。 元々のBERTと同様に、MobileBERTはタスク非依存であり、単純な微調整によって様々な下流のNLPタスクに汎用的に適用することができる。 MobileBERTはBERT_LARGEの薄いバージョンであり、ボトルネック構造と、自己注意とフィードフォワードネットワークのバランスを慎重に設計した。 MobileBERT を訓練するために,我々はまず,逆ブートネックを組み込んだ BERT_LARGE モデルである特別設計の教師モデルを訓練する。 そして,この教師からMobileBERTへの知識伝達を行う。 実証研究によれば、mobilebertはbert_baseより4.3倍小さく、5.5倍速い。 GLUEの自然言語推論タスクでは、MobileBERTはGLUEscore o 77.7(BERT_BASEより0.6低い)、Pixel 4で62ミリ秒のレイテンシを実現する。 SQuAD v1.1/v2.0質問応答タスクでは、MobileBERTは開発F1スコアの90.0/79.2(BERT_BASEより1.5/2.1高い)を達成する。

Natural Language Processing (NLP) has recently achieved great success by using huge pre-trained models with hundreds of millions of parameters. However, these models suffer from heavy model sizes and high latency such that they cannot be deployed to resource-limited mobile devices. In this paper, we propose MobileBERT for compressing and accelerating the popular BERT model. Like the original BERT, MobileBERT is task-agnostic, that is, it can be generically applied to various downstream NLP tasks via simple fine-tuning. Basically, MobileBERT is a thin version of BERT_LARGE, while equipped with bottleneck structures and a carefully designed balance between self-attentions and feed-forward networks. To train MobileBERT, we first train a specially designed teacher model, an inverted-bottleneck incorporated BERT_LARGE model. Then, we conduct knowledge transfer from this teacher to MobileBERT. Empirical studies show that MobileBERT is 4.3x smaller and 5.5x faster than BERT_BASE while achieving competitive results on well-known benchmarks. On the natural language inference tasks of GLUE, MobileBERT achieves a GLUEscore o 77.7 (0.6 lower than BERT_BASE), and 62 ms latency on a Pixel 4 phone. On the SQuAD v1.1/v2.0 question answering task, MobileBERT achieves a dev F1 score of 90.0/79.2 (1.5/2.1 higher than BERT_BASE).
翻訳日:2022-12-16 05:35:32 公開日:2020-04-14
# プラグアンドプレイISTAはカーネルデノイザと収束する

Plug-and-play ISTA converges with kernel denoisers ( http://arxiv.org/abs/2004.03145v2 )

ライセンス: Link先を確認
Ruturaj G. Gavaskar and Kunal N. Chaudhury(参考訳) プラグ・アンド・プレイ(pnp)法は画像正規化の最近のパラダイムであり、反復アルゴリズムにおける近位作用素(与えられた正規化子と関連する)は強力なデノイザーに置き換えられる。 アルゴリズム的には、これは(フォワードモデルの)繰り返し反転と収束まで denoising を伴う。 注目すべきは、PnP正則化はいくつかの復元アプリケーションに対して有望な結果をもたらすことである。 しかし、この点における根本的な問題は、アルゴリズムが最適化フレームワークから厳密に派生していないため、PnP反復の理論的収束である。 この問題は近年の研究で研究されているが、未解決の問題も多い。 例えば、ISTAフレームワーク(PnP-ISTA)内でジェネリックカーネルデノイザ(例えば非局所的な手段)を使用する場合、収束が保証されるかどうかは不明である。 合理的な仮定の下では、pnp-istaの不動点収束はデブラリング、インパインティング、スーパーレゾリューションといった線形逆問題に対して確実に保証される(これらの仮定はインパインティングで検証可能である)。 理論的な結果と既存の結果を比較し,それらを数値的に検証し,その実践的妥当性を説明する。

Plug-and-play (PnP) method is a recent paradigm for image regularization, where the proximal operator (associated with some given regularizer) in an iterative algorithm is replaced with a powerful denoiser. Algorithmically, this involves repeated inversion (of the forward model) and denoising until convergence. Remarkably, PnP regularization produces promising results for several restoration applications. However, a fundamental question in this regard is the theoretical convergence of the PnP iterations, since the algorithm is not strictly derived from an optimization framework. This question has been investigated in recent works, but there are still many unresolved problems. For example, it is not known if convergence can be guaranteed if we use generic kernel denoisers (e.g. nonlocal means) within the ISTA framework (PnP-ISTA). We prove that, under reasonable assumptions, fixed-point convergence of PnP-ISTA is indeed guaranteed for linear inverse problems such as deblurring, inpainting and superresolution (the assumptions are verifiable for inpainting). We compare our theoretical findings with existing results, validate them numerically, and explain their practical relevance.
翻訳日:2022-12-16 00:44:07 公開日:2020-04-14
# 網膜画像解析における完全連結層とクラス数の関係

The relationship between Fully Connected Layers and number of classes for the analysis of retinal images ( http://arxiv.org/abs/2004.03624v2 )

ライセンス: Link先を確認
Ajna Ram, Constantino Carlos Reyes-Aldasoro(参考訳) 本稿では、基底網膜画像の分類に応用した深部畳み込みニューラルネットワークにおける完全連結層数について実験を行った。 解析された画像はodir 2019 (peking university international competition on ocular disease intelligent recognition) [9]に対応しており、正常例と同様に様々な眼疾患(カタラクト、緑内障、近視、糖尿病網膜症、加齢黄斑変性(amd)、高血圧)の画像が含まれていた。 本研究は,正常,白内障,amd,近視の分類に焦点をあてた。 ニューラルネットワークの特徴抽出部(畳み込み部)は、ネットワークの特徴マッピング部(線形部)が変更されている間、そのまま保持される。 これらのニューラルネット上では、異なるデータセットが探索される。 各データセットは、クラスの数によって異なる。 そこで本研究では,クラス数と完全連結層数との関係について述べる。 その結果、ニューラルネットワークの完全連結層数を増やす効果は、使用されるデータセットの種類に依存することがわかった。 単純で線形分離可能なデータセットでは、完全連結層の追加は検討されるべきであり、訓練精度が向上する可能性があるが、直接的な相関は見つからなかった。 しかし、データセットの複雑さが増す(より多くの重複クラス)と、完全に接続されたレイヤーの数が増えると、ニューラルネットワークは学習をやめる。 この現象はデータセットがより複雑になるほど早く起こる。

This paper experiments with the number of fully-connected layers in a deep convolutional neural network as applied to the classification of fundus retinal images. The images analysed corresponded to the ODIR 2019 (Peking University International Competition on Ocular Disease Intelligent Recognition) [9], which included images of various eye diseases (cataract, glaucoma, myopia, diabetic retinopathy, age-related macular degeneration (AMD), hypertension) as well as normal cases. This work focused on the classification of Normal, Cataract, AMD and Myopia. The feature extraction (convolutional) part of the neural network is kept the same while the feature mapping (linear) part of the network is changed. Different data sets are also explored on these neural nets. Each data set differs from another by the number of classes it has. This paper hence aims to find the relationship between number of classes and number of fully-connected layers. It was found out that the effect of increasing the number of fully-connected layers of a neural networks depends on the type of data set being used. For simple, linearly separable data sets, addition of fully-connected layer is something that should be explored and that could result in better training accuracy, but a direct correlation was not found. However as complexity of the data set goes up(more overlapping classes), increasing the number of fully-connected layers causes the neural network to stop learning. This phenomenon happens quicker the more complex the data set is.
翻訳日:2022-12-15 23:29:40 公開日:2020-04-14
# GeneCAI: コンパクトAIの遺伝的進化

GeneCAI: Genetic Evolution for Acquiring Compact AI ( http://arxiv.org/abs/2004.04249v2 )

ライセンス: Link先を確認
Mojan Javaheripi, Mohammad Samragh, Tara Javidi, Farinaz Koushanfar(参考訳) 現代のビッグデータの世界では、Deep Neural Networks(DNN)がより複雑なアーキテクチャへと進化し、より高い推論精度を実現している。 モデル圧縮技術は、リソース制限されたモバイルデバイスにそのような計算集約的なアーキテクチャを効率的に展開するために利用することができる。 このような手法は、高い精度を確保するために層ごとのカスタマイズを必要とする様々なハイパーパラメータから構成される。 このようなハイパーパラメータの選択は、関連する探索空間がモデル層とともに指数関数的に増加するため、面倒である。 本稿では,階層間圧縮ハイパーパラメータのチューニング方法を自動的に学習する新しい最適化手法であるGeneCAIを紹介する。 圧縮されたDNNをジェノタイプ空間に符号化するビジェクティブ翻訳方式を考案する。 各遺伝子型の最適性は、精度と浮動小数点演算数に基づいて多目的スコアを用いて測定される。 そこで我々は, モデル精度と複雑性の最適なトレードオフを捉えるため, 最適化された遺伝的操作を開発し, 非支配的ソリューションを最適パレートに進化させる。 GeneCAI最適化はスケーラビリティが高く,分散マルチGPUプラットフォーム上でほぼ直線的な性能向上を実現する。 広範な評価結果から,genecaiは精度・複雑さ・パレート曲線に基づくモデルを見つけることで,dnn圧縮における既存のルールベースおよび強化学習手法よりも優れていることが示された。

In the contemporary big data realm, Deep Neural Networks (DNNs) are evolving towards more complex architectures to achieve higher inference accuracy. Model compression techniques can be leveraged to efficiently deploy such compute-intensive architectures on resource-limited mobile devices. Such methods comprise various hyper-parameters that require per-layer customization to ensure high accuracy. Choosing such hyper-parameters is cumbersome as the pertinent search space grows exponentially with model layers. This paper introduces GeneCAI, a novel optimization method that automatically learns how to tune per-layer compression hyper-parameters. We devise a bijective translation scheme that encodes compressed DNNs to the genotype space. The optimality of each genotype is measured using a multi-objective score based on accuracy and number of floating point operations. We develop customized genetic operations to iteratively evolve the non-dominated solutions towards the optimal Pareto front, thus, capturing the optimal trade-off between model accuracy and complexity. GeneCAI optimization method is highly scalable and can achieve a near-linear performance boost on distributed multi-GPU platforms. Our extensive evaluations demonstrate that GeneCAI outperforms existing rule-based and reinforcement learning methods in DNN compression by finding models that lie on a better accuracy-complexity Pareto curve.
翻訳日:2022-12-15 07:52:44 公開日:2020-04-14
# 貯留層計算のためのスパイクニューロンの個体群:完全四重項の閉ループ制御

Populations of Spiking Neurons for Reservoir Computing: Closed Loop Control of a Compliant Quadruped ( http://arxiv.org/abs/2004.04560v2 )

ライセンス: Link先を確認
Alexander Vandesompele, Gabriel Urbain, Francis wyffels, Joni Dambre(参考訳) 準拠したロボットは従来のロボットよりも汎用性が高いが、その制御は複雑だ。 しかし、適合体のダイナミクスは、物理的貯水池計算フレームワークを用いて有利に働くことができる。 センサ信号を貯水池に供給し、貯水池からモータ信号を抽出することにより、閉ループロボット制御が可能となる。 本稿では,ニューラルネットワークをスパイクする中央パターン生成機構を実装し,閉ループロボット制御を実現するための新しいフレームワークを提案する。 FORCE学習パラダイムを用いて、スパイキングニューロン集団の貯留層をトレーニングし、中央パターン生成器として機能させる。 本研究では,4足歩行ロボットのシミュレーションモデルを用いて,事前定義された歩行パターン,速度制御,歩行遷移の学習を実証する。

Compliant robots can be more versatile than traditional robots, but their control is more complex. The dynamics of compliant bodies can however be turned into an advantage using the physical reservoir computing frame-work. By feeding sensor signals to the reservoir and extracting motor signals from the reservoir, closed loop robot control is possible. Here, we present a novel framework for implementing central pattern generators with spiking neural networks to obtain closed loop robot control. Using the FORCE learning paradigm, we train a reservoir of spiking neuron populations to act as a central pattern generator. We demonstrate the learning of predefined gait patterns, speed control and gait transition on a simulated model of a compliant quadrupedal robot.
翻訳日:2022-12-15 02:18:14 公開日:2020-04-14
# 低リソース言語翻訳のための最適変換器深さについて

On Optimal Transformer Depth for Low-Resource Language Translation ( http://arxiv.org/abs/2004.04418v2 )

ライセンス: Link先を確認
Elan van Biljon, Arnu Pretorius and Julia Kreutzer(参考訳) トランスフォーマーは低リソース言語のためのニューラルマシン翻訳(nmt)へのアプローチとして大きな期待を示している。 しかし同時に、トランスモデルの最適化は困難であり、この設定ではハイパーパラメータの注意深いチューニングが必要である。 多くのNMTツールキットにはデフォルトのハイパーパラメータが付属しており、研究者や実践者は便利さとチューニングの回避のためにしばしば採用されている。 しかし、これらの構成は、英語やフランス語のようなヨーロッパの言語に対して数百万の並列文を持つ大規模機械翻訳データセットに最適化されている。 この研究で、非常に大きなモデルを使う分野の現在のトレンドは、トレーニングをより困難にし、全体的なパフォーマンスを損なうため、低リソース言語にとって有害であることがわかった。 私たちはマサハネプロジェクト(マサハネはイシズル語で「一緒に構築する」という意味)を補完するものとして、低リソースのnmtシステムがコミュニティによって構築されていると考えています。 しかし、コミュニティの多くは、産業研究によって推進される非常に大きなモデルを構築するのに必要な計算資源の種類に非常に限定されている。 したがって、トランスモデルが低~モデレートの深さでうまく(そしてしばしば最善)動作することを示すことによって、これらのシステムの開発において、より少ない計算資源と時間に時間を割くように、同僚の研究者に説得することを望む。

Transformers have shown great promise as an approach to Neural Machine Translation (NMT) for low-resource languages. However, at the same time, transformer models remain difficult to optimize and require careful tuning of hyper-parameters to be useful in this setting. Many NMT toolkits come with a set of default hyper-parameters, which researchers and practitioners often adopt for the sake of convenience and avoiding tuning. These configurations, however, have been optimized for large-scale machine translation data sets with several millions of parallel sentences for European languages like English and French. In this work, we find that the current trend in the field to use very large models is detrimental for low-resource languages, since it makes training more difficult and hurts overall performance, confirming previous observations. We see our work as complementary to the Masakhane project ("Masakhane" means "We Build Together" in isiZulu.) In this spirit, low-resource NMT systems are now being built by the community who needs them the most. However, many in the community still have very limited access to the type of computational resources required for building extremely large models promoted by industrial research. Therefore, by showing that transformer models perform well (and often best) at low-to-moderate depth, we hope to convince fellow researchers to devote less computational resources, as well as time, to exploring overly large models during the development of these systems.
翻訳日:2022-12-15 02:00:15 公開日:2020-04-14
# 符号化変調系の確率的および幾何学的形状の連成学習

Joint Learning of Probabilistic and Geometric Shaping for Coded Modulation Systems ( http://arxiv.org/abs/2004.05062v2 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 本稿では,確率的シェーピング,幾何学的シェーピング,ビットラベリング,デマッピングによるビットワイド相互情報(BMI)の協調最適化を,特定のチャネルモデルと幅広い信号-雑音比(SNR)に対して実現する訓練可能な符号化変調方式を提案する。 確率振幅シェーピング(PAS)と比較して、提案手法は対称確率分布に制限されず、任意のチャネルモデルに最適化でき、任意のコードレート$k/m$、$m$はチャネル使用当たりのビット数、$k$は1ドルから$m-1$の範囲内の整数数で動作する。 提案手法により,SNRにより決定される星座の地形と確率分布の連続体を学習することができる。 さらに、形成分布としてMaxwell-Boltzmann (MB) を用いたPASアーキテクチャを、SNRに従って二次振幅変調(QAM)星座のMB整形を制御するニューラルネットワーク(NN)で拡張し、QAMのMB分布の連続性を学習できるようにした。 AWGN (Adjectitive white Gaussian noise) とミスマッチしたRayleigh block fading (RBF) チャネル上での連成確率および幾何形状の整形法の性能を評価するためにシミュレーションを行った。

We introduce a trainable coded modulation scheme that enables joint optimization of the bit-wise mutual information (BMI) through probabilistic shaping, geometric shaping, bit labeling, and demapping for a specific channel model and for a wide range of signal-to-noise ratios (SNRs). Compared to probabilistic amplitude shaping (PAS), the proposed approach is not restricted to symmetric probability distributions, can be optimized for any channel model, and works with any code rate $k/m$, $m$ being the number of bits per channel use and $k$ an integer within the range from $1$ to $m-1$. The proposed scheme enables learning of a continuum of constellation geometries and probability distributions determined by the SNR. Additionally, the PAS architecture with Maxwell-Boltzmann (MB) as shaping distribution was extended with a neural network (NN) that controls the MB shaping of a quadrature amplitude modulation (QAM) constellation according to the SNR, enabling learning of a continuum of MB distributions for QAM. Simulations were performed to benchmark the performance of the proposed joint probabilistic and geometric shaping scheme on additive white Gaussian noise (AWGN) and mismatched Rayleigh block fading (RBF) channels.
翻訳日:2022-12-14 21:31:26 公開日:2020-04-14
# ModuleNet: 知識を継承したニューラルアーキテクチャ検索

ModuleNet: Knowledge-inherited Neural Architecture Search ( http://arxiv.org/abs/2004.05020v2 )

ライセンス: Link先を確認
Yaran Chen, Ruiyuan Gao, Fenggang Liu and Dongbin Zhao(参考訳) ニューラル・アーキテクチャ・サーチ(nas)は深層モデルに改善をもたらすが、既存のモデルの貴重な知識を常に無視する。 NASの計算と時間コスト特性は、スクラッチから検索まで始めるのではなく、既存の知識を再利用しようとするあらゆる試みを行うことを意味します。 本稿では,モデルにおけるどのような知識が,新しいアーキテクチャ設計に利用できるのか,また,どのような知識を利用すべきかを論じる。 そこで我々は,既存の畳み込みニューラルネットワークから知識を完全に継承できる新しいNASアルゴリズム,すなわちModuleNetを提案する。 既存のモデルをフル活用するために、既存のモデルを異なる \textit{module} に分解し、知識ベースからなる重みを保ちます。 次に、知識ベースに応じた新しいアーキテクチャのサンプルと検索を行う。 従来の検索アルゴリズムとは異なり,nsga-iiアルゴリズムでは,これら \textit{module} のパラメータをチューニングすることなく,マクロ空間内のアーキテクチャを直接検索することができる。 実験により,畳み込み層に重みをチューニングしなくても,新しいアーキテクチャの性能を効率的に評価できることを示した。 私たちが継承した知識の助けを借りて、我々の検索結果は常に元のアーキテクチャよりも様々なデータセット(CIFAR10, CIFAR100)でより良いパフォーマンスを達成できます。

Although Neural Architecture Search (NAS) can bring improvement to deep models, they always neglect precious knowledge of existing models. The computation and time costing property in NAS also means that we should not start from scratch to search, but make every attempt to reuse the existing knowledge. In this paper, we discuss what kind of knowledge in a model can and should be used for new architecture design. Then, we propose a new NAS algorithm, namely ModuleNet, which can fully inherit knowledge from existing convolutional neural networks. To make full use of existing models, we decompose existing models into different \textit{module}s which also keep their weights, consisting of a knowledge base. Then we sample and search for new architecture according to the knowledge base. Unlike previous search algorithms, and benefiting from inherited knowledge, our method is able to directly search for architectures in the macro space by NSGA-II algorithm without tuning parameters in these \textit{module}s. Experiments show that our strategy can efficiently evaluate the performance of new architecture even without tuning weights in convolutional layers. With the help of knowledge we inherited, our search results can always achieve better performance on various datasets (CIFAR10, CIFAR100) over original architectures.
翻訳日:2022-12-14 21:11:15 公開日:2020-04-14
# アクティブハードサンプルマイニングによる人物再同定

Person Re-Identification via Active Hard Sample Mining ( http://arxiv.org/abs/2004.04912v2 )

ライセンス: Link先を確認
Xin Xu, Lei Liu, Weifeng Liu, Meng Wang, Ruimin Hu(参考訳) 大規模なイメージデータセットのアノテーションは非常に退屈ですが、個人の再識別モデルのトレーニングには必要です。 このような問題を緩和するために,ラベル付けの少ない効果的なre-IDモデルのトレーニングを通じて,アクティブなハードサンプルマイニングフレームワークを提案する。 ハードサンプルが情報的パターンを提供できることを考慮し、まず不確実性推定を定式化し、ハードサンプルを積極的に選択し、スクラッチからリIDモデルを反復的に訓練する。 そして,その多様性を最大化することにより,冗長なハードサンプルの削減を図る。 また、アクティブなハードサンプルマイニングフレームワークに埋め込まれたコンピュータ支援型アイデンティティ推薦モジュールを提案し、人間のアノテータが選択したサンプルを迅速かつ正確にラベル付けできるようにする。 提案手法の有効性を示すために, 大規模な実験を行った。 実験結果から,本手法はre-IDモデルの性能を最大化しつつ, Market1501, MSMT17, CUHK03のアノテーションを57%, 63%, 49%削減できることがわかった。

Annotating a large-scale image dataset is very tedious, yet necessary for training person re-identification models. To alleviate such a problem, we present an active hard sample mining framework via training an effective re-ID model with the least labeling efforts. Considering that hard samples can provide informative patterns, we first formulate an uncertainty estimation to actively select hard samples to iteratively train a re-ID model from scratch. Then, intra-diversity estimation is designed to reduce the redundant hard samples by maximizing their diversity. Moreover, we propose a computer-assisted identity recommendation module embedded in the active hard sample mining framework to help human annotators to rapidly and accurately label the selected samples. Extensive experiments were carried out to demonstrate the effectiveness of our method on several public datasets. Experimental results indicate that our method can reduce 57%, 63%, and 49% annotation efforts on the Market1501, MSMT17, and CUHK03, respectively, while maximizing the performance of the re-ID model.
翻訳日:2022-12-14 21:03:12 公開日:2020-04-14
# In-Machine-Learning Database:Old-School SQLによるディープラーニングの再構築

In-Machine-Learning Database: Reimagining Deep Learning with Old-School SQL ( http://arxiv.org/abs/2004.05366v2 )

ライセンス: Link先を確認
Len Du(参考訳) データベース内の機械学習は非常に人気があり、ほとんどクリケットである。 しかし、その逆はできるだろうか? この研究では、SQLでディープラーニングアルゴリズムを実装するという意味で、平易な古いSQLをディープラーニングに適用することで、"はい"と言います。 ほとんどのディープラーニングフレームワークと一般的な機械学習フレームワークは、自動微分などのファンシエインフラストラクチャの下で、多次元配列操作のデファクトスタンダードを共有している。 SQLテーブルは(多次元)配列の一般化と見なすことができるため、SQLで一般的なディープラーニング操作を表現し、異なる考え方を奨励し、新しいモデルの可能性を見出した。 特に、ディープラーニングの最新トレンドの1つは、グラフ畳み込みネットワーク(graph convolutional networks)の名前にスパーシティを導入することだった。 データベースと機械学習の両方がデータセットの変換に関与しているため、この研究が、機械学習を単にデータベースに整数化するのではなく、データベース分野における既存の知恵、アルゴリズム、テクノロジーの大規模なボディを活用して、機械学習における最先端の最先端を推し進めることを願っている。

In-database machine learning has been very popular, almost being a cliche. However, can we do it the other way around? In this work, we say "yes" by applying plain old SQL to deep learning, in a sense implementing deep learning algorithms with SQL. Most deep learning frameworks, as well as generic machine learning ones, share a de facto standard of multidimensional array operations, underneath fancier infrastructure such as automatic differentiation. As SQL tables can be regarded as generalisations of (multi-dimensional) arrays, we have found a way to express common deep learning operations in SQL, encouraging a different way of thinking and thus potentially novel models. In particular, one of the latest trend in deep learning was the introduction of sparsity in the name of graph convolutional networks, whereas we take sparsity almost for granted in the database world. As both databases and machine learning involve transformation of datasets, we hope this work can inspire further works utilizing the large body of existing wisdom, algorithms and technologies in the database field to advance the state of the art in machine learning, rather than merely integerating machine learning into databases.
翻訳日:2022-12-14 10:16:07 公開日:2020-04-14
# 実験における逐次決定のための最適学習

Optimal Learning for Sequential Decisions in Laboratory Experimentation ( http://arxiv.org/abs/2004.05417v2 )

ライセンス: Link先を確認
Kristopher Reyes and Warren B Powell(参考訳) 物理学、生物学、医学における発見のプロセスは、非常に遅い。 ほとんどの実験は失敗し、新たな進歩が商業生産に到達するまでの時間は20年に及ぶ。 このチュートリアルは、実験科学者に意思決定の科学の基礎を提供することを目的としている。 著者の経験から得られた数値例を用いて,実験学習問題の基本的な要素について述べる。 これは、先行研究、過去の実験、科学的専門知識によって提供される関係の最良の推定だけでなく、それらの関係における不確実性を含む、信念モデルの重要な役割を強調している。 我々は,学習政策の概念を紹介し,政策の主要なカテゴリをレビューする。 次に,各実験から得られる情報の価値を最大化する知識勾配と呼ばれる方針を導入する。 不確実性を減らすことの重要性を明らかにし、異なる信念モデルに対してこのプロセスを説明する。

The process of discovery in the physical, biological and medical sciences can be painstakingly slow. Most experiments fail, and the time from initiation of research until a new advance reaches commercial production can span 20 years. This tutorial is aimed to provide experimental scientists with a foundation in the science of making decisions. Using numerical examples drawn from the experiences of the authors, the article describes the fundamental elements of any experimental learning problem. It emphasizes the important role of belief models, which include not only the best estimate of relationships provided by prior research, previous experiments and scientific expertise, but also the uncertainty in these relationships. We introduce the concept of a learning policy, and review the major categories of policies. We then introduce a policy, known as the knowledge gradient, that maximizes the value of information from each experiment. We bring out the importance of reducing uncertainty, and illustrate this process for different belief models.
翻訳日:2022-12-14 10:08:38 公開日:2020-04-14
# 5Gクラウド無線アクセスネットワークにおける深層学習とカーネル化支援ベクトルマシンを組み合わせたマルチステージジャミング攻撃検出

Multi-stage Jamming Attacks Detection using Deep Learning Combined with Kernelized Support Vector Machine in 5G Cloud Radio Access Networks ( http://arxiv.org/abs/2004.06077v2 )

ライセンス: Link先を確認
Marouane Hachimi, Georges Kaddoum, Ghyslain Gagnon, Poulmanogo Illy(参考訳) 5Gネットワークにおいて、Cloud Radio Access Network(C-RAN)は、リアルタイムクラウドインフラストラクチャ、協調無線、集中型データ処理を提供することにより、エネルギー消費を最小化し、リソースを効率的に割り当てる、将来的なアーキテクチャとして期待されている。 近年,悪質な攻撃に対する脆弱性から,c-ranネットワークのセキュリティが注目されている。 様々な異常に基づく侵入検知技術のうち、最も有望なものは、人間の助けなしに学習し、それに応じて行動を調整する機械学習に基づく侵入検出である。 この方向では、多くの解決策が提案されているが、攻撃分類において低い精度を示すか、単に単一の攻撃検出層を提供するだけである。 本研究では,複数段階の機械学習に基づく侵入検出(ml-ids)を5g c-ranに展開し,一定のジャミング,ランダムジャミング,騙し込み,リアクティブジャミングの4種類のジャミング攻撃の検出と分類を行う。 このデプロイメントは、C-RANアーキテクチャにおける偽陰性を最小限にすることでセキュリティを高める。 提案手法の実験的評価は、侵入検知専用の無線データセットであるWSN-DS(Wireless Sensor Networks DataSet)を用いて行われる。 攻撃の最終分類精度は 94.51\% であり、偽陰性率は 7.84\% である。

In 5G networks, the Cloud Radio Access Network (C-RAN) is considered a promising future architecture in terms of minimizing energy consumption and allocating resources efficiently by providing real-time cloud infrastructures, cooperative radio, and centralized data processing. Recently, given their vulnerability to malicious attacks, the security of C-RAN networks has attracted significant attention. Among various anomaly-based intrusion detection techniques, the most promising one is the machine learning-based intrusion detection as it learns without human assistance and adjusts actions accordingly. In this direction, many solutions have been proposed, but they show either low accuracy in terms of attack classification or they offer just a single layer of attack detection. This research focuses on deploying a multi-stage machine learning-based intrusion detection (ML-IDS) in 5G C-RAN that can detect and classify four types of jamming attacks: constant jamming, random jamming, deceptive jamming, and reactive jamming. This deployment enhances security by minimizing the false negatives in C-RAN architectures. The experimental evaluation of the proposed solution is carried out using WSN-DS (Wireless Sensor Networks DataSet), which is a dedicated wireless dataset for intrusion detection. The final classification accuracy of attacks is 94.51\% with a 7.84\% false negative rate.
翻訳日:2022-12-14 00:38:53 公開日:2020-04-14
# 配水系統における流れ・圧力予測のためのハイブリッド注意ネットワーク

Hybrid Attention Networks for Flow and Pressure Forecasting in Water Distribution Systems ( http://arxiv.org/abs/2004.05828v2 )

ライセンス: Link先を確認
Ziqing Ma and Shuming Liu and Guancheng Guo and Xipeng Yu(参考訳) 多変量ジオ感覚時系列予測は複雑な空間的および時間的相関のため困難である。 都市水配水システム (WDS) では, 連続的なデータ収集のために多数の空間関連センサが配置されている。 監視フローと圧力時系列の予測は、運用上の意思決定、警告、異常検出において極めて重要である。 この問題に対処するため,我々は2段階の時空間注意型リカレントニューラルネットワーク(hDS-RNN)を提案する。 本モデルは,空間的注意に基づくエンコーダと時間的注意に基づくデコーダの2段階からなる。 具体的には,時間軸と空間軸に沿った入力を利用するハイブリッド空間アテンション機構を提案する。 実世界のデータセットの実験を行い,WDSにおける流れおよび圧力系列予測において,我々のモデルが9つのベースラインモデルより優れていることを示した。

Multivariate geo-sensory time series prediction is challenging because of the complex spatial and temporal correlation. In urban water distribution systems (WDS), numerous spatial-correlated sensors have been deployed to continuously collect hydraulic data. Forecasts of monitored flow and pressure time series are of vital importance for operational decision making, alerts and anomaly detection. To address this issue, we proposed a hybrid dual-stage spatial-temporal attention-based recurrent neural networks (hDS-RNN). Our model consists of two stages: a spatial attention-based encoder and a temporal attention-based decoder. Specifically, a hybrid spatial attention mechanism that employs inputs along temporal and spatial axes is proposed. Experiments on a real-world dataset are conducted and demonstrate that our model outperformed 9 baseline models in flow and pressure series prediction in WDS.
翻訳日:2022-12-13 23:16:12 公開日:2020-04-14
# Covid-19の流行のシミュレーション:コンパートメンタルモデルは本当に予測可能か?

Simulation of Covid-19 epidemic evolution: are compartmental models really predictive? ( http://arxiv.org/abs/2004.08207v1 )

ライセンス: Link先を確認
Marco Paggi(参考訳) 重症急性呼吸器症候群ウイルス2(SARS-CoV-2)の感染拡大をシミュレーションするための計算モデルは、公衆衛生・経済への影響を抑えるための医療政策やロックダウン対策を当局が設計する上で非常に役立つだろう。 イタリアでは、考案された予測は主に純粋なデータ駆動のアプローチに基づいており、イタリア市民保護センターが収集した疫病の進化に関する公開データをフィッティングし外挿している。 この点において、人口区画間の非線形相互作用の記述から始まったsir疫学モデルは、集団的な創発的応答を理解し予測するためのより望ましいアプローチである。 本研究は,無症候性および致死性に富むsir疫学モデルが,流行進化に関する信頼できる予測を提供することができるかという根本的な疑問を提起するものである。 そこで本研究では, 粒子群最適化(PSO)に基づく機械学習手法を提案し, イタリアのロンバルディアをケーススタディとして, 漸進的に増大する大きさのトレーニングデータセットに基づいてモデルパラメータを自動同定する。 予測における散乱の分析は、モデル予測がトレーニングに使用されるデータセットのサイズに非常に敏感であり、収束する(従って信頼できる)予測を達成するにはさらなるデータが必要であることを示している。

Computational models for the simulation of the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) epidemic evolution would be extremely useful to support authorities in designing healthcare policies and lockdown measures to contain its impact on public health and economy. In Italy, the devised forecasts have been mostly based on a pure data-driven approach, by fitting and extrapolating open data on the epidemic evolution collected by the Italian Civil Protection Center. In this respect, SIR epidemiological models, which start from the description of the nonlinear interactions between population compartments, would be a much more desirable approach to understand and predict the collective emergent response. The present contribution addresses the fundamental question whether a SIR epidemiological model, suitably enriched with asymptomatic and dead individual compartments, could be able to provide reliable predictions on the epidemic evolution. To this aim, a machine learning approach based on particle swarm optimization (PSO) is proposed to automatically identify the model parameters based on a training set of data of progressive increasing size, considering Lombardy in Italy as a case study. The analysis of the scatter in the forecasts shows that model predictions are quite sensitive to the size of the dataset used for training, and that further data are still required to achieve convergent -- and therefore reliable -- predictions.
翻訳日:2022-12-13 12:41:03 公開日:2020-04-14
# 動的フィード駆動システムの振動補償に対する強化学習手法

Reinforcement Learning Approach to Vibration Compensation for Dynamic Feed Drive Systems ( http://arxiv.org/abs/2004.09263v1 )

ライセンス: Link先を確認
Ralf Gulde, Marc Tuscher, Akos Csiszar, Oliver Riedel and Alexander Verl(参考訳) 多くの領域では振動補償が重要である。 機械工具産業では、加工精度が向上し、部品寿命が長くなる。 現在の振動減衰法には欠点がある(例えば、正確な動的モデルの必要性)。 本稿では,機械工具軸に適用された振動補償に対する強化学習に基づくアプローチを提案する。 本研究は,産業機械工具ハードウェアと制御システムを用いた問題定式化,ソリューション,実装,実験について述べる。

Vibration compensation is important for many domains. For the machine tool industry it translates to higher machining precision and longer component lifetime. Current methods for vibration damping have their shortcomings (e.g. need for accurate dynamic models). In this paper we present a reinforcement learning based approach to vibration compensation applied to a machine tool axis. The work describes the problem formulation, the solution, the implementation and experiments using industrial machine tool hardware and control system.
翻訳日:2022-12-13 12:40:38 公開日:2020-04-14
# spo$_2$推定のための反射パルスオキシメトリのロバストモデリング

Robust Modelling of Reflectance Pulse Oximetry for SpO$_2$ Estimation ( http://arxiv.org/abs/2004.06301v1 )

ライセンス: Link先を確認
Sricharan Vijayarangan, Prithvi Suresh, Preejith SP, Jayaraj Joseph and Mohansankar Sivaprakasam(参考訳) 血液酸素飽和度の連続的モニタリングは肺疾患患者にとって不可欠である。 従来、SpO$_2$モニタリングは送信パルスオキシメータを使用して行われてきた。 しかし、透過パルスオキシメータからのSpO$_2$測定は周辺領域に限られている。 これは末梢血への血流が減少するにつれて非常に低温で不利になる。 一方、反射パルスオキシメータは、指、手首、胸、額などの様々な部位で使用できる。 さらに、反射パルスオキシメータは、ユーザの日内活動に干渉しない安価なパッチにスケールダウンすることができる。 しかし, 反射率パルスオキシメータからのSpO$_2$の正確な推定は, 患者による測定の主観的特性のため困難である。 近年,送信波形から得られるSpO$2$への反射率波形のモデル化に機械学習(ML)法が用いられている。 しかし,新しい患者に対するモデルの一般化性はテストされなかった。 これを踏まえ、現在の研究は複数のMLベースのアプローチを実装し、新しい患者に一般化できないことが判明した。 さらに, 反射率ppg波形からspo$_2$を得るために, 最小校正データ駆動法を適用した。 提案法は, 臨床的に許容できる誤差が 2 % の範囲内において, 平均絶対誤差が 1.81 % であることを示す。 提案手法の有効性を確立するために2つの統計的試験を行った。

Continuous monitoring of blood oxygen saturation levels is vital for patients with pulmonary disorders. Traditionally, SpO$_2$ monitoring has been carried out using transmittance pulse oximeters due to its dependability. However, SpO$_2$ measurement from transmittance pulse oximeters is limited to peripheral regions. This becomes a disadvantage at very low temperatures as blood perfusion to the peripherals decreases. On the other hand, reflectance pulse oximeters can be used at various sites like finger, wrist, chest and forehead. Additionally, reflectance pulse oximeters can be scaled down to affordable patches that do not interfere with the user's diurnal activities. However, accurate SpO$_2$ estimation from reflectance pulse oximeters is challenging due to its patient dependent, subjective nature of measurement. Recently, a Machine Learning (ML) method was used to model reflectance waveforms onto SpO$_2$ obtained from transmittance waveforms. However, the generalizability of the model to new patients was not tested. In light of this, the current work implemented multiple ML based approaches which were subsequently found to be incapable of generalizing to new patients. Furthermore, a minimally calibrated data driven approach was utilized in order to obtain SpO$_2$ from reflectance PPG waveforms. The proposed solution produces an average mean absolute error of 1.81\% on unseen patients which is well within the clinically permissible error of 2\%. Two statistical tests were conducted to establish the effectiveness of the proposed method.
翻訳日:2022-12-13 10:18:26 公開日:2020-04-14
# 計算画像のための深層学習における物理とコンテンツの相互作用について

On the interplay between physical and content priors in deep learning for computational imaging ( http://arxiv.org/abs/2004.06355v1 )

ライセンス: Link先を確認
Mo Deng, Shuai Li, Iksung Kang, Nicholas X. Fang and George Barbastathis(参考訳) ディープ・ラーニング(DL)は多くの計算画像問題に広く適用されており、しばしば従来の反復法よりも優れた性能をもたらす。 第一に、トレーニングされたニューラルネットワークは、トレーニング中のものと非常に異なるオブジェクトに対して、どの程度うまく一般化できるのか? これは実際には特に重要であり、興味のあるものに似た大規模な注釈付き例が訓練中に利用できないことが多い。 第二に、トレーニングされたニューラルネットワークは、基礎となる(逆)物理モデルを学んだのか、それとも、例やポイントワイズパターンマッチングを記憶するなど、単に簡単なことをしただけなのか? これは機械学習に基づくアルゴリズムの解釈可能性に関するものである。 本研究では,レンズレス位相撮像システムにおける定量的位相検索のためのディープニューラルネットワーク(dnn)である位相抽出ニューラルネットワーク(phenn)を標準プラットフォームとして使用し,この2つの質問が関連していることを示す。 さらに,データセット内の画像のシャノンエントロピーとともに,トレーニングにより課される正規化効果の強さをトレーニングプロセスに関連付ける。 すなわち、トレーニング画像のエントロピーが高くなるほど、正規化効果が弱くなる。 また,弱正規化効果は,弱物体近似の下での弱散乱対象に適用可能な,弱物体伝達関数(weak object transfer function)の基盤となる伝播モデルの学習を改善することを見出した。 最後に、シミュレーションと実験結果から、DNNが高エントロピーデータベース(例えばImageNet)でトレーニングされた場合、DNNが低エントロピーデータベース(例えばMNIST)でトレーニングされた場合よりも、基礎となる物理モデルを後者よりもよく学習できた場合、ドメイン間の一般化性能が向上することを示した。

Deep learning (DL) has been applied extensively in many computational imaging problems, often leading to superior performance over traditional iterative approaches. However, two important questions remain largely unanswered: first, how well can the trained neural network generalize to objects very different from the ones in training? This is particularly important in practice, since large-scale annotated examples similar to those of interest are often not available during training. Second, has the trained neural network learnt the underlying (inverse) physics model, or has it merely done something trivial, such as memorizing the examples or point-wise pattern matching? This pertains to the interpretability of machine-learning based algorithms. In this work, we use the Phase Extraction Neural Network (PhENN), a deep neural network (DNN) for quantitative phase retrieval in a lensless phase imaging system as the standard platform and show that the two questions are related and share a common crux: the choice of the training examples. Moreover, we connect the strength of the regularization effect imposed by a training set to the training process with the Shannon entropy of images in the dataset. That is, the higher the entropy of the training images, the weaker the regularization effect can be imposed. We also discover that weaker regularization effect leads to better learning of the underlying propagation model, i.e. the weak object transfer function, applicable for weakly scattering objects under the weak object approximation. Finally, simulation and experimental results show that better cross-domain generalization performance can be achieved if DNN is trained on a higher-entropy database, e.g. the ImageNet, than if the same DNN is trained on a lower-entropy database, e.g. MNIST, as the former allows the underlying physics model be learned better than the latter.
翻訳日:2022-12-13 10:18:05 公開日:2020-04-14
# MU-MIMOシステムにおける共振器・非コヒーレント受信器設計のためのディープラーニング解について

On Deep Learning Solutions for Joint Transmitter and Noncoherent Receiver Design in MU-MIMO Systems ( http://arxiv.org/abs/2004.06599v1 )

ライセンス: Link先を確認
Songyan Xue, Yi Ma, Na Yi and Rahim Tafazolli(参考訳) 本稿では,Multiuser Multi-Input Multi-MIMO(MU-MIMO)システムにおける共同送信機と非コヒーレント受信機の設計を扱うことを目的とする。 ディープニューラルネットワーク(DNN)ベースの非コヒーレント受信機を考えると、この研究の新規性は主に送信側におけるマルチユーザ波形設計にある。 信号形式により、提案したディープラーニングソリューションは2つのグループに分けられる。 あるグループはパイロット支援波形と呼ばれ、情報を持つシンボルはパイロットシンボルと時間多重化される。 もう1つは学習に基づく波形と呼ばれ、マルチユーザー波形はディープラーニングアルゴリズムによって部分的にあるいは完全に設計されている。 具体的には、情報保持シンボルが波形に直接埋め込まれている場合は、体系波形と呼ばれる。 それ以外は、人工的な設計が関与しない非システム波形(non-systematic waveform)と呼ばれる。 シミュレーションの結果,小型MU-MIMOシステムにおいて,パイロット支援波形設計は最小二乗 (LS) チャネル推定による従来のゼロ強制受信機よりも優れていた。 時間領域自由度(DoF)を利用して、学習ベースの波形設計により、高信号対雑音比(SNR)範囲で少なくとも5dBの検出性能が向上する。 また, 従来の重み初期化手法は, 学習に基づく波形設計において, 異なるユーザ間でのトレーニング不均衡を引き起こす可能性がある。 この問題に対処するために,複雑性を伴わない平衡収束性能を提供する新しい重み初期化手法を提案する。

This paper aims to handle the joint transmitter and noncoherent receiver design for multiuser multiple-input multiple-output (MU-MIMO) systems through deep learning. Given the deep neural network (DNN) based noncoherent receiver, the novelty of this work mainly lies in the multiuser waveform design at the transmitter side. According to the signal format, the proposed deep learning solutions can be divided into two groups. One group is called pilot-aided waveform, where the information-bearing symbols are time-multiplexed with the pilot symbols. The other is called learning-based waveform, where the multiuser waveform is partially or even completely designed by deep learning algorithms. Specifically, if the information-bearing symbols are directly embedded in the waveform, it is called systematic waveform. Otherwise, it is called non-systematic waveform, where no artificial design is involved. Simulation results show that the pilot-aided waveform design outperforms the conventional zero forcing receiver with least squares (LS) channel estimation on small-size MU-MIMO systems. By exploiting the time-domain degrees of freedom (DoF), the learning-based waveform design further improves the detection performance by at least 5 dB at high signal-to-noise ratio (SNR) range. Moreover, it is found that the traditional weight initialization method might cause a training imbalance among different users in the learning-based waveform design. To tackle this issue, a novel weight initialization method is proposed which provides a balanced convergence performance with no complexity penalty.
翻訳日:2022-12-13 10:15:34 公開日:2020-04-14
# 深部畳み込みニューラルネットワークを用いた糖尿病網膜症移植

Automated Diabetic Retinopathy Grading using Deep Convolutional Neural Network ( http://arxiv.org/abs/2004.06334v1 )

ライセンス: Link先を確認
Saket S. Chaturvedi, Kajol Gupta, Vaishali Ninawe, Prakash S. Prasad(参考訳) 糖尿病網膜症は世界的な健康問題であり、全世界で1億人の個人に影響し、今後数十年で流行率に達すると予想されている。 糖尿病網膜症は、突然、不可逆的な視力喪失を引き起こす微妙な眼疾患である。 早期糖尿病網膜症の診断は、眼底網膜画像の視覚的複雑さを考えると、ヒトの専門家にとって難しい。 しかし,糖尿病網膜症の早期発見は,視力低下の問題を大きく変える可能性がある。 糖尿病網膜症を正確に検出するコンピュータ支援検出システムの能力が研究者に普及した。 本研究では,いくつかの修正とaptos 2019データセット上でのトレーニングを含む,事前学習されたdrknet121ネットワークを用いた。 提案手法は, 早期検出において他の最先端ネットワークを上回り, 糖尿病網膜症の重症度評価において96.51%の精度を達成し, 単一分類法では94.44%の精度を得た。 さらに,ネットワークの精度,リコール,f1-score,二次重み付きkappaはそれぞれ86%,87%,86%,91.96%であった。 提案するアーキテクチャは計算時間と空間に関して非常にシンプルで正確で効率的である。

Diabetic Retinopathy is a global health problem, influences 100 million individuals worldwide, and in the next few decades, these incidences are expected to reach epidemic proportions. Diabetic Retinopathy is a subtle eye disease that can cause sudden, irreversible vision loss. The early-stage Diabetic Retinopathy diagnosis can be challenging for human experts, considering the visual complexity of fundus photography retinal images. However, Early Stage detection of Diabetic Retinopathy can significantly alter the severe vision loss problem. The competence of computer-aided detection systems to accurately detect the Diabetic Retinopathy had popularized them among researchers. In this study, we have utilized a pre-trained DenseNet121 network with several modifications and trained on APTOS 2019 dataset. The proposed method outperformed other state-of-the-art networks in early-stage detection and achieved 96.51% accuracy in severity grading of Diabetic Retinopathy for multi-label classification and achieved 94.44% accuracy for single-class classification method. Moreover, the precision, recall, f1-score, and quadratic weighted kappa for our network was reported as 86%, 87%, 86%, and 91.96%, respectively. Our proposed architecture is simultaneously very simple, accurate, and efficient concerning computational time and space.
翻訳日:2022-12-13 10:09:32 公開日:2020-04-14
# LP緩和を用いた組合せ探索による厳密なMAP推論

Exact MAP-Inference by Confining Combinatorial Search with LP Relaxation ( http://arxiv.org/abs/2004.06370v1 )

ライセンス: Link先を確認
Stefan Haller, Paul Swoboda, Bogdan Savchynskyy(参考訳) 本稿では,実数に対して自然和演算で定義される制約満足度問題であるグラフィカルモデルに対するmap-inference問題を考える。 我々は、その最適値の下限を自然に定義する緩和(有名なシェラリ・アダムス階層とは異なる)の族を提案する。 この族は常にゆるやかな緩和を含み、それを見つけることができるアルゴリズムを与え、したがって、最初の非緩和NP-ハード問題を解く。 緩和を考えると、元の問題を2つの非重複部分(LP-tight 部分と難しい部分)に分解する。 後者については、組合せ解法を用いる必要がある。 我々の実験で示したように、いくつかの応用において、第2に難しい部分は問題全体のごく一部にすぎない。 この性質により、組合せソルバの計算時間を著しく短縮することができ、従ってそれまで到達できなかった問題を解くことができる。

We consider the MAP-inference problem for graphical models, which is a valued constraint satisfaction problem defined on real numbers with a natural summation operation. We propose a family of relaxations (different from the famous Sherali-Adams hierarchy), which naturally define lower bounds for its optimum. This family always contains a tight relaxation and we give an algorithm able to find it and therefore, solve the initial non-relaxed NP-hard problem. The relaxations we consider decompose the original problem into two non-overlapping parts: an easy LP-tight part and a difficult one. For the latter part a combinatorial solver must be used. As we show in our experiments, in a number of applications the second, difficult part constitutes only a small fraction of the whole problem. This property allows to significantly reduce the computational time of the combinatorial solver and therefore solve problems which were out of reach before.
翻訳日:2022-12-13 10:08:53 公開日:2020-04-14
# 大規模トラッキング・バイ・アサインのためのプライマル・デュアル・ソルバ

A Primal-Dual Solver for Large-Scale Tracking-by-Assignment ( http://arxiv.org/abs/2004.06375v1 )

ライセンス: Link先を確認
Stefan Haller, Mangal Prakash, Lisa Hutschenreiter, Tobias Pietzsch, Carsten Rother, Florian Jug, Paul Swoboda, Bogdan Savchynskyy(参考訳) 我々は,セル追跡に応用できる,トラッキング・バイ・アサインと呼ばれる組合せ問題に対する高速近似解法を提案する。 後者は多くの生命科学、特に細胞や発達生物学において重要な役割を担っている。 これまでのところ、この問題はGurobiのような市販の問題解決者によって対処されており、その実行時間とメモリ要求は入力のサイズに応じて急速に増大している。 対照的に、我々の方法では、この成長はほぼ線形です。 本研究の貢献は,(1)分解可能コンパクトな問題表現,(2)分解ベース双対を最適化するための二重ブロック座標法,(3)双対情報に基づいて実現可能な整数解を再構成する原始的ヒューリスティックスからなる。 Gurobiの問題を解くのに比べ、メモリフットプリントを大幅に削減しながら、最大60~60のスピードアップを観察する。 実世界の追跡問題に対する本手法の有効性を実証する。

We propose a fast approximate solver for the combinatorial problem known as tracking-by-assignment, which we apply to cell tracking. The latter plays a key role in discovery in many life sciences, especially in cell and developmental biology. So far, in the most general setting this problem was addressed by off-the-shelf solvers like Gurobi, whose run time and memory requirements rapidly grow with the size of the input. In contrast, for our method this growth is nearly linear. Our contribution consists of a new (1) decomposable compact representation of the problem; (2) dual block-coordinate ascent method for optimizing the decomposition-based dual; and (3) primal heuristics that reconstructs a feasible integer solution based on the dual information. Compared to solving the problem with Gurobi, we observe an up to~60~times speed-up, while reducing the memory footprint significantly. We demonstrate the efficacy of our method on real-world tracking problems.
翻訳日:2022-12-13 10:08:39 公開日:2020-04-14
# ダイバージェンスに基づく適応的極端ビデオ補完

Divergence-Based Adaptive Extreme Video Completion ( http://arxiv.org/abs/2004.06409v1 )

ライセンス: Link先を確認
Majed El Helou and Ruofan Zhou and Frank Schmutz and Fabrice Guibert and Sabine S\"usstrunk(参考訳) 極端な画像やビデオのコンプリートでは、例えば、ランダムな場所にあるピクセルの1%しか保持せず、必要な前処理の観点で非常に安価にサンプリングできる。 しかし、その結果は、人間にとって困難な再構築と、アルゴリズムの塗り替えである。 本稿では,最先端映像補完アルゴリズムの極限映像補完への拡張を提案する。 極端にスパースなシナリオに適した色KL偏差に基づく色移動推定手法を解析する。 本アルゴリズムは,スパースなランダムサンプリングビデオの再構成において,空間的フィルタリングと時間的フィルタリングを併用する。 再建PSNRと平均世論スコアを用いて,50本の公開ビデオに対して評価を行った。

Extreme image or video completion, where, for instance, we only retain 1% of pixels in random locations, allows for very cheap sampling in terms of the required pre-processing. The consequence is, however, a reconstruction that is challenging for humans and inpainting algorithms alike. We propose an extension of a state-of-the-art extreme image completion algorithm to extreme video completion. We analyze a color-motion estimation approach based on color KL-divergence that is suitable for extremely sparse scenarios. Our algorithm leverages the estimate to adapt between its spatial and temporal filtering when reconstructing the sparse randomly-sampled video. We validate our results on 50 publicly-available videos using reconstruction PSNR and mean opinion scores.
翻訳日:2022-12-13 10:08:21 公開日:2020-04-14
# spacenet 6: マルチセンサー全天候マップデータセット

SpaceNet 6: Multi-Sensor All Weather Mapping Dataset ( http://arxiv.org/abs/2004.06500v1 )

ライセンス: Link先を確認
Jacob Shermeyer, Daniel Hogan, Jason Brown, Adam Van Etten, Nicholas Weir, Fabio Pacifici, Ronny Haensch, Alexei Bastidas, Scott Soenen, Todd Bacastow, Ryan Lewis(参考訳) リモートセンシング領域には、それぞれ独自の強みと弱みを持つ、多様な獲得モードが存在する。 しかし、現在の文献やオープンデータセットのほとんどは、高い空間分解能で異なる検出とセグメンテーションタスクのための電気光学(光学)データのみを扱う。 光学データはしばしば地理空間アプリケーションに好まれるが、晴れた空と小さな雲のカバーが必要となる。 逆に、SAR(Synthetic Aperture Radar)センサーは、天候、昼夜を問わず雲を貫通し、収集するユニークな能力を持っている。 その結果、SARデータは、気象や雲が従来の光学センサーを妨害できるような災害対応のために特に有用である。 これらの利点にもかかわらず、研究者がそのような用途、特に超高解像度の空間分解能、すなわち地上サンプル距離(GSD)においてSARの有効性を調べるためのオープンデータはほとんどない。 この問題に対処するために,オープンマルチセンサー全天候マッピング(msaw)データセットと,sarと光学の2つのコレクションモダリティを備えたチャレンジを提案する。 データセットと課題は、これらのデータソースを組み合わせることで、マッピングとフットプリントの抽出に重点を置いている。 MSAWは複数の重なり合う集合体を120 km^2でカバーし、48,000以上のユニークな構造フットプリントラベルで注釈付けされており、マルチモーダルデータのマッピングアルゴリズムの作成と評価を可能にしている。 SARデータを用いた足跡抽出のためのベースラインとベンチマークを提示し、光学データに基づいて事前訓練した最先端セグメンテーションモデルを発見し、SAR(F1スコア:0.21)でトレーニングし(F1スコア:0.135)、SARデータだけでトレーニングした人よりも優れた性能を示した(F1スコア:0.135)。

Within the remote sensing domain, a diverse set of acquisition modalities exist, each with their own unique strengths and weaknesses. Yet, most of the current literature and open datasets only deal with electro-optical (optical) data for different detection and segmentation tasks at high spatial resolutions. optical data is often the preferred choice for geospatial applications, but requires clear skies and little cloud cover to work well. Conversely, Synthetic Aperture Radar (SAR) sensors have the unique capability to penetrate clouds and collect during all weather, day and night conditions. Consequently, SAR data are particularly valuable in the quest to aid disaster response, when weather and cloud cover can obstruct traditional optical sensors. Despite all of these advantages, there is little open data available to researchers to explore the effectiveness of SAR for such applications, particularly at very-high spatial resolutions, i.e. <1m Ground Sample Distance (GSD). To address this problem, we present an open Multi-Sensor All Weather Mapping (MSAW) dataset and challenge, which features two collection modalities (both SAR and optical). The dataset and challenge focus on mapping and building footprint extraction using a combination of these data sources. MSAW covers 120 km^2 over multiple overlapping collects and is annotated with over 48,000 unique building footprints labels, enabling the creation and evaluation of mapping algorithms for multi-modal data. We present a baseline and benchmark for building footprint extraction with SAR data and find that state-of-the-art segmentation models pre-trained on optical data, and then trained on SAR (F1 score of 0.21) outperform those trained on SAR data alone (F1 score of 0.135).
翻訳日:2022-12-13 10:08:09 公開日:2020-04-14
# RoboThor: オープンなシミュレーションから現実のエボダイドAIプラットフォーム

RoboTHOR: An Open Simulation-to-Real Embodied AI Platform ( http://arxiv.org/abs/2004.06799v1 )

ライセンス: Link先を確認
Matt Deitke, Winson Han, Alvaro Herrasti, Aniruddha Kembhavi, Eric Kolve, Roozbeh Mottaghi, Jordi Salvador, Dustin Schwenk, Eli VanderBilt, Matthew Wallingford, Luca Weihs, Mark Yatskar, Ali Farhadi(参考訳) 視覚認識のエコシステム(例えばimagenet、pascal、coco)は、現代のコンピュータビジョンの進化において広く使われている役割を担ってきた。 我々は、インタラクティブで具現化された視覚AIが、これらのエコシステムの出現以前に視覚認識に似た発展段階に達したと論じる。 近年,組込みAIの研究を促進するために,様々な合成環境が導入されている。 この進歩にもかかわらず、シミュレーションで訓練されたモデルの現実への一般化に関する重要な疑問はほとんど解決されていない。 1) 問題の本質的にインタラクティブな性質,(2) 実世界と模擬世界の密接な整合性の必要性,(3) 再現可能な実験のために物理条件を再現することの難しさ,(4) 関連するコスト。 本稿では,インタラクティブで具体化された視覚AIの研究を民主化するRoboTHORを紹介する。 RoboTHORは、シミュレーションから現実への移行の課題を体系的に探求し克服するために、物理的な環境と組み合わせたシミュレーション環境のフレームワークを提供する。 第1のベンチマークとして,実験では,シミュレーションでトレーニングされたモデルのパフォーマンスと,注意深く構築された物理アナログとの間に,大きなギャップがあることが示されている。 われわれはRoboThorがコンピュータビジョンの進化の次の段階を加速することを期待している。 robothorは以下のリンクでアクセスできる。 https://ai2thor.allenai.org/robothor

Visual recognition ecosystems (e.g. ImageNet, Pascal, COCO) have undeniably played a prevailing role in the evolution of modern computer vision. We argue that interactive and embodied visual AI has reached a stage of development similar to visual recognition prior to the advent of these ecosystems. Recently, various synthetic environments have been introduced to facilitate research in embodied AI. Notwithstanding this progress, the crucial question of how well models trained in simulation generalize to reality has remained largely unanswered. The creation of a comparable ecosystem for simulation-to-real embodied AI presents many challenges: (1) the inherently interactive nature of the problem, (2) the need for tight alignments between real and simulated worlds, (3) the difficulty of replicating physical conditions for repeatable experiments, (4) and the associated cost. In this paper, we introduce RoboTHOR to democratize research in interactive and embodied visual AI. RoboTHOR offers a framework of simulated environments paired with physical counterparts to systematically explore and overcome the challenges of simulation-to-real transfer, and a platform where researchers across the globe can remotely test their embodied models in the physical world. As a first benchmark, our experiments show there exists a significant gap between the performance of models trained in simulation when they are tested in both simulations and their carefully constructed physical analogs. We hope that RoboTHOR will spur the next stage of evolution in embodied computer vision. RoboTHOR can be accessed at the following link: https://ai2thor.allenai.org/robothor
翻訳日:2022-12-13 10:07:23 公開日:2020-04-14
# 行動単位強度推定のための熱マップ回帰への伝達学習手法

A Transfer Learning approach to Heatmap Regression for Action Unit intensity estimation ( http://arxiv.org/abs/2004.06657v1 )

ライセンス: Link先を確認
Ioanna Ntinou and Enrique Sanchez and Adrian Bulat and Michel Valstar and Georgios Tzimiropoulos(参考訳) アクションユニット(英: action unit、aus)は、特定の顔部位における外観変化を生じる幾何学的ベースの顔面筋運動である。 そこで本研究では,その位置と強度を共同で推定する新しいAUモデリング問題を提案する。 そこで本研究では,両問題をひとつのタスクにマージする,Heatmap Regressionに基づくシンプルかつ効率的なアプローチを提案する。 ヒートマップは、所定の空間的位置でAUが発生するか否かをモデル化する。 AUS強度の連成モデリングを実現するために,ラベル付き強度に応じて振幅と大きさが変化する可変サイズヒートマップを提案する。 Heatmap Regressionを使用することで、顔のランドマークのローカライゼーションで最近見られた進歩を継承することができます。 両者の類似性に基づいて,大規模顔ランドマークデータセットでトレーニングされたネットワークの知識を活用するトランスファー学習手法を考案する。 特に 転校学習の選択肢を 探究しています fine-tuning (複数形 fine-tunings) b) 適応層 c) 注意地図,及び d) リパラメトリゼーション。 提案手法は,強力な顔アライメントネットワークが生み出す豊富な顔特徴を,最小限の計算コストで効果的に継承する。 我々は,BP4D, DISFA, FERA2017という3つの一般的なデータセットに,我々のシステムが新たな最先端技術を設定することを実証的に検証した。

Action Units (AUs) are geometrically-based atomic facial muscle movements known to produce appearance changes at specific facial locations. Motivated by this observation we propose a novel AU modelling problem that consists of jointly estimating their localisation and intensity. To this end, we propose a simple yet efficient approach based on Heatmap Regression that merges both problems into a single task. A Heatmap models whether an AU occurs or not at a given spatial location. To accommodate the joint modelling of AUs intensity, we propose variable size heatmaps, with their amplitude and size varying according to the labelled intensity. Using Heatmap Regression, we can inherit from the progress recently witnessed in facial landmark localisation. Building upon the similarities between both problems, we devise a transfer learning approach where we exploit the knowledge of a network trained on large-scale facial landmark datasets. In particular, we explore different alternatives for transfer learning through a) fine-tuning, b) adaptation layers, c) attention maps, and d) reparametrisation. Our approach effectively inherits the rich facial features produced by a strong face alignment network, with minimal extra computational cost. We empirically validate that our system sets a new state-of-the-art on three popular datasets, namely BP4D, DISFA, and FERA2017.
翻訳日:2022-12-13 10:00:56 公開日:2020-04-14
# FineGym: きめ細かいアクション理解のための階層的ビデオデータセット

FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding ( http://arxiv.org/abs/2004.06704v1 )

ライセンス: Link先を確認
Dian Shao, Yue Zhao, Bo Dai and Dahua Lin(参考訳) 公開ベンチマークでは、現在のアクション認識技術は大きな成功を収めている。 しかし、例えば、アクティビティをフェーズにパースし、微妙に異なるアクションを区別する能力を必要とするスポーツ分析のような実世界のアプリケーションで使用される場合、そのパフォーマンスは満足できないままである。 アクション認識を新たなレベルに引き上げるために,体操ビデオ上に構築された新しいデータセットであるFineGymを開発した。 既存のアクション認識データセットと比較すると、ファインガイムは豊かさ、品質、多様性で区別される。 特に、アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つ時間アノテーションを提供する。 例えば、「バランスビーム」イベントは、"leap-jump-hop"、"beam-turns"、"flight-salto"、"flight-handspring"、"dismount"の5つのセットから派生した基本的なサブアクションのシーケンスとして注釈付けされる。 この新たな粒度は、コヒーレントなアクションから時間的構造を解析する方法や、微妙に異なるアクションクラスを区別する方法といった、アクション認識に重大な課題をもたらします。 本データセットの代表的な手法を体系的に検討し,多くの興味深い知見を得た。 このデータセットが、行動理解に向けた研究を進めることを願っている。

On public benchmarks, current action recognition techniques have achieved great success. However, when used in real-world applications, e.g. sport analysis, which requires the capability of parsing an activity into phases and differentiating between subtly different actions, their performances remain far from being satisfactory. To take action recognition to a new level, we develop FineGym, a new dataset built on top of gymnastic videos. Compared to existing action recognition datasets, FineGym is distinguished in richness, quality, and diversity. In particular, it provides temporal annotations at both action and sub-action levels with a three-level semantic hierarchy. For example, a "balance beam" event will be annotated as a sequence of elementary sub-actions derived from five sets: "leap-jump-hop", "beam-turns", "flight-salto", "flight-handspring", and "dismount", where the sub-action in each set will be further annotated with finely defined class labels. This new level of granularity presents significant challenges for action recognition, e.g. how to parse the temporal structures from a coherent action, and how to distinguish between subtly different action classes. We systematically investigate representative methods on this dataset and obtain a number of interesting findings. We hope this dataset could advance research towards action understanding.
翻訳日:2022-12-13 10:00:34 公開日:2020-04-14
# x線スキャンによる重吸蔵荷物のロバスト同定のためのカスケード構造テンソルフレームワーク

Cascaded Structure Tensor Framework for Robust Identification of Heavily Occluded Baggage Items from X-ray Scans ( http://arxiv.org/abs/2004.06780v1 )

ライセンス: Link先を確認
Taimur Hassan, Samet Akcay, Mohammed Bennamoun, Salman Khan, Naoufel Werghi(参考訳) 過去20年間で、荷物のスキャンは世界中の航空安全上の懸念の1つになっている。 手作業による荷物のチェックは面倒で、エラーを起こし、プライバシーを侵害する。 そのため、多くの研究者がこれらの欠点に対処するためにX線画像に基づく自律システムを開発した。 本稿では, 密閉・散在した荷物から疑わしいアイテムを自動的に抽出し, 認識できる構造テンソルフレームワークを提案する。 提案するフレームワークは,異なる方向から輪郭に基づく遷移情報を反復的に抽出することにより,各物体をインテリジェントに抽出し,認識のために1つのフィードフォワード畳み込みニューラルネットワークのみを使用する。 提案手法は, GDXray と SIXray のデータセットから得られた 1,067,381 個のX線スキャンを用いて, GDXray の平均精度スコア 0.9343 と SIXray の平均値 0.9595 を達成し, 極めて散らばり, 重なり合う不審な項目を認識することで, 最先端のソリューションよりも優れていた。 さらに,提案フレームワークは,公開オブジェクト検出器に基づく既存ソリューションと比較して,実行時の性能が4.76倍に向上する。

In the last two decades, baggage scanning has globally become one of the prime aviation security concerns. Manual screening of the baggage items is tedious, error-prone, and compromise privacy. Hence, many researchers have developed X-ray imagery-based autonomous systems to address these shortcomings. This paper presents a cascaded structure tensor framework that can automatically extract and recognize suspicious items in heavily occluded and cluttered baggage. The proposed framework is unique, as it intelligently extracts each object by iteratively picking contour-based transitional information from different orientations and uses only a single feed-forward convolutional neural network for the recognition. The proposed framework has been rigorously evaluated using a total of 1,067,381 X-ray scans from publicly available GDXray and SIXray datasets where it outperformed the state-of-the-art solutions by achieving the mean average precision score of 0.9343 on GDXray and 0.9595 on SIXray for recognizing the highly cluttered and overlapping suspicious items. Furthermore, the proposed framework computationally achieves 4.76\% superior run-time performance as compared to the existing solutions based on publicly available object detectors
翻訳日:2022-12-13 09:59:42 公開日:2020-04-14
# 進行的対面合成のための繰り返しサイクル整合損失

A recurrent cycle consistency loss for progressive face-to-face synthesis ( http://arxiv.org/abs/2004.07165v1 )

ライセンス: Link先を確認
Enrique Sanchez, Michel Valstar(参考訳) 本稿では, 対面合成領域における入力外観を維持するために, サイクル整合損失の重大な欠陥について述べる。 特に,この損失を訓練したネットワークが生成した画像はノイズを隠蔽し,さらなる作業に使用するのを妨げていることを示す。 To overcome this limitation, we propose a ''recurrent cycle consistency loss" which for different sequences of target attributes minimises the distance between the output images, independent of any intermediate step. We empirically validate not only that our loss enables the re-use of generated images, but that it also improves their quality. In addition, we propose the very first network that covers the task of unconstrained landmark-guided face-to-face synthesis. Contrary to previous works, our proposed approach enables the transfer of a particular set of input features to a large span of poses and expressions, whereby the target landmarks become the ground-truth points. We then evaluate the consistency of our proposed approach to synthesise faces at the target landmarks. To the best of our knowledge, we are the first to propose a loss to overcome the limitation of the cycle consistency loss, and the first to propose an ''in-the-wild'' landmark guided synthesis approach. この論文のコードとモデルはhttps://github.com/ESanchezLozano/GANnotationにある。

This paper addresses a major flaw of the cycle consistency loss when used to preserve the input appearance in the face-to-face synthesis domain. In particular, we show that the images generated by a network trained using this loss conceal a noise that hinders their use for further tasks. To overcome this limitation, we propose a ''recurrent cycle consistency loss" which for different sequences of target attributes minimises the distance between the output images, independent of any intermediate step. We empirically validate not only that our loss enables the re-use of generated images, but that it also improves their quality. In addition, we propose the very first network that covers the task of unconstrained landmark-guided face-to-face synthesis. Contrary to previous works, our proposed approach enables the transfer of a particular set of input features to a large span of poses and expressions, whereby the target landmarks become the ground-truth points. We then evaluate the consistency of our proposed approach to synthesise faces at the target landmarks. To the best of our knowledge, we are the first to propose a loss to overcome the limitation of the cycle consistency loss, and the first to propose an ''in-the-wild'' landmark guided synthesis approach. Code and models for this paper can be found in https://github.com/ESanchezLozano/GANnotation
翻訳日:2022-12-13 09:59:18 公開日:2020-04-14
# テキストインフォマティクス尺度の拡張による関心度評価(言語モデルと単語埋め込み)

Extending Text Informativeness Measures to Passage Interestingness Evaluation (Language Model vs. Word Embedding) ( http://arxiv.org/abs/2004.06747v1 )

ライセンス: Link先を確認
Carlos-Emiliano Gonz\'alez-Gallardo, Eric SanJuan, Juan-Manuel Torres-Moreno(参考訳) 自動テキスト要約を評価するのに使用される標準情報度尺度は、主に自動要約と参照要約のn-gramオーバーラップに依存する。 これらの尺度は、使用するメートル法(cosine、ROUGE、Kullback-Leibler、Logarithm similarityなど)と、それらが考慮する用語の袋(単一の単語、単語n-gram、エンティティ、ナゲットなど)とは異なる。 最近の単語埋め込みアプローチは、テキスト単位の存在/吸収に基づく離散的アプローチの連続的な代替を提供する。 ユーザの情報要求を短い問合せで表現することを含む情報検索評価に焦点を合わせるために,情報性尺度が拡張されている。 特にCLEF-INEX Tweet Contextualizationのタスクでは、ツイートの内容はクエリとして検討されている。 本稿では,情報要求を未知の暗黙的問合せのセットとして多種多様かつ形式化することを目的とした,情報提供性の一般化としての興味性の概念を定式化する。 次に,この一般化に対処すべく,美術情報化対策の状況把握能力について検討する。 近年,この新フレームワークでは,標準単語の埋め込みはユニグラムのみの離散測度よりも優れていたが,双グラムは興味深い評価の要点であると考えられる。 最後に、CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measureが最良の結果をもたらすことを示す。

Standard informativeness measures used to evaluate Automatic Text Summarization mostly rely on n-gram overlapping between the automatic summary and the reference summaries. These measures differ from the metric they use (cosine, ROUGE, Kullback-Leibler, Logarithm Similarity, etc.) and the bag of terms they consider (single words, word n-grams, entities, nuggets, etc.). Recent word embedding approaches offer a continuous alternative to discrete approaches based on the presence/absence of a text unit. Informativeness measures have been extended to Focus Information Retrieval evaluation involving a user's information need represented by short queries. In particular for the task of CLEF-INEX Tweet Contextualization, tweet contents have been considered as queries. In this paper we define the concept of Interestingness as a generalization of Informativeness, whereby the information need is diverse and formalized as an unknown set of implicit queries. We then study the ability of state of the art Informativeness measures to cope with this generalization. Lately we show that with this new framework, standard word embeddings outperforms discrete measures only on uni-grams, however bi-grams seems to be a key point of interestingness evaluation. Lastly we prove that the CLEF-INEX Tweet Contextualization 2012 Logarithm Similarity measure provides best results.
翻訳日:2022-12-13 09:58:52 公開日:2020-04-14
# マルチレゾリューションa*

Multi-Resolution A* ( http://arxiv.org/abs/2004.06684v1 )

ライセンス: Link先を確認
Wei Du, Fahad Islam and Maxim Likhachev(参考訳) ヒューリスティックな探索に基づく計画手法は、離散空間における動き計画によく用いられる。 これらのアルゴリズムの性能は、探索空間が離散化される解像度に大きく影響される。 通常、固定解像度は与えられた領域に対して選択される。 より精細な解像度では操作性が向上するが、状態空間のサイズが大幅に増加し、より多くの探索作業が要求される。 逆に、粗い解法は高速な探索行動を与えるが、操作性や探索の完全性には妥協がある。 高分解能な離散化と低分解能な離散化の両方の利点を効果的に活用するために,複数の重み付きA*(WA*)探索を同時に実行し,その長所を組み合わせたマルチリゾリューションA*(MRA*)アルゴリズムを提案する。 これらの検索に加えて、mra*は1つのアンカー検索を使用して、これらの検索からの拡張を制御する。 MRA* はアンカー分解能探索空間と分解能完備性に関して有界な準最適であることを示す。 2D, 3Dグリッド計画, 7 DOF操作計画を含む複数の動作計画領域の実験を行い, 提案手法を探索ベースおよびサンプリングベースラインと比較した。

Heuristic search-based planning techniques are commonly used for motion planning on discretized spaces. The performance of these algorithms is heavily affected by the resolution at which the search space is discretized. Typically a fixed resolution is chosen for a given domain. While a finer resolution allows for better maneuverability, it significantly increases the size of the state space, and hence demands more search efforts. On the contrary, a coarser resolution gives a fast exploratory behavior but compromises on maneuverability and the completeness of the search. To effectively leverage the advantages of both high and low resolution discretizations, we propose Multi-Resolution A* (MRA*) algorithm, that runs multiple weighted-A*(WA*) searches having different resolution levels simultaneously and combines the strengths of all of them. In addition to these searches, MRA* uses one anchor search to control expansions from these searches. We show that MRA* is bounded suboptimal with respect to the anchor resolution search space and resolution complete. We performed experiments on several motion planning domains including 2D, 3D grid planning and 7 DOF manipulation planning and compared our approach with several search-based and sampling-based baselines.
翻訳日:2022-12-13 09:58:25 公開日:2020-04-14
# ソーシャルメディアを用いた母性死亡の地域特性の定量化

Quantifying Community Characteristics of Maternal Mortality Using Social Media ( http://arxiv.org/abs/2004.06303v1 )

ライセンス: Link先を確認
Rediet Abebe, Salvatore Giorgi, Anna Tedijanto, Anneke Buffone, H. Andrew Schwartz(参考訳) ほとんどの死亡率はアメリカで減少しているが、母体死亡率は増加しており、OECD諸国の中で最も高い。 公衆衛生研究は、比較的高いか低いかのコミュニティの特徴をよりよく理解するために進行中である。 本研究では,このようなコミュニティの特徴について,ソーシャルメディア言語が果たす役割について考察する。 アメリカの郡で発生した妊娠関連ツイートを分析して、モーニングシック、セレブリティ妊娠中絶、中絶の権利など、さまざまなトピックを明らかにします。 これらのトピックをtwitter上で言及する頻度は、収入、人種、医療へのアクセスといった標準的な社会経済的およびリスク変数よりも高い精度で母性死亡率を予測することが判明した。 次に,地域言語の心理的次元を調査し,より信頼度が低く,よりストレスが強く,よりネガティブな感情的言語の使用が死亡率の上昇と著しく関連していることを見いだし,信頼とネガティブな影響は母性死亡率における人種的格差のかなりの部分を説明する。 我々は,これらの知見が地域レベルで行動可能な健康介入を通知する可能性について論じる。

While most mortality rates have decreased in the US, maternal mortality has increased and is among the highest of any OECD nation. Extensive public health research is ongoing to better understand the characteristics of communities with relatively high or low rates. In this work, we explore the role that social media language can play in providing insights into such community characteristics. Analyzing pregnancy-related tweets generated in US counties, we reveal a diverse set of latent topics including Morning Sickness, Celebrity Pregnancies, and Abortion Rights. We find that rates of mentioning these topics on Twitter predicts maternal mortality rates with higher accuracy than standard socioeconomic and risk variables such as income, race, and access to health-care, holding even after reducing the analysis to six topics chosen for their interpretability and connections to known risk factors. We then investigate psychological dimensions of community language, finding the use of less trustful, more stressed, and more negative affective language is significantly associated with higher mortality rates, while trust and negative affect also explain a significant portion of racial disparities in maternal mortality. We discuss the potential for these insights to inform actionable health interventions at the community-level.
翻訳日:2022-12-13 09:58:05 公開日:2020-04-14
# ソーシャルメディアの話題傾向に関する物語の確率論的モデル:離散時間モデル

Probabilistic Model of Narratives Over Topical Trends in Social Media: A Discrete Time Model ( http://arxiv.org/abs/2004.06793v1 )

ライセンス: Link先を確認
Toktam A. Oghaz, Ece C. Mutlu, Jasser Jasser, Niloofar Yousefi, Ivan Garibay(参考訳) オンラインソーシャルメディアプラットフォームは、世界中の出来事に関するニュースや物語の主要な情報源になりつつある。 しかし、主要な出来事を伝達しやすくする体系的な要約に基づく物語抽出は欠落している。 そこで本研究では,イベントベースの物語要約抽出フレームワークを提案する。 提案するフレームワークは確率論的トピックモデルとして設計され,分類時間分布と抽出テキスト要約が続く。 トピックモデルは,トピックの繰り返しを時間分解能で識別する。 このフレームワークは、データからトピックの分布をキャプチャするだけでなく、時間とともにユーザアクティビティの変動を近似する。 さらに, 意味分散トレードオフ(sdt)を, タイムスタンプされたコーパスにおいて, 最盛期魅力のあるトピックを識別するための比較尺度として定義する。 我々は、シリアのホワイトヘルメットに対して行われた偽情報キャンペーンのドメイン内に100万以上のツイートを含む、大量のtwitterデータに基づいて、我々のモデルを評価する。 提案手法は,テキストコーパスから記事の要約をタイムスタンプ付きデータで抽出するだけでなく,話題の傾向を特定する上でも有効であることを示す。

Online social media platforms are turning into the prime source of news and narratives about worldwide events. However,a systematic summarization-based narrative extraction that can facilitate communicating the main underlying events is lacking. To address this issue, we propose a novel event-based narrative summary extraction framework. Our proposed framework is designed as a probabilistic topic model, with categorical time distribution, followed by extractive text summarization. Our topic model identifies topics' recurrence over time with a varying time resolution. This framework not only captures the topic distributions from the data, but also approximates the user activity fluctuations over time. Furthermore, we define significance-dispersity trade-off (SDT) as a comparison measure to identify the topic with the highest lifetime attractiveness in a timestamped corpus. We evaluate our model on a large corpus of Twitter data, including more than one million tweets in the domain of the disinformation campaigns conducted against the White Helmets of Syria. Our results indicate that the proposed framework is effective in identifying topical trends, as well as extracting narrative summaries from text corpus with timestamped data.
翻訳日:2022-12-13 09:57:41 公開日:2020-04-14
# 水中物体検出における領域一般化に向けたWQTとDG-YOLO

WQT and DG-YOLO: towards domain generalization in underwater object detection ( http://arxiv.org/abs/2004.06333v1 )

ライセンス: Link先を確認
Hong Liu, Pinhao Song, Runwei Ding(参考訳) 一般水中物体検出装置(GUOD)は,ほとんどの水中環境において良好に機能する。 しかし、水中データセットが限られているため、従来の物体検出手法はドメインシフトに苦しむ。 本論文は,水質に制限のある小型水中データセットを用いたGUODの構築を目的とする。 まず,データ拡張手法であるWater Quality Transfer (WQT)を提案する。 次に、WQTが生成したデータから意味情報をマイニングするために、YOLOv3, DIM, IRMの3つの部分からなるDG-YOLOを提案する。 最後に,WQT+DG-YOLOが水中物体検出において有望な領域一般化を実現することを示す。

A General Underwater Object Detector (GUOD) should perform well on most of underwater circumstances. However, with limited underwater dataset, conventional object detection methods suffer from domain shift severely. This paper aims to build a GUOD with small underwater dataset with limited types of water quality. First, we propose a data augmentation method Water Quality Transfer (WQT) to increase domain diversity of the original small dataset. Second, for mining the semantic information from data generated by WQT, DG-YOLO is proposed, which consists of three parts: YOLOv3, DIM and IRM penalty. Finally, experiments on original and synthetic URPC2019 dataset prove that WQT+DG-YOLO achieves promising performance of domain generalization in underwater object detection.
翻訳日:2022-12-13 09:50:50 公開日:2020-04-14
# 単色画像からのフットプリントと自由空間

Footprints and Free Space from a Single Color Image ( http://arxiv.org/abs/2004.06376v1 )

ライセンス: Link先を確認
Jamie Watson, Michael Firman, Aron Monszpart, Gabriel J. Brostow(参考訳) 単一のカラー画像からシーンの形状を理解することは、強烈なコンピュータビジョンタスクである。 しかし、ほとんどの手法は、ロボットや拡張現実エージェントの計画経路に限られる、カメラで見える表面の形状を予測することを目的としている。 このようなエージェントは、芝生、歩道、舗装など人間が歩くことができる一連のクラスとして定義されている、移動可能な表面に接地した場合のみ移動することができる。 視線を越えて予測するモデルは、しばしばボクセルやメッシュを使ってシーンをパラメータ化します。 一つのrgb画像を入力として,可視面と可視面の両方の形状を予測するモデルを提案する。 画像対画像ネットワークの監視を行うトレーニングデータを形成するために,カメラポーズ,フレーム単位の深さ,セマンティクスセグメンテーションを用いたステレオビデオシーケンスから学習する。 kittiの運転データセット、屋内マターポートデータセット、そして私たちのカジュアルなステレオ映像からモデルをトレーニングします。 トレーニングシーンの空間的カバレッジに驚くほど低いバーが必要であることが分かりました。 我々は,アルゴリズムを強力なベースラインに対して検証し,経路計画タスクに対する予測の評価を含む。

Understanding the shape of a scene from a single color image is a formidable computer vision task. However, most methods aim to predict the geometry of surfaces that are visible to the camera, which is of limited use when planning paths for robots or augmented reality agents. Such agents can only move when grounded on a traversable surface, which we define as the set of classes which humans can also walk over, such as grass, footpaths and pavement. Models which predict beyond the line of sight often parameterize the scene with voxels or meshes, which can be expensive to use in machine learning frameworks. We introduce a model to predict the geometry of both visible and occluded traversable surfaces, given a single RGB image as input. We learn from stereo video sequences, using camera poses, per-frame depth and semantic segmentation to form training data, which is used to supervise an image-to-image network. We train models from the KITTI driving dataset, the indoor Matterport dataset, and from our own casually captured stereo footage. We find that a surprisingly low bar for spatial coverage of training scenes is required. We validate our algorithm against a range of strong baselines, and include an assessment of our predictions for a path-planning task.
翻訳日:2022-12-13 09:50:39 公開日:2020-04-14
# 衛星画像を用いたアテンションベース損傷評価システム

An Attention-Based System for Damage Assessment Using Satellite Imagery ( http://arxiv.org/abs/2004.06643v1 )

ライセンス: Link先を確認
Hanxiang Hao, Sriram Baireddy, Emily R. Bartusiak, Latisha Konz, Kevin LaTourette, Michael Gribbons, Moses Chan, Mary L. Comer, Edward J. Delp(参考訳) 災害時、正確な状況情報と迅速な効果的な対応が命を救うために重要である。 広く利用可能な高解像度の衛星画像により、緊急対応者が位置、原因、損傷の深刻度を推定できる。 しかし、衛星画像の膨大な量を迅速かつ正確に分析するには、自動的なアプローチが必要だ。 そこで,本稿では,災害前後の現場を1対の衛星画像で表現した建物の被害度を評価するために,注意機構を備えた多層深層学習モデルであるsiam-u-net-attnモデルを提案する。 大規模建物被害評価データセットであるxview2における提案手法を評価し,提案手法が被害規模分類と建物区分結果を同時に達成できることを実証する。

When disaster strikes, accurate situational information and a fast, effective response are critical to save lives. Widely available, high resolution satellite images enable emergency responders to estimate locations, causes, and severity of damage. Quickly and accurately analyzing the extensive amount of satellite imagery available, though, requires an automatic approach. In this paper, we present Siam-U-Net-Attn model - a multi-class deep learning model with an attention mechanism - to assess damage levels of buildings given a pair of satellite images depicting a scene before and after a disaster. We evaluate the proposed method on xView2, a large-scale building damage assessment dataset, and demonstrate that the proposed approach achieves accurate damage scale classification and building segmentation results simultaneously.
翻訳日:2022-12-13 09:48:49 公開日:2020-04-14
# マルチオントロジー精製埋め込み(MORE) : バイオメディカル概念のためのハイブリッドマルチオントロジーとコーパスベースセマンティック表現

Multi-Ontology Refined Embeddings (MORE): A Hybrid Multi-Ontology and Corpus-based Semantic Representation for Biomedical Concepts ( http://arxiv.org/abs/2004.06555v1 )

ライセンス: Link先を確認
Steven Jiang, Weiyi Wu, Naofumi Tomita, Craig Ganoe, Saeed Hassanpour(参考訳) 目的: 現在, 臨床応用における自然言語処理 (NLP) 解析の大きな限界は, 概念がさまざまなテキストにまたがって様々な形で参照可能であることである。 本稿では,複数のオントロジーからのドメイン知識を臨床テキストのコーパスから学習した分布的意味モデルに組み込むための新しいハイブリッドフレームワークであるmulti-ontology refined embeddeds (more)を提案する。 材料と方法:MOREのコーパスベースコンポーネントにはRadCoreとMIMIC-IIIのフリーテキストデータセットを使用します。 オントロジーに基づく部分では,医学的対象見出し(MeSH)オントロジーと3つの最先端オントロジーに基づく類似度尺度を用いる。 本研究では,sgmoid cross-entropy objective関数から修正した新しい学習目標を提案する。 結果と考察: バイオメディカル概念ペア間のセマンティックな類似性のデータセットを2つ確立し, 単語埋め込みの品質を評価する。 On the first dataset with 29 concept pairs, with the similarity scores established by physicians and medical coders, MORE's similarity scores have the highest combined correlation (0.633), which is 5.0% higher than that of the baseline model and 12.4% higher than that of the best ontology-based similarity measure.On the second dataset with 449 concept pairs, MORE's similarity scores have a correlation of 0.481, with the average of four medical residents' similarity ratings, and that outperforms the skip-gram model by 8.1% and the best ontology measure by 6.9%.

Objective: Currently, a major limitation for natural language processing (NLP) analyses in clinical applications is that a concept can be referenced in various forms across different texts. This paper introduces Multi-Ontology Refined Embeddings (MORE), a novel hybrid framework for incorporating domain knowledge from multiple ontologies into a distributional semantic model, learned from a corpus of clinical text. Materials and Methods: We use the RadCore and MIMIC-III free-text datasets for the corpus-based component of MORE. For the ontology-based part, we use the Medical Subject Headings (MeSH) ontology and three state-of-the-art ontology-based similarity measures. In our approach, we propose a new learning objective, modified from the Sigmoid cross-entropy objective function. Results and Discussion: We evaluate the quality of the generated word embeddings using two established datasets of semantic similarities among biomedical concept pairs. On the first dataset with 29 concept pairs, with the similarity scores established by physicians and medical coders, MORE's similarity scores have the highest combined correlation (0.633), which is 5.0% higher than that of the baseline model and 12.4% higher than that of the best ontology-based similarity measure.On the second dataset with 449 concept pairs, MORE's similarity scores have a correlation of 0.481, with the average of four medical residents' similarity ratings, and that outperforms the skip-gram model by 8.1% and the best ontology measure by 6.9%.
翻訳日:2022-12-13 09:41:56 公開日:2020-04-14
# 多言語機械翻訳:共有と言語固有のエンコーダ-デコーダ間のギャップを閉じる

Multilingual Machine Translation: Closing the Gap between Shared and Language-specific Encoder-Decoders ( http://arxiv.org/abs/2004.06575v1 )

ライセンス: Link先を確認
Carlos Escolano, Marta R. Costa-juss\`a, Jos\'e A. R. Fonollosa and Mikel Artetxe(参考訳) 最先端の多言語機械翻訳はユニバーサルエンコーダデコーダに依存しており、新しい言語を追加するためにシステム全体をトレーニングする必要がある。 本稿では、言語固有のエンコーダ-デコーダに基づいて、対応するモジュールを学習することによって、新しい言語に拡張しやすい代替手法を提案する。 共通言語間表現を促進するため、N言語の初期言語を同時に訓練する。 提案手法は,平均で3.28 bleu ポイントのユニバーサルエンコーダ-デコーダを上回り,新たな言語を追加する場合,他のモジュールを再トレーニングする必要がないことを示す。 全体として、私たちの研究は共有と言語固有のエンコーダ-デコーダのギャップを狭め、一生の学習環境で柔軟に拡張できるモジュラー多言語機械翻訳システムに向かっています。

State-of-the-art multilingual machine translation relies on a universal encoder-decoder, which requires retraining the entire system to add new languages. In this paper, we propose an alternative approach that is based on language-specific encoder-decoders, and can thus be more easily extended to new languages by learning their corresponding modules. So as to encourage a common interlingua representation, we simultaneously train the N initial languages. Our experiments show that the proposed approach outperforms the universal encoder-decoder by 3.28 BLEU points on average, and when adding new languages, without the need to retrain the rest of the modules. All in all, our work closes the gap between shared and language-specific encoder-decoders, advancing toward modular multilingual machine translation systems that can be flexibly extended in lifelong learning settings.
翻訳日:2022-12-13 09:41:33 公開日:2020-04-14
# HotpotQAのためのシンプルで強力なパイプライン

A Simple Yet Strong Pipeline for HotpotQA ( http://arxiv.org/abs/2004.06753v1 )

ライセンス: Link先を確認
Dirk Groeneveld, Tushar Khot, Mausam, and Ashish Sabharwal(参考訳) マルチホップ質問応答のための最先端モデルは通常、BERTのような大規模言語モデルを拡張し、名前付きエンティティ認識、グラフベースの推論、質問分解といった直感的に有用な機能を追加する。 しかし、人気のあるマルチホップデータセットのパフォーマンスは、この追加設計の複雑さを本当に正当化するだろうか? BERTをベースとした単純なパイプラインであるQuarkでさえ、驚くほどうまく機能しているからです。 特にhotpotqaでは、quarkは質問応答とサポート識別の両方でこれらのモデルよりも優れています(robertaモデルに非常に近いパフォーマンスを実現しています)。 パイプラインには3つのステップがあります 1) BERTを使用して,相互に関連のある文を識別する。 2)選択した文の集合をコンテキストとして標準のBERTスパン予測モデルに入力して回答を選択する。 3) 選択された回答を伴う文選択モデルを使用して,支援文を生成する。 クォークの強力な性能は、複雑なテクニックの価値を正当化するために人気のあるベンチマークを使用する前に、単純なモデル設計を慎重に検討することの重要性を再顕現する。

State-of-the-art models for multi-hop question answering typically augment large-scale language models like BERT with additional, intuitively useful capabilities such as named entity recognition, graph-based reasoning, and question decomposition. However, does their strong performance on popular multi-hop datasets really justify this added design complexity? Our results suggest that the answer may be no, because even our simple pipeline based on BERT, named Quark, performs surprisingly well. Specifically, on HotpotQA, Quark outperforms these models on both question answering and support identification (and achieves performance very close to a RoBERTa model). Our pipeline has three steps: 1) use BERT to identify potentially relevant sentences independently of each other; 2) feed the set of selected sentences as context into a standard BERT span prediction model to choose an answer; and 3) use the sentence selection model, now with the chosen answer, to produce supporting sentences. The strong performance of Quark resurfaces the importance of carefully exploring simple model designs before using popular benchmarks to justify the value of complex techniques.
翻訳日:2022-12-13 09:41:02 公開日:2020-04-14
# RealMonoDepth: 一般シーンの自己監督型単眼深度推定

RealMonoDepth: Self-Supervised Monocular Depth Estimation for General Scenes ( http://arxiv.org/abs/2004.06267v1 )

ライセンス: Link先を確認
Mertalp Ocal, Armin Mustafa(参考訳) 本研究では,1~100mの深度範囲の異なるシーンにまたがる実深度を単眼で推定する,汎用的な自己教師型学習手法を提案する。 既存の単眼深度推定法では、トレーニングに正確な深度測定が必要である。 この制限により、固定されたカメラベースラインを持つステレオ画像対で訓練された自己教師方式が導入され、既知のキャリブレーションにより深さに変換される相違を推定する。 自己監督アプローチは印象的な結果を示しているが、深度範囲やカメラのベースラインが異なるシーンに一般化していない。 本稿では,室内および屋外のさまざまなシーンにおいて,実景深度を推定することを学ぶために,自己教師付き単眼深度推定手法であるrealmonodepthを提案する。 相対的な深さのスケーリングとワープに基づく,真のシーン深度に関する新たな損失関数を提案する。 これにより、ステレオペアと野生のカメラデータセットの両方から、さまざまな深さ範囲のシーンに対して、複数のデータセットを備えた単一のネットワークの自己教師付きトレーニングが可能になる。 5つのベンチマークデータセットの総合的な性能評価は、RealMonoDepthが屋内および屋外のシーンにおける深度推定を一般化する単一のトレーニングネットワークを提供し、従来よりも一貫して優れていることを示している。

We present a generalised self-supervised learning approach for monocular estimation of the real depth across scenes with diverse depth ranges from 1--100s of meters. Existing supervised methods for monocular depth estimation require accurate depth measurements for training. This limitation has led to the introduction of self-supervised methods that are trained on stereo image pairs with a fixed camera baseline to estimate disparity which is transformed to depth given known calibration. Self-supervised approaches have demonstrated impressive results but do not generalise to scenes with different depth ranges or camera baselines. In this paper, we introduce RealMonoDepth a self-supervised monocular depth estimation approach which learns to estimate the real scene depth for a diverse range of indoor and outdoor scenes. A novel loss function with respect to the true scene depth based on relative depth scaling and warping is proposed. This allows self-supervised training of a single network with multiple data sets for scenes with diverse depth ranges from both stereo pair and in the wild moving camera data sets. A comprehensive performance evaluation across five benchmark data sets demonstrates that RealMonoDepth provides a single trained network which generalises depth estimation across indoor and outdoor scenes, consistently outperforming previous self-supervised approaches.
翻訳日:2022-12-13 09:40:05 公開日:2020-04-14
# 自己監督学習による教師なしマルチモーダル動画翻訳

Unsupervised Multimodal Video-to-Video Translation via Self-Supervised Learning ( http://arxiv.org/abs/2004.06502v1 )

ライセンス: Link先を確認
Kangning Liu, Shuhang Gu, Andres Romero, Radu Timofte(参考訳) 既存の教師なしビデオからビデオへの翻訳方法は、フレームごとにリアルでセマンティックな情報保存とビデオレベルの一貫性を持った翻訳ビデオの生成に失敗している。 本研究では,新しい教師なしビデオ・ビデオ翻訳モデルであるUVITを提案する。 我々のモデルは、スタイルと内容を分解し、特殊なエンコーダデコーダ構造を使用し、双方向リカレントニューラルネットワーク(RNN)ユニットを介してフレーム間情報を伝搬する。 スタイルコンテンツ分解機構により,スタイル一貫性のあるビデオ翻訳結果を実現するとともに,モダリティフレキシブル翻訳のための優れたインターフェースを提供する。 さらに,翻訳に組み込まれた入力フレームやスタイルコードを変更することで,映像補間損失を補間し,シーケンス内の時間情報をキャプチャして,ビルディングブロックを自己指導的に訓練する手法を提案する。 本モデルは,マルチモーダルな方法で,フォトリアリスティックで時空間的一貫性のあるビデオを生成することができる。 主観的および客観的な実験結果から,既存の手法よりも優れたモデルが得られた。 詳細はプロジェクトのwebサイト(https://uvit.netlify.com)を参照してください。

Existing unsupervised video-to-video translation methods fail to produce translated videos which are frame-wise realistic, semantic information preserving and video-level consistent. In this work, we propose UVIT, a novel unsupervised video-to-video translation model. Our model decomposes the style and the content, uses the specialized encoder-decoder structure and propagates the inter-frame information through bidirectional recurrent neural network (RNN) units. The style-content decomposition mechanism enables us to achieve style consistent video translation results as well as provides us with a good interface for modality flexible translation. In addition, by changing the input frames and style codes incorporated in our translation, we propose a video interpolation loss, which captures temporal information within the sequence to train our building blocks in a self-supervised manner. Our model can produce photo-realistic, spatio-temporal consistent translated videos in a multimodal way. Subjective and objective experimental results validate the superiority of our model over existing methods. More details can be found on our project website: https://uvit.netlify.com
翻訳日:2022-12-13 09:33:42 公開日:2020-04-14
# 胸部X線を用いた肺炎検出のための深部畳み込みニューラルネットワーク(CNN)を用いた移動学習

Transfer Learning with Deep Convolutional Neural Network (CNN) for Pneumonia Detection using Chest X-ray ( http://arxiv.org/abs/2004.06578v1 )

ライセンス: Link先を確認
Tawsifur Rahman, Muhammad E. H. Chowdhury, Amith Khandakar, Khandaker R. Islam, Khandaker F. Islam, Zaid B. Mahbub, Muhammad A. Kadir, Saad Kashem(参考訳) 肺炎は、細菌感染またはウイルス感染によって肺で起こる生命を脅かす病気である。 適切な時間に作用しなければ生命を危険にさらす可能性があり、肺炎の早期診断が不可欠である。 本研究の目的は, デジタルx線画像を用いて細菌およびウイルス性肺炎を自動的に検出することである。 肺炎の正確な診断を行うための進歩に関する詳細な報告を提供し,著者らが採用した方法論を提示した。 cnn(deep convolutional neural network, cnn)-alexnet, resnet18, densenet201, squeezenetの4つの異なる訓練済み深層畳み込みニューラルネットワークを用いた。 5247 細菌, ウイルスおよび正常胸部x線像を前処理し, 改良した画像を転送学習に基づく分類タスク用に訓練した。 本研究で著者らは, 正常と肺炎, 細菌とウイルスの肺炎, 正常, 細菌とウイルスの肺炎の3つの分類法を報告した。 正常例, 肺炎像, 細菌像, ウイルス性肺炎像, 正常例, 細菌像, ウイルス性肺炎の分類精度はそれぞれ98%, 95%, 93.3%であった。 これは、文献で報告されたアキュラシーよりも、あらゆるスキームにおいて最も正確である。 本研究は, 放射線科医による肺炎の迅速診断に有用であり, 肺炎患者の空港検診の迅速化に有効である。

Pneumonia is a life-threatening disease, which occurs in the lungs caused by either bacterial or viral infection. It can be life-endangering if not acted upon in the right time and thus an early diagnosis of pneumonia is vital. The aim of this paper is to automatically detect bacterial and viral pneumonia using digital x-ray images. It provides a detailed report on advances made in making accurate detection of pneumonia and then presents the methodology adopted by the authors. Four different pre-trained deep Convolutional Neural Network (CNN)- AlexNet, ResNet18, DenseNet201, and SqueezeNet were used for transfer learning. 5247 Bacterial, viral and normal chest x-rays images underwent preprocessing techniques and the modified images were trained for the transfer learning based classification task. In this work, the authors have reported three schemes of classifications: normal vs pneumonia, bacterial vs viral pneumonia and normal, bacterial and viral pneumonia. The classification accuracy of normal and pneumonia images, bacterial and viral pneumonia images, and normal, bacterial and viral pneumonia were 98%, 95%, and 93.3% respectively. This is the highest accuracy in any scheme than the accuracies reported in the literature. Therefore, the proposed study can be useful in faster-diagnosing pneumonia by the radiologist and can help in the fast airport screening of pneumonia patients.
翻訳日:2022-12-13 09:33:26 公開日:2020-04-14
# CT画像からのCOVID-19感染検出・分類の深層学習

Weakly Supervised Deep Learning for COVID-19 Infection Detection and Classification from CT Images ( http://arxiv.org/abs/2004.06689v1 )

ライセンス: Link先を確認
Shaoping Hu, Yuan Gao, Zhangming Niu, Yinghui Jiang, Lao Li, Xianglu Xiao, Minhao Wang, Evandro Fei Fang, Wade Menpes-Smith, Jun Xia, Hui Ye and Guang Yang(参考訳) 新型コロナウイルス(COVID-19)の流行は、2019年12月下旬から中国の武漢で記録されており、その後世界中でパンデミックとなった。 新型コロナウイルスは急性治療の病気であるが、中国では4.03%、アルジェリアでは13.04%、イタリアでは12.67%(2020年4月8日現在)の死亡リスクがある。 重篤な病気の発症は、歯槽損傷と進行呼吸不全の結果として死に至る可能性がある。 リバース転写ポリメラーゼ連鎖反応(RT-PCR)を用いる実験室試験は、臨床診断の黄金の基準であるが、この試験は偽陰性を引き起こす可能性がある。 また, パンデミックの状況下ではrt-pcr検査資源の不足により, 次の臨床決定や治療が遅れる可能性がある。 このような状況下では、胸部CTは新型コロナウイルス患者の診断と予後の両方に有用なツールとなっている。 本研究では,ct画像からcovid-19感染の検出と分類を行うための,弱い教師付き深層学習戦略を提案する。 提案手法は,手動によるCT画像のラベル付けの要件を最小化できるが,正確な感染検出が可能であり,非新型コロナウイルス患者と区別できる。 質的・定量的に得られた有望な結果に基づいて, 大規模臨床研究において, 開発技術の幅広い展開を考察できる。

An outbreak of a novel coronavirus disease (i.e., COVID-19) has been recorded in Wuhan, China since late December 2019, which subsequently became pandemic around the world. Although COVID-19 is an acutely treated disease, it can also be fatal with a risk of fatality of 4.03% in China and the highest of 13.04% in Algeria and 12.67% Italy (as of 8th April 2020). The onset of serious illness may result in death as a consequence of substantial alveolar damage and progressive respiratory failure. Although laboratory testing, e.g., using reverse transcription polymerase chain reaction (RT-PCR), is the golden standard for clinical diagnosis, the tests may produce false negatives. Moreover, under the pandemic situation, shortage of RT-PCR testing resources may also delay the following clinical decision and treatment. Under such circumstances, chest CT imaging has become a valuable tool for both diagnosis and prognosis of COVID-19 patients. In this study, we propose a weakly supervised deep learning strategy for detecting and classifying COVID-19 infection from CT images. The proposed method can minimise the requirements of manual labelling of CT images but still be able to obtain accurate infection detection and distinguish COVID-19 from non-COVID-19 cases. Based on the promising results obtained qualitatively and quantitatively, we can envisage a wide deployment of our developed technique in large-scale clinical studies.
翻訳日:2022-12-13 09:32:39 公開日:2020-04-14
# res-cr-net : 顕微鏡画像のセマンティクスセグメンテーションに最適化した新しいアーキテクチャを持つ残差ネットワーク

Res-CR-Net, a residual network with a novel architecture optimized for the semantic segmentation of microscopy images ( http://arxiv.org/abs/2004.08246v1 )

ライセンス: Link先を確認
Hassan Abdallah, Asiri Liyanaarachchi, Maranda Saigh, Samantha Silvers, Suzan Arslanturk, Douglas J. Taatjes, Lars Larsson, Bhanu P. Jena, Domenico L. Gatti(参考訳) ディープニューラルネットワーク(DNN)は、電子と光の両方の顕微鏡でセグメンテーションタスクを実行するために広く使われている。 この目的のために開発されたほとんどのDNNは、エンコーダデコーダ型U-Netアーキテクチャのいくつかのバリエーションに基づいており、トレーニングの容易さと劣化に対するレジリエンスを高めるために残留ブロックと組み合わせている。 本稿では,dnnの一種であるres-cr-net(res-cr-net)について紹介する。 各残留ブロックで使用されるフィルタの数とブロックの数は、様々な顕微鏡画像のネットワークトレーニングを最適化するために修正する必要がある唯一のハイパーパラメータである。

Deep Neural Networks (DNN) have been widely used to carry out segmentation tasks in both electron and light microscopy. Most DNNs developed for this purpose are based on some variation of the encoder-decoder type U-Net architecture, in combination with residual blocks to increase ease of training and resilience to gradient degradation. Here we introduce Res-CR-Net, a type of DNN that features residual blocks with either a bundle of separable atrous convolutions with different dilation rates or a convolutional LSTM. The number of filters used in each residual block and the number of blocks are the only hyperparameters that need to be modified in order to optimize the network training for a variety of different microscopy images.
翻訳日:2022-12-13 09:32:18 公開日:2020-04-14
# マルチモーダル深層学習による災害対応のためのソーシャルメディアデータの解析

Analysis of Social Media Data using Multimodal Deep Learning for Disaster Response ( http://arxiv.org/abs/2004.11838v1 )

ライセンス: Link先を確認
Ferda Ofli, Firoj Alam and Muhammad Imran(参考訳) ソーシャルメディアプラットフォームにおけるマルチメディアコンテンツは災害時に重要な情報を提供する。 共有される情報には、負傷者や死者の報告、インフラの損傷、行方不明者や行方不明者などが含まれる。 災害対応のためのテキストコンテンツと画像コンテンツの両方の有用性は,多くの研究で示されているが,過去にはテキストモダリティのみの分析に重点が置かれていた。 本稿では,ソーシャルメディアデータのテキストと画像のモダリティを併用して,最先端のディープラーニング技術を用いた共同表現学習を提案する。 具体的には,畳み込みニューラルネットワークを用いて,モダリティ非依存な共有表現を持つマルチモーダルディープラーニングアーキテクチャを定義する。 実世界の災害データセットに関する広範囲な実験により、提案されたマルチモーダルアーキテクチャは、単一のモダリティ(例えばテキストまたは画像)を使用してトレーニングされたモデルよりも優れたパフォーマンスをもたらすことが示されている。

Multimedia content in social media platforms provides significant information during disaster events. The types of information shared include reports of injured or deceased people, infrastructure damage, and missing or found people, among others. Although many studies have shown the usefulness of both text and image content for disaster response purposes, the research has been mostly focused on analyzing only the text modality in the past. In this paper, we propose to use both text and image modalities of social media data to learn a joint representation using state-of-the-art deep learning techniques. Specifically, we utilize convolutional neural networks to define a multimodal deep learning architecture with a modality-agnostic shared representation. Extensive experiments on real-world disaster datasets show that the proposed multimodal architecture yields better performance than models trained using a single modality (e.g., either text or image).
翻訳日:2022-12-13 09:31:57 公開日:2020-04-14
# 音声翻訳とエンド・ツー・エンドの約束--現在地を振り返る

Speech Translation and the End-to-End Promise: Taking Stock of Where We Are ( http://arxiv.org/abs/2004.06358v1 )

ライセンス: Link先を確認
Matthias Sperber, Matthias Paulik(参考訳) 音声認識と機械翻訳の緩やかに結合されたカスケードから、密結合の問題を探求し、そして最後に最近注目を集めたエンドツーエンドモデルへと移行した。 本稿では、これらの発展に関する簡単な調査と、音声認識者からの中間表現へのコミットと、異なる目的に向けて個別にカスケードモデルを訓練することによる従来のアプローチの主な課題について論じる。 最近のエンドツーエンドモデリング技術は、すべてのモデルコンポーネントを共同でトレーニングし、明示的な中間表現の必要性を取り除くことによって、これらの問題を克服する原則的な方法を約束している。 しかし、データ不足に対処するための妥協のために、多くのエンドツーエンドモデルがこれらの問題を解決するのに足りていないことが、よく分かる。 本稿では,従来のアプローチと最近のアプローチの両方を包括的に分類・命名することで,トレードオフとオープンな研究課題の両立を支援する。

Over its three decade history, speech translation has experienced several shifts in its primary research themes; moving from loosely coupled cascades of speech recognition and machine translation, to exploring questions of tight coupling, and finally to end-to-end models that have recently attracted much attention. This paper provides a brief survey of these developments, along with a discussion of the main challenges of traditional approaches which stem from committing to intermediate representations from the speech recognizer, and from training cascaded models separately towards different objectives. Recent end-to-end modeling techniques promise a principled way of overcoming these issues by allowing joint training of all model components and removing the need for explicit intermediate representations. However, a closer look reveals that many end-to-end models fall short of solving these issues, due to compromises made to address data scarcity. This paper provides a unifying categorization and nomenclature that covers both traditional and recent approaches and that may help researchers by highlighting both trade-offs and open research questions.
翻訳日:2022-12-13 09:30:55 公開日:2020-04-14
# 長期反復畳み込みネットワークを用いたドライバの歪み検出

Detecting Driver's Distraction using Long-term Recurrent Convolutional Network ( http://arxiv.org/abs/2004.11839v1 )

ライセンス: Link先を確認
Chang Wei Tan, Mahsa Salehi, Geoffrey Mackellar(参考訳) 本研究では,運転者の気晴らしを検知し,道路安全を改善する新しい脳コンピュータインタフェース(BCI)の手法を実証する。 脳から脳波信号を生成する商用ワイヤレスヘッドセットを使用している。 40分間の運転シミュレーションを行い、運転中に異なる作業を行う必要のある参加者から、実際の脳波信号を収集した。 これらの信号は短いウィンドウに分割され、時系列分類(TSC)モデルを用いてラベル付けされる。 我々は,様々なtscアプローチを研究し,このタスクのために長期リカレント畳み込みネットワーク(lcrn)モデルを設計した。 以上の結果より, 運転者の気道障害の検出において, LRCNモデルはTSCモデルよりも優れていた。

In this study we demonstrate a novel Brain Computer Interface (BCI) approach to detect driver distraction events to improve road safety. We use a commercial wireless headset that generates EEG signals from the brain. We collected real EEG signals from participants who undertook a 40-minute driving simulation and were required to perform different tasks while driving. These signals are segmented into short windows and labelled using a time series classification (TSC) model. We studied different TSC approaches and designed a Long-term Recurrent Convolutional Network (LCRN) model for this task. Our results showed that our LRCN model performs better than the state of the art TSC models at detecting driver distraction events.
翻訳日:2022-12-13 09:23:40 公開日:2020-04-14
# 放射線治療におけるビーム配向選択のための誘導モンテカルロ木探索アルゴリズムの強化学習への応用

A reinforcement learning application of guided Monte Carlo Tree Search algorithm for beam orientation selection in radiation therapy ( http://arxiv.org/abs/2004.06244v1 )

ライセンス: Link先を確認
Azar Sadeghnejad-Barkousaraie, Gyanendra Bohara, Steve Jiang, Dan Nguyen(参考訳) 大きな組合せ問題のため、コラム生成(cg)のような放射線治療のための現在のビーム配向最適化アルゴリズムは、自然界においてヒューリスティックまたは欲望であり、サブオプティマイズに繋がる。 本研究では,優れたビーム配向集合をcgよりも少ない時間で発見できるモンテカルロ木探索を用いた強化学習戦略を提案し,教師付き学習ネットワークを用いた強化学習構造を用いて,モンテカルロ木探索(gts)をガイドし,ビーム配向選択問題の決定空間を探索する。 我々は以前、患者の解剖、臓器の重量、そして現在のビームを取り入れたディープニューラルネットワーク(DNN)をトレーニングし、それからビームの適合値を近似し、次に追加すべきビームを示す。 このDNNは、モンテカルロ決定木の枝の移動を確率的にガイドし、計画に新たなビームを加えるために使用される。 このアルゴリズムの実現可能性をテストするために,13名の前立腺癌患者を用いて,dnnをトレーニングした57名の患者と異なる5ビーム計画について検討した。 他の探索法に対するgtsの強みを示すために、誘導探索、一様木探索、ランダム探索アルゴリズムを含む3つの他の探索法の性能も提供する。 平均的なGTSは他の全ての手法より優れており、平均237秒で解がCGより優れており、360秒で解が得られ、1000秒未満で目的関数値の低い解を見つけるのに他の方法よりも優れている。 ガイドツリーサーチ(GTS)法を用いて, 同様の計画目標容積(PTV)を1%の誤差で維持し, 体, 直腸, 左大腿頭および右大腿頭に対するOAR平均被曝量を減らすことができたが, 膀胱平均被曝量はわずか1%増加した。

Due to the large combinatorial problem, current beam orientation optimization algorithms for radiotherapy, such as column generation (CG), are typically heuristic or greedy in nature, leading to suboptimal solutions. We propose a reinforcement learning strategy using Monte Carlo Tree Search capable of finding a superior beam orientation set and in less time than CG.We utilized a reinforcement learning structure involving a supervised learning network to guide Monte Carlo tree search (GTS) to explore the decision space of beam orientation selection problem. We have previously trained a deep neural network (DNN) that takes in the patient anatomy, organ weights, and current beams, and then approximates beam fitness values, indicating the next best beam to add. This DNN is used to probabilistically guide the traversal of the branches of the Monte Carlo decision tree to add a new beam to the plan. To test the feasibility of the algorithm, we solved for 5-beam plans, using 13 test prostate cancer patients, different from the 57 training and validation patients originally trained the DNN. To show the strength of GTS to other search methods, performances of three other search methods including a guided search, uniform tree search and random search algorithms are also provided. On average GTS outperforms all other methods, it find a solution better than CG in 237 seconds on average, compared to CG which takes 360 seconds, and outperforms all other methods in finding a solution with lower objective function value in less than 1000 seconds. Using our guided tree search (GTS) method we were able to maintain a similar planning target volume (PTV) coverage within 1% error, and reduce the organ at risk (OAR) mean dose for body, rectum, left and right femoral heads, but a slight increase of 1% in bladder mean dose.
翻訳日:2022-12-13 09:23:30 公開日:2020-04-14
# 双方向グラフ推論ネットワークによるパノプティカルセグメンテーション

Bidirectional Graph Reasoning Network for Panoptic Segmentation ( http://arxiv.org/abs/2004.06272v1 )

ライセンス: Link先を確認
Yangxin Wu, Gengwei Zhang, Yiming Gao, Xiajun Deng, Ke Gong, Xiaodan Liang, Liang Lin(参考訳) 最近の汎視的セグメンテーションの研究は、単一のエンドツーエンドネットワークを利用して、インスタンスセグメンテーションとセマンティックセグメンテーションのタスクを組み合わせる。 しかし、先行モデルは、マルチブランチスキームを通じてアーキテクチャレベルでの2つの関連するタスクを統一するか、一方向の特徴融合によってそれら間の基盤となる相関を明らかにした。 文脈情報が物体の認識とローカライズに不可欠であること、および包括的対象の詳細が背景シーンを解析するのに重要であることに着想を得て、対象と背景の相関を明示的にモデル化し、汎視的セグメンテーションタスクにおける画像の総合的な理解を達成する。 本稿では,BGRNet (Bidirectional Graph Reasoning Network) を導入し,グラフ構造を従来の汎視的セグメンテーションネットワークに組み込んで,前景物と背景物間のモジュラー内およびモジュラー間関係をマイニングする。 特に、BGRNetは、まずインスタンスとセマンティックセグメンテーションの両方で画像固有のグラフを構築し、それぞれ提案レベルとクラスレベルで柔軟な推論を可能にする。 分岐間の相関関係の確立と,物と物の相補関係の完全活用を目的として,学習可能な方法で分岐間で情報を拡散する双方向グラフ接続モジュールを提案する。 実験結果から,COCOとADE20Kのパノプティクスセグメンテーションベンチマークに対する最先端性能を実現するBGRNetの優位性を実証した。

Recent researches on panoptic segmentation resort to a single end-to-end network to combine the tasks of instance segmentation and semantic segmentation. However, prior models only unified the two related tasks at the architectural level via a multi-branch scheme or revealed the underlying correlation between them by unidirectional feature fusion, which disregards the explicit semantic and co-occurrence relations among objects and background. Inspired by the fact that context information is critical to recognize and localize the objects, and inclusive object details are significant to parse the background scene, we thus investigate on explicitly modeling the correlations between object and background to achieve a holistic understanding of an image in the panoptic segmentation task. We introduce a Bidirectional Graph Reasoning Network (BGRNet), which incorporates graph structure into the conventional panoptic segmentation network to mine the intra-modular and intermodular relations within and between foreground things and background stuff classes. In particular, BGRNet first constructs image-specific graphs in both instance and semantic segmentation branches that enable flexible reasoning at the proposal level and class level, respectively. To establish the correlations between separate branches and fully leverage the complementary relations between things and stuff, we propose a Bidirectional Graph Connection Module to diffuse information across branches in a learnable fashion. Experimental results demonstrate the superiority of our BGRNet that achieves the new state-of-the-art performance on challenging COCO and ADE20K panoptic segmentation benchmarks.
翻訳日:2022-12-13 09:22:55 公開日:2020-04-14
# A2D2:アウディ自動運転データセット

A2D2: Audi Autonomous Driving Dataset ( http://arxiv.org/abs/2004.06320v1 )

ライセンス: Link先を確認
Jakob Geyer, Yohannes Kassahun, Mentar Mahmudi, Xavier Ricou, Rupesh Durgesh, Andrew S. Chung, Lorenz Hauswald, Viet Hoang Pham, Maximilian M\"uhlegg, Sebastian Dorn, Tiffany Fernandez, Martin J\"anicke, Sudesh Mirashi, Chiragkumar Savani, Martin Sturm, Oleksandr Vorobiov, Martin Oelker, Sebastian Garreis, Peter Schuberth(参考訳) 機械学習、モバイルロボティクス、自動運転の研究は、高品質な注釈付きデータの提供によって加速される。 この目的のために、Audi Autonomous Driving Dataset (A2D2) をリリースする。 我々のデータセットは,3次元境界ボックス,セマンティックセグメンテーション,インスタンスセグメンテーション,自動車バスから抽出したデータとともに,同時に記録された画像と3次元点雲で構成されている。 センサースイートは6台のカメラと5台のLiDARユニットで構成されており、360度をカバーしています。 記録されたデータは同期して相互に登録される。 41,277フレームにはセマンティックセグメンテーションイメージとポイントクラウドラベルがあり、そのうち12,497フレームにはフロントカメラの視野内のオブジェクトに対する3Dバウンディングボックスアノテーションがある。 さらに,ドイツ南部3都市における無記名センサデータの連続フレームを392,556枚提供した。 これらの配列はいくつかのループを含む。 GDPR法と匿名性を維持するため、顔と車両ナンバープレートはぼやけている。 A2D2はCC BY-ND 4.0ライセンスの下で利用可能であり、商用使用はライセンスの条件に従うことができる。 データとさらなる情報はhttp://www.a2d2.audi.comで入手できる。

Research in machine learning, mobile robotics, and autonomous driving is accelerated by the availability of high quality annotated data. To this end, we release the Audi Autonomous Driving Dataset (A2D2). Our dataset consists of simultaneously recorded images and 3D point clouds, together with 3D bounding boxes, semantic segmentation, instance segmentation, and data extracted from the automotive bus. Our sensor suite consists of six cameras and five LiDAR units, providing full 360 degree coverage. The recorded data is time synchronized and mutually registered. Annotations are for non-sequential frames: 41,277 frames with semantic segmentation image and point cloud labels, of which 12,497 frames also have 3D bounding box annotations for objects within the field of view of the front camera. In addition, we provide 392,556 sequential frames of unannotated sensor data for recordings in three cities in the south of Germany. These sequences contain several loops. Faces and vehicle number plates are blurred due to GDPR legislation and to preserve anonymity. A2D2 is made available under the CC BY-ND 4.0 license, permitting commercial use subject to the terms of the license. Data and further information are available at http://www.a2d2.audi.
翻訳日:2022-12-13 09:22:26 公開日:2020-04-14
# standardgan: データ標準化による高解像度衛星画像の意味セグメンテーションのためのマルチソースドメイン適応

StandardGAN: Multi-source Domain Adaptation for Semantic Segmentation of Very High Resolution Satellite Images by Data Standardization ( http://arxiv.org/abs/2004.06402v1 )

ライセンス: Link先を確認
Onur Tasar, Yuliya Tarabalka, Alain Giros, Pierre Alliez, S\'ebastien Clerc(参考訳) 近年,深層学習モデルの一般化能力を高めるためにセマンティックセグメンテーションのためのドメイン適応法が活発に研究されている。 ドメイン適応メソッドの大部分は、単一のソースドメインでトレーニングされたモデルをターゲットドメインに適応させる単一ソースケースに対処している。 しかし、これらの手法は実用的な実世界応用に制限があり、通常、異なるデータ分布を持つ複数のソースドメインを持つ。 本研究では,マルチソース領域適応問題に対処する。 提案手法,すなわち,標準GANは,各ソースとターゲットドメインを標準化し,すべてのデータに類似したデータ配信を行う。 次に、標準化されたソースドメインを使用して分類器を訓練し、標準化されたターゲットドメインをセグメント化する。 1つは1つの国の複数の都市から,もう1つは異なる国の複数の都市で構成される,2つのリモートセンシングデータセットに関する広範な実験を行う。 実験の結果,standardganが生成する標準化されたデータにより,分類器のセグメント化が著しく向上した。

Domain adaptation for semantic segmentation has recently been actively studied to increase the generalization capabilities of deep learning models. The vast majority of the domain adaptation methods tackle single-source case, where the model trained on a single source domain is adapted to a target domain. However, these methods have limited practical real world applications, since usually one has multiple source domains with different data distributions. In this work, we deal with the multi-source domain adaptation problem. Our method, namely StandardGAN, standardizes each source and target domains so that all the data have similar data distributions. We then use the standardized source domains to train a classifier and segment the standardized target domain. We conduct extensive experiments on two remote sensing data sets, in which the first one consists of multiple cities from a single country, and the other one contains multiple cities from different countries. Our experimental results show that the standardized data generated by StandardGAN allow the classifiers to generate significantly better segmentation.
翻訳日:2022-12-13 09:22:06 公開日:2020-04-14
# 人間と機械の知能を組み合わせたソーシャルメディア画像による迅速な被害評価

Rapid Damage Assessment Using Social Media Images by Combining Human and Machine Intelligence ( http://arxiv.org/abs/2004.06675v1 )

ライセンス: Link先を確認
Muhammad Imran, Firoj Alam, Umair Qazi, Steve Peterson and Ferda Ofli(参考訳) 迅速な被害評価(rapid damage assessment)は、災害発生時に組織に応答し、道路、橋、建物などのインフラの損傷の規模を理解するための重要なタスクの1つである。 本研究は,ソーシャルメディア画像コンテンツの有用性を分析し,実災害時の迅速な被害評価を行う。 ボランティアの対応組織と連携して起動された自動画像処理システムは,災害による被害の程度を把握すべく,約280Kの画像を処理した。 このシステムは、災害時に約29Kのシステム処理された画像を分析したドメインの専門家からのフィードバックに基づいて76%の精度で計算された。 大規模なエラー分析により、システムで直面するいくつかの洞察と課題が明らかとなり、研究コミュニティがこの研究を前進させる上で不可欠である。

Rapid damage assessment is one of the core tasks that response organizations perform at the onset of a disaster to understand the scale of damage to infrastructures such as roads, bridges, and buildings. This work analyzes the usefulness of social media imagery content to perform rapid damage assessment during a real-world disaster. An automatic image processing system, which was activated in collaboration with a volunteer response organization, processed ~280K images to understand the extent of damage caused by the disaster. The system achieved an accuracy of 76% computed based on the feedback received from the domain experts who analyzed ~29K system-processed images during the disaster. An extensive error analysis reveals several insights and challenges faced by the system, which are vital for the research community to advance this line of research.
翻訳日:2022-12-13 09:16:33 公開日:2020-04-14
# 現実最適化ベンチマークに向けて:実世界の問題の性質に関するアンケート調査

Towards Realistic Optimization Benchmarks: A Questionnaire on the Properties of Real-World Problems ( http://arxiv.org/abs/2004.06395v1 )

ライセンス: Link先を確認
Koen van der Blom, Timo M. Deist, Tea Tu\v{s}ar, Mariapia Marchi, Yusuke Nojima, Akira Oyama, Vanessa Volz, Boris Naujoks(参考訳) ベンチマークは経験的なパフォーマンス比較に役立つツールです。 しかし、既存のベンチマークの主な欠点の1つは、それらが実際の問題とどのように関係しているかがはっきりしていないことである。 ベンチマークにおけるアルゴリズムのパフォーマンスは、特定の実世界の問題に対する可能性について何を言っているのか? 本研究の目的は,実世界の単一・多目的・多目的最適化問題に対する質問紙調査を通して,実世界の問題の性質を明らかにすることである。 最初の反応に基づいて、現実的なベンチマークの設計において考慮すべきいくつかの課題がすでに特定できる。 今後の研究のポイントは、アンケートに対する回答をもっと集めて、共通の属性の組み合わせの分析を可能にすることです。 結果として、このような共通組み合わせを改良されたベンチマークスイートに含めることができる。 より多くのデータを収集するために、読者は以下のアンケートに参加するよう招待される。

Benchmarks are a useful tool for empirical performance comparisons. However, one of the main shortcomings of existing benchmarks is that it remains largely unclear how they relate to real-world problems. What does an algorithm's performance on a benchmark say about its potential on a specific real-world problem? This work aims to identify properties of real-world problems through a questionnaire on real-world single-, multi-, and many-objective optimization problems. Based on initial responses, a few challenges that have to be considered in the design of realistic benchmarks can already be identified. A key point for future work is to gather more responses to the questionnaire to allow an analysis of common combinations of properties. In turn, such common combinations can then be included in improved benchmark suites. To gather more data, the reader is invited to participate in the questionnaire at: https://tinyurl.com/opt-survey
翻訳日:2022-12-13 09:16:20 公開日:2020-04-14
# 確率状態遷移における値に基づく多目的強化学習の課題

A Demonstration of Issues with Value-Based Multiobjective Reinforcement Learning Under Stochastic State Transitions ( http://arxiv.org/abs/2004.06277v1 )

ライセンス: Link先を確認
Peter Vamplew, Cameron Foale and Richard Dazeley(参考訳) 確率的状態遷移を伴う環境における多目的強化学習に対するモデルフリーで価値に基づくアプローチに関する未定の問題について報告する。 多目的マルコフ決定過程(MOMDP)の例は、そのような条件下でこれらのアプローチがScalarised expecteded Returnを最大化するポリシーを見つけることができず、実際にはPareto-dominated Solutionに収束することを示している。 確率的遷移を持つmomdpにおけるserの最大化に適した代替手法について検討する。

We report a previously unidentified issue with model-free, value-based approaches to multiobjective reinforcement learning in the context of environments with stochastic state transitions. An example multiobjective Markov Decision Process (MOMDP) is used to demonstrate that under such conditions these approaches may be unable to discover the policy which maximises the Scalarised Expected Return, and in fact may converge to a Pareto-dominated solution. We discuss several alternative methods which may be more suitable for maximising SER in MOMDPs with stochastic transitions.
翻訳日:2022-12-13 09:14:48 公開日:2020-04-14
# 有限作用線形コンテキストバンディットにおける逐次バッチ学習

Sequential Batch Learning in Finite-Action Linear Contextual Bandits ( http://arxiv.org/abs/2004.06321v1 )

ライセンス: Link先を確認
Yanjun Han, Zhengqing Zhou, Zhengyuan Zhou, Jose Blanchet, Peter W. Glynn, Yinyu Ye(参考訳) 有限作用集合を持つ線形コンテキスト帯域における逐次バッチ学習問題について検討し、決定者は、入ってくる個人を(多くは)一定の数のバッチに分割することを制約され、バッチの終了時にバッチ内の個人に対してのみ結果を確認することができる。 この逐次的バッチ学習問題により,臨床治験における医療治療,電子商取引における製品推薦,クラウドソーシングにおける適応的実験設計など,多種多様な個別的な意思決定問題のよりきめ細やかな定式化が可能となった。 問題の2つの設定について検討する。1つは文脈が任意に生成され、もう1つは、ある分布から引き出されたコンテキストが \textit{iid} である。 各設定において、後悔の下限を設定し、その上限が下限にほぼ一致するようなアルゴリズムを提供する。 そこで得られた重要な知見として,前者では,全オンライン性能を達成するために必要なバッチ数が時間軸の多項式であるのに対し,後者では,分節分割スキームを用いた純粋探索アルゴリズムが,時間軸のバッチ数が対数に満たない場合でも,全オンライン性能を達成していることを示す。 その結果,バッチ制約が存在する場合の線形コンテキスト帯域における逐次決定のほぼ完全な特徴付けが得られた。

We study the sequential batch learning problem in linear contextual bandits with finite action sets, where the decision maker is constrained to split incoming individuals into (at most) a fixed number of batches and can only observe outcomes for the individuals within a batch at the batch's end. Compared to both standard online contextual bandits learning or offline policy learning in contexutal bandits, this sequential batch learning problem provides a finer-grained formulation of many personalized sequential decision making problems in practical applications, including medical treatment in clinical trials, product recommendation in e-commerce and adaptive experiment design in crowdsourcing. We study two settings of the problem: one where the contexts are arbitrarily generated and the other where the contexts are \textit{iid} drawn from some distribution. In each setting, we establish a regret lower bound and provide an algorithm, whose regret upper bound nearly matches the lower bound. As an important insight revealed therefrom, in the former setting, we show that the number of batches required to achieve the fully online performance is polynomial in the time horizon, while for the latter setting, a pure-exploitation algorithm with a judicious batch partition scheme achieves the fully online performance even when the number of batches is less than logarithmic in the time horizon. Together, our results provide a near-complete characterization of sequential decision making in linear contextual bandits when batch constraints are present.
翻訳日:2022-12-13 09:14:34 公開日:2020-04-14
# ガウス核密度推定器を用いた非線形吸着の確率モデル

Stochastic modeling of non-linear adsorption with Gaussian kernel density estimators ( http://arxiv.org/abs/2004.06445v1 )

ライセンス: Link先を確認
Maryam Rahbaralam, Amir Abdollahi, Daniel Fern\`andez-Garcia, Xavier Sanchez-Vila(参考訳) 吸着は、製品製造や多孔質材料の汚染修復など、多くの分野で関連するプロセスである。 吸着は分子スケールで行われ、ラグランジュの数値的手法でモデル化できる。 我々は,ガウス核密度推定器を用いたランダムウォーク粒子追跡法を組み合わせた吸着シミュレーションのための化学拡散-反応モデルを提案した。 提案モデルの主な特徴は、ラングミュアおよびフレントリッヒ等温線の非線形挙動特性を効果的に再現できることである。 前者では、均質な吸着特性を持つ有限個の吸着部位を付加し、その過程を前方反応と後方反応の組み合わせとして設定し、それぞれに所定の反応速度を設定できる。 代わりに、フロンドリッヒ等温線をモデル化するためには、溶質濃度の低から中間の範囲で典型的に、各特定の吸着部位に異なる平衡定数を割り当てる必要がある。 どちらの非線形モデルも単一のフレームワークで組み合わせて、広範囲の濃度値に対する典型的な観察行動を得ることができる。

Adsorption is a relevant process in many fields, such as product manufacturing or pollution remediation in porous materials. Adsorption takes place at the molecular scale, amenable to be modeled by Lagrangian numerical methods. We have proposed a chemical diffusion-reaction model for the simulation of adsorption, based on the combination of a random walk particle tracking method involving the use of Gaussian Kernel Density Estimators. The main feature of the proposed model is that it can effectively reproduce the nonlinear behavior characteristic of the Langmuir and Freundlich isotherms. In the former, it is enough to add a finite number of sorption sites of homogeneous sorption properties, and to set the process as the combination of the forward and the backward reactions, each one of them with a prespecified reaction rate. To model the Freundlich isotherm instead, typical of low to intermediate range of solute concentrations, there is a need to assign a different equilibrium constant to each specific sorption site, provided they are all drawn from a truncated power-law distribution. Both nonlinear models can be combined in a single framework to obtain a typical observed behavior for a wide range of concentration values.
翻訳日:2022-12-13 09:13:52 公開日:2020-04-14
# グリーン関数の共分散行列とその機械学習への応用

The covariance matrix of Green's functions and its application to machine learning ( http://arxiv.org/abs/2004.06481v1 )

ライセンス: Link先を確認
Tomoko Nagai(参考訳) 本稿では,グリーン関数理論に基づく回帰アルゴリズムを提案し,実装した。 まず, 適当なヒルベルト空間の再現核である2階線形常微分方程式のディリクレ境界値問題に対するグリーン関数について検討した。 次に,確率密度関数と見なされる正規化グリーン関数からなる共分散行列を考える。 ベイズ的アプローチをサポートすることにより、共分散行列は、予測平均$\mu$ と信頼区間 [$\mu$-2s, $\mu$+2s] を持つ予測分布を与える。

In this paper, a regression algorithm based on Green's function theory is proposed and implemented. We first survey Green's function for the Dirichlet boundary value problem of 2nd order linear ordinary differential equation, which is a reproducing kernel of a suitable Hilbert space. We next consider a covariance matrix composed of the normalized Green's function, which is regarded as aprobability density function. By supporting Bayesian approach, the covariance matrix gives predictive distribution, which has the predictive mean $\mu$ and the confidence interval [$\mu$-2s, $\mu$+2s], where s stands for a standard deviation.
翻訳日:2022-12-13 09:06:56 公開日:2020-04-14
# グリッドワールドマルコフ決定過程における外挿

Extrapolation in Gridworld Markov-Decision Processes ( http://arxiv.org/abs/2004.06784v1 )

ライセンス: Link先を確認
Eugene Charniak(参考訳) 強化学習における外挿は、訓練時に起こり得なかったような状態をテスト時に一般化する能力である。 ここでは,単純なグリッドワールド環境における外挿改善につながる4つの要因について考察する。 (a)テスト時の動作選択に対して最大Q値(または他の決定論的方法)を避ける。 b) グリッドワールドのエゴ中心表現 (c)回転・ミラー不変畳み込みを用いた学習機構への回転・ミラー対称性の構築(標準翻訳・不変畳み込みではなく) (d)損失関数に最大エントロピー項を加えることで、等しく良いアクションが等しく選択されることを奨励する。

Extrapolation in reinforcement learning is the ability to generalize at test time given states that could never have occurred at training time. Here we consider four factors that lead to improved extrapolation in a simple Gridworld environment: (a) avoiding maximum Q-value (or other deterministic methods) for action choice at test time, (b) ego-centric representation of the Gridworld, (c) building rotational and mirror symmetry into the learning mechanism using rotational and mirror invariant convolution (rather than standard translation-invariant convolution), and (d) adding a maximum entropy term to the loss function to encourage equally good actions to be chosen equally often.
翻訳日:2022-12-13 09:06:18 公開日:2020-04-14
# gumbel-softmax-based optimization:グラフ上の最適化問題のための単純な汎用フレームワーク

Gumbel-softmax-based Optimization: A Simple General Framework for Optimization Problems on Graphs ( http://arxiv.org/abs/2004.07300v1 )

ライセンス: Link先を確認
Yaoxin Li, Jing Liu, Guozheng Lin, Yueyuan Hou, Muyun Mou and Jiang Zhang(参考訳) 計算機科学では、グラフ上に定義された最適化問題は多数存在し、最適なノード状態の設定やネットワーク構造を見つけることで、設計対象関数がいくつかの制約の下で最適化される。 しかしながら、これらの問題はNPハードまたはNP完全であるため、解決が難しいことで悪名高い。 シミュレーションアニール (SA) や遺伝的アルゴリズム (GA) といった従来の一般的な手法はこれらの難しい問題に対して考案されているが、その正確さや時間消費は実際には満足していない。 本研究では,ディープラーニングフレームワークによる高度な自動微分技術に基づく,シンプルで高速で汎用的なアルゴリズムフレームワークを提案する。 Gumbel-softmax手法を導入することにより、変数の離散性に関係なく、勾配降下アルゴリズムにより目的関数を直接最適化することができる。 また,並列バージョンのアルゴリズムに進化戦略を導入する。 ネットワーク科学のモジュラリティ最適化,統計物理学のsherington-kirkpatrick (sk) モデル,mis (maximum independent set) およびmvc (minimum vertex cover) 問題を含む,グラフ上の3つの代表的な最適化問題に対してアルゴリズムをテストした。 高品質なソリューションは従来のアプローチに比べてはるかに少ない時間で得られる。

In computer science, there exist a large number of optimization problems defined on graphs, that is to find a best node state configuration or a network structure such that the designed objective function is optimized under some constraints. However, these problems are notorious for their hardness to solve because most of them are NP-hard or NP-complete. Although traditional general methods such as simulated annealing (SA), genetic algorithms (GA) and so forth have been devised to these hard problems, their accuracy and time consumption are not satisfying in practice. In this work, we proposed a simple, fast, and general algorithm framework based on advanced automatic differentiation technique empowered by deep learning frameworks. By introducing Gumbel-softmax technique, we can optimize the objective function directly by gradient descent algorithm regardless of the discrete nature of variables. We also introduce evolution strategy to parallel version of our algorithm. We test our algorithm on three representative optimization problems on graph including modularity optimization from network science, Sherrington-Kirkpatrick (SK) model from statistical physics, maximum independent set (MIS) and minimum vertex cover (MVC) problem from combinatorial optimization on graph. High-quality solutions can be obtained with much less time consuming compared to traditional approaches.
翻訳日:2022-12-13 09:06:07 公開日:2020-04-14
# ダブルコンディション融合を伴う意図的カスケード内における深層学習用ヘッドポースと顔アライメント

Deep Entwined Learning Head Pose and Face Alignment Inside an Attentional Cascade with Doubly-Conditional fusion ( http://arxiv.org/abs/2004.06558v1 )

ライセンス: Link先を確認
Arnaud Dapogny, K\'evin Bailly and Matthieu Cord(参考訳) 頭部ポーズ推定と顔アライメントは、顔分析に依存する多くのアプリケーションのためのバックボーン前処理を構成する。 どちらも密接な関係にあるタスクだが、一般的にはランドマークの場所から頭の位置を推測することによって別々に対処される。 本稿では,注目カスケード内における顔のアライメントと頭部ポーズタスクの実施を提案する。 このカスケードは、異種アノテーションを統合するために幾何転送ネットワークを使用し、ランドマークのローカライズ精度を高める。 さらに,現在の頭部位置推定とランドマーク位置推定に基づいて,関連する特徴地図とその地域を選択できる二重条件融合スキームを提案する。 提案するac-dcモデルは,顔のアライメントと頭部位置推定タスクの両方において,複数のデータベースにおける最先端の精度を向上させる。

Head pose estimation and face alignment constitute a backbone preprocessing for many applications relying on face analysis. While both are closely related tasks, they are generally addressed separately, e.g. by deducing the head pose from the landmark locations. In this paper, we propose to entwine face alignment and head pose tasks inside an attentional cascade. This cascade uses a geometry transfer network for integrating heterogeneous annotations to enhance landmark localization accuracy. Furthermore, we propose a doubly-conditional fusion scheme to select relevant feature maps, and regions thereof, based on a current head pose and landmark localization estimate. We empirically show the benefit of entwining head pose and landmark localization objectives inside our architecture, and that the proposed AC-DC model enhances the state-of-the-art accuracy on multiple databases for both face alignment and head pose estimation tasks.
翻訳日:2022-12-13 09:05:23 公開日:2020-04-14
# 船の輪郭完成のためのcnn「walk the lines: object contour tracing cnn」

Walk the Lines: Object Contour Tracing CNN for Contour Completion of Ships ( http://arxiv.org/abs/2004.06587v1 )

ライセンス: Link先を確認
Andr\'e Peter Kelm and Udo Z\"olzer(参考訳) 我々は,最新の物体輪郭検出器の結果を向上させる新しい輪郭追跡アルゴリズムを開発した。 このタイプの輪郭はフーリエ記述子のような手法を用いて分析できるため、完全に閉じた1ピクセルの細かな物体輪郭を達成することが目的である。 畳み込みニューラルネットワーク(cnns)は輪郭追跡にはほとんど使われない。 しかし、CNNは、このタスクに適したものなので、オブジェクトの輪郭に従うように訓練された標準回帰CNNであるウォーク・ザ・ライン(WtL)アルゴリズムを提示する。 最初のステップでは、船の輪郭のみにCNNをトレーニングしますが、原則は他のオブジェクトにも適用できます。 入力データは、最近発表されたrefinecontournetの画像および関連するオブジェクト輪郭予測である。 WtLは中心画素を取得し、入力部とこの部を回転させる角度を定義する。 理想的には、中心のピクセルは輪郭上を動き、角度は今後の方向輪郭の変化を表す。 WtLは自走式でステップをピクセル単位で予測する。 WtLが異なる画像位置で並列に実行され、個々のパスのトレースが要約される完全なオブジェクト輪郭を得る。 同等の非最大抑圧法とは対照的に、我々の手法はより細部で連結な輪郭を生成する。 最後に、物体の輪郭は閉じた状態で二項化される。 全ての手順が望まれている場合、高いIoUを持つ優れた船舶セグメンテーションが作成され、アンテナや船の上部構造などの細部が他のセグメンテーション法によって容易に省略される。

We develop a new contour tracing algorithm to enhance the results of the latest object contour detectors. The goal is to achieve a perfectly closed, 1 pixel wide and detailed object contour, since this type of contour could be analyzed using methods such as Fourier descriptors. Convolutional Neural Networks (CNNs) are rarely used for contour tracing. However, we find CNNs are tailor-made for this task and that's why we present the Walk the Lines (WtL) algorithm, a standard regression CNN trained to follow object contours. To make the first step, we train the CNN only on ship contours, but the principle is also applicable to other objects. Input data are the image and the associated object contour prediction of the recently published RefineContourNet. The WtL gets a center pixel, which defines an input section and an angle for rotating this section. Ideally, the center pixel moves on the contour, while the angle describes upcoming directional contour changes. The WtL predicts its steps pixelwise in a selfrouting way. To obtain a complete object contour the WtL runs in parallel at different image locations and the traces of its individual paths are summed. In contrast to the comparable Non-Maximum Suppression method, our approach produces connected contours with finer details. Finally, the object contour is binarized under the condition of being closed. In case all procedures work as desired, excellent ship segmentations with high IoUs are produced, showing details such as antennas and ship superstructures that are easily omitted by other segmentation methods.
翻訳日:2022-12-13 09:05:08 公開日:2020-04-14
# 弱教師付きセグメンテーションのための境界ボックス:グローバルな制約は完全な監督に近づく

Bounding boxes for weakly supervised segmentation: Global constraints get close to full supervision ( http://arxiv.org/abs/2004.06816v1 )

ライセンス: Link先を確認
Hoel Kervadec, Jose Dolz, Shanshan Wang, Eric Granger, Ismail Ben Ayed(参考訳) 本稿では,ボックスアノテーションから導かれるいくつかのグローバル制約に基づく,弱い教師付き学習セグメンテーションを提案する。 特に、ネットワーク出力に制約のセットを課すことにより、ディープラーニング設定に先立って古典的な厳密さを活用する。 このような強力なトポロジカルな事前処理は、境界ボックス内の水平線または垂直線を、少なくとも前景領域の1ピクセルを含むように強制することにより、過剰な縮小を防止する。 さらに,グローバルな背景空き制約に先立って,厳密さを取り入れ,境界ボックス外の情報によるトレーニングを指導する。 このような大域的制約は、バックグラウンドクラスにおける標準的なクロスエントロピーよりもはるかに強力であることを示す。 我々の最適化問題は、ディープネットワークの出力に対する大きな不等式制約の形式を取るため、困難である。 本稿では,最近,内部点法でよく知られたlog-barrier法の強力な拡張に基づき,制約のない損失列を用いて解く。 これはディープネットワークのトレーニングに標準確率勾配降下(SGD)を許容し、計算コストが高く不安定なラグランジアン二重ステップと射影を避ける。 2つの異なる公開データセットとアプリケーション(前立腺と脳の病変)に対する大規模な実験は、我々のグローバルな厳密さと空虚さとの相乗効果が、非常に競争力のあるパフォーマンスをもたらし、完全な監督に近づき、より優れたDeepCutに近づいたことを示している。 さらに,計算コストの高い提案生成の必要性を解消した。 私たちのコードは匿名で共有されます。

We propose a novel weakly supervised learning segmentation based on several global constraints derived from box annotations. Particularly, we leverage a classical tightness prior to a deep learning setting via imposing a set of constraints on the network outputs. Such a powerful topological prior prevents solutions from excessive shrinking by enforcing any horizontal or vertical line within the bounding box to contain, at least, one pixel of the foreground region. Furthermore, we integrate our deep tightness prior with a global background emptiness constraint, guiding training with information outside the bounding box. We demonstrate experimentally that such a global constraint is much more powerful than standard cross-entropy for the background class. Our optimization problem is challenging as it takes the form of a large set of inequality constraints on the outputs of deep networks. We solve it with sequence of unconstrained losses based on a recent powerful extension of the log-barrier method, which is well-known in the context of interior-point methods. This accommodates standard stochastic gradient descent (SGD) for training deep networks, while avoiding computationally expensive and unstable Lagrangian dual steps and projections. Extensive experiments over two different public data sets and applications (prostate and brain lesions) demonstrate that the synergy between our global tightness and emptiness priors yield very competitive performances, approaching full supervision and outperforming significantly DeepCut. Furthermore, our approach removes the need for computationally expensive proposal generation. Our code is shared anonymously.
翻訳日:2022-12-13 09:04:41 公開日:2020-04-14
# ニューラルアテンションとバイトペアエンコーディングを用いたコード補完

Code Completion using Neural Attention and Byte Pair Encoding ( http://arxiv.org/abs/2004.06343v1 )

ライセンス: Link先を確認
Youri Arkesteijn, Nikhil Saldanha, Bastijn Kostense(参考訳) 本稿では,Liなどのニューラルネットワークを実装したコード補完を実現することを目的とする。 アル... 私たちの貢献は、文字内エンコーディングとバイトペアエンコーディング(bpe)と呼ばれるワードエンコーディングを使用することです。 抽象構文木(AST)を初めて通過することなく、これらを自然なテキストとして扱うソースコードファイルにこれを使用します。 我々は注意を喚起したlstmとポインタネットワークという2つのモデルを実装した。 私たちは、コード補完のためのポインタネットワークの必要性をBPEが置き換えられるかどうかに興味があります。

In this paper, we aim to do code completion based on implementing a Neural Network from Li et. al.. Our contribution is that we use an encoding that is in-between character and word encoding called Byte Pair Encoding (BPE). We use this on the source code files treating them as natural text without first going through the abstract syntax tree (AST). We have implemented two models: an attention-enhanced LSTM and a pointer network, where the pointer network was originally introduced to solve out of vocabulary problems. We are interested to see if BPE can replace the need for the pointer network for code completion.
翻訳日:2022-12-13 09:03:49 公開日:2020-04-14
# 動的不均一グラフニューラルネットワークによるアスペクトと感情の協調モデリング

Jointly Modeling Aspect and Sentiment with Dynamic Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2004.06427v1 )

ライセンス: Link先を確認
Shu Liu, Wei Li, Yunfang Wu, Qi Su, Xu Sun(参考訳) ターゲットベースの感情分析は、意見の側面(検査抽出)と感情の極性(強調検出)を検出することを目的としている。 以前のパイプラインと統合メソッドはどちらも、これらの2つの目的間の生来の接続を正確にモデル化することができない。 本稿では,2つの目的を明示的な方法で共同でモデル化する,新しい動的異種グラフを提案する。 通常の単語と感情ラベルの両方を異種グラフのノードとして扱い、アスペクトワードが感情情報と相互作用できるようにします。 グラフは複数の依存型で初期化され、リアルタイム予測中に動的に修正される。 ベンチマークデータセットの実験では、我々のモデルは最先端のモデルよりも優れています。 さらに分析した結果,マルチオピニオンと非オピニオンの状況下での課題インスタンスの性能向上が確認できた。

Target-Based Sentiment Analysis aims to detect the opinion aspects (aspect extraction) and the sentiment polarities (sentiment detection) towards them. Both the previous pipeline and integrated methods fail to precisely model the innate connection between these two objectives. In this paper, we propose a novel dynamic heterogeneous graph to jointly model the two objectives in an explicit way. Both the ordinary words and sentiment labels are treated as nodes in the heterogeneous graph, so that the aspect words can interact with the sentiment information. The graph is initialized with multiple types of dependencies, and dynamically modified during real-time prediction. Experiments on the benchmark datasets show that our model outperforms the state-of-the-art models. Further analysis demonstrates that our model obtains significant performance gain on the challenging instances under multiple-opinion aspects and no-opinion aspect situations.
翻訳日:2022-12-13 08:57:40 公開日:2020-04-14
# ディープメトリック学習と心理計測テストを用いた知識誘発

Knowledge Elicitation using Deep Metric Learning and Psychometric Testing ( http://arxiv.org/abs/2004.06353v1 )

ライセンス: Link先を確認
Lu Yin, Vlado Menkovski, Mykola Pechenizkiy(参考訳) ドメインに存在する知識は、対応する概念間の関係としてよく表される。 例えば動物学では、動物種は複雑な階層を形成し、ゲノム学では、異なる(部分的な)分子はそれらの機能に基づいてグループとサブグループに分けられる。 それにもかかわらず、そのような領域に教師付き機械学習(ML)を適用する場合、一般に、固定されたラベル集合に複雑で豊富な知識を還元し、それらのラベルに対して優れた一般化性能を示すモデルを誘導する。 このような還元主義的アプローチの主な理由は、専門家からドメイン知識を引き出すことが難しいことである。 十分な忠実さと包括的マルチラベルアノテーションを提供するラベル構造を開発することは、現実世界の多くのアプリケーションにおいて非常に労力がかかる。 本稿では,画像や映像などの高次元データを扱う専門家による効率的な階層的知識誘発手法(hke)を提案する。 本手法は,心理計測テストとアクティブ深層メトリクス学習に基づいている。 開発したモデルは、距離が意味的に意味のある距離空間に高次元データを埋め込み、データを階層構造にまとめることができる。 簡単な形状の合成データセットについて実験を行った結果,Cifar 10 と Fashion-MNIST のベンチマークにより,本手法が階層構造を明らかにすることに成功していることを示す。

Knowledge present in a domain is well expressed as relationships between corresponding concepts. For example, in zoology, animal species form complex hierarchies; in genomics, the different (parts of) molecules are organized in groups and subgroups based on their functions; plants, molecules, and astronomical objects all form complex taxonomies. Nevertheless, when applying supervised machine learning (ML) in such domains, we commonly reduce the complex and rich knowledge to a fixed set of labels, and induce a model shows good generalization performance with respect to these labels. The main reason for such a reductionist approach is the difficulty in eliciting the domain knowledge from the experts. Developing a label structure with sufficient fidelity and providing comprehensive multi-label annotation can be exceedingly labor-intensive in many real-world applications. In this paper, we provide a method for efficient hierarchical knowledge elicitation (HKE) from experts working with high-dimensional data such as images or videos. Our method is based on psychometric testing and active deep metric learning. The developed models embed the high-dimensional data in a metric space where distances are semantically meaningful, and the data can be organized in a hierarchical structure. We provide empirical evidence with a series of experiments on a synthetically generated dataset of simple shapes, and Cifar 10 and Fashion-MNIST benchmarks that our method is indeed successful in uncovering hierarchical structures.
翻訳日:2022-12-13 08:57:08 公開日:2020-04-14
# 画像品質評価によるロバスト分類に向けて

Towards Robust Classification with Image Quality Assessment ( http://arxiv.org/abs/2004.06288v1 )

ライセンス: Link先を確認
Yeli Feng, Yiyu Cai(参考訳) 近年の研究では、ディープ畳み込みニューラルネットワーク(DCNN)は、敵対的な例に対して脆弱であり、知覚品質や画像の取得条件に敏感であることが示されている。 これらの発見は、重要なタスクに対するDCNNベースのアプリケーションの採用に対する大きな懸念を引き起こします。 文献では,dcnnのロバスト性を高めるために,良質なノイズインジェクションによるモデル全体の再トレーニング,逆向きの例,追加レイヤの追加など,様々な防御戦略が紹介されている。 本稿では,逆操作と画像品質の関連性を検討した後,DCNNの再訓練を必要としない保護機構を提案する。 本手法では, 画像品質評価と知識蒸留を組み合わせることで, dccnをトリガーとする入力画像の検出を行う。 imagenet でトレーニングされた resnet モデルを用いて,検出器が品質の悪い画像や敵対的な画像を効果的に識別できることを実証する。

Recent studies have shown that deep convolutional neural networks (DCNN) are vulnerable to adversarial examples and sensitive to perceptual quality as well as the acquisition condition of images. These findings raise a big concern for the adoption of DCNN-based applications for critical tasks. In the literature, various defense strategies have been introduced to increase the robustness of DCNN, including re-training an entire model with benign noise injection, adversarial examples, or adding extra layers. In this paper, we investigate the connection between adversarial manipulation and image quality, subsequently propose a protective mechanism that doesnt require re-training a DCNN. Our method combines image quality assessment with knowledge distillation to detect input images that would trigger a DCCN to produce egregiously wrong results. Using the ResNet model trained on ImageNet as an example, we demonstrate that the detector can effectively identify poor quality and adversarial images.
翻訳日:2022-12-13 08:56:30 公開日:2020-04-14
# ブラケットによる予算学習

Budget Learning via Bracketing ( http://arxiv.org/abs/2004.06298v1 )

ライセンス: Link先を確認
Aditya Gangrade, Durmus Alp Emre Acar, Venkatesh Saligrama(参考訳) モバイル/IoT設定における従来の機械学習アプリケーションは、予測のためにデータをクラウドサーバに送信する。 コスト考慮(電力、レイテンシ、金銭)のため、デバイス間通信を最小化することが望ましい。 予算学習(BL)問題は、学習者がクラウドの使用を最小限に抑えつつ、精度を損なうことなく、採用する手法がエッジ実装可能であるという制約のもとに、学習者の目標を形作るものである。 本稿ではブラケットの概念を用いてBL問題に対する新しい定式化を提案する。 具体的には、クラウドの予測である$g,$を、関数 $h^-, h^+$ を `simple' クラスから切り離して、$h^- \le g \le h^+$ がほぼ常に成り立つようにすることを提案する。 例えば$x$の場合、$h^+(x)=h^-(x)$の場合、ローカル処理を利用し、クラウドをバイパスする。 我々は,この定式化の理論的側面を探求し,PACスタイルの学習可能性の定義を提供し,ブラケットによる予算学習可能性の概念と近似可能性の関連付けを行い,その特性をVC理論で分析する。 実世界のデータセットに関する我々の理論を実証的に検証し、事前ゲーティングに基づく手法よりも優れた性能を示す。

Conventional machine learning applications in the mobile/IoT setting transmit data to a cloud-server for predictions. Due to cost considerations (power, latency, monetary), it is desirable to minimise device-to-server transmissions. The budget learning (BL) problem poses the learner's goal as minimising use of the cloud while suffering no discernible loss in accuracy, under the constraint that the methods employed be edge-implementable. We propose a new formulation for the BL problem via the concept of bracketings. Concretely, we propose to sandwich the cloud's prediction, $g,$ via functions $h^-, h^+$ from a `simple' class so that $h^- \le g \le h^+$ nearly always. On an instance $x$, if $h^+(x)=h^-(x)$, we leverage local processing, and bypass the cloud. We explore theoretical aspects of this formulation, providing PAC-style learnability definitions; associating the notion of budget learnability to approximability via brackets; and giving VC-theoretic analyses of their properties. We empirically validate our theory on real-world datasets, demonstrating improved performance over prior gating based methods.
翻訳日:2022-12-13 08:56:14 公開日:2020-04-14
# 事前訓練モデルによる重み付け攻撃

Weight Poisoning Attacks on Pre-trained Models ( http://arxiv.org/abs/2004.06660v1 )

ライセンス: Link先を確認
Keita Kurita, Paul Michel, Graham Neubig(参考訳) 最近、NLPは大規模な事前訓練モデルの使用が急増している。 ユーザーは大規模なデータセットで事前トレーニングされたモデルの重みをダウンロードし、選択したタスクの重みを微調整する。 これは、信頼できないトレーニング済みのウェイトのダウンロードがセキュリティの脅威となるかどうかという疑問を提起する。 本稿では,事前訓練した重みを微調整後に ` ``backdoors'' を露出する脆弱性を注入する「 ``weight poisoning' 攻撃」を構築でき,任意のキーワードを注入するだけでモデル予測を操作できることを示す。 RIPPLeと呼ぶ正規化手法と,埋め込み手術と呼ぶ初期化手順を適用することで,データセットや微調整手順の知識が限られている場合でも,このような攻撃が可能であることを示す。 感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用でき,深刻な脅威となることが示された。 最後に,このような攻撃に対する実用的防御について概説する。 実験を再現するコードはhttps://github.com/neulab/RIPPLe.comで公開されている。

Recently, NLP has seen a surge in the usage of large pre-trained models. Users download weights of models pre-trained on large datasets, then fine-tune the weights on a task of their choice. This raises the question of whether downloading untrusted pre-trained weights can pose a security threat. In this paper, we show that it is possible to construct ``weight poisoning'' attacks where pre-trained weights are injected with vulnerabilities that expose ``backdoors'' after fine-tuning, enabling the attacker to manipulate the model prediction simply by injecting an arbitrary keyword. We show that by applying a regularization method, which we call RIPPLe, and an initialization procedure, which we call Embedding Surgery, such attacks are possible even with limited knowledge of the dataset and fine-tuning procedure. Our experiments on sentiment classification, toxicity detection, and spam detection show that this attack is widely applicable and poses a serious threat. Finally, we outline practical defenses against such attacks. Code to reproduce our experiments is available at https://github.com/neulab/RIPPLe.
翻訳日:2022-12-13 08:48:09 公開日:2020-04-14
# ディープネットワーク最適化における適応正規化のための確率バッチサイズ

Stochastic batch size for adaptive regularization in deep network optimization ( http://arxiv.org/abs/2004.06341v1 )

ライセンス: Link先を確認
Kensuke Nakamura, Stefano Soatto, Byung-Woo Hong(参考訳) ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を組み込んだ一階確率最適化アルゴリズムを提案する。 適応正則化は、最適化イテレーション毎に各モデルパラメータのバッチサイズを決定する確率過程によって課される。 確率的バッチサイズは、勾配ノルムの範囲が層内および層間で異なるニューラルネットワークアーキテクチャにおける局所的および大域的特性を考慮して、勾配ノルムの分布に従って各パラメータの更新確率によって決定される。 ベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,本アルゴリズムの有効性を実証的に実証する。 定量的評価により,本アルゴリズムは,最適化において重要な役割を担うバッチサイズの選択に対する感度を低くし,正規性の選択に対する堅牢性の向上を図っている。

We propose a first-order stochastic optimization algorithm incorporating adaptive regularization applicable to machine learning problems in deep learning framework. The adaptive regularization is imposed by stochastic process in determining batch size for each model parameter at each optimization iteration. The stochastic batch size is determined by the update probability of each parameter following a distribution of gradient norms in consideration of their local and global properties in the neural network architecture where the range of gradient norms may vary within and across layers. We empirically demonstrate the effectiveness of our algorithm using an image classification task based on conventional network models applied to commonly used benchmark datasets. The quantitative evaluation indicates that our algorithm outperforms the state-of-the-art optimization algorithms in generalization while providing less sensitivity to the selection of batch size which often plays a critical role in optimization, thus achieving more robustness to the selection of regularity.
翻訳日:2022-12-13 08:47:29 公開日:2020-04-14
# 多数派の専制性に対処するための対照的な例

Contrastive Examples for Addressing the Tyranny of the Majority ( http://arxiv.org/abs/2004.06524v1 )

ライセンス: Link先を確認
Viktoriia Sharmanska, Lisa Anne Hendricks, Trevor Darrell, Novi Quadrianto(参考訳) コンピュータビジョンアルゴリズム(例えば顔認識)は、トレーニングデータでよりよく表現される個人のグループを好んでいる。 これは分類器が行うべき一般化のためである。 この適合が全体的なエラーにとってより重要であるため、多数派グループに適合するのはより簡単である。 我々は,オリジナルデータセットとグループメンバシップが介入し,マイノリティが多数派となり,その逆の新たなデータポイントからなる,バランスのとれたトレーニングデータセットを作成することを提案する。 これらのデータポイントを学習するための強力なツールとして,現在生成型adversarial networkが,コントラストサンプル(con contrastive examples)と呼ばれる。 表データおよび画像データ(顔データセットのセレブと多様性)について,等化オッズバイアス尺度を用いて実験を行った。 対照的な例では、グループメンバーシップと他の一見中立な特徴の間の相関関係を明らかにすることができる。 因果グラフが利用可能であればいつでも、これらの対比的な例を反事実の観点から考えることができる。

Computer vision algorithms, e.g. for face recognition, favour groups of individuals that are better represented in the training data. This happens because of the generalization that classifiers have to make. It is simpler to fit the majority groups as this fit is more important to overall error. We propose to create a balanced training dataset, consisting of the original dataset plus new data points in which the group memberships are intervened, minorities become majorities and vice versa. We show that current generative adversarial networks are a powerful tool for learning these data points, called contrastive examples. We experiment with the equalized odds bias measure on tabular data as well as image data (CelebA and Diversity in Faces datasets). Contrastive examples allow us to expose correlations between group membership and other seemingly neutral features. Whenever a causal graph is available, we can put those contrastive examples in the perspective of counterfactuals.
翻訳日:2022-12-13 08:47:12 公開日:2020-04-14
# DALES: セマンティックセグメンテーションのための大規模航空LiDARデータセット

DALES: A Large-scale Aerial LiDAR Data Set for Semantic Segmentation ( http://arxiv.org/abs/2004.11985v1 )

ライセンス: Link先を確認
Nina Varney, Vijayan K. Asari and Quinn Graehling(参考訳) 本研究では,10平方kmの領域と8つの対象カテゴリにまたがる半億以上の手動ラベル付き点を持つ大規模LiDARデータセットであるDayton Annotated LiDAR Earth Scan (DALES)データセットを提示する。 大規模な注釈付きポイントクラウドデータセットは、ディープラーニング手法の評価の標準となっている。 しかし、既存のデータセットのほとんどは、地上またはモバイルスキャナーから収集されたデータに焦点を当てており、空中データにはほとんど焦点が当てられていない。 Aerial Laser Scanner (ALS)から収集されたポイントクラウドデータは、3D都市モデリングや大規模監視といった分野における新たな課題と応用を提示する。 dalesは最も広範囲に利用可能なalsデータセットであり、400倍以上のポイントと、他のアノテートされたaircraft point cloudデータセットの6倍の解像度を持つ。 このデータセットは、新しい3dディープラーニングアルゴリズムの評価のために、専門家が検証した手書きのポイントを非常に多く与え、現在のアルゴリズムの焦点を空中データに拡大するのに役立ちます。 DALESデータセット上で,我々のデータの性質,アノテーションのワークフロー,現在最先端のアルゴリズム性能のベンチマークを提供する。

We present the Dayton Annotated LiDAR Earth Scan (DALES) data set, a new large-scale aerial LiDAR data set with over a half-billion hand-labeled points spanning 10 square kilometers of area and eight object categories. Large annotated point cloud data sets have become the standard for evaluating deep learning methods. However, most of the existing data sets focus on data collected from a mobile or terrestrial scanner with few focusing on aerial data. Point cloud data collected from an Aerial Laser Scanner (ALS) presents a new set of challenges and applications in areas such as 3D urban modeling and large-scale surveillance. DALES is the most extensive publicly available ALS data set with over 400 times the number of points and six times the resolution of other currently available annotated aerial point cloud data sets. This data set gives a critical number of expert verified hand-labeled points for the evaluation of new 3D deep learning algorithms, helping to expand the focus of current algorithms to aerial data. We describe the nature of our data, annotation workflow, and provide a benchmark of current state-of-the-art algorithm performance on the DALES data set.
翻訳日:2022-12-13 08:47:00 公開日:2020-04-14
# フレキシブルジョブショップスケジューリングのための階層型NSGA-IIIインスティファイション

A Tailored NSGA-III Instantiation for Flexible Job Shop Scheduling ( http://arxiv.org/abs/2004.06564v1 )

ライセンス: Link先を確認
Yali Wang, Bas van Stein, Michael T.M. Emmerich, Thomas B\"ack(参考訳) マルチオブジェクトフレキシブルなジョブショップスケジューリング問題 (FJSP) に対して, カスタマイズ型多目的進化アルゴリズム (MOEA) を提案する。 最初の生成した人口を豊かにするためにスマートイニシャライズアプローチを使用し、様々なクロスオーバー演算子を提案し、子孫の多様性を高めている。 特に,アルゴリズムパラメータをチューニング可能なMIP-EGO設定器を用いて,演算子の確率を自動的に調整する。 さらに、より良い解を求めるために、地域探索戦略が採用されている。 一般に、アルゴリズム強化戦略は任意の標準EMOアルゴリズムと統合することができる。 本稿では、NSGA-IIIと組み合わせてベンチマーク多目的FJSPを解くが、NSGA-IIIの既製の実装ではFJSPを解くことはできない。 実験結果は計算予算の少ない優れた性能を示す。

A customized multi-objective evolutionary algorithm (MOEA) is proposed for the multi-objective flexible job shop scheduling problem (FJSP). It uses smart initialization approaches to enrich the first generated population, and proposes various crossover operators to create a better diversity of offspring. Especially, the MIP-EGO configurator, which can tune algorithm parameters, is adopted to automatically tune operator probabilities. Furthermore, different local search strategies are employed to explore the neighborhood for better solutions. In general, the algorithm enhancement strategy can be integrated with any standard EMO algorithm. In this paper, it has been combined with NSGA-III to solve benchmark multi-objective FJSPs, whereas an off-the-shelf implementation of NSGA-III is not capable of solving the FJSP. The experimental results show excellent performance with less computing budget.
翻訳日:2022-12-13 08:46:41 公開日:2020-04-14