このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210413となっている論文です。

PDF登録状況(公開日: 20210413)

TitleAuthorsAbstract論文公表日・翻訳日
# 医学的異常検出のための深層学習--サーベイ

Deep Learning for Medical Anomaly Detection -- A Survey ( http://arxiv.org/abs/2012.02364v2 )

ライセンス: Link先を確認
Tharindu Fernando, Harshala Gammulle, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 機械学習に基づく医療異常検出は、広く研究されている重要な問題である。 様々な医療応用領域において様々なアプローチが提案されており、これら異なる応用分野にまたがる類似点がいくつか見受けられる。 このような適合性にもかかわらず、これらの多様な研究アプリケーションの構造化された組織が欠如していることを観察し、その利点と限界を研究できる。 本調査の主な目的は,医学的異常検出における一般的な深層学習手法の詳細な理論的解析を提供することである。 特に,最先端技術に関するコヒーレントで体系的なレビューを行い,そのアーキテクチャ的差異とトレーニングアルゴリズムの比較・対比を行った。 さらに,モデル決定の解釈に使用できる深層モデル解釈戦略の包括的概要を提供する。 また,既存の深部医療異常検出技術の限界を概説し,今後の研究に向けた重要な研究指針を提案する。

Machine learning-based medical anomaly detection is an important problem that has been extensively studied. Numerous approaches have been proposed across various medical application domains and we observe several similarities across these distinct applications. Despite this comparability, we observe a lack of structured organisation of these diverse research applications such that their advantages and limitations can be studied. The principal aim of this survey is to provide a thorough theoretical analysis of popular deep learning techniques in medical anomaly detection. In particular, we contribute a coherent and systematic review of state-of-the-art techniques, comparing and contrasting their architectural differences as well as training algorithms. Furthermore, we provide a comprehensive overview of deep model interpretation strategies that can be used to interpret model decisions. In addition, we outline the key limitations of existing deep medical anomaly detection techniques and propose key research directions for further investigation.
翻訳日:2021-05-22 20:53:51 公開日:2021-04-13
# (参考訳) 効率的強化学習のためのmpcと値関数近似のブレンド [全文訳有]

Blending MPC & Value Function Approximation for Efficient Reinforcement Learning ( http://arxiv.org/abs/2012.05909v2 )

ライセンス: CC BY 4.0
Mohak Bhardwaj, Sanjiban Choudhury, Byron Boots(参考訳) モデル予測制御(MPC)は、モデルを用いて将来の行動を予測する複雑な実世界のシステムを制御する強力なツールである。 遭遇した各状態について、mpcはオンライン最適化問題を解決し、将来のコストを最小化する制御アクションを選択する。 これは驚くほど効果的な戦略ですが、リアルタイムのパフォーマンス要求は単純なモデルの使用を保証します。 モデルが十分正確でない場合、結果のコントローラはバイアスを負い、性能が制限される。 モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。 鍵となる洞察は、MPCを一連の局所的なQ関数近似の構築と見なすことである。 td($\lambda$)のトレース減衰パラメータに似たパラメータ$\lambda$を使用することで、局所q関数近似に対する学習値の推定を体系的にトレードオフできることを示す。 本稿では,MPCにおける不正確なモデルからの誤差とRLにおける値関数推定のバランスを示す理論的解析を行う。 さらに、値関数の見積もりが改善するにつれて、MPCへの依存を減らすために、時間とともに$\lambda$を変更するアルゴリズムを提案し、シミュレーションにおけるバイアスモデルを用いた高次元操作タスクへのアプローチの有効性を検証した。 提案手法は,モデルバイアスの厳しい場合であっても真の力学にアクセスでき,モデルフリーのRLに比べてより標本効率がよいMPCに匹敵する性能が得られることを示す。

Model-Predictive Control (MPC) is a powerful tool for controlling complex, real-world systems that uses a model to make predictions about future behavior. For each state encountered, MPC solves an online optimization problem to choose a control action that will minimize future cost. This is a surprisingly effective strategy, but real-time performance requirements warrant the use of simple models. If the model is not sufficiently accurate, then the resulting controller can be biased, limiting performance. We present a framework for improving on MPC with model-free reinforcement learning (RL). The key insight is to view MPC as constructing a series of local Q-function approximations. We show that by using a parameter $\lambda$, similar to the trace decay parameter in TD($\lambda$), we can systematically trade-off learned value estimates against the local Q-function approximations. We present a theoretical analysis that shows how error from inaccurate models in MPC and value function estimation in RL can be balanced. We further propose an algorithm that changes $\lambda$ over time to reduce the dependence on MPC as our estimates of the value function improve, and test the efficacy our approach on challenging high-dimensional manipulation tasks with biased models in simulation. We demonstrate that our approach can obtain performance comparable with MPC with access to true dynamics even under severe model bias and is more sample efficient as compared to model-free RL.
翻訳日:2021-05-15 18:24:28 公開日:2021-04-13
# (参考訳) 予測型ディジタル双極子をスケールで実現するための確率的グラフィカルモデル基礎 [全文訳有]

A Probabilistic Graphical Model Foundation for Enabling Predictive Digital Twins at Scale ( http://arxiv.org/abs/2012.05841v3 )

ライセンス: CC BY 4.0
Michael G. Kapteyn and Jacob V.R. Pretorius and Karen E. Willcox(参考訳) カスタム実装で構築された1対のデジタルツインから、大規模で堅牢なデジタルツイン実装に移行するには、統一的な数学的定式化が必要である。 本研究は,デジタルツインとその関連物理資産の形式的数学的表現としての確率的グラフィカルモデルを提案する。 我々は,アセット・トウィン系を結合力学系の集合として抽象化し,それぞれの状態空間を通じて時間とともに進化し,観測データと制御入力を介して相互作用する。 確率的グラフィカルモデルとしてのこの結合系の形式的定義は、ベイズ統計、力学系、制御理論から確立された理論と方法を引き出すことができる。 提案されたデジタルツインモデルの宣言的かつ一般的な性質により、厳密で柔軟性があり、様々なアプリケーション領域で大規模に応用することができる。 無人航空機(UAV)の構造的デジタル双対を実現するためにモデルがどのようにインスタンス化されるかを示す。 デジタルツインは物理的UAV資産の実験データを用いて校正される。 次に、UAVが飛行中の損傷イベントを実行し、センサーデータを用いてデジタルツインを動的に更新する合成例で、動的意思決定におけるその使用を例示する。 グラフィカルモデル基盤は、デジタルツインのキャリブレーションと更新プロセスが原則化され、統一され、デジタルツインの全群にスケールできることを保証する。

A unifying mathematical formulation is needed to move from one-off digital twins built through custom implementations to robust digital twin implementations at scale. This work proposes a probabilistic graphical model as a formal mathematical representation of a digital twin and its associated physical asset. We create an abstraction of the asset-twin system as a set of coupled dynamical systems, evolving over time through their respective state-spaces and interacting via observed data and control inputs. The formal definition of this coupled system as a probabilistic graphical model enables us to draw upon well-established theory and methods from Bayesian statistics, dynamical systems, and control theory. The declarative and general nature of the proposed digital twin model make it rigorous yet flexible, enabling its application at scale in a diverse range of application areas. We demonstrate how the model is instantiated to enable a structural digital twin of an unmanned aerial vehicle (UAV). The digital twin is calibrated using experimental data from a physical UAV asset. Its use in dynamic decision making is then illustrated in a synthetic example where the UAV undergoes an in-flight damage event and the digital twin is dynamically updated using sensor data. The graphical model foundation ensures that the digital twin calibration and updating process is principled, unified, and able to scale to an entire fleet of digital twins.
翻訳日:2021-05-15 11:28:44 公開日:2021-04-13
# (参考訳) データ同化による太陽風予測の改善 [全文訳有]

Improving solar wind forecasting using Data Assimilation ( http://arxiv.org/abs/2012.06362v2 )

ライセンス: CC BY 4.0
Matthew Lang, Jake Witherington, Harriet Turner, Matt Owens, Pete Riley(参考訳) データ同化(DA)は地上の気象予報技術を大幅に改善した。 本研究では,計算効率の良い太陽風モデルを用いた変分DA方式と,sterEO-A,STEREO-B,A CEによるその場観測を用いた。 この方式により、1AUのような太陽から遠く離れた太陽風の観測が可能となり、太陽風モデルの内部境界条件(30太陽半径)を更新し改善することができる。 このように観測情報は、たとえ観測が地球の直下にあっていなくても、地球近傍の太陽風の推定を改善するために使うことができる。 これにより、太陽風の初期条件が改善され、予測モデルに渡される。 この効果として, STEREO-B(2007年11月01日~2014年9月30日)の運用期間中に太陽風の27日間の予測を行うために, HUXt太陽風モデルを用いた。 地球近傍の空間では、これらのDA予測の精度を非DA予測とsterEO-B観測の単純な回転の両方と比較する。 sterEO-BコローテーションとDA予測の27日間のルート平均二乗誤差(RMSE)は,いずれも非DA予測よりも有意に低い。 しかし、DA予測は、sterEO-Bの緯度が地球からずれたときの太陽風の予測を改善することが示されている。 そして、da方式により、太陽と地球の間のモデル領域全体の太陽風を表現することができるようになり、cmeの到達時間と速度の予測が改善される。

Data Assimilation (DA) has enabled huge improvements in the skill of terrestrial operational weather forecasting. In this study, we use a variational DA scheme with a computationally efficient solar wind model and in situ observations from STEREO-A, STEREO-B and ACE. This scheme enables solar-wind observations far from the Sun, such as at 1 AU, to update and improve the inner boundary conditions of the solar wind model (at 30 solar radii). In this way, observational information can be used to improve estimates of the near-Earth solar wind, even when the observations are not directly downstream of the Earth. This allows improved initial conditions of the solar wind to be passed into forecasting models. To this effect, we employ the HUXt solar wind model to produce 27-day forecasts of the solar wind during the operational lifetime of STEREO-B (01 November 2007 - 30 September 2014). In near-Earth space, we compare the accuracy of these DA forecasts with both non-DA forecasts and simple corotation of STEREO-B observations. We find that 27-day root mean-square error (RMSE) for STEREO-B corotation and DA forecasts are comparable and both are significantly lower than non-DA forecasts. However, the DA forecast is shown to improve solar wind forecasts when STEREO-B's latitude is offset from Earth, which is an issue for corotation forecasts. And the DA scheme enables the representation of the solar wind in the whole model domain between the Sun and the Earth to be improved, which will enable improved forecasting of CME arrival time and speed.
翻訳日:2021-05-11 08:27:42 公開日:2021-04-13
# 軽量時間不確かさ推定によるビデオインスタンスセグメンテーションの改善

Improving Video Instance Segmentation by Light-weight Temporal Uncertainty Estimates ( http://arxiv.org/abs/2012.07504v2 )

ライセンス: Link先を確認
Kira Maag, Matthias Rottmann, Serin Varghese, Fabian Hueger, Peter Schlicht and Hanno Gottschalk(参考訳) ニューラルネットワークによるインスタンスセグメンテーションは、環境認識において不可欠なタスクである。 多くの研究において、ニューラルネットワークは信頼度の高い偽陽性インスタンスと低い偽陽性を予測できることが観察されている。 したがって、ニューラルネットワークの不確かさを正確にモデル化し、安全性の問題を防止し、解釈可能性を高めることが重要である。 自動運転のようなアプリケーションでは、ニューラルネットワークの信頼性が最も注目されている。 本稿では,インスタンスセグメンテーションネットワークの不確かさをモデル化するための時間動的手法を提案し,偽陽性の検出と予測品質の推定に適用する。 オンラインアプリケーションにおける画像シーケンスの可用性により、複数のフレームにわたるインスタンスの追跡が可能になる。 形状と不確実性情報のインスタンス履歴に基づいて,時間的インスタンス単位の集約メトリクスを構築する。 後者は、結合上のインスタンス毎の交叉の観点から予測品質を推定する後処理モデルへの入力として使用される。 提案手法は、容易に訓練されたニューラルネットワーク(単一のフレームで操作できる)とビデオシーケンス入力のみを必要とする。 本実験では,従来のスコア値をオブジェクト検出から置き換え,インスタンス分割ネットワークの全体的な性能を向上させることによって,提案手法の利用をさらに実証する。

Instance segmentation with neural networks is an essential task in environment perception. In many works, it has been observed that neural networks can predict false positive instances with high confidence values and true positives with low ones. Thus, it is important to accurately model the uncertainties of neural networks in order to prevent safety issues and foster interpretability. In applications such as automated driving, the reliability of neural networks is of highest interest. In this paper, we present a time-dynamic approach to model uncertainties of instance segmentation networks and apply this to the detection of false positives as well as the estimation of prediction quality. The availability of image sequences in online applications allows for tracking instances over multiple frames. Based on an instances history of shape and uncertainty information, we construct temporal instance-wise aggregated metrics. The latter are used as input to post-processing models that estimate the prediction quality in terms of instance-wise intersection over union. The proposed method only requires a readily trained neural network (that may operate on single frames) and video sequence input. In our experiments, we further demonstrate the use of the proposed method by replacing the traditional score value from object detection and thereby improving the overall performance of the instance segmentation network.
翻訳日:2021-05-08 14:39:44 公開日:2021-04-13
# (参考訳) 5G無線ネットワークにおけるアドミッション制御のための強化学習 [全文訳有]

Reinforcement learning for Admission Control in 5G Wireless Networks ( http://arxiv.org/abs/2104.10761v1 )

ライセンス: CC BY 4.0
Youri Raaijmakers and Silvio Mandelli and Mark Doll(参考訳) 無線ネットワークにおける加入制御の鍵となる課題は、新たな要求のブロック確率と、進行中の要求の低下確率を最小化することである。 入場制御問題を解くための2つのアプローチを考察する:i) 一般的に採用されているしきい値ポリシーとi) ニューラルネットワークによる強化学習に依存する政策を提案する。 両ポリシーの性能を解析するために,広範なシミュレーション実験を行った。 その結果、強化学習政策は、不均一な時間変化の到着率と複数のユーザ機器タイプでシナリオにおけるしきい値ベースのポリシーよりも優れており、現実的な無線ネットワークシナリオに適用可能であることが示された。

The key challenge in admission control in wireless networks is to strike an optimal trade-off between the blocking probability for new requests while minimizing the dropping probability of ongoing requests. We consider two approaches for solving the admission control problem: i) the typically adopted threshold policy and ii) our proposed policy relying on reinforcement learning with neural networks. Extensive simulation experiments are conducted to analyze the performance of both policies. The results show that the reinforcement learning policy outperforms the threshold-based policies in the scenario with heterogeneous time-varying arrival rates and multiple user equipment types, proving its applicability in realistic wireless network scenarios.
翻訳日:2021-05-04 08:03:49 公開日:2021-04-13
# 球面ベクトルを用いた粒子群最適化による安全向上型UAV経路計画

Safety-enhanced UAV Path Planning with Spherical Vector-based Particle Swarm Optimization ( http://arxiv.org/abs/2104.10033v1 )

ライセンス: Link先を確認
Manh Duong Phung and Quang Phuc Ha(参考訳) 本稿では,無人航空機(UAV)の複雑な環境における経路計画問題に対処するために,球面ベクトルベース粒子群最適化 (SPSO) という新しいアルゴリズムを提案する。 コスト関数が最初に定式化され、経路計画がUAVの実用的で安全な運用に必要な要件と制約を組み込んだ最適化問題に変換される。 次に、SPSOを用いて、UAVの粒子位置と速度、回転角、上昇角の対応により、UAVの構成空間を効率的に探索することにより、コスト関数を最小化する最適経路を求める。 SPSOの性能を評価するため、実際のデジタル標高モデルマップから8つのベンチマークシナリオが作成されている。 その結果,SPSOは従来のPSOや位相角符号化PSO,量子挙動PSOなど他の粒子群最適化(PSO)だけでなく,遺伝的アルゴリズム(GA),人工蜂コロニー(ABC),微分進化(DE)など,最先端のメタヒューリスティック最適化アルゴリズムよりも優れていた。 さらに, 実際のUAV運用において, 生成経路の有効性を示す実験を行った。 アルゴリズムのソースコードはhttps://github.com/d uongpm/SPSOにある。

This paper presents a new algorithm named spherical vector-based particle swarm optimization (SPSO) to deal with the problem of path planning for unmanned aerial vehicles (UAVs) in complicated environments subjected to multiple threats. A cost function is first formulated to convert the path planning into an optimization problem that incorporates requirements and constraints for the feasible and safe operation of the UAV. SPSO is then used to find the optimal path that minimizes the cost function by efficiently searching the configuration space of the UAV via the correspondence between the particle position and the speed, turn angle and climb/dive angle of the UAV. To evaluate the performance of SPSO, eight benchmarking scenarios have been generated from real digital elevation model maps. The results show that the proposed SPSO outperforms not only other particle swarm optimization (PSO) variants including the classic PSO, phase angle-encoded PSO and quantum-behave PSO but also other state-of-the-art metaheuristic optimization algorithms including the genetic algorithm (GA), artificial bee colony (ABC), and differential evolution (DE) in most scenarios. In addition, experiments have been conducted to demonstrate the validity of the generated paths for real UAV operations. Source code of the algorithm can be found at https://github.com/d uongpm/SPSO.
翻訳日:2021-05-03 19:45:06 公開日:2021-04-13
# SmartSimを用いたHPCシミュレーションにおける大規模機械学習の利用:海洋気候モデリングへの応用

Using Machine Learning at Scale in HPC Simulations with SmartSim: An Application to Ocean Climate Modeling ( http://arxiv.org/abs/2104.09355v1 )

ライセンス: Link先を確認
Sam Partee, Matthew Ellis, Alessandro Rigazzi, Scott Bachman, Gustavo Marques, Andrew Shao, Benjamin Robbins(参考訳) We demonstrate the first climate-scale, numerical ocean Simulations improve through distributed, online inference of Deep Neural Networks (DNN) using SmartSim。 SmartSimは、従来のHPCシミュレーションのためのオンライン分析と機械学習(ML)を可能にするためのライブラリである。 本稿では,SmartSimアーキテクチャを詳述し,異種HPCシステム上での共有MLモデルを用いたオンライン推論を含むベンチマークを行う。 計算ノード19個にまたがるグローバルスケールで高解像度の海洋シミュレーションを12のメンバで実行し,それぞれがシミュレーションタイムステップ毎に同じMLアーキテクチャと通信することで,SmartSimの能力を実証する。 合計で9700億の推論が、合計で120年のシミュレーション期間にわたってアンサンブルを実行することによって提供される。 最後に、我々のソリューションはモデル統合の全期間にわたって安定しており、機械学習を組み込むことがシミュレーションランタイムに最小限の影響を与えることを示す。

We demonstrate the first climate-scale, numerical ocean simulations improved through distributed, online inference of Deep Neural Networks (DNN) using SmartSim. SmartSim is a library dedicated to enabling online analysis and Machine Learning (ML) for traditional HPC simulations. In this paper, we detail the SmartSim architecture and provide benchmarks including online inference with a shared ML model on heterogeneous HPC systems. We demonstrate the capability of SmartSim by using it to run a 12-member ensemble of global-scale, high-resolution ocean simulations, each spanning 19 compute nodes, all communicating with the same ML architecture at each simulation timestep. In total, 970 billion inferences are collectively served by running the ensemble for a total of 120 simulated years. Finally, we show our solution is stable over the full duration of the model integrations, and that the inclusion of machine learning has minimal impact on the simulation runtimes.
翻訳日:2021-05-03 19:44:21 公開日:2021-04-13
# (参考訳) フェデレーション学習における個人顧客の影響の理解に向けて [全文訳有]

Toward Understanding the Influence of Individual Clients in Federated Learning ( http://arxiv.org/abs/2012.10936v3 )

ライセンス: CC BY 4.0
Yihao Xue, Chaoyue Niu, Zhenzhe Zheng, Shaojie Tang, Chengfei Lv, Fan Wu, Guihai Chen(参考訳) フェデレートラーニングにより、モバイルクライアントは、プライベートデータを中央サーバに送信することなく、グローバルモデルを共同でトレーニングできる。 広範な研究によってグローバルモデルのパフォーマンス保証が研究されているが、個々のクライアントが協調トレーニングプロセスにどのように影響するかはまだ不明である。 本研究では,モデルパラメータに対する影響を定量化するための新しい概念である「フェデレーション・インフルエンス」を定義し,この指標を推定するための効率的かつ効率的なアルゴリズムを提案した。 具体的には,(1) クライアントとサーバに線形計算オーバーヘッドのみを追加すること,(2) クライアントのローカルなプライベートデータを公開せずにフェデレート学習のテテットを厳格に維持すること,(3) 凸と非凸の両方の損失関数でうまく機能し,最終モデルが最適である必要はないこと,などが望ましい。 合成データセットとフェムニストデータセットを用いた実験結果から,この推定手法は少ないバイアスでフェデレンスを近似できることを示した。 さらに,モデルデバッギングにおけるFed-Influenceの適用例を示す。

Federated learning allows mobile clients to jointly train a global model without sending their private data to a central server. Extensive works have studied the performance guarantee of the global model, however, it is still unclear how each individual client influences the collaborative training process. In this work, we defined a new notion, called {\em Fed-Influence}, to quantify this influence over the model parameters, and proposed an effective and efficient algorithm to estimate this metric. In particular, our design satisfies several desirable properties: (1) it requires neither retraining nor retracing, adding only linear computational overhead to clients and the server; (2) it strictly maintains the tenets of federated learning, without revealing any client's local private data; and (3) it works well on both convex and non-convex loss functions, and does not require the final model to be optimal. Empirical results on a synthetic dataset and the FEMNIST dataset demonstrate that our estimation method can approximate Fed-Influence with small bias. Further, we show an application of Fed-Influence in model debugging.
翻訳日:2021-05-01 08:11:02 公開日:2021-04-13
# AWA: Adversarial Website Adaptation

AWA: Adversarial Website Adaptation ( http://arxiv.org/abs/2012.10832v2 )

ライセンス: Link先を確認
Amir Mahdi Sadeghzadeh, Behrad Tajali, and Rasool Jalili(参考訳) プライバシー強化技術の最も重要な義務の1つは、インターネット上のユーザーのブラウジング活動に機密性とプライバシーをもたらすことである。 ウェブサイトの指紋認証攻撃により、ローカルの受動的盗聴者がVPN、IPsec、Torなどの匿名技術を使用しても、ターゲットユーザーの閲覧活動を予測できる。 近年,深層学習の発達により,ウェブサイトの指紋認証攻撃を精度良く行うことができるようになった。 本稿では,Adversarial Website Adaptation (AWA) と呼ばれる,敵対的深層学習アプローチを用いたWebサイト指紋認証攻撃に対する新たな防御法を提案する。 AWAは各ランにトランスフォーマーセットを生成し、それぞれのWebサイトがユニークなトランスフォーマーを持つようにする。 各変換器は、相手の分類器を避けるために逆トレースを生成する。 AWAにはUniversal AWA(UAWA)とNon-Universal AWA(NUAWA)の2つのバージョンがある。 NUAWAとは異なり、UAWAで敵対的トレースを生成するために、Webサイトの全トレースにアクセスする必要はない。 我々は、AWAが各ランで様々な変圧器を生成するために、変圧器の訓練段階で秘密のランダム要素を許容する。 私たちはAWAを数回実行し、複数のトランスフォーマーを作成します。 相手が異なる変圧器を選択する場合、相手の分類器の精度は19.52%、31.94%であり、それぞれUAWAとNUAWAでは22.28%、帯域幅は26.28%である。 より強力な敵が複数の変圧器を通して敵の痕跡を生成し、分類器を訓練すると、敵の分類器の精度は49.10%、25.93%であり、それぞれUAWAとNUAWの帯域オーバーヘッドは62.52%、64.33%である。

One of the most important obligations of privacy-enhancing technologies is to bring confidentiality and privacy to users' browsing activities on the Internet. The website fingerprinting attack enables a local passive eavesdropper to predict the target user's browsing activities even she uses anonymous technologies, such as VPNs, IPsec, and Tor. Recently, the growth of deep learning empowers adversaries to conduct the website fingerprinting attack with higher accuracy. In this paper, we propose a new defense against website fingerprinting attack using adversarial deep learning approaches called Adversarial Website Adaptation (AWA). AWA creates a transformer set in each run so that each website has a unique transformer. Each transformer generates adversarial traces to evade the adversary's classifier. AWA has two versions, including Universal AWA (UAWA) and Non-Universal AWA (NUAWA). Unlike NUAWA, there is no need to access the entire trace of a website in order to generate an adversarial trace in UAWA. We accommodate secret random elements in the training phase of transformers in order for AWA to generate various sets of transformers in each run. We run AWA several times and create multiple sets of transformers. If an adversary and a target user select different sets of transformers, the accuracy of adversary's classifier is almost 19.52% and 31.94% with almost 22.28% and 26.28% bandwidth overhead in UAWA and NUAWA, respectively. If a more powerful adversary generates adversarial traces through multiple sets of transformers and trains a classifier on them, the accuracy of adversary's classifier is almost 49.10% and 25.93% with almost 62.52% and 64.33% bandwidth overhead in UAWA and NUAW, respectively.
翻訳日:2021-05-01 04:38:53 公開日:2021-04-13
# 進行学習による可逆性疾患の予測

Forecasting Irreversible Disease via Progression Learning ( http://arxiv.org/abs/2012.11107v2 )

ライセンス: Link先を確認
Botong Wu, Sijie Ren, Jing Li, Xinwei Sun, Shiming Li, Yizhou Wang(参考訳) ppa(parapapillary atrophy)の予測は、ほとんどの可逆性眼疾患に関連する症状であり、早期に疾患の進行を遅らせるための介入を実施するためのアラームとなる。 この予測の重要な疑問は、過去のデータ(例えば網膜画像)を現在の段階まで完全に活用して、将来の病気の予測を行う方法である。 本稿では,新しいフレームワーク,すなわち \textbf{D}isease \textbf{F}orecast via \textbf{P}rogression \textbf{L}earning (\textbf{DFPL}) を用いて解答を行う。 具体的には, 今後, 将来の疾患の予測に寄与する2つの因子を分解する。i) 現在の疾患ラベルは, 現時点のデータ(網膜像, 臨床属性)と, ii) 将来の疾患ラベルは, 現時点から未来にかけての網膜画像の進行に寄与する。 これら2つの要因をモデル化するために,DFPLの電流予測と進行予測をそれぞれ導入する。 疾患の進行度を考慮し,将来の画像を正確に生成し,現在の画像と比較して残像を得る時間的生成モデルを提案する。 生成モデルは、履歴データの依存性を利用するために、リカレントニューラルネットワークによって実装される。 このアプローチを検証するために、PPAの社内データセットに適用し、大幅に改善する(\textit{e.g.)。 }, \textbf{4.48\%} of accuracy; \textbf{3.45\%} of AUC) over other。 また,本生成モデルでは疾患関連領域を正確に局在させることができる。

Forecasting Parapapillary atrophy (PPA), i.e., a symptom related to most irreversible eye diseases, provides an alarm for implementing an intervention to slow down the disease progression at early stage. A key question for this forecast is: how to fully utilize the historical data (e.g., retinal image) up to the current stage for future disease prediction? In this paper, we provide an answer with a novel framework, namely \textbf{D}isease \textbf{F}orecast via \textbf{P}rogression \textbf{L}earning (\textbf{DFPL}), which exploits the irreversibility prior (i.e., cannot be reversed once diagnosed). Specifically, based on this prior, we decompose two factors that contribute to the prediction of the future disease: i) the current disease label given the data (retinal image, clinical attributes) at present and ii) the future disease label given the progression of the retinal images that from the current to the future. To model these two factors, we introduce the current and progression predictors in DFPL, respectively. In order to account for the degree of progression of the disease, we propose a temporal generative model to accurately generate the future image and compare it with the current one to get a residual image. The generative model is implemented by a recurrent neural network, in order to exploit the dependency of the historical data. To verify our approach, we apply it to a PPA in-house dataset and it yields a significant improvement (\textit{e.g.}, \textbf{4.48\%} of accuracy; \textbf{3.45\%} of AUC) over others. Besides, our generative model can accurately localize the disease-related regions.
翻訳日:2021-04-27 06:35:53 公開日:2021-04-13
# 時空間歪みモデル学習によるHDRの劣化と劣化

HDR Denoising and Deblurring by Learning Spatio-temporal Distortion Models ( http://arxiv.org/abs/2012.12009v3 )

ライセンス: Link先を確認
U\u{g}ur \c{C}o\u{g}alan, Mojtaba Bemana, Karol Myszkowski, Hans-Peter Seidel, Tobias Ritschel(参考訳) 我々は、異なる画素列に異なる低ダイナミックレンジ(LDR)情報を記録するデュアル露光センサから、シャープでノイズのない高ダイナミックレンジ(HDR)映像を再構成することを模索している。 以前のldrの研究は、クリーンな画像と歪んだ画像のペアが監督する(distorted->clean)ことを学んでいる。 たしかに、DisTORTEDセンサーの読み取りには時間がかかり、CLEAN HDRビデオも不足している。 この2つの制限を克服する手法を提案する。 まず、CLEAN->DISTORTEDという、相関したピクセルノイズと行と列のノイズを含むサンプルを生成し、CLEANセンサの少ない値から動きのぼけを発生させる機能について学習する。 第2に,CLEAN HDRビデオが不足しているため,代わりにLDRビデオから学習する方法を考案した。 私たちのアプローチは、いくつかの強力なベースラインと比較し、データで再トレーニングされた場合、既存のメソッドを増加させます。 空間的および時間的超解像と組み合わせることで、低ノイズやぼやけたリライトなどの応用が可能になる。

We seek to reconstruct sharp and noise-free high-dynamic range (HDR) video from a dual-exposure sensor that records different low-dynamic range (LDR) information in different pixel columns: Odd columns provide low-exposure, sharp, but noisy information; even columns complement this with less noisy, high-exposure, but motion-blurred data. Previous LDR work learns to deblur and denoise (DISTORTED->CLEAN) supervised by pairs of CLEAN and DISTORTED images. Regrettably, capturing DISTORTED sensor readings is time-consuming; as well, there is a lack of CLEAN HDR videos. We suggest a method to overcome those two limitations. First, we learn a different function instead: CLEAN->DISTORTED, which generates samples containing correlated pixel noise, and row and column noise, as well as motion blur from a low number of CLEAN sensor readings. Second, as there is not enough CLEAN HDR video available, we devise a method to learn from LDR video in-stead. Our approach compares favorably to several strong baselines, and can boost existing methods when they are re-trained on our data. Combined with spatial and temporal super-resolution, it enables applications such as re-lighting with low noise or blur.
翻訳日:2021-04-26 07:22:05 公開日:2021-04-13
# EAT:自己教師型音声認識のためのASR-TTSの強化

EAT: Enhanced ASR-TTS for Self-supervised Speech Recognition ( http://arxiv.org/abs/2104.07474v1 )

ライセンス: Link先を確認
Murali Karthick Baskar, Luk\'a\v{s} Burget, Shinji Watanabe, Ramon Fernandez Astudillo, and Jan "Honza'' \v{C}ernock\'y(参考訳) 自己管理型ASR-TTSモデルはドメイン外データ条件に悩まされる。 1) ASR$\rightarrow$TTS方向は、TSに転送する前にASR仮説をペナルティ化する言語モデル報酬を備える。 2) TTS$\rightarrow$ASR 方向では,合成音声から注目コンテキストを拡大するためにハイパーパラメータを導入し,ASR に送信してドメイン外データを処理する。 ドメイン外データ条件下でのトレーニング戦略とEATモデルの有効性について検討した。 その結果、EATは、リブリスペヒとBABELの絶対2.6\%と2.7\%とで、教師付きトレーニングと自己指導型トレーニングのパフォーマンスギャップを著しく減少させることがわかった。

Self-supervised ASR-TTS models suffer in out-of-domain data conditions. Here we propose an enhanced ASR-TTS (EAT) model that incorporates two main features: 1) The ASR$\rightarrow$TTS direction is equipped with a language model reward to penalize the ASR hypotheses before forwarding it to TTS. 2) In the TTS$\rightarrow$ASR direction, a hyper-parameter is introduced to scale the attention context from synthesized speech before sending it to ASR to handle out-of-domain data. Training strategies and the effectiveness of the EAT model are explored under out-of-domain data conditions. The results show that EAT reduces the performance gap between supervised and self-supervised training significantly by absolute 2.6\% and 2.7\% on Librispeech and BABEL respectively.
翻訳日:2021-04-16 15:09:18 公開日:2021-04-13
# 最大エントロピーオートエンコーディング

Maximum Entropy Auto-Encoding ( http://arxiv.org/abs/2104.07448v1 )

ライセンス: Link先を確認
Paul M Baggenstoss(参考訳) 本稿では,最適再構成を用いたオートエンコーダが従来のオートエンコーダを大きく上回ることを示す。 最適再構成は、与えられた特徴の入力の条件平均を最大エントロピー事前分布の下で用いる。 決定論的射影ベリードネットワーク(D-PBN)と呼ばれる最適再構成ネットワークは、標準的な再構成ネットワークに似ているが、ミストを反復的に解決する特別な非線形性を持つ。 この手法は最大エントロピー画像再構成の一般化と見なすことができ、複数の層に拡張される。 実験では、平均正方形再構成誤差を最大2倍に削減した。 パフォーマンス改善は、深いネットワークや、制約のない値の入力データ(ガウシアン仮定)では減少する。

In this paper, it is shown that an auto-encoder using optimal reconstruction significantly outperforms a conventional auto-encoder. Optimal reconstruction uses the conditional mean of the input given the features, under a maximum entropy prior distribution. The optimal reconstruction network, which is called deterministic projected belied network (D-PBN), resembles a standard reconstruction network, but with special non-linearities that mist be iteratively solved. The method, which can be seen as a generalization of maximum entropy image reconstruction, extends to multiple layers. In experiments, mean square reconstruction error reduced by up to a factor of two. The performance improvement diminishes for deeper networks, or for input data with unconstrained values (Gaussian assumption).
翻訳日:2021-04-16 14:51:39 公開日:2021-04-13
# (参考訳) auto-validate: データレイクから推定したデータドメインパターンを用いた教師なしデータ検証 [全文訳有]

Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes ( http://arxiv.org/abs/2104.04659v2 )

ライセンス: CC BY 4.0
Jie Song, Yeye He(参考訳) 複雑なデータパイプラインは、BIレポートやMLモデリングといった多様なアプリケーションでますます一般的になっています。 これらのパイプラインは、BIレポートを更新する必要があり、MLモデルを再トレーニングする必要があるため、定期的に再帰することが多い。 しかし、複雑なプロダクションパイプラインでは、上流のデータフィードが予期せぬ方法で変化し、ダウンストリームアプリケーションは解決にコストがかかる静かに壊れてしまうことが広く報告されている。 このように、データ検証は重要なトピックとなり、googleとamazonによる最近の注目すべき取り組みで示されているように、パイプラインでデータ品質の問題が発生すると早期にキャッチすることを目的としている。 しかし,本研究の経験から,文字列値データでは,これらの既存手法は偽陽性率が高く,人的介入が頻繁に必要であることが示唆された。 本研究では,基礎となるデータ領域を正確に記述し,データ品質問題を最大化しながら偽陽性を最小限に抑える適切なデータ評価パターンを推定することにより,自動検証するコーパス駆動手法を開発した。 実データレイクの生産データを用いた評価は、Auto-Validateが既存の方法よりもかなり効果的であることを示している。 この技術の一部は、Microsoft Azure PurviewでAuto-Tag機能として提供される。

Complex data pipelines are increasingly common in diverse applications such as BI reporting and ML modeling. These pipelines often recur regularly (e.g., daily or weekly), as BI reports need to be refreshed, and ML models need to be retrained. However, it is widely reported that in complex production pipelines, upstream data feeds can change in unexpected ways, causing downstream applications to break silently that are expensive to resolve. Data validation has thus become an important topic, as evidenced by notable recent efforts from Google and Amazon, where the objective is to catch data quality issues early as they arise in the pipelines. Our experience on production data suggests, however, that on string-valued data, these existing approaches yield high false-positive rates and frequently require human intervention. In this work, we develop a corpus-driven approach to auto-validate \emph{machine-generated data} by inferring suitable data-validation "patterns" that accurately describe the underlying data domain, which minimizes false positives while maximizing data quality issues caught. Evaluations using production data from real data lakes suggest that Auto-Validate is substantially more effective than existing methods. Part of this technology ships as an Auto-Tag feature in Microsoft Azure Purview.
翻訳日:2021-04-16 08:25:00 公開日:2021-04-13
# (参考訳) B\'ezier Simplicesの近似ベイズ計算 [全文訳有]

Approximate Bayesian Computation of B\'ezier Simplices ( http://arxiv.org/abs/2104.04679v2 )

ライセンス: CC BY 4.0
Akinori Tanaka, Akiyoshi Sannai, Ken Kobayashi, and Naoki Hamada(参考訳) b\'ezier simplexフィッティングアルゴリズムは、多目的連続最適化問題のパレート集合/フロントを近似するために最近提案されている。 これらの新しい手法は、サンプルポイントがパレートセット/フロント上にある場合、パレートセット/フロントの様々な形状を近似することに成功した。 しかし、もしサンプルポイントがパレートセット/フロントから散乱した場合、これらのメソッドは過剰フィッティングに苦しむことが多い。 本稿では,この問題を克服するために,b\'ezier simplexモデルを確率的モデルに拡張し,wasserstein距離に基づく近似ベイズ計算(abc)の枠組みに当てはまる新しい学習アルゴリズムを提案する。 また、Wasserstein ABCアルゴリズムの収束性についても検討する。 公開問題事例に対する広範な実験的評価は、新しいアルゴリズムが有限標本に収束することを示している。 さらに,ノイズ発生時の決定論的フィッティング法を上回っている。

B\'ezier simplex fitting algorithms have been recently proposed to approximate the Pareto set/front of multi-objective continuous optimization problems. These new methods have shown to be successful at approximating various shapes of Pareto sets/fronts when sample points exactly lie on the Pareto set/front. However, if the sample points scatter away from the Pareto set/front, those methods often likely suffer from over-fitting. To overcome this issue, in this paper, we extend the B\'ezier simplex model to a probabilistic one and propose a new learning algorithm of it, which falls into the framework of approximate Bayesian computation (ABC) based on the Wasserstein distance. We also study the convergence property of the Wasserstein ABC algorithm. An extensive experimental evaluation on publicly available problem instances shows that the new algorithm converges on a finite sample. Moreover, it outperforms the deterministic fitting methods on noisy instances.
翻訳日:2021-04-16 07:05:58 公開日:2021-04-13
# (参考訳) ソーシャルナビゲーションのためのサブゴールによる報酬形成 [全文訳有]

Reward Shaping with Subgoals for Social Navigation ( http://arxiv.org/abs/2104.06410v1 )

ライセンス: CC BY 4.0
Takato Okudo and Seiji Yamada(参考訳) ソーシャルナビゲーションは、マシンインテリジェンスの成長と共に注目を集めている。 強化学習は、計算コストの低い予測フェーズで行動を選択することができるため、ソーシャルナビゲーションタスクで定式化されている。 しかし、強化学習は学習フェーズで行動ポリシーを取得するまで、膨大な回数の反復を要する。 これは現実世界におけるロボット行動の学習に悪影響を及ぼす。 特に、社会的ナビゲーションは、環境の中で予測不能な移動障害を持つ人間を含む。 学習の高速化を目的として,サブゴールを用いた報酬形成手法を提案した。 主な部分は、サブゴールを用いて強化学習アルゴリズムを形成するアグリゲーション手法である。 我々は,ロボットが衝突を回避し,目標に達するソーシャルナビゲーションタスクを用いて学習実験を行った。 実験の結果,本手法はタスクのベースアルゴリズムから学習効率を向上することがわかった。

Social navigation has been gaining attentions with the growth in machine intelligence. Since reinforcement learning can select an action in the prediction phase at a low computational cost, it has been formulated in a social navigation tasks. However, reinforcement learning takes an enormous number of iterations until acquiring a behavior policy in the learning phase. This negatively affects the learning of robot behaviors in the real world. In particular, social navigation includes humans who are unpredictable moving obstacles in an environment. We proposed a reward shaping method with subgoals to accelerate learning. The main part is an aggregation method that use subgoals to shape a reinforcement learning algorithm. We performed a learning experiment with a social navigation task in which a robot avoided collisions and then reached its goal. The experimental results show that our method improved the learning efficiency from a base algorithm in the task.
翻訳日:2021-04-16 04:08:31 公開日:2021-04-13
# (参考訳) 強化学習における効率向上のためのサブゴールベースリワード整形 [全文訳有]

Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement Learning ( http://arxiv.org/abs/2104.06411v1 )

ライセンス: CC BY 4.0
Takato Okudo and Seiji Yamada(参考訳) 長期報酬を最大化する政策を取得する強化学習が活発に研究されている。 残念なことに、この学習タイプは、実際の環境では状態アクション空間が巨大になるため、現実的な状況ではあまりにも遅く、使いづらい。 多くの研究が人的知識を強化学習に取り入れている。 軌道に関する人間の知識はよく用いられるが、aiエージェントを制御するように人間に依頼することは困難である。 サブゴールに関する知識は、人間が心の中で最適な軌道についていくつかの代表的状態を考える必要があるため、この要件を減少させる可能性がある。 効率を学ぶための重要な要素は報酬です。 ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。 しかし、潜在的報酬形成よりも学習を促進するためにサブゴールを組み込むことは、しばしば困難である。 これは、適切なポテンシャルは人間にとって直感的ではないからである。 我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。 この方法は、人間のトレーナーがサブゴールの知識を共有するのを容易にする。 提案手法を評価するために,被験者からサブシリーズを取得し,4室(離散状態と離散動作),ピンボール(連続的および離散的),ピッキング(両方連続)の3領域で実験を行った。 本手法をベースライン強化学習アルゴリズムおよびランダムサブゴールおよびナイーブサブゴールに基づく報酬形成を含む他のサブゴールベース手法と比較した。 その結果,学習効率の面では,報酬形成が他の手法よりも優れていることがわかった。

Reinforcement learning, which acquires a policy maximizing long-term rewards, has been actively studied. Unfortunately, this learning type is too slow and difficult to use in practical situations because the state-action space becomes huge in real environments. Many studies have incorporated human knowledge into reinforcement Learning. Though human knowledge on trajectories is often used, a human could be asked to control an AI agent, which can be difficult. Knowledge on subgoals may lessen this requirement because humans need only to consider a few representative states on an optimal trajectory in their minds. The essential factor for learning efficiency is rewards. Potential-based reward shaping is a basic method for enriching rewards. However, it is often difficult to incorporate subgoals for accelerating learning over potential-based reward shaping. This is because the appropriate potentials are not intuitive for humans. We extend potential-based reward shaping and propose a subgoal-based reward shaping. The method makes it easier for human trainers to share their knowledge of subgoals. To evaluate our method, we obtained a subgoal series from participants and conducted experiments in three domains, four-rooms(discrete states and discrete actions), pinball(continuous and discrete), and picking(both continuous). We compared our method with a baseline reinforcement learning algorithm and other subgoal-based methods, including random subgoal and naive subgoal-based reward shaping. As a result, we found out that our reward shaping outperformed all other methods in learning efficiency.
翻訳日:2021-04-16 03:57:32 公開日:2021-04-13
# (参考訳) ソーシャルメディア上での移民談話におけるフレーミングのモデル化 [全文訳有]

Modeling Framing in Immigration Discourse on Social Media ( http://arxiv.org/abs/2104.06443v1 )

ライセンス: CC BY 4.0
Julia Mendelsohn, Ceren Budak, David Jurgens(参考訳) 政治問題は政策や世論に影響を及ぼす可能性がある。 一般大衆はフレームを作成し、広める上で重要な役割を担っているが、ソーシャルメディア上の一般人がいかに政治問題に対処しているかは分かっていない。 政治コミュニケーション理論から複数のフレーミングタイプにラベル付けされた移民関連ツイートの新しいデータセットを作成することにより、フレームを検出するための教師付きモデルを開発した。 ユーザのイデオロギーと地域がフレーミングの選択にどのように影響するか,メッセージのフレーミングが聴衆の反応にどのように影響するかを実証する。 一般的に使われている問題生成の枠組みは、移民固有の枠組みによってのみ明らかにされる重要なイデオロギー的および地域的パターンを曖昧にしている。 さらに、人間の関心、文化、政治を指向したフレームは、より高いユーザエンゲージメントと関連している。 この複雑な社会現象と言語現象の大規模分析は、NLPと社会科学の研究に寄与する。

The framing of political issues can influence policy and public opinion. Even though the public plays a key role in creating and spreading frames, little is known about how ordinary people on social media frame political issues. By creating a new dataset of immigration-related tweets labeled for multiple framing typologies from political communication theory, we develop supervised models to detect frames. We demonstrate how users' ideology and region impact framing choices, and how a message's framing influences audience responses. We find that the more commonly-used issue-generic frames obscure important ideological and regional patterns that are only revealed by immigration-specific frames. Furthermore, frames oriented towards human interests, culture, and politics are associated with higher user engagement. This large-scale analysis of a complex social and linguistic phenomenon contributes to both NLP and social science research.
翻訳日:2021-04-16 03:37:09 公開日:2021-04-13
# (参考訳) 生画像のデブラル・デモサイック・デノワーズとの共同学習 [全文訳有]

Learning to Jointly Deblur, Demosaick and Denoise Raw Images ( http://arxiv.org/abs/2104.06459v1 )

ライセンス: CC BY 4.0
Thomas Eboli, Jian Sun and Jean Ponce(参考訳) ノイズの多い生画像の非盲検と復号化の問題に対処する。 本稿では,rgb画像のデブラリングに既存の学習に基づくアプローチを適用し,新たな解釈モジュールを導入し,デブラリングを行う。 このモデルをrgbイメージでトレーニングし、リアルなインバータブルカメラパイプラインに従って生の画像に変換します。 このモデルの有効性を,デモサイクリングとデブラリングモジュールを定量的ベンチマークに積み重ねる2段階のアプローチで実証する。 また,実画像からカメラ固有のぼやけ(色依存性のポイントスプレッド機能)を除去し,鋭い画像を取り外す手法を適用した。

We address the problem of non-blind deblurring and demosaicking of noisy raw images. We adapt an existing learning-based approach to RGB image deblurring to handle raw images by introducing a new interpretable module that jointly demosaicks and deblurs them. We train this model on RGB images converted into raw ones following a realistic invertible camera pipeline. We demonstrate the effectiveness of this model over two-stage approaches stacking demosaicking and deblurring modules on quantitive benchmarks. We also apply our approach to remove a camera's inherent blur (its color-dependent point-spread function) from real images, in essence deblurring sharp images.
翻訳日:2021-04-16 03:05:18 公開日:2021-04-13
# (参考訳) テキストにおけるバイアスメトリクスの解釈と意義について--PMIに基づくアプローチ [全文訳有]

On the interpretation and significance of bias metrics in texts: a PMI-based approach ( http://arxiv.org/abs/2104.06474v1 )

ライセンス: CC BY 4.0
Francisco Valentini, Germ\'an Rosati, Dami\'an Blasi, Diego Fernandez Slezak, and Edgar Altszyler(参考訳) 近年、テキストにおけるバイアスの存在を測定するために、単語埋め込みの使用が一般的になっている。 これらの尺度が様々なバイアスを検出するのに有効であることが示されているにもかかわらず、単語の埋め込みに基づくメトリクスは透明性、説明可能性、解釈可能性に欠ける。 本研究では,テキスト中のバイアスを定量化するPMIに基づくメトリクスを提案する。 この計量はオッズ比で近似できるので, 信頼区間の推定や, テキストバイアスの統計的意義を推定できる。 また、このPMIに基づく測度は条件付き確率の関数として表現できることを示し、単語共起の観点で簡単な解釈を提供する。 本手法は,ジェンダー占有とジェンダー名関連の実験において,GloVeとSkip-gramに匹敵する性能を示す。 本稿では,計量の解釈可能性とデータのスパース性の観点から,一階と二階の共起に基づく手法の長所と短所を考察する。

In recent years, the use of word embeddings has become popular to measure the presence of biases in texts. Despite the fact that these measures have been shown to be effective in detecting a wide variety of biases, metrics based on word embeddings lack transparency, explainability and interpretability. In this study, we propose a PMI-based metric to quantify biases in texts. We show that this metric can be approximated by an odds ratio, which allows estimating the confidence interval and statistical significance of textual bias. We also show that this PMI-based measure can be expressed as a function of conditional probabilities, providing a simple interpretation in terms of word co-occurrences. Our approach produces a performance comparable to GloVe-based and Skip-gram-based metrics in experiments of gender-occupation and gender-name associations. We discuss the advantages and disadvantages of using methods based on first-order vs second-order co-occurrences, from the point of view of the interpretability of the metric and the sparseness of the data.
翻訳日:2021-04-16 02:50:40 公開日:2021-04-13
# (参考訳) 衛星画像による機械学習3次元建物のベクトル化 [全文訳有]

Machine-learned 3D Building Vectorization from Satellite Imagery ( http://arxiv.org/abs/2104.06485v1 )

ライセンス: CC BY 4.0
Yi Wang, Stefano Zorzi, Ksenia Bittner(参考訳) 自動3Dビルディング再構築とベクトル化のための機械学習に基づく手法を提案する。 単一チャネルのフォトグラム化デジタル表面モデル(DSM)とパンクロマティック画像(PAN)を入力として、まず非構築オブジェクトをフィルタリングし、条件付き生成対向ネットワーク(cGAN)を用いて入力DSMの構築形状を洗練する。 改良されたDSMと入力されたPAN画像はセマンティックセグメンテーションネットワークを介して、建物の屋根の端と角を検出する。 その後、屋根ポリゴンを構築するためのベクトル化アルゴリズムが提案されている。 最後に、精製されたDSMからの高さ情報をポリゴンに追加し、完全にベクトル化された詳細(LoD)-2ビルディングモデルを得る。 本手法を大規模衛星画像に対して有効性を確認し,最新性能を得る。

We propose a machine learning based approach for automatic 3D building reconstruction and vectorization. Taking a single-channel photogrammetric digital surface model (DSM) and panchromatic (PAN) image as input, we first filter out non-building objects and refine the building shapes of input DSM with a conditional generative adversarial network (cGAN). The refined DSM and the input PAN image are then used through a semantic segmentation network to detect edges and corners of building roofs. Later, a set of vectorization algorithms are proposed to build roof polygons. Finally, the height information from the refined DSM is added to the polygons to obtain a fully vectorized level of detail (LoD)-2 building model. We verify the effectiveness of our method on large-scale satellite images, where we obtain state-of-the-art performance.
翻訳日:2021-04-16 02:42:29 公開日:2021-04-13
# (参考訳) MS2: 医療研究のマルチドキュメント要約 [全文訳有]

MS2: Multi-Document Summarization of Medical Studies ( http://arxiv.org/abs/2104.06486v1 )

ライセンス: CC BY 4.0
Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Keuhl, Lucy Lu Wang(参考訳) 医学的介入の有効性を評価するために、研究者は時間的かつ高度に手作業による文献レビューを行う必要がある。 NLPシステムは、この高価なプロセスの一部を自動化する、または補助するのに役立ちます。 この目的をサポートし、470k以上の文書と20kの要約のデータセットであるms^2(multi-document summarization of medical studies)をリリースする。 このデータセットは、複数の研究にまたがる矛盾する証拠を評価・集約できるシステムの開発を促進し、バイオメディカル領域における最初の大規模で一般公開された多文書要約データセットである。 我々は,BARTに基づく要約システムで実験を行い,有望な早期結果を得た。 自由テキストと構造化形式の両方で要約入力と目標を定式化し、最近提案されたメトリクスを修正し、システムの生成した要約の品質を評価する。 データとモデルはhttps://github.com/a llenai/ms2で入手できる。

To assess the effectiveness of any medical intervention, researchers must conduct a time-intensive and highly manual literature review. NLP systems can help to automate or assist in parts of this expensive process. In support of this goal, we release MS^2 (Multi-Document Summarization of Medical Studies), a dataset of over 470k documents and 20k summaries derived from the scientific literature. This dataset facilitates the development of systems that can assess and aggregate contradictory evidence across multiple studies, and is the first large-scale, publicly available multi-document summarization dataset in the biomedical domain. We experiment with a summarization system based on BART, with promising early results. We formulate our summarization inputs and targets in both free text and structured forms and modify a recently proposed metric to assess the quality of our system's generated summaries. Data and models are available at https://github.com/a llenai/ms2
翻訳日:2021-04-16 02:31:01 公開日:2021-04-13
# (参考訳) 遠隔医療システムのための階層型svmベースのidによるマルチエージェントベースのフレームワーク [全文訳有]

A multiagent based framework secured with layered SVM-based IDS for remote healthcare systems ( http://arxiv.org/abs/2104.06498v1 )

ライセンス: CC BY 4.0
Mohammadreza Begli, Farnaz Derakhshan(参考訳) 病院や医療センターに勤務する高齢者や患者が増えているため、効率的な遠隔医療サービスの提供が非常に重要であると考えられる。 現在、このようなシステムのほとんどはマルチエージェントシステムの分散と自律性、および無線センサネットワークの構造の恩恵を受けている。 リモート医療システムのセキュリティに関する最近の研究は、盗聴やデータ修正から保護されている。 一方で、既存のリモート医療システムは、リモートおよびインターネットに基づいて管理されているため、dos(denial of service)やu2r(user to root)攻撃など、他の一般的な医療ネットワーク攻撃に対して脆弱である。 そこで本稿では,2段階からなる遠隔医療システムのためのセキュアなフレームワークを提案する。 まず,センサネットワークからデータを収集するマルチエージェント技術に基づく医療システムの設計を行う。 そして,第2フェーズでは,ネットワークトラフィックの挙動を学習するためにSupport Vector Machineを用いた侵入検知システムの階層構造を適用した。 本フレームワークでは,セキュアな遠隔医療システムを実装し,Smurf,Buffer overflow,Neptune,Pod 攻撃といった医療ネットワークの頻繁な攻撃に対して,このシステムを評価する。 最後に, 侵入検知システムの階層構造の評価パラメータを用いて, 提案手法の有効性と妥当性を検証した。

Since the number of elderly and patients who are in hospitals and healthcare centers are growing, providing efficient remote healthcare services seems very important. Currently, most such systems benefit from the distribution and autonomy features of multiagent systems and the structure of wireless sensor networks. On the one hand, securing the data of remote healthcare systems is one of the most significant concerns; particularly recent types of research about the security of remote healthcare systems keep them secure from eavesdropping and data modification. On the other hand, existing remote healthcare systems are still vulnerable against other common attacks of healthcare networks such as Denial of Service (DoS) and User to Root (U2R) attacks, because they are managed remotely and based on the Internet. Therefore, in this paper, we propose a secure framework for remote healthcare systems that consists of two phases. First, we design a healthcare system base on multiagent technology to collect data from a sensor network. Then, in the second phase, a layered architecture of intrusion detection systems that uses Support Vector Machine to learn the behavior of network traffic is applied. Based on our framework, we implement a secure remote healthcare system and evaluate this system against the frequent attacks of healthcare networks such as Smurf, Buffer overflow, Neptune, and Pod attacks. In the end, evaluation parameters of the layered architecture of intrusion detection systems prove the efficiency and correctness of our proposed framework.
翻訳日:2021-04-16 02:03:46 公開日:2021-04-13
# (参考訳) 音楽感情認識のためのディープオーディオ埋め込みの比較と解析 [全文訳有]

Comparison and Analysis of Deep Audio Embeddings for Music Emotion Recognition ( http://arxiv.org/abs/2104.06517v1 )

ライセンス: CC BY 4.0
Eunjeong Koh and Shlomo Dubnov(参考訳) 感情は音楽に存在する複雑な概念であり、微調整された特徴工学でも捉えにくい。 本稿では,音楽感情認識(MER)タスクにおいて,最先端の訓練済みディープオーディオ埋め込み手法の有用性について検討する。 深層オーディオ埋め込み手法により,高次元特徴をコンパクトな表現に効率的に捉えることができる。 音楽における感情セマンティクスを予測するために,音声埋め込みの深いマルチクラス分類器を実装した。 4つの音楽データセットに対してL3-NetとVGGishのディープオーディオ埋め込み法の有効性を検討した。 タスク上のいくつかの分類器を用いた実験により、深いオーディオ埋め込みソリューションは、以前のベースラインmerモデルのパフォーマンスを向上させることができる。 深い音声埋め込みは人間工学を使わずにmerタスクのための音楽的感情意味論を表すと結論づける。

Emotion is a complicated notion present in music that is hard to capture even with fine-tuned feature engineering. In this paper, we investigate the utility of state-of-the-art pre-trained deep audio embedding methods to be used in the Music Emotion Recognition (MER) task. Deep audio embedding methods allow us to efficiently capture the high dimensional features into a compact representation. We implement several multi-class classifiers with deep audio embeddings to predict emotion semantics in music. We investigate the effectiveness of L3-Net and VGGish deep audio embedding methods for music emotion inference over four music datasets. The experiments with several classifiers on the task show that the deep audio embedding solutions can improve the performances of the previous baseline MER models. We conclude that deep audio embeddings represent musical emotion semantics for the MER task without expert human engineering.
翻訳日:2021-04-16 01:49:00 公開日:2021-04-13
# (参考訳) 医療データの匿名化に関するレビュー [全文訳有]

A Review of Anonymization for Healthcare Data ( http://arxiv.org/abs/2104.06523v1 )

ライセンス: CC BY 4.0
Iyiola E. Olatunji, Jens Rauch, Matthias Katzensteiner, Megha Khosla(参考訳) 医療データのマイニングは、医療決定の迅速化、治療の質の向上、疾患予防、コスト削減、医療分野における革新的なソリューションの推進につながる。 しかし、健康データは極めて敏感であり、患者のプライバシーを確保することを目的とした一般データ保護規則(GDPR)などの規制の対象となっている。 患者識別情報の匿名化や削除は、最も一般的な方法ではあるが、規制を遵守し、プライバシーの懸念を組み込むための最初の重要なステップである。 本稿では,既存の匿名化手法と健康データの種類(関係性およびグラフベース)への適用性について概説する。 さらに,匿名化データに対する攻撃の可能性について概説する。 患者プライバシに対処し,そのような攻撃から保護する方法を議論するには,必要ではあるが匿名化が不十分であることを示す。 最後に,匿名化を実現するためのツールについて述べる。

Mining health data can lead to faster medical decisions, improvement in the quality of treatment, disease prevention, reduced cost, and it drives innovative solutions within the healthcare sector. However, health data is highly sensitive and subject to regulations such as the General Data Protection Regulation (GDPR), which aims to ensure patient's privacy. Anonymization or removal of patient identifiable information, though the most conventional way, is the first important step to adhere to the regulations and incorporate privacy concerns. In this paper, we review the existing anonymization techniques and their applicability to various types (relational and graph-based) of health data. Besides, we provide an overview of possible attacks on anonymized data. We illustrate via a reconstruction attack that anonymization though necessary, is not sufficient to address patient privacy and discuss methods for protecting against such attacks. Finally, we discuss tools that can be used to achieve anonymization.
翻訳日:2021-04-16 01:34:44 公開日:2021-04-13
# (参考訳) Axial-GANを用いたサーマル・バイシブル・フェイスの同時幻覚と翻訳 [全文訳有]

Simultaneous Face Hallucination and Translation for Thermal to Visible Face Verification using Axial-GAN ( http://arxiv.org/abs/2104.06534v1 )

ライセンス: CC BY 4.0
Rakhil Immidisetti, Shuowen Hu, Vishal M. Patel(参考訳) 既存の熱可視性顔認証アプローチでは、熱可視性顔画像と可視性顔画像が同じ解像度であることが期待されている。 これは、人間がカメラから遠ざかっているため、現実世界の長距離監視システムではあり得ない。 この問題に対処するために,低分解能熱画像から視認性顔認証の課題を紹介する。 さらに,高分解能可視画像合成のための軸生成逆ネットワーク(axis-gan)を提案する。 提案手法では, 長距離依存をモデル化するトランスフォーマーの最近の進歩を活かし, 軸結合層によりganフレームワークを補強する。 提案手法の有効性を2つの異なる熱可視顔データセットを用いて評価する。 関連技術と比較すると,画像品質と顔認証性能の両面で有意な改善がみられ,効率も向上した。

Existing thermal-to-visible face verification approaches expect the thermal and visible face images to be of similar resolution. This is unlikely in real-world long-range surveillance systems, since humans are distant from the cameras. To address this issue, we introduce the task of thermal-to-visible face verification from low-resolution thermal images. Furthermore, we propose Axial-Generative Adversarial Network (Axial-GAN) to synthesize high-resolution visible images for matching. In the proposed approach we augment the GAN framework with axial-attention layers which leverage the recent advances in transformers for modelling long-range dependencies. We demonstrate the effectiveness of the proposed method by evaluating on two different thermal-visible face datasets. When compared to related state-of-the-art works, our results show significant improvements in both image quality and face verification performance, and are also much more efficient.
翻訳日:2021-04-16 01:10:03 公開日:2021-04-13
# (参考訳) ノルウェーにおける大規模文脈言語モデリング [全文訳有]

Large-Scale Contextualised Language Modelling for Norwegian ( http://arxiv.org/abs/2104.06546v1 )

ライセンス: CC BY 4.0
Andrey Kutuzov, Jeremy Barnes, Erik Velldal, Lilja {\O}vrelid, Stephan Oepen(参考訳) 我々は、ノルウェー(および原則として他の北欧言語)向けの非常に大きなコンテキスト化された言語モデルの作成と使用を支援する、現在進行中のnorlmイニシアチブと、データ準備とトレーニングのための経験レポートを提供する。 本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。 トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。 データ、モデル、ソフトウェアへのさらなるバックグラウンドとアクセスについては http://norlm.nlpl.eu を参照してください。

We present the ongoing NorLM initiative to support the creation and use of very large contextualised language models for Norwegian (and in principle other Nordic languages), including a ready-to-use software environment, as well as an experience report for data preparation and training. This paper introduces the first large-scale monolingual language models for Norwegian, based on both the ELMo and BERT frameworks. In addition to detailing the training process, we present contrastive benchmark results on a suite of NLP tasks for Norwegian. For additional background and access to the data, models, and software, please see http://norlm.nlpl.eu
翻訳日:2021-04-16 01:00:24 公開日:2021-04-13
# (参考訳) 意味ベクトル合成は明示されるべきか? 直線的か? [全文訳有]

Should Semantic Vector Composition be Explicit? Can it be Linear ( http://arxiv.org/abs/2104.06555v1 )

ライセンス: CC BY 4.0
Dominic Widdows, Kristen Howell, Trevor Cohen(参考訳) ベクトル表現は意味言語モデリングの中心的な要素となり、量子論を含む多くの分野と数学的に重なる。 例えば、'wet' と 'fish' の表現が与えられた場合、'wet fish' という概念はどのように表現されるべきなのか? このポジションペーパーは、この質問を2つの視点から調査する。 1つ目は、線型代数内のツールのみを用いて、明示的な数学的表現が成功するかどうか、あるいは他の数学的ツールが必要なのかという問題である。 後者は、意味ベクトル合成が数学的に明示的に記述されるべきか、あるいはニューラルネットワークのトレーニングのモデル-内部副作用であるかどうかを考察する。 本論文は,議論のモチベーションと調査を意図しており,提案する質問に対する明確な回答は主張していない。 これらの疑問は関連しており、暗黙の合成言語モデルで使われる非線形演算子は明示的な合成モデルに影響を与えうると推測する。

Vector representations have become a central element in semantic language modelling, leading to mathematical overlaps with many fields including quantum theory. Compositionality is a core goal for such representations: given representations for `wet' and `fish', how should the concept `wet fish' be represented? This position paper surveys this question from two points of view. The first considers the question of whether an explicit mathematical representation can be successful using only tools from within linear algebra, or whether other mathematical tools are needed. The second considers whether semantic vector composition should be explicitly described mathematically, or whether it can be a model-internal side-effect of training a neural network. This paper is intended as a survey and motivation for discussion, and does not claim to give definitive answers to the questions posed. We speculate that these questions are related, and that the nonlinear operators used in implicitly compositional language models may inform explicit compositional modelling.
翻訳日:2021-04-16 00:46:56 公開日:2021-04-13
# 正定値行列に対する学習ログ決定型発散

Learning Log-Determinant Divergences for Positive Definite Matrices ( http://arxiv.org/abs/2104.06461v1 )

ライセンス: Link先を確認
Anoop Cherian, Panagiotis Stanitsas, Jue Wang, Mehrtash Harandi, Vassilios Morellas, Nikolaos Papanikolopoulos(参考訳) 対称正定値行列(SPD)の形式による表現は、視覚データのリッチな2階統計をキャプチャする能力を示すため、様々な視覚学習アプリケーションで普及している。 SPD行列と文書化利益を比較するための類似性尺度はいくつか存在する。 しかしながら、与えられた問題に対する適切な尺度を選択することは依然として課題であり、多くの場合、試行錯誤のプロセスの結果である。 本稿では,データ駆動方式で類似度を学習することを提案する。 この目的のために我々は,これらのパラメータの独立値と離散値に対して,SPD行列上に広く普及した情報分散を仮定し,スカラとナベタによってパラメトリズドされるメタ分割である \alpha\beta-log-det divergence を利用する。 私たちのキーとなるアイデアは、これらのパラメータを連続体にキャストし、データからそれらを学ぶことです。 この概念を体系的に拡張してベクトル値パラメータを学習し、基礎となる非線形測度の表現性を高める。 我々は,教師付き判別辞書学習や教師なしspd行列クラスタリングなど,機械学習のいくつかの標準タスクで発散学習問題に結合する。 定式化を効率的に最適化するためのリーマン勾配降下スキームを提案し、8つの標準コンピュータビジョンタスクにおける本手法の有用性を示す。

Representations in the form of Symmetric Positive Definite (SPD) matrices have been popularized in a variety of visual learning applications due to their demonstrated ability to capture rich second-order statistics of visual data. There exist several similarity measures for comparing SPD matrices with documented benefits. However, selecting an appropriate measure for a given problem remains a challenge and in most cases, is the result of a trial-and-error process. In this paper, we propose to learn similarity measures in a data-driven manner. To this end, we capitalize on the \alpha\beta-log-det divergence, which is a meta-divergence parametrized by scalars \alpha and \beta, subsuming a wide family of popular information divergences on SPD matrices for distinct and discrete values of these parameters. Our key idea is to cast these parameters in a continuum and learn them from data. We systematically extend this idea to learn vector-valued parameters, thereby increasing the expressiveness of the underlying non-linear measure. We conjoin the divergence learning problem with several standard tasks in machine learning, including supervised discriminative dictionary learning and unsupervised SPD matrix clustering. We present Riemannian gradient descent schemes for optimizing our formulations efficiently, and show the usefulness of our method on eight standard computer vision tasks.
翻訳日:2021-04-15 13:32:14 公開日:2021-04-13
# 人物再同定のためのホロスティックガイダンス

Holistic Guidance for Occluded Person Re-Identification ( http://arxiv.org/abs/2104.06524v1 )

ライセンス: Link先を確認
Madhu Kiran, R Gnana Praveen, Le Thanh Nguyen-Meidine, Soufiane Belharbi, Louis-Antoine Blais-Morin, Eric Granger(参考訳) 実世界のビデオ監視アプリケーションでは、人物再識別(ReID)は閉塞や検出エラーの影響に悩まされる。 近年の進歩にもかかわらず、オクルージョンは最先端のcnnバックボーンで抽出された特徴を腐敗させ続け、reidシステムの精度を低下させる。 この問題に対処するために、文献の手法は、ポーズ推定のような追加のコストのかかるプロセスを使用し、ポーズマップは、排他的領域を除外するための監督を提供する。 対照的に,個人識別ラベルのみに依存する新しい包括的ガイダンス (hg) 手法を導入し,追加の監督を必要とせず,データ集合のペアワイズマッチング距離の分布により咬合問題の軽減を図る。 そこで,本論文では,本論文で提案する学生教育フレームワークを用いて,咬合標本のクラス間距離とクラス内距離(dcds)の分布を総括的(非咬合)試料の分布と整合させることで咬合問題に対処し,後者をソフトラベル付き参照としてよく分離されたdcdを学習する。 このアプローチは、画像間の相互およびクラス内距離の分布が、全体的データセットよりも排他的に重なるという経験的研究によって支持される。 特に、両方のデータセットから抽出された特徴を学生モデルを用いて共同で学習し、隠蔽された領域から可視領域を分離できる注意マップを作成する。 これに加えて、協調生成判別バックボーンをデノージングオートエンコーダで訓練し、システムはオクルージョンから自己回復することができる。 いくつかの難解な公開データセットに関する広範囲な実験は、提案手法がオクルードデータセットと全体データセットの両方で最先端の手法よりも優れていることを示している。

In real-world video surveillance applications, person re-identification (ReID) suffers from the effects of occlusions and detection errors. Despite recent advances, occlusions continue to corrupt the features extracted by state-of-art CNN backbones, and thereby deteriorate the accuracy of ReID systems. To address this issue, methods in the literature use an additional costly process such as pose estimation, where pose maps provide supervision to exclude occluded regions. In contrast, we introduce a novel Holistic Guidance (HG) method that relies only on person identity labels, and on the distribution of pairwise matching distances of datasets to alleviate the problem of occlusion, without requiring additional supervision. Hence, our proposed student-teacher framework is trained to address the occlusion problem by matching the distributions of between- and within-class distances (DCDs) of occluded samples with that of holistic (non-occluded) samples, thereby using the latter as a soft labeled reference to learn well separated DCDs. This approach is supported by our empirical study where the distribution of between- and within-class distances between images have more overlap in occluded than holistic datasets. In particular, features extracted from both datasets are jointly learned using the student model to produce an attention map that allows separating visible regions from occluded ones. In addition to this, a joint generative-discrimin ative backbone is trained with a denoising autoencoder, allowing the system to self-recover from occlusions. Extensive experiments on several challenging public datasets indicate that the proposed approach can outperform state-of-the-art methods on both occluded and holistic datasets
翻訳日:2021-04-15 13:31:49 公開日:2021-04-13
# BERT埋め込みは会話検索におけるコンテキストを追跡できる

BERT Embeddings Can Track Context in Conversational Search ( http://arxiv.org/abs/2104.06529v1 )

ライセンス: Link先を確認
Rafael Ferreira, David Semedo, Joao Magalhaes(参考訳) 情報検索における会話型アシスタントの利用は、一般大衆の間でますます人気が高まり、より高度な技術へと研究が進められている。 特にここ数年、会話型アシスタントの一般化だけでなく、会話型検索がシステムとのより自然なインタラクションを可能にするための一歩であることから、会話型検索への関心が高まっている。 本研究は,人々が自然な方法で情報検索を支援する対話型検索システムの構築を目的として,歴史的発話と組込みを通じて,会話のコンテキストを探索することに焦点を当てている。 特に、このシステムは、質問が提起されたコンテキストを理解し、会話の現在の状態を追跡し、前の質問や回答に対する言及を検出する必要がある。 我々は、ニューラルネットワークのクエリー書き換えモデルに基づくコンテキスト追跡コンポーネントを用いてこれを実現する。 システムのもう1つの重要な側面は、質問と会話の歴史に最も関係のある答えを提供することである。 この目的を達成するために、Transformerベースのリグレード手法を使用し、このアーキテクチャを拡張して会話コンテキストを用いた。 本システムを用いて得られた結果から,自然言語発話における文脈と,会話を通じて生成された神経内埋め込みを用いることの利点が示された。

The use of conversational assistants to search for information is becoming increasingly more popular among the general public, pushing the research towards more advanced and sophisticated techniques. In the last few years, in particular, the interest in conversational search is increasing, not only because of the generalization of conversational assistants but also because conversational search is a step forward in allowing a more natural interaction with the system. In this work, the focus is on exploring the context present of the conversation via the historical utterances and respective embeddings with the aim of developing a conversational search system that helps people search for information in a natural way. In particular, this system must be able to understand the context where the question is posed, tracking the current state of the conversation and detecting mentions to previous questions and answers. We achieve this by using a context-tracking component based on neural query-rewriting models. Another crucial aspect of the system is to provide the most relevant answers given the question and the conversational history. To achieve this objective, we used a Transformer-based re-ranking method and expanded this architecture to use the conversational context. The results obtained with the system developed showed the advantages of using the context present in the natural language utterances and in the neural embeddings generated throughout the conversation.
翻訳日:2021-04-15 13:29:42 公開日:2021-04-13
# TASAC: 連続制御のためのテンポラリなソフトアクタークリティカル

TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control ( http://arxiv.org/abs/2104.06521v1 )

ライセンス: Link先を確認
Haonan Yu, Wei Xu, Haichao Zhang(参考訳) そこで本研究では,sac(soft actor-critic)フレームワークにクローズドループの時間的抽象化を組み込んだ,オフポリシーrlアルゴリズムであるtasacを提案する。 TASACは、前のアクションとSACアクターが出力するアクションを選択するための2段階のバイナリポリシーを追加する。 従来のオフポリシーrlアルゴリズムと比較して、永続的探索とtd学習のための偏りのないマルチステップq演算子という2つの利点がある。 サンプル効率と最終性能の両方の観点から,14の連続制御タスクの5つのカテゴリにまたがる強固なベースラインに対して,そのアドバンテージを示す。 単純さと汎用性のため、TASACは時間的抽象化が必要なときにSACの代替となる。

We propose temporally abstract soft actor-critic (TASAC), an off-policy RL algorithm that incorporates closed-loop temporal abstraction into the soft actor-critic (SAC) framework in a simple manner. TASAC adds a second-stage binary policy to choose between the previous action and the action output by an SAC actor. It has two benefits compared to traditional off-policy RL algorithms: persistent exploration and an unbiased multi-step Q operator for TD learning. We demonstrate its advantages over several strong baselines across 5 different categories of 14 continuous control tasks, in terms of both sample efficiency and final performance. Because of its simplicity and generality, TASAC can serve as a drop-in replacement for SAC when temporal abstraction is needed.
翻訳日:2021-04-15 13:29:07 公開日:2021-04-13
# 区間的連続回帰関数推定のためのガウス過程モデル

Gaussian Process Model for Estimating Piecewise Continuous Regression Functions ( http://arxiv.org/abs/2104.06487v1 )

ライセンス: Link先を確認
Chiwoo Park(参考訳) 本稿では,数次連続回帰関数を推定するためのガウス過程(GP)モデルを提案する。 回帰分析の科学的および工学的応用において、データは異なるデータ領域に対する異なる連続回帰モデルに従い、領域間の不連続性を持つという、基礎となる回帰関数は区分的に連続する。 しかし、従来のgp回帰手法の多くは、区分回帰分析のために設計されていない。 本稿では,未知の連続回帰関数を推定するためのGPモデリング手法を提案する。 新しいGPモデルは、テスト位置に近いローカルデータを用いて、各テスト位置における未知回帰関数の局所GP推定を求める。 異なる領域からの局所データの可能性に対応するために、局所データを局所線形境界によって2つの辺に分割し、回帰推定にテスト位置と同じ側に属する局所データのみを使用する。 この局所分割は、入力領域が滑らかな境界で区切られたときに非常によく機能するので、滑らかな境界の局所線形近似はうまく機能する。 gpモデルの他のハイパーパラメータと協調して局所線形境界を最大帰納法を用いて推定する。 その計算時間はローカルgpの時間と同じくらい低い。 提案手法の従来のGPモデリング手法よりも優れた数値計算性能を, 様々な擬似部分回帰関数を用いて示す。

This paper presents a Gaussian process (GP) model for estimating piecewise continuous regression functions. In scientific and engineering applications of regression analysis, the underlying regression functions are piecewise continuous in that data follow different continuous regression models for different regions of the data with possible discontinuities between the regions. However, many conventional GP regression approaches are not designed for piecewise regression analysis. We propose a new GP modeling approach for estimating an unknown piecewise continuous regression function. The new GP model seeks for a local GP estimate of an unknown regression function at each test location, using local data neighboring to the test location. To accommodate the possibilities of the local data from different regions, the local data is partitioned into two sides by a local linear boundary, and only the local data belonging to the same side as the test location is used for the regression estimate. This local split works very well when the input regions are bounded by smooth boundaries, so the local linear approximation of the smooth boundaries works well. We estimate the local linear boundary jointly with the other hyperparameters of the GP model, using the maximum likelihood approach. Its computation time is as low as the local GP's time. The superior numerical performance of the proposed approach over the conventional GP modeling approaches is shown using various simulated piecewise regression functions.
翻訳日:2021-04-15 13:27:20 公開日:2021-04-13
# 低ランク多様体正規化を用いた弱教師付き回帰問題の解法

Solving weakly supervised regression problem using low-rank manifold regularization ( http://arxiv.org/abs/2104.06548v1 )

ライセンス: Link先を確認
Vladimir Berikov and Alexander Litvinenko(参考訳) 我々は弱い教師付き回帰問題を解く。 weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。 解法は、多様体正則化と低ランク行列分解技術を組み合わせた特定の目的関数(損失関数)を最適化する必要がある。 これらの低ランク近似により、すべての行列計算を高速化し、ストレージ要求を低減できる。 これは大規模なデータセットにとって特に重要です。 アサンブルクラスタリングは、類似性マトリクスと見なされる共結合マトリクスを得るために用いられる。 これらの技術を利用することで、ソリューションの品質と安定性を高めることができます。 本研究では,モンテカルロモデルを用いて提案手法を人工および実データに適用した。

We solve a weakly supervised regression problem. Under "weakly" we understand that for some training points the labels are known, for some unknown, and for others uncertain due to the presence of random noise or other reasons such as lack of resources. The solution process requires to optimize a certain objective function (the loss function), which combines manifold regularization and low-rank matrix decomposition techniques. These low-rank approximations allow us to speed up all matrix calculations and reduce storage requirements. This is especially crucial for large datasets. Ensemble clustering is used for obtaining the co-association matrix, which we consider as the similarity matrix. The utilization of these techniques allows us to increase the quality and stability of the solution. In the numerical section, we applied the suggested method to artificial and real datasets using Monte-Carlo modeling.
翻訳日:2021-04-15 13:27:03 公開日:2021-04-13
# クロスドメイン対応による画像生成

Few-shot Image Generation via Cross-domain Correspondence ( http://arxiv.org/abs/2104.06820v1 )

ライセンス: Link先を確認
Utkarsh Ojha, Yijun Li, Jingwan Lu, Alexei A. Efros, Yong Jae Lee, Eli Shechtman, Richard Zhang(参考訳) 限られた例(例えば10)を含むターゲットドメイン上のgansのような生成モデルのトレーニングは、容易に過剰フィッティングを生じさせる。 本研究では,多様性情報の事前学習と伝達に大規模なソース・ドメインを活用することを目的とする。 本稿では,新しいクロスドメイン距離一貫性損失により,ソース内のインスタンス間の相対的類似性と差異を保存することを提案する。 さらに,オーバーフィッティングを減らすために,潜在空間内の異なる領域に対して異なるレベルのリアリズムを奨励するアンカーベースの戦略を提案する。 フォトリアリスティックな領域と非フォトリアリスティックな領域の両方で広範な結果を得た結果、我々の少数ショットモデルがソースドメインとターゲットドメインの対応を自動的に発見し、従来の手法よりも多彩でリアルな画像を生成することを示す。

Training generative models, such as GANs, on a target domain containing limited examples (e.g., 10) can easily result in overfitting. In this work, we seek to utilize a large source domain for pretraining and transfer the diversity information from source to target. We propose to preserve the relative similarities and differences between instances in the source via a novel cross-domain distance consistency loss. To further reduce overfitting, we present an anchor-based strategy to encourage different levels of realism over different regions in the latent space. With extensive results in both photorealistic and non-photorealistic domains, we demonstrate qualitatively and quantitatively that our few-shot model automatically discovers correspondences between source and target domains and generates more diverse and realistic images than previous methods.
翻訳日:2021-04-15 13:25:49 公開日:2021-04-13
# SemEval-2021 Task 2: ReLU over Cosine similarity for BERT Fine-tuning (英語)

Zhestyatsky at SemEval-2021 Task 2: ReLU over Cosine Similarity for BERT Fine-tuning ( http://arxiv.org/abs/2104.06439v1 )

ライセンス: Link先を確認
Boris Zhestiankin and Maria Ponomareva(参考訳) 本稿では,SemEval-2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) への貢献について述べる。 実験は、タスクの多言語設定から英語(en-en)サブトラックをカバーする。 事前学習した言語モデルをいくつか実験し,様々なトップ層が微調整に与える影響について検討した。 Cosine similarity と ReLU の活性化の組み合わせにより、最も効果的な微調整手順が導かれる。 我々の最良のモデルは精度92.7%であり、EN-ENサブトラックでは4番目に高いスコアである。

This paper presents our contribution to SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation (MCL-WiC). Our experiments cover English (EN-EN) sub-track from the multilingual setting of the task. We experiment with several pre-trained language models and investigate an impact of different top-layers on fine-tuning. We find the combination of Cosine Similarity and ReLU activation leading to the most effective fine-tuning procedure. Our best model results in accuracy 92.7%, which is the fourth-best score in EN-EN sub-track.
翻訳日:2021-04-15 13:25:08 公開日:2021-04-13
# 変圧器はバグテストに合格できるか? 神経形態変化モデルにおけるチューニングコピーバイアス

Can a Transformer Pass the Wug Test? Tuning Copying Bias in Neural Morphological Inflection Models ( http://arxiv.org/abs/2104.06483v1 )

ライセンス: Link先を確認
Ling Liu and Mans Hulden(参考訳) 深層学習系列モデルは形態素変換のタスクにうまく適用されている。 過去数年間のSIGMORPHON共有タスクの結果は、そのようなモデルが良好に動作可能であることを示しているが、トレーニングデータが大量の異なるレマタをカバーしている場合、あるいはテスト時に入力されたレマタもトレーニング中に見られる場合のみ、これらのタスクは実際はそうである。 驚くべきことに、Transformerのような標準モデルは、これまで目に見えないレマタ、すなわち、インフレクションパターンを一般化するのにほとんど失敗している。 ウーグテスト」のような状況下で。 この欠点を解消するために,手話中のアルファベットを用いた合成新語形式を幻覚することで,この欠点を軽減するために確立されたデータ拡張手法を用いることができるが,より効果的にするためには,幻覚過程が個々の文字や幹ではなく音節的な長さのサブストリングに注意を払う必要があることを示す。 トレーニングデータとテストデータがレマタに重複しない場合, 従来のデータ幻覚法と比較して, サブストリングベースの幻覚モデルによる顕著な性能向上を報告した。

Deep learning sequence models have been successfully applied to the task of morphological inflection. The results of the SIGMORPHON shared tasks in the past several years indicate that such models can perform well, but only if the training data cover a good amount of different lemmata, or if the lemmata that are inflected at test time have also been seen in training, as has indeed been largely the case in these tasks. Surprisingly, standard models such as the Transformer almost completely fail at generalizing inflection patterns when asked to inflect previously unseen lemmata -- i.e. under "wug test"-like circumstances. While established data augmentation techniques can be employed to alleviate this shortcoming by introducing a copying bias through hallucinating synthetic new word forms using the alphabet in the language at hand, we show that, to be more effective, the hallucination process needs to pay attention to substrings of syllable-like length rather than individual characters or stems. We report a significant performance improvement with our substring-based hallucination model over previous data hallucination methods when training and test data do not overlap in their lemmata.
翻訳日:2021-04-15 13:24:58 公開日:2021-04-13
# 「私はマッドではない」:否定と反トラディションの常識的意味

"I'm Not Mad": Commonsense Implications of Negation and Contradiction ( http://arxiv.org/abs/2104.06511v1 )

ライセンス: Link先を確認
Liwei Jiang, Antoine Bosselut, Chandra Bhagavatula, Yejin Choi(参考訳) 自然言語推論は、矛盾、否定、およびそれらの共通意味に関する推論を必要とする。 単純な前提("i'm mad at you" など)を考えると、人間は、直観的な否定("i'm not mad at you")から常識的な矛盾("i'm happy")まで、矛盾する言明のさまざまな色合いを推論することができる。 さらに、これらの否定的あるいは矛盾的な言明は、元の前提の常識的含意を非自明な方法でシフトさせる。 例えば、"I'm mad"は"I'm unhappy about something"を意味するが、前提(すなわち"I'm mad")を否定することは必ずしも対応する常識的含意を否定するわけではない。 本稿では,否定文と矛盾文の常識的含意に着目した最初の総合的な研究を行う。 我々は624Kのif-thenルールを持つ新しいコモンセンス知識グラフであるANION1を紹介する。 次に,この新しい資源について,論理的な否定と常識的矛盾が,それらの前提における常識的意味を再形成する新しい経験的洞察を提供する。

Natural language inference requires reasoning about contradictions, negations, and their commonsense implications. Given a simple premise (e.g., "I'm mad at you"), humans can reason about the varying shades of contradictory statements ranging from straightforward negations ("I'm not mad at you") to commonsense contradictions ("I'm happy"). Moreover, these negated or contradictory statements shift the commonsense implications of the original premise in nontrivial ways. For example, while "I'm mad" implies "I'm unhappy about something," negating the premise (i.e., "I'm not mad") does not necessarily negate the corresponding commonsense implications. In this paper, we present the first comprehensive study focusing on commonsense implications of negated statements and contradictions. We introduce ANION1, a new commonsense knowledge graph with 624K if-then rules focusing on negated and contradictory events. We then present joint generative and discriminative inference models for this new resource, providing novel empirical insights on how logical negations and commonsense contradictions reshape the commonsense implications of their original premises.
翻訳日:2021-04-15 13:24:39 公開日:2021-04-13
# 問題を大胆に解くことから、ゴルディアノットを切ることへ:慣用的なテキスト生成

From Solving a Problem Boldly to Cutting the Gordian Knot: Idiomatic Text Generation ( http://arxiv.org/abs/2104.06541v1 )

ライセンス: Link先を確認
Jianing Zhou, Hongyu Gong, Suma Bhat(参考訳) 文中のリテラルをその慣用句に転送することを目的とした,新しいテキスト生成アプリケーションである慣用文生成について検討する。 本研究は,自国語における慣用句の使用に関する心理言語学的な理論に着想を得て,与えられた文の適切な慣用句を検索し,その句に置き換える文のスパンを抽出し,検索された慣用句と残りの文を結合するニューラルモデルを用いて慣用文を生成する新しい手法を提案する。 このタスクのために作成された新しいデータセットの実験は、我々のモデルがリテラル文を慣用句に効果的に転送できることを示している。 さらに, 自動評価と人間評価により, 提案手法がテキスト生成のための一連の競合ベースラインモデルよりも優れていることを示す。

We study a new application for text generation -- idiomatic sentence generation -- which aims to transfer literal phrases in sentences into their idiomatic counterparts. Inspired by psycholinguistic theories of idiom use in one's native language, we propose a novel approach for this task, which retrieves the appropriate idiom for a given literal sentence, extracts the span of the sentence to be replaced by the idiom, and generates the idiomatic sentence by using a neural model to combine the retrieved idiom and the remainder of the sentence. Experiments on a novel dataset created for this task show that our model is able to effectively transfer literal sentences into idiomatic ones. Furthermore, automatic and human evaluations show that for this task, the proposed model outperforms a series of competitive baseline models for text generation.
翻訳日:2021-04-15 13:24:18 公開日:2021-04-13
# 単一画像奥行き推定:概要

Single Image Depth Estimation: An Overview ( http://arxiv.org/abs/2104.06456v1 )

ライセンス: Link先を確認
Alican Mertan, Damien Jade Duff and Gozde Unal(参考訳) 我々は、シーン理解において最も重要なサブタスクである深度推定の問題に対する解決策をレビューする。 単一の画像深度推定問題に焦点をあてる。 その性質上、単一の画像深度推定問題は、畳み込みニューラルネットワークにおいて最も成功した機械学習手法で現在最もよく取り組まれている。 キーワークを調べることにより,この分野の概要を述べる。 本研究では,主に深層学習を前提とした非深層学習手法と,主に深層学習技術を用いた最近の研究について検討する。 単一の画像深度推定問題は、人またはセンサラベルデータから取得された絶対的または相対的深度情報や、未ラベルのステレオ画像やビデオデータセットを用いて教師なしの方法で最初に取り組まれる。 また,深度推定問題とセマンティックセグメンテーションや表面正規推定といった関連するタスクを組み合わせたマルチタスク手法についても検討した。 最後に,現代ソリューションのメカニズム,原則,障害事例について考察する。

We review solutions to the problem of depth estimation, arguably the most important subtask in scene understanding. We focus on the single image depth estimation problem. Due to its properties, the single image depth estimation problem is currently best tackled with machine learning methods, most successfully with convolutional neural networks. We provide an overview of the field by examining key works. We examine non-deep learning approaches that mostly predate deep learning and utilize hand-crafted features and assumptions, and more recent works that mostly use deep learning techniques. The single image depth estimation problem is tackled first in a supervised fashion with absolute or relative depth information acquired from human or sensor-labeled data, or in an unsupervised way using unlabelled stereo images or video datasets. We also study multitask approaches that combine the depth estimation problem with related tasks such as semantic segmentation and surface normal estimation. Finally, we discuss investigations into the mechanisms, principles, and failure cases of contemporary solutions.
翻訳日:2021-04-15 13:21:52 公開日:2021-04-13
# 効率的なドメイン転送によるオブジェクト検出のためのインクリメンタルマルチターゲットドメイン適応

Incremental Multi-Target Domain Adaptation for Object Detection with Efficient Domain Transfer ( http://arxiv.org/abs/2104.06476v1 )

ライセンス: Link先を確認
Le Thanh Nguyen-Meidine, Madhu Kiran, Marco Pedersoli, Jose Dolz, Louis-Antoine Blais-Morin, Eric Granger(参考訳) マルチターゲットドメイン適応(MTDA)技術は、複数のターゲットドメインにまたがって適切に一般化できるように、認識モデルを適応させようとする。 オブジェクト検出における教師なし単一ターゲット領域適応(STDA)にいくつかの手法が提案されているが、ラベルなし画像データを用いて複数のターゲット領域にモデルを適応させることは困難であり、探索されていない問題である。 主な課題は、ターゲットデータのためのバウンディングボックスアノテーションの欠如、知識の腐敗、正確な深部検出モデルのトレーニングに必要なリソース要件の増加である。 後続の要件は、各新しいターゲットドメインに適応する際に、事前学習したターゲットデータでモデルを再トレーニングする必要性によって強化される。 現在、オブジェクト検出のための文献における唯一のMTDA技術は、知識腐敗を避けるために重複モデルによる蒸留に依存しているが、UDA後のソースターゲット特徴アライメントは利用していない。 これらの課題に対処するために,従来学習されていた対象ドメインのデータを保持することなく,複数の対象ドメインに一度に検出器を適用可能なオブジェクト検出のためのインクリメンタルMTDA手法を提案する。 本手法は, 蒸留を代えて, ターゲット領域の空間に効率よく画像の転送を行い, MTDA中の知識の保存を行う。 ドメイン転送モジュール(DTM)は、ドメイン分類器を最適化して、ターゲットドメインに転送されたかのようにソースイメージを分類し、ターゲットドメインの結合分布に近いサンプルを生成する。 提案手法をMTDA検出ベンチマークで検証した結果,複雑性が著しく低下しているにもかかわらず,複数の領域にわたる精度の向上が得られた。

Techniques for multi-target domain adaptation (MTDA) seek to adapt a recognition model such that it can generalize well across multiple target domains. While several successful techniques have been proposed for unsupervised single-target domain adaptation (STDA) in object detection, adapting a model to multiple target domains using unlabeled image data remains a challenging and largely unexplored problem. Key challenges include the lack of bounding box annotations for target data, knowledge corruption, and the growing resource requirements needed to train accurate deep detection models. The later requirements are augmented by the need to retraining a model with previous-learned target data when adapting to each new target domain. Currently, the only MTDA technique in literature for object detection relies on distillation with a duplicated model to avoid knowledge corruption but does not leverage the source-target feature alignment after UDA. To address these challenges, we propose a new Incremental MTDA technique for object detection that can adapt a detector to multiple target domains, one at a time, without having to retain data of previously-learned target domains. Instead of distillation, our technique efficiently transfers source images to a joint target domains' space, on the fly, thereby preserving knowledge during incremental MTDA. Using adversarial training, our Domain Transfer Module (DTM) is optimized to trick the domain classifiers into classifying source images as though transferred into the target domain, thus allowing the DTM to generate samples close to a joint distribution of target domains. Our proposed technique is validated on different MTDA detection benchmarks, and results show it improving accuracy across multiple domains, despite the considerable reduction in complexity.
翻訳日:2021-04-15 13:21:35 公開日:2021-04-13
# datasetgan: 最小限の労力で効率的なラベル付きデータファクトリ

DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort ( http://arxiv.org/abs/2104.06490v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Huan Ling, Jun Gao, Kangxue Yin, Jean-Francois Lafleche, Adela Barriuso, Antonio Torralba, Sanja Fidler(参考訳) 人間の努力を最小限に抑えた高品質なセマンティックな画像の大量のデータセットを生成するための自動処理であるDatasetGANを紹介する。 現在のディープネットワークは非常にデータ量が多く、注釈に時間を費やす大規模なデータセットでのトレーニングの恩恵を受けている。 本手法は,最近のganのパワーを利用して現実的な画像を生成する。 画像のセグメンテーションを生成するために、ganの潜在コードがどのようにデコードできるかを示す。 デコーダのトレーニングには、潜在空間の残りの部分に一般化するためにラベル付きの例がいくつか必要なだけである。 これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用することができる。 手動でセグメンテーションする必要があるため、極端に詳細な画像に注釈を付け、リッチなオブジェクトと部分セグメンテーションでデータセットを生成することができる。 提案手法のパワーを示すために,34個の顔部品と32個の車部品の画素レベルラベルを含む7つの画像分割タスクのデータセットを生成した。 提案手法は,全半教師付きベースラインを著しく上回り,全教師付きメソッドと同等であり,100倍以上の注釈付きデータを必要とする場合もある。

We introduce DatasetGAN: an automatic procedure to generate massive datasets of high-quality semantically segmented images requiring minimal human effort. Current deep networks are extremely data-hungry, benefiting from training on large-scale datasets, which are time consuming to annotate. Our method relies on the power of recent GANs to generate realistic images. We show how the GAN latent code can be decoded to produce a semantic segmentation of the image. Training the decoder only needs a few labeled examples to generalize to the rest of the latent space, resulting in an infinite annotated dataset generator! These generated datasets can then be used for training any computer vision architecture just as real datasets are. As only a few images need to be manually segmented, it becomes possible to annotate images in extreme detail and generate datasets with rich object and part segmentations. To showcase the power of our approach, we generated datasets for 7 image segmentation tasks which include pixel-level labels for 34 human face parts, and 32 car parts. Our approach outperforms all semi-supervised baselines significantly and is on par with fully supervised methods, which in some cases require as much as 100x more annotated data as our method.
翻訳日:2021-04-15 13:21:05 公開日:2021-04-13
# 限られた選択肢をナビゲートするための会話レコメンデーションシステムの開発

Developing a Conversational Recommendation System for Navigating Limited Options ( http://arxiv.org/abs/2104.06552v1 )

ライセンス: Link先を確認
Victor S. Bursztyn (1), Jennifer Healey (2), Eunyee Koh (2), Nedim Lipka (2), Larry Birnbaum (1) ((1) Northwestern University, (2) Adobe)(参考訳) 我々は,ユーザが最適な選択肢を見つけるために,限られた選択肢をナビゲートするための会話推薦システムを開発した。 特定の検索語を用いて数千からランク付けされたオプションのリストを返す多くのインターネットスケールシステムとは異なり、本システムはユーザの好みを深く理解するためにマルチターンユーザーダイアログを使用する。 システムはユーザ固有のコンテキストと即時フィードバックに応答し、シーケンシャルなレコメンデーションを行う。 本システムは,歩行距離内の適切なレストランや限られた在庫内で適切な小売商品を見つけるといった,本質的な制約のある状況において,非常に有用であると考えられる。 我々の研究プロトタイプは、Google Places、Yelp、Zomatoの実際のデータを活用することで、以前のユースケースをインスタンス化する。 我々は16人の遠隔研究にユーザフィードバックを組み込まなかった類似システムに対してシステム評価を行い,64回のシナリオベース検索を行った。 推薦システムが正常に起動すると、最終的なユーザ選択に対する効率性と高い信頼度の両方が向上することがわかった。 また,利用者はベースラインと比較してシステム(75%)を好んだ。

We have developed a conversational recommendation system designed to help users navigate through a set of limited options to find the best choice. Unlike many internet scale systems that use a singular set of search terms and return a ranked list of options from amongst thousands, our system uses multi-turn user dialog to deeply understand the users preferences. The system responds in context to the users specific and immediate feedback to make sequential recommendations. We envision our system would be highly useful in situations with intrinsic constraints, such as finding the right restaurant within walking distance or the right retail item within a limited inventory. Our research prototype instantiates the former use case, leveraging real data from Google Places, Yelp, and Zomato. We evaluated our system against a similar system that did not incorporate user feedback in a 16 person remote study, generating 64 scenario-based search journeys. When our recommendation system was successfully triggered, we saw both an increase in efficiency and a higher confidence rating with respect to final user choice. We also found that users preferred our system (75%) compared with the baseline.
翻訳日:2021-04-15 13:13:13 公開日:2021-04-13
# エンドツーエンド音声翻訳のためのソースおよびターゲット双方向知識蒸留

Source and Target Bidirectional Knowledge Distillation for End-to-end Speech Translation ( http://arxiv.org/abs/2104.06457v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Tatsuya Kawahara, Shinji Watanabe(参考訳) e2e-st(end-to-end speech translation)モデルの性能向上のための従来のアプローチは、自動音声認識(asr)とニューラルマシン翻訳(neural machine translation:nmt)タスクによる事前学習と合同トレーニングを通じて、ソース転写を活用することである。 しかし、入力モダリティが異なるため、ソースコードのテキストをうまく活用することは困難である。 本研究では,外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。 ソース言語情報の潜在能力を最大限に活用するために,ターゲットからソースへのNMTモデルから逆方向のSeqKD,SeqKDを提案する。 この目的のために,2言語E2E-STモデルを訓練し,1つのデコーダを用いてパラフレーズ転写を補助的タスクとして予測する。 パラフレーズはバックトランスレーションを通じてバイテキストの翻訳から生成される。 さらに,前向きNMTモデルと後向きNMTモデルの両方からSeqKDを組み合わせた双方向SeqKDを提案する。 自己回帰モデルと非自己回帰モデルの両方で実験的に評価したところ、各方向のSeqKDは翻訳性能を一貫して改善し、モデル容量に関係なく相補的であることがわかった。

A conventional approach to improving the performance of end-to-end speech translation (E2E-ST) models is to leverage the source transcription via pre-training and joint training with automatic speech recognition (ASR) and neural machine translation (NMT) tasks. However, since the input modalities are different, it is difficult to leverage source language text successfully. In this work, we focus on sequence-level knowledge distillation (SeqKD) from external text-based NMT models. To leverage the full potential of the source language information, we propose backward SeqKD, SeqKD from a target-to-source backward NMT model. To this end, we train a bilingual E2E-ST model to predict paraphrased transcriptions as an auxiliary task with a single decoder. The paraphrases are generated from the translations in bitext via back-translation. We further propose bidirectional SeqKD in which SeqKD from both forward and backward NMT models is combined. Experimental evaluations on both autoregressive and non-autoregressive models show that SeqKD in each direction consistently improves the translation performance, and the effectiveness is complementary regardless of the model capacity.
翻訳日:2021-04-15 13:09:55 公開日:2021-04-13
# ViT-V-Net: Unsupervised Volumetric Medical Image Registration 用視覚変換器

ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image Registration ( http://arxiv.org/abs/2104.06468v1 )

ライセンス: Link先を確認
Junyu Chen, Yufan He, Eric C. Frey, Ye Li, Yong Du(参考訳) 過去10年間で、畳み込みニューラルネットワーク(ConvNets)は、さまざまな医療画像アプリケーションにおいて最先端のパフォーマンスを支配し、達成してきた。 しかし、画像内の長距離空間関係の理解が欠如しているため、ConvNetsの性能は依然として制限されている。 最近提案された画像分類用視覚変換器(ViT)は、画像の関連部分に焦点を合わせるために長距離空間関係を学習する、純粋に自己注意に基づくモデルを用いている。 それでもvitは、連続的なダウンサンプリングによる低解像度の特徴を強調し、詳細なローカライズ情報の欠如により、画像登録に適さないとしている。 近年,複数のViTベースの画像分割手法がConvNetsと組み合わされ,詳細な位置情報の回復が図られている。 それらにインスパイアされたViT-V-Netは、VTとConvNetを橋渡し、ボリューム医療画像の登録を提供する。 提案するアーキテクチャは,いくつかのトップパフォーマンス登録手法よりも優れた性能を実現できることを示す。

In the last decade, convolutional neural networks (ConvNets) have dominated and achieved state-of-the-art performances in a variety of medical imaging applications. However, the performances of ConvNets are still limited by lacking the understanding of long-range spatial relations in an image. The recently proposed Vision Transformer (ViT) for image classification uses a purely self-attention-based model that learns long-range spatial relations to focus on the relevant parts of an image. Nevertheless, ViT emphasizes the low-resolution features because of the consecutive downsamplings, result in a lack of detailed localization information, making it unsuitable for image registration. Recently, several ViT-based image segmentation methods have been combined with ConvNets to improve the recovery of detailed localization information. Inspired by them, we present ViT-V-Net, which bridges ViT and ConvNet to provide volumetric medical image registration. The experimental results presented here demonstrate that the proposed architecture achieves superior performance to several top-performing registration methods.
翻訳日:2021-04-15 13:08:47 公開日:2021-04-13
# 隣接感度を用いた摂動データによる細胞動態の推定

Inference of cell dynamics on perturbation data using adjoint sensitivity ( http://arxiv.org/abs/2104.06467v1 )

ライセンス: Link先を確認
Weiqi Ji, Bo Yuan, Ciyue Shen, Aviv Regev, Chris Sander, Sili Deng(参考訳) データ駆動型細胞生物学のダイナミックモデルを用いて、目に見えない摂動に対する細胞の反応を予測することができる。 最近の研究(CellBox)は、パラメータを機械学習技術を用いて最適化した明示的な相互作用項を持つ解釈可能なモデルの導出を実証した。 前回の研究は単一の生物学的環境でのみ行われたが、本研究は、このモデル推論アプローチの適用範囲を生物学的システムの多様性に拡張することを目的としている。 ここでは、julia微分プログラミングにcellboxを適用し、最近、ニューラルodeの文脈で使われている随伴アルゴリズムでメソッドを拡張した。 抽象的ネットワークと生物学的ネットワークの両方から得られたシミュレーションデータを用いてモデルを訓練し,地上真理ネットワーク構造の復元性を評価することができた。 これらのモデルによる予測精度は、データに対する低誤差と、シミュレーショントレーニングデータに使用されるネットワーク構造との整合性の両方において高い。 実生活の生物学的システムには類似した基礎的真理は存在しないが、この研究は予測能力の高いネットワークモデルの構築とパラメータ化の能力を示している。 この種の手順は、様々な生物学的システムに適用可能なモデルを導出するために、実際の摂動応答データに使用できると期待されている。

Data-driven dynamic models of cell biology can be used to predict cell response to unseen perturbations. Recent work (CellBox) had demonstrated the derivation of interpretable models with explicit interaction terms, in which the parameters were optimized using machine learning techniques. While the previous work was tested only in a single biological setting, this work aims to extend the range of applicability of this model inference approach to a diversity of biological systems. Here we adapted CellBox in Julia differential programming and augmented the method with adjoint algorithms, which has recently been used in the context of neural ODEs. We trained the models using simulated data from both abstract and biology-inspired networks, which afford the ability to evaluate the recovery of the ground truth network structure. The resulting accuracy of prediction by these models is high both in terms of low error against data and excellent agreement with the network structure used for the simulated training data. While there is no analogous ground truth for real life biological systems, this work demonstrates the ability to construct and parameterize a considerable diversity of network models with high predictive ability. The expectation is that this kind of procedure can be used on real perturbation-respons e data to derive models applicable to diverse biological systems.
翻訳日:2021-04-15 13:06:29 公開日:2021-04-13
# (参考訳) 事前学習型言語モデルの談話探索 [全文訳有]

Discourse Probing of Pretrained Language Models ( http://arxiv.org/abs/2104.05882v1 )

ライセンス: CC BY 4.0
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) 事前訓練された言語モデル(LM)の探索に関する既存の研究は、主に文レベルの構文タスクに焦点を当てている。 本稿では,事前学習したLMが文書レベルの関係を捉える能力を評価するために,文書レベルの談話分析を導入する。 事前訓練された7つのLM、4つの言語、7つの言論探索タスクを実験し、BARTが言論を捉えるのに最適なモデルであることを発見した。 異なるモデル全体では、層が談話情報を取り込むのに最も適しており、モデル間の大きな格差がある。

Existing work on probing of pretrained language models (LMs) has predominantly focused on sentence-level syntactic tasks. In this paper, we introduce document-level discourse probing to evaluate the ability of pretrained LMs to capture document-level relations. We experiment with 7 pretrained LMs, 4 languages, and 7 discourse probing tasks, and find BART to be overall the best model at capturing discourse -- but only in its encoder, with BERT performing surprisingly well as the baseline model. Across the different models, there are substantial differences in which layers best capture discourse information, and large disparities between models.
翻訳日:2021-04-15 00:54:10 公開日:2021-04-13
# (参考訳) ビーム線量検索による非構造化テキスト上のマルチステップ推論 [全文訳有]

Multi-Step Reasoning Over Unstructured Text with Beam Dense Retrieval ( http://arxiv.org/abs/2104.05883v1 )

ライセンス: CC BY 4.0
Chen Zhao, Chenyan Xiong, Jordan Boyd-Graber, Hal Daum\'e III(参考訳) 複雑な質問に答えるには、しばしば複数の証拠からなる推論連鎖を見つける必要がある。 現在のアプローチでは、テキストコーパスが半構造化されていると仮定して、構造化知識と非構造化テキストの強みを取り入れている。 本研究では,高密度検索手法に基づいて,高密度表現におけるビーム探索によるエビデンス連鎖を反復的に形成する新しい多段階検索手法(BeamDR)を提案する。 マルチホップ質問応答の評価において、ビームDRは半構造化情報を用いずに最先端システムと競合する。 密空間における問合せ合成により、ビームDRは推論連鎖における証拠間の暗黙の関係を捉える。 コードはhttps://github.com/h enryzhao5852/BeamDRで入手できる。

Complex question answering often requires finding a reasoning chain that consists of multiple evidence pieces. Current approaches incorporate the strengths of structured knowledge and unstructured text, assuming text corpora is semi-structured. Building on dense retrieval methods, we propose a new multi-step retrieval approach (BeamDR) that iteratively forms an evidence chain through beam search in dense representations. When evaluated on multi-hop question answering, BeamDR is competitive to state-of-the-art systems, without using any semi-structured information. Through query composition in dense space, BeamDR captures the implicit relationships between evidence in the reasoning chain. The code is available at https://github.com/ henryzhao5852/BeamDR .
翻訳日:2021-04-15 00:31:01 公開日:2021-04-13
# (参考訳) SRR-Net:高分解能MRイメージングのための超解像関連再構成法 [全文訳有]

SRR-Net: A Super-Resolution-Inv olved Reconstruction Method for High Resolution MR Imaging ( http://arxiv.org/abs/2104.05901v1 )

ライセンス: CC BY 4.0
Wenqi Huang, Sen Jia, Ziwen Ke, Zhuo-Xu Cui, Jing Cheng, Yanjie Zhu and Dong Liang(参考訳) 磁気共鳴画像(MRI)の高分解能化と取得速度の向上は難しい問題である。 スピードレゾリューションのトレードオフには,(1)$k$-spaceアンダーサンプリングと(2)低解像度画像再構成と画像超解像のパイプラインの2つの戦略がある。 しかしながら、これらのアプローチは特定の高い加速係数で性能が限られているか、2段階構造のエラー蓄積に苦しむ。 本稿では,MR再構成と画像超解像のアイデアを組み合わせるとともに,低解像度の$k$-spaceデータからHR画像を直接復元する。 特に、SRを含む再構成は変分問題として定式化することができ、その解法から学習可能なネットワークを提案する。 精細化性能を高めるために識別器を導入した。 In-vivo HR Multi-coil brain data を用いて実験した結果,提案したSRR-Net は視覚的品質と知覚的品質の両方で高解像度脳画像の復元が可能であることが示唆された。

Improving the image resolution and acquisition speed of magnetic resonance imaging (MRI) is a challenging problem. There are mainly two strategies dealing with the speed-resolution trade-off: (1) $k$-space undersampling with high-resolution acquisition, and (2) a pipeline of lower resolution image reconstruction and image super-resolution. However, these approaches either have limited performance at certain high acceleration factor or suffer from the error accumulation of two-step structure. In this paper, we combine the idea of MR reconstruction and image super-resolution, and work on recovering HR images from low-resolution under-sampled $k$-space data directly. Particularly, the SR-involved reconstruction can be formulated as a variational problem, and a learnable network unrolled from its solution algorithm is proposed. A discriminator was introduced to enhance the detail refining performance. Experiment results using in-vivo HR multi-coil brain data indicate that the proposed SRR-Net is capable of recovering high-resolution brain images with both good visual quality and perceptual quality.
翻訳日:2021-04-15 00:22:04 公開日:2021-04-13
# (参考訳) MCMCによるベイズ自動エンコーダの再検討 [全文訳有]

Revisiting Bayesian Autoencoders with MCMC ( http://arxiv.org/abs/2104.05915v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Mahir Jain, Manavendra Maharana, Pavel N. Krivitsky(参考訳) 自動エンコーダーは、データを圧縮して次元を縮小する能力から、ディープラーニング革命で人気を博した。 オートエンコーダの強化には顕著なディープラーニング手法が用いられているが、堅牢な不確実性定量化を提供する必要性は依然として課題である。 これはこれまで、変分オートエンコーダで対処されてきた。 MCMC法によるベイズ推定は制限に直面しているが、近年の並列計算と勾配を組み込んだ高度な提案手法により、経路の移動が減少している。 本稿では,並列計算とランジュバン勾配法を用いて実装したmcmcサンプリングを用いたベイズオートエンコーダを提案する。 提案するベイズオートエンコーダは,圧縮データセットにおけるロバスト不確かさの定量化を特徴とし,関連する手法と比較した場合に類似の性能を提供する。 これはベイジアンオートエンコーダフレームワークの他のディープラーニングモデルへのさらなる応用を動機付けている。

Autoencoders gained popularity in the deep learning revolution given their ability to compress data and provide dimensionality reduction. Although prominent deep learning methods have been used to enhance autoencoders, the need to provide robust uncertainty quantification remains a challenge. This has been addressed with variational autoencoders so far. Bayesian inference via MCMC methods have faced limitations but recent advances with parallel computing and advanced proposal schemes that incorporate gradients have opened routes less travelled. In this paper, we present Bayesian autoencoders powered MCMC sampling implemented using parallel computing and Langevin gradient proposal scheme. Our proposed Bayesian autoencoder provides similar performance accuracy when compared to related methods from the literature, with the additional feature of robust uncertainty quantification in compressed datasets. This motivates further application of the Bayesian autoencoder framework for other deep learning models.
翻訳日:2021-04-15 00:13:54 公開日:2021-04-13
# (参考訳) 条件付き生成による文書レベルイベント引数抽出 [全文訳有]

Document-Level Event Argument Extraction by Conditional Generation ( http://arxiv.org/abs/2104.05919v1 )

ライセンス: CC BY-SA 4.0
Sha Li, Heng Ji, Jiawei Han(参考訳) イベント抽出は、長い間IEコミュニティで文レベルのタスクとして扱われてきた。 我々は、この設定が人間の情報探索行動と一致せず、不完全で非形式的な抽出結果をもたらすと論じている。 本稿では,タスクをイベントテンプレートに従って条件生成として定式化し,文書レベルのニューラルイベント引数抽出モデルを提案する。 また、完全なイベントおよびコア参照アノテーションを含む新しいドキュメントレベルのイベント抽出ベンチマークデータセットWikiEventsをコンパイルする。 引数抽出のタスクでは、RAMSデータセットとWikiEventsデータセットの次のベストモデルに対して、絶対的に7.6%のF1と5.7%のF1を達成する。 暗黙のコリファレンス推論を必要とする情報的引数抽出のより困難なタスクでは、最良のベースラインに対して9.3%のf1ゲインを達成している。 また,本モデルの可搬性を示すため,最初のエンドツーエンドゼロショットイベント抽出フレームワークを作成し,完全な教師付きモデルのトリガ抽出性能の97%と,ACE上の33種類中10種類にのみアクセス可能な引数抽出性能の82%を達成する。

Event extraction has long been treated as a sentence-level task in the IE community. We argue that this setting does not match human information-seeking behavior and leads to incomplete and uninformative extraction results. We propose a document-level neural event argument extraction model by formulating the task as conditional generation following event templates. We also compile a new document-level event extraction benchmark dataset WikiEvents which includes complete event and coreference annotation. On the task of argument extraction, we achieve an absolute gain of 7.6% F1 and 5.7% F1 over the next best model on the RAMS and WikiEvents datasets respectively. On the more challenging task of informative argument extraction, which requires implicit coreference reasoning, we achieve a 9.3% F1 gain over the best baseline. To demonstrate the portability of our model, we also create the first end-to-end zero-shot event extraction framework and achieve 97% of fully supervised model's trigger extraction performance and 82% of the argument extraction performance given only access to 10 out of the 33 types on ACE.
翻訳日:2021-04-14 23:51:52 公開日:2021-04-13
# (参考訳) 深部変圧器エンコーダを用いた科学用セマンティックマップとメトリクス

Semantic maps and metrics for science Semantic maps and metrics for science using deep transformer encoders ( http://arxiv.org/abs/2104.05928v1 )

ライセンス: CC BY 4.0
Brendan Chambers and James Evans(参考訳) 科学出版物の増加は、科学者や政策立案者が科学研究をナビゲートし、予測し、有益に導くのに役立つテキスト分析ツールを要求する。 ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。 同じ表面テキストは、異なる研究コミュニティにまたがって複数の、時には矛盾する特殊な感覚を取ることができるため、インフォメトリ応用にはコンテキストに対する感受性が不可欠である。 BERTのようなトランスフォーマー埋め込みモデルは、特定の単語やテキストのスパンの異なる言語文脈で異なる関連や意味の陰を捉えている。 本稿では,これらのツールを用いて科学的文書を符号化する手法について報告する。 文脈表現の判別性は,高次元ネットワークアクティベーションを要約するプール戦略の選択に強く影響している。 重要なことに、ドメインマッチングトレーニングデータのような基礎は最先端のNLPツールよりも重要である。 しかし、最新モデルは大きな進歩を遂げた。 ドメインマッチング事前学習, サウンドプーリング, および最先端のディープトランスネットワークエンコーダの組み合わせについて検討した。 最後に,深層エンコーダからの文脈表現を活用することを目的として,科学研究コミュニティの理解と予測のための様々な測定値を提案する。

The growing deluge of scientific publications demands text analysis tools that can help scientists and policy-makers navigate, forecast and beneficially guide scientific research. Recent advances in natural language understanding driven by deep transformer networks offer new possibilities for mapping science. Because the same surface text can take on multiple and sometimes contradictory specialized senses across distinct research communities, sensitivity to context is critical for infometric applications. Transformer embedding models such as BERT capture shades of association and connotation that vary across the different linguistic contexts of any particular word or span of text. Here we report a procedure for encoding scientific documents with these tools, measuring their improvement over static word embeddings in a nearest-neighbor retrieval task. We find discriminability of contextual representations is strongly influenced by choice of pooling strategy for summarizing the high-dimensional network activations. Importantly, we note that fundamentals such as domain-matched training data are more important than state-of-the-art NLP tools. Yet state-of-the-art models did offer significant gains. The best approach we investigated combined domain-matched pretraining, sound pooling, and state-of-the-art deep transformer network encoders. Finally, with the goal of leveraging contextual representations from deep encoders, we present a range of measurements for understanding and forecasting research communities in science.
翻訳日:2021-04-14 23:37:49 公開日:2021-04-13
# (参考訳) ユダヤ人社会の転換」--マルチモーダル深層学習を用いたオンライン反ユダヤ主義検出 [全文訳有]

"Subverting the Jewtocracy": Online Antisemitism Detection Using Multimodal Deep Learning ( http://arxiv.org/abs/2104.05947v1 )

ライセンス: CC BY 4.0
Mohit Chandra, Dheeraj Pailla, Himanshu Bhatia, Aadilmehdi Sanchawala, Manish Gupta, Manish Shrivastava, Ponnurangam Kumaraguru(参考訳) オンラインソーシャルメディアの急激な増加は、前例のない速度で情報の創造、流通、消費を可能にした。 しかし、これはまた、様々な種類のオンライン虐待の発端となった。 オンライン反ユダヤ主義のケースの増加は、社会・政治的な影響から大きな懸念の1つとなっている。 人種差別や性差別など、他の主要なオンライン乱用とは異なり、オンライン反ユダヤ主義は機械学習の観点からはあまり研究されていない。 私たちの知る限りでは、オンライン反ユダヤ主義の自動マルチモーダル検出の方向への第一歩を踏み出します。 このタスクは、複数のモードにわたる信号の抽出、コンテキスト参照、およびアンチセミズムの複数の側面の処理を含む、複数の課題を提起する。 残念ながら、この重要なタスクのために公開されているベンチマークコーパスは存在しない。 そのため、TwitterとGabからそれぞれ3,102と3,509のソーシャルメディア投稿を収集、ラベル付けしています。 さらに,ポストからのテキストと画像を用いて,反セミズムコンテンツとその特定の反セミティズムカテゴリーの存在を検出するマルチモーダル深層学習システムを提案する。 提案システムの有効性を評価するために,2つのデータセットについて広範な実験を行った。 最後に,本研究の質的分析について述べる。

The exponential rise of online social media has enabled the creation, distribution, and consumption of information at an unprecedented rate. However, it has also led to the burgeoning of various forms of online abuse. Increasing cases of online antisemitism have become one of the major concerns because of its socio-political consequences. Unlike other major forms of online abuse like racism, sexism, etc., online antisemitism has not been studied much from a machine learning perspective. To the best of our knowledge, we present the first work in the direction of automated multimodal detection of online antisemitism. The task poses multiple challenges that include extracting signals across multiple modalities, contextual references, and handling multiple aspects of antisemitism. Unfortunately, there does not exist any publicly available benchmark corpus for this critical task. Hence, we collect and label two datasets with 3,102 and 3,509 social media posts from Twitter and Gab respectively. Further, we present a multimodal deep learning system that detects the presence of antisemitic content and its specific antisemitism category using text and images from posts. We perform an extensive set of experiments on the two datasets to evaluate the efficacy of the proposed system. Finally, we also present a qualitative analysis of our study.
翻訳日:2021-04-14 23:36:41 公開日:2021-04-13
# (参考訳) ニューラルネットワークモデリングと機械翻訳による朝鮮王朝の記録の復元とマイニング [全文訳有]

Restoring and Mining the Records of the Joseon Dynasty via Neural Language Modeling and Machine Translation ( http://arxiv.org/abs/2104.05964v1 )

ライセンス: CC BY 4.0
Kyeongpil Kang, Kyohoon Jin, Soyoung Yang, Sujin Jang, Jaegul Choo, Yougbin Kim(参考訳) 古記録を理解することは、社会問題や政治問題、さらには自然科学の事実など、様々な面で過去の手がかりとなる。 しかし、文献のほとんどが現代語で書かれておらず、内容の一部が時間とともに破損しているため、歴史的記録を十分に活用することは一般的に困難である。 結果として、損傷した部分や認識できない部分の復元と、記録を現代言語に翻訳することが重要なタスクとなる。 そこで本研究では,世界有数の歴史記録である2つの韓国の歴史記録を活用し,自己照査機構に基づく歴史文書の復元と翻訳を行うマルチタスク学習手法を提案する。 実験の結果,マルチタスク学習を必要とせず,ベースラインよりも翻訳タスクの精度が大幅に向上した。 さらに,いくつかの重要な歴史的出来事を明らかにするために,トピックモデリングによる翻訳結果の詳細な探索分析を行った。

Understanding voluminous historical records provides clues on the past in various aspects, such as social and political issues and even natural science facts. However, it is generally difficult to fully utilize the historical records, since most of the documents are not written in a modern language and part of the contents are damaged over time. As a result, restoring the damaged or unrecognizable parts as well as translating the records into modern languages are crucial tasks. In response, we present a multi-task learning approach to restore and translate historical documents based on a self-attention mechanism, specifically utilizing two Korean historical records, ones of the most voluminous historical records in the world. Experimental results show that our approach significantly improves the accuracy of the translation task than baselines without multi-task learning. In addition, we present an in-depth exploratory analysis on our translated results via topic modeling, uncovering several significant historical events.
翻訳日:2021-04-14 23:22:46 公開日:2021-04-13
# (参考訳) 光深度推定のための動的核融合ネットワーク [全文訳有]

Dynamic Fusion Network For Light Field Depth Estimation ( http://arxiv.org/abs/2104.05969v1 )

ライセンス: CC BY 4.0
Yongri Piao, Yukun Zhang, Miao Zhang, Xinxin Ji(参考訳) フォーカスベース手法は深さ推定のタスクに有望な結果を示している。 しかしながら、既存のフォーカスベース深度推定手法のほとんどは焦点スタックの最大鋭さに依存する。 focalスタックのフォーカス情報の欠如は、このタスクの課題を提起する。 本稿では,RGBデータと焦点スタックを組み込んだ動的マルチモーダル学習手法を提案する。 本研究では,空間相関知覚モジュールの設計と,マルチモーダル動的融合モジュールの設計により,rgbデータと焦点スタック間のマルチモーダル情報を動的に融合することにより,焦点スタックの空間相関を深く掘り下げることを目的とする。 提案手法の成功は,2つのデータセット上でのアートパフォーマンスの達成によって実証される。 さらに,提案手法が光界データのみを用いた制限を破るだけでなく,一般消費者レベルのカメラデータに対する深度推定の実用化に向けた道を開くことを証明するために,スマートフォンカメラが生成した異なる焦点画像のセットを用いてネットワークをテストした。

Focus based methods have shown promising results for the task of depth estimation. However, most existing focus based depth estimation approaches depend on maximal sharpness of the focal stack. Out of focus information in the focal stack poses challenges for this task. In this paper, we propose a dynamically multi modal learning strategy which incorporates RGB data and the focal stack in our framework. Our goal is to deeply excavate the spatial correlation in the focal stack by designing the spatial correlation perception module and dynamically fuse multi modal information between RGB data and the focal stack in a adaptive way by designing the multi modal dynamic fusion module. The success of our method is demonstrated by achieving the state of the art performance on two datasets. Furthermore, we test our network on a set of different focused images generated by a smart phone camera to prove that the proposed method not only broke the limitation of only using light field data, but also open a path toward practical applications of depth estimation on common consumer level cameras data.
翻訳日:2021-04-14 23:07:10 公開日:2021-04-13
# (参考訳) ロバスト光深度推定のためのマルチモーダル情報学習 [全文訳有]

Learning Multi-modal Information for Robust Light Field Depth Estimation ( http://arxiv.org/abs/2104.05971v1 )

ライセンス: CC BY 4.0
Yongri Piao, Xinxin Ji, Miao Zhang, Yukun Zhang(参考訳) 深度推定作業を容易にするために光フィールドデータを実証した。 学習に基づく手法の多くは、epiまたはsub-aperture画像から深度を推定するが、focalスタックに注意を払う方法が少ない。 フォーカススタックからの既存の学習に基づく深度推定手法は、デフォーカスのぼかしのために最適以下の性能をもたらす。 本稿では,ロバストな光場深度推定のためのマルチモーダル学習手法を提案する。 まず,焦点スタックとrgb画像から包括的文脈情報を分離して抽出するコンテキスト推論ユニットを設計することにより,内部空間相関を推定する。 次に,注意誘導型クロスモーダル融合モジュールを用いてコンテキスト情報を統合する。 広汎な実験により,本手法は2つの光場データセット上の既存の代表法よりも優れた性能を示した。 さらに、携帯電話のデータセット上での視覚的結果から、我々の手法は日常生活で広く利用することができることが示された。

Light field data has been demonstrated to facilitate the depth estimation task. Most learning-based methods estimate the depth infor-mation from EPI or sub-aperture images, while less methods pay attention to the focal stack. Existing learning-based depth estimation methods from the focal stack lead to suboptimal performance because of the defocus blur. In this paper, we propose a multi-modal learning method for robust light field depth estimation. We first excavate the internal spatial correlation by designing a context reasoning unit which separately extracts comprehensive contextual information from the focal stack and RGB images. Then we integrate the contextual information by exploiting a attention-guide cross-modal fusion module. Extensive experiments demonstrate that our method achieves superior performance than existing representative methods on two light field datasets. Moreover, visual results on a mobile phone dataset show that our method can be widely used in daily life.
翻訳日:2021-04-14 22:54:15 公開日:2021-04-13
# (参考訳) 児童・成人英語学習者を対象としたasrに基づく誤用検出実験 [全文訳有]

Experiments of ASR-based mispronunciation detection for children and adult English learners ( http://arxiv.org/abs/2104.05980v1 )

ライセンス: CC BY 4.0
Nina Hosseini-Kivanani, Roberto Gretter, Marco Matassoni, and Giuseppe Daniele Falavigna(参考訳) 発音は言語学習の基礎の1つであり、他者による理解や理解において、話し言葉の主要な要素であると考えられている。 誤認識による音声認識領域における高い誤り率の存在は、誤認識を扱う代替手法を見つける動機となる。 本研究では,非母語話者の発音をチェックする誤発音評価システムを開発し,イタリア語学習者の英語の発音を誤発音し,音素に注釈付けされた音声コーパスで観察される非母語発音の評価を行う。 そこで本研究では,Kaldi を用いた携帯電話ベースの ASR を用いた。 i) イタリア人の成人のコーパスは46人の話者から5,867人の発話を、ii) イタリア人の子どものコーパスは78人の子どもから5,268の発話からなる。 その結果,選択した誤りモデルにより,母国語と非母国語の両方で誤り音とを識別し,非母国語における発音誤りを検出することができることがわかった。 電話誤り率は誤り言語モデルを用いた場合の改善を示す。 ASRシステムは, 選択したコーパスに誤差モデルを適用し, 精度が向上した。

Pronunciation is one of the fundamentals of language learning, and it is considered a primary factor of spoken language when it comes to an understanding and being understood by others. The persistent presence of high error rates in speech recognition domains resulting from mispronunciations motivates us to find alternative techniques for handling mispronunciations. In this study, we develop a mispronunciation assessment system that checks the pronunciation of non-native English speakers, identifies the commonly mispronounced phonemes of Italian learners of English, and presents an evaluation of the non-native pronunciation observed in phonetically annotated speech corpora. In this work, to detect mispronunciations, we used a phone-based ASR implemented using Kaldi. We used two non-native English labeled corpora; (i) a corpus of Italian adults contains 5,867 utterances from 46 speakers, and (ii) a corpus of Italian children consists of 5,268 utterances from 78 children. Our results show that the selected error model can discriminate correct sounds from incorrect sounds in both native and nonnative speech, and therefore can be used to detect pronunciation errors in non-native speech. The phone error rates show improvement in using the error language model. The ASR system shows better accuracy after applying the error model on our selected corpora.
翻訳日:2021-04-14 22:38:38 公開日:2021-04-13
# (参考訳) CLEVR_HYP:画像上の仮想行動を用いた視覚質問応答のための課題データセットとベースライン [全文訳有]

CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images ( http://arxiv.org/abs/2104.05981v1 )

ライセンス: CC BY 4.0
Shailaja Keyur Sampat, Akshay Kumar, Yezhou Yang and Chitta Baral(参考訳) 視覚的質問応答(VQA)に関する既存の研究は、画像やビデオに明確に存在する情報に限られている。 本稿では,与えられたシナリオで特定の行動を行うことによる仮説上の結果に精神的にシミュレートされるような質問に対して,システムがより高いレベルでの視覚的理解を行う。 その目的に向けて、clevr(johnson et.)に基づいて視覚言語質問応答タスクを定式化する。 2017年) データセット。 次に、既存のVQAメソッドを修正し、このタスクのベースラインソルバを提案する。 最後に,画像テキストのモダリティに対して共同推論を行う多様なアーキテクチャの能力に関する洞察を提供することにより,より良い視覚言語モデルの開発を動機付ける。 データセットのセットアップスクリプトとコードはhttps://github.com/s hailaja183/clevr_hyp で公開されます。

Most existing research on visual question answering (VQA) is limited to information explicitly present in an image or a video. In this paper, we take visual understanding to a higher level where systems are challenged to answer questions that involve mentally simulating the hypothetical consequences of performing specific actions in a given scenario. Towards that end, we formulate a vision-language question answering task based on the CLEVR (Johnson et. al., 2017) dataset. We then modify the best existing VQA methods and propose baseline solvers for this task. Finally, we motivate the development of better vision-language models by providing insights about the capability of diverse architectures to perform joint reasoning over image-text modality. Our dataset setup scripts and codes will be made publicly available at https://github.com/s hailaja183/clevr_hyp .
翻訳日:2021-04-14 22:28:48 公開日:2021-04-13
# (参考訳) 有限体積ニューラルネットワーク:地下汚染物質輸送のモデル化 [全文訳有]

Finite Volume Neural Network: Modeling Subsurface Contaminant Transport ( http://arxiv.org/abs/2104.06010v1 )

ライセンス: CC BY 4.0
Timothy Praditia, Matthias Karlbauer, Sebastian Otte, Sergey Oladyshkin, Martin V. Butz, Wolfgang Nowak(参考訳) 一般的な深層学習手法を用いた時空間物理過程のデータ駆動モデリングは非常に難しい課題である。 データの可用性の制限によりさらに悪化し、標準ニューラルネットワークモデルの一般化が貧弱になった。 この問題に対処するために、Finite Volume Neural Network (FINN)と呼ばれる新しいアプローチを導入する。 FINN法は、偏微分方程式を扱うためによく知られた有限体積法の数値構造を採用するため、各興味の量は、学習可能なパラメータを同時に許容しながら、それぞれの適応可能な保存則に従う。 その結果、FINNは制御ボリューム間のフラックスの扱いを良くし、したがって異なる種類の数値境界条件を適切に扱うことができる。 本手法は, 非線形拡散吸収過程に支配される地下汚染物質輸送問題に対して有効であることを示す。 FINNは他の方法と比較して境界条件の差異を一般化するだけでなく、構成的関係(遅延係数で表される)を明示的に抽出し学習することもできる。 さらに重要なことに、finnは合成データセットと実際のスパース実験データの両方に適用した場合に優れた一般化能力を示し、データ駆動モデリングツールとしての関連性を強調する。

Data-driven modeling of spatiotemporal physical processes with general deep learning methods is a highly challenging task. It is further exacerbated by the limited availability of data, leading to poor generalizations in standard neural network models. To tackle this issue, we introduce a new approach called the Finite Volume Neural Network (FINN). The FINN method adopts the numerical structure of the well-known Finite Volume Method for handling partial differential equations, so that each quantity of interest follows its own adaptable conservation law, while it concurrently accommodates learnable parameters. As a result, FINN enables better handling of fluxes between control volumes and therefore proper treatment of different types of numerical boundary conditions. We demonstrate the effectiveness of our approach with a subsurface contaminant transport problem, which is governed by a non-linear diffusion-sorption process. FINN does not only generalize better to differing boundary conditions compared to other methods, it is also capable to explicitly extract and learn the constitutive relationships (expressed by the retardation factor). More importantly, FINN shows excellent generalization ability when applied to both synthetic datasets and real, sparse experimental data, thus underlining its relevance as a data-driven modeling tool.
翻訳日:2021-04-14 22:11:53 公開日:2021-04-13
# (参考訳) 深い決定論的経路 [全文訳有]

Deep Deterministic Path Following ( http://arxiv.org/abs/2104.06014v1 )

ライセンス: CC BY 4.0
Georg Hess and William Ljungbergh(参考訳) 本稿では, シミュレーション車両の縦・横方向制御のためのDeep Deterministic Policy Gradient (DDPG) アルゴリズムをデプロイし, 追従課題を解決する。 DDPGエージェントはPyTorchを使用して実装され、Pythonで作られたカスタムキネマティック自転車環境上で訓練され評価された。 この性能は, 基準経路に対するクロストラック誤差と速度誤差を測定して評価した。 その結果, エージェントは, 速度誤差を最小限に抑えるためにアクセラレーションに適応するだけでなく, クロストラック誤差の少ないポリシーを学習できることを示す。

This paper deploys the Deep Deterministic Policy Gradient (DDPG) algorithm for longitudinal and lateral control of a simulated car to solve a path following task. The DDPG agent was implemented using PyTorch and trained and evaluated on a custom kinematic bicycle environment created in Python. The performance was evaluated by measuring cross-track error and velocity error, relative to a reference path. Results show how the agent can learn a policy allowing for small cross-track error, as well as adapting the acceleration to minimize the velocity error.
翻訳日:2021-04-14 22:02:06 公開日:2021-04-13
# (参考訳) 信頼度の高い深層学習のための実例の検出 [全文訳有]

Detecting Operational Adversarial Examples for Reliable Deep Learning ( http://arxiv.org/abs/2104.06015v1 )

ライセンス: CC BY 4.0
Xingyu Zhao, Wei Huang, Sven Schewe, Yi Dong, Xiaowei Huang(参考訳) ディープラーニング(DL)の利用は、重要なアプリケーションにおける信頼性に関する新たな課題を提起する。 DLの安全で信頼性の高い使用を保証するためには,音の検証と検証方法が必要である。 しかし、逆例(AE)の検出を目的としたDLの最先端デバッグテスト手法は、ソフトウェアの将来的な運用利用を統計的に描写する運用プロファイルを無視している。 テスト予算は非現実的あるいは現実の運用で遭遇するまれなAEの検出に費やされる可能性が高いため、ソフトウェアが納品される信頼性を改善する上で、これは非常に控えめな効果をもたらす可能性がある。 本稿では,今後の手術で見られる可能性が比較的高いAEである「オペレーショナルAE」という概念を,まず最初に提示する。 次に,「運用aes」を効率的に検出する新しいdlテスト手法の初期設計と,今後の研究計画に関する知見を提供する。

The utilisation of Deep Learning (DL) raises new challenges regarding its dependability in critical applications. Sound verification and validation methods are needed to assure the safe and reliable use of DL. However, state-of-the-art debug testing methods on DL that aim at detecting adversarial examples (AEs) ignore the operational profile, which statistically depicts the software's future operational use. This may lead to very modest effectiveness on improving the software's delivered reliability, as the testing budget is likely to be wasted on detecting AEs that are unrealistic or encountered very rarely in real-life operation. In this paper, we first present the novel notion of "operational AEs" which are AEs that have relatively high chance to be seen in future operation. Then an initial design of a new DL testing method to efficiently detect "operational AEs" is provided, as well as some insights on our prospective research plan.
翻訳日:2021-04-14 21:54:17 公開日:2021-04-13
# (参考訳) 全目的質問応答モデルの構造解析 [全文訳有]

Structural analysis of an all-purpose question answering model ( http://arxiv.org/abs/2104.06045v1 )

ライセンス: CC BY-SA 4.0
Vincent Micheli, Quentin Heinrich, Fran\c{c}ois Fleuret, Wacim Belblidia(参考訳) 注意は、現在ユビキタスに訓練済みの言語モデルの重要な要素である。 関連する情報に焦点を絞ることを学ぶことで、これらのトランスフォーマーベースのアーキテクチャは、複数のタスクを同時に処理し、時には1つのタスクのそれを超えることができることが証明された。 この現象をよりよく理解するために、我々は、導入する新しい汎用質問応答モデルの構造分析を行う。 驚くべきことに、このモデルはタスク間の強い伝達効果がなくてもシングルタスクのパフォーマンスを維持する。 注意頭重要度スコアリングを通じて、注意頭は特定のタスクに特化しており、複数タスクと単一タスクの両方の設定において、他のタスクよりも学習しやすいものが存在することを観察する。

Attention is a key component of the now ubiquitous pre-trained language models. By learning to focus on relevant pieces of information, these Transformer-based architectures have proven capable of tackling several tasks at once and sometimes even surpass their single-task counterparts. To better understand this phenomenon, we conduct a structural analysis of a new all-purpose question answering model that we introduce. Surprisingly, this model retains single-task performance even in the absence of a strong transfer effect between tasks. Through attention head importance scoring, we observe that attention heads specialize in a particular task and that some heads are more conducive to learning than others in both the multi-task and single-task settings.
翻訳日:2021-04-14 21:49:34 公開日:2021-04-13
# (参考訳) 最適化するハイパーパラメータは? 分子特性予測のためのグラフニューラルネットワークの高アプラメータ最適化に関する研究 [全文訳有]

Which Hyperparameters to Optimise? An Investigation of Evoluationary Hyperaprameter Optimisation in Graph Neural Network For Molecular Property Prediction ( http://arxiv.org/abs/2104.06046v1 )

ライセンス: CC BY 4.0
Yingfang Yuan, Wenjun Wang, Wei Pang(参考訳) 近年,グラフニューラルネットワーク(GNN)の研究が注目され,分子特性予測において有望な性能を達成した。 分子特性予測のためのほとんどのGNNは、隣のノードの情報(例えば)を集約することでノードの表現を学ぶというアイデアに基づいて提案されている。 原子)。 次に、表現を後続のレイヤに渡すことで、個々の下流タスクを処理できる。 したがって、GNNのアーキテクチャはグラフ関連レイヤとタスク特化レイヤの2つのコア部分で構成されていると考えることができる。 現実世界の分子問題に直面し、それらの層に対するハイパーパラメータ最適化は不可欠である。 この状況ではハイパーパラメータ最適化 (hpo) が高価になるのは、候補の解を評価するのに大量の計算リソースを必要とするためである。 さらに、検索空間が大きくなると、hpoの問題はより難しくなる。 本研究では,グラフ関連層とタスク固有の層に属する2種類のGNNハイパーパラメータが,分子特性予測におけるGNNの性能に与える影響に着目した。 私たちの実験で。 我々はHPOに最先端の進化アルゴリズム(CMA-ES)を用いた。 その結果,2種類のハイパーパラメータを個別に最適化することは,GNNの性能向上につながるが,両タイプのハイパーパラメータを同時に最適化することで,大幅な改善が期待できることがわかった。 また,分子特性予測問題におけるGNNに対するHPOの重要性も確認した。

Recently, the study of graph neural network (GNN) has attracted much attention and achieved promising performance in molecular property prediction. Most GNNs for molecular property prediction are proposed based on the idea of learning the representations for the nodes by aggregating the information of their neighbor nodes (e.g. atoms). Then, the representations can be passed to subsequent layers to deal with individual downstream tasks. Therefore, the architectures of GNNs can be considered as being composed of two core parts: graph-related layers and task-specific layers. Facing real-world molecular problems, the hyperparameter optimization for those layers are vital. Hyperparameter optimization (HPO) becomes expensive in this situation because evaluating candidate solutions requires massive computational resources to train and validate models. Furthermore, a larger search space often makes the HPO problems more challenging. In this research, we focus on the impact of selecting two types of GNN hyperparameters, those belonging to graph-related layers and those of task-specific layers, on the performance of GNN for molecular property prediction. In our experiments. we employed a state-of-the-art evolutionary algorithm (i.e., CMA-ES) for HPO. The results reveal that optimizing the two types of hyperparameters separately can gain the improvements on GNNs' performance, but optimising both types of hyperparameters simultaneously will lead to predominant improvements. Meanwhile, our study also further confirms the importance of HPO for GNNs in molecular property prediction problems.
翻訳日:2021-04-14 21:41:01 公開日:2021-04-13
# (参考訳) UPB at SemEval-2021 Task 7: Adversarial Multi-Task Learning for Detection and Rating Humor and Offense [全文訳有]

UPB at SemEval-2021 Task 7: Adversarial Multi-Task Learning for Detecting and Rating Humor and Offense ( http://arxiv.org/abs/2104.06063v1 )

ライセンス: CC BY 4.0
R\u{a}zvan-Alexandru Sm\u{a}du, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) ユーモアの検出は難しい作業であり、言葉は複数の価値を共有し、文脈によっては、同じ単語が攻撃的な表現に使われることもある。 Transformerに基づくニューラルネットワークアーキテクチャは、いくつかの自然言語処理タスク、特にテキスト分類に関する最先端の結果を得る。 対立学習とマルチタスク学習などの他のテクニックを組み合わせることで、ニューラルネットワークはデータの本質的な特性を学ぶのに役立つ。 本研究では,SemEval-2021におけるタスク7のユーモアと攻撃的テキストの検出と評価に使用した,敵のマルチタスクネットワークAMTL-Humorについて述べる。 モデルの各ブランチは、関連するタスクの解決に重点を置いており、コンテキスト化された埋め込みを生成するために使用されるBERTweetの上に、BiLSTMレイヤとCapsuleレイヤが続く。 我々の最良のモデルは、全てのテスト済み構成のアンサンブルで構成され、タスク1aの95.66%のF1スコアと94.70%の精度を達成し、タスク1bと2のRMSEスコアをそれぞれ0.6200と0.5318を得る。

Detecting humor is a challenging task since words might share multiple valences and, depending on the context, the same words can be even used in offensive expressions. Neural network architectures based on Transformer obtain state-of-the-art results on several Natural Language Processing tasks, especially text classification. Adversarial learning, combined with other techniques such as multi-task learning, aids neural models learn the intrinsic properties of data. In this work, we describe our adversarial multi-task network, AMTL-Humor, used to detect and rate humor and offensive texts from Task 7 at SemEval-2021. Each branch from the model is focused on solving a related task, and consists of a BiLSTM layer followed by Capsule layers, on top of BERTweet used for generating contextualized embeddings. Our best model consists of an ensemble of all tested configurations, and achieves a 95.66% F1-score and 94.70% accuracy for Task 1a, while obtaining RMSE scores of 0.6200 and 0.5318 for Tasks 1b and 2, respectively.
翻訳日:2021-04-14 21:29:56 公開日:2021-04-13
# (参考訳) 1ビットLAMB: LAMBの収束速度を用いた通信効率の高い大規模バッチ学習 [全文訳有]

1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed ( http://arxiv.org/abs/2104.06069v1 )

ライセンス: CC BY 4.0
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He(参考訳) BERTやGPT-3のような)大規模なモデルを数百から数千のGPUで訓練するために、通信は特に帯域幅の限られたTCP相互接続ネットワークを持つコモディティシステムにおいて、大きなボトルネックとなっている。 LAMBアルゴリズムのような一方の大規模バッチ最適化は通信量を減らすために提案された。 一方、1ビットのSGDや1ビットのAdamのような通信圧縮アルゴリズムは、各通信量の削減に役立つ。 しかし,通信課題,特に低帯域イーサネットネットワークにおいて,これらの手法の1つを単純に使うだけでは十分ではないことがわかった。 そこで我々は,大規模バッチ最適化と通信圧縮のパワーを組み合わせることを目的としているが,その適応層学習率から,既存の圧縮戦略はラムに直接適用できないことがわかった。 この目的のために,1ビットLAMBという新しい通信効率アルゴリズムを設計し,通信を圧縮しても適応層ワイド学習率をサポートする新しい手法を提案する。 さらに,pytorch distributedのncclバックエンドを用いた圧縮通信のための新しいシステム実装を導入することで,既存のmpiベースの実装に比べてユーザビリティとパフォーマンスが向上する。 BERT-Large のバッチサイズ 8K から 64K までの事前学習タスクでは,最大 256 GPU で評価した結果,NCCL ベースのバックエンドを持つ 1 ビット LAMB が,最大 4.6 倍の通信量削減,最大2.8 倍のエンドツーエンドスピードアップ(毎秒のトレーニングサンプル数)を実現し,同じ収束速度 (未圧縮の LAMB と比較した場合の事前学習サンプル数) を実現できた。

To train large models (like BERT and GPT-3) with hundreds or even thousands of GPUs, the communication has become a major bottleneck, especially on commodity systems with limited-bandwidth TCP interconnects network. On one side large-batch optimization such as LAMB algorithm was proposed to reduce the number of communications. On the other side, communication compression algorithms such as 1-bit SGD and 1-bit Adam help to reduce the volume of each communication. However, we find that simply using one of the techniques is not sufficient to solve the communication challenge, especially on low-bandwidth Ethernet networks. Motivated by this we aim to combine the power of large-batch optimization and communication compression, but we find that existing compression strategies cannot be directly applied to LAMB due to its unique adaptive layerwise learning rates. To this end, we design a new communication-effici ent algorithm, 1-bit LAMB, which introduces a novel way to support adaptive layerwise learning rates even when communication is compressed. In addition, we introduce a new system implementation for compressed communication using the NCCL backend of PyTorch distributed, which improves both usability and performance compared to existing MPI-based implementation. For BERT-Large pre-training task with batch sizes from 8K to 64K, our evaluations on up to 256 GPUs demonstrate that 1-bit LAMB with NCCL-based backend is able to achieve up to 4.6x communication volume reduction, up to 2.8x end-to-end speedup (in terms of number of training samples per second), and the same convergence speed (in terms of number of pre-training samples to reach the same accuracy on fine-tuning tasks) compared to uncompressed LAMB.
翻訳日:2021-04-14 21:19:05 公開日:2021-04-13
# (参考訳) 時空間エントロピーモデルは、学習ビデオ圧縮に必要な全てである [全文訳有]

Spatiotemporal Entropy Model is All You Need for Learned Video Compression ( http://arxiv.org/abs/2104.06083v1 )

ライセンス: CC BY 4.0
Zhenhong Sun, Zhiyu Tan, Xiuyu Sun, Fangyi Zhang, Dongyang Li, Yichen Qian, Hao Li(参考訳) 支配的な学習ビデオ圧縮手法の枠組みは、通常、動作予測モジュールと、その複雑な構造とエラー伝播問題に苦しむ動きベクトルおよび残留画像圧縮モジュールから構成される。 動き予測モジュールを暗黙のフローネットワークに置き換えることで、複雑さを減らすためのアプローチが提案されている。 また、以前に復号されたフレームからの漸進的な再構成誤差を軽減するために、誤り伝播認識訓練戦略を提案する。 これらの手法は改善をもたらしたが、フレームワーク自体にはほとんど注意が払われていない。 単一のディープニューラルネットワークでフレームワークをシンプルにすることで、学習した画像圧縮の成功に触発されて、単純で適切なフレームワークによるビデオ圧縮のパフォーマンス向上を期待するのは自然なことだ。 そこで我々は,余分な動き予測モジュールが不要な(残像ではなく)生画素フレームを直接圧縮する枠組みを提案する。 代わりにエントロピーモデルは、ピクセルレベルではなく潜在空間における時空間冗長性の推定に使われ、フレームワークの複雑さを大幅に減少させる。 具体的には、すべてのフレームに対して同一に分散されたラテントを生成する統一されたオートエンコーダと、これらのラテントのエントロピーを最小化する時空間エントロピー推定モデルからなる圧縮モジュールである。 実験により,提案手法はマルチスケール構造類似度(MS-SSIM)の計測値でSOTA(State-of-the-ar t)性能より優れ,PSNRの計測値で競合する結果が得られた。

The framework of dominant learned video compression methods is usually composed of motion prediction modules as well as motion vector and residual image compression modules, suffering from its complex structure and error propagation problem. Approaches have been proposed to reduce the complexity by replacing motion prediction modules with implicit flow networks. Error propagation aware training strategy is also proposed to alleviate incremental reconstruction errors from previously decoded frames. Although these methods have brought some improvement, little attention has been paid to the framework itself. Inspired by the success of learned image compression through simplifying the framework with a single deep neural network, it is natural to expect a better performance in video compression via a simple yet appropriate framework. Therefore, we propose a framework to directly compress raw-pixel frames (rather than residual images), where no extra motion prediction module is required. Instead, an entropy model is used to estimate the spatiotemporal redundancy in a latent space rather than pixel level, which significantly reduces the complexity of the framework. Specifically, the whole framework is a compression module, consisting of a unified auto-encoder which produces identically distributed latents for all frames, and a spatiotemporal entropy estimation model to minimize the entropy of these latents. Experiments showed that the proposed method outperforms state-of-the-art (SOTA) performance under the metric of multiscale structural similarity (MS-SSIM) and achieves competitive results under the metric of PSNR.
翻訳日:2021-04-14 20:52:30 公開日:2021-04-13
# (参考訳) 多変量深部証拠回帰 [全文訳有]

Multivariate Deep Evidential Regression ( http://arxiv.org/abs/2104.06135v1 )

ライセンス: CC BY 4.0
Nis Meinert(参考訳) 本稿では,レグレッションベースニューラルネットワーク(NN)から動脈モデルとてんかんモデルの不確かさを抽出する手法を提案する。 上記の提案は、元のガウス確率関数に対して明らかな事前を配置し、NNをトレーニングし、明らかな分布の過小評価を行う手法を導出する。 これにより、不確定な回帰タスクのための分散データのサンプリングや利用なしに、両方の不確実性を同時に抽出することができる。 我々は,この問題を詳細に説明し,可能な解を与え,多変量の場合の手法を一般化する。

We discuss three issues with a proposed solution to extract aleatoric and epistemic model uncertainty from regression-based neural networks (NN). The aforementioned proposal derives a technique by placing evidential priors over the original Gaussian likelihood function and training the NN to infer the hyperparemters of the evidential distribution. Doing so allows for the simultaneous extraction of both uncertainties without sampling or utilization of out-of-distribution data for univariate regression tasks. We describe our issues in detail, give a possible solution and generalize the technique for the multivariate case.
翻訳日:2021-04-14 20:28:46 公開日:2021-04-13
# (参考訳) 畳み込みニューラルネットワークのオーバーフィッティングに及ぼす活性化空間の影響 [全文訳有]

The Impact of Activation Sparsity on Overfitting in Convolutional Neural Networks ( http://arxiv.org/abs/2104.06153v1 )

ライセンス: CC BY 4.0
Karim Huesmann, Luis Garcia Rodriguez, Lars Linsen, and Benjamin Risse(参考訳) 重ね合わせは畳み込みニューラルネットワークのトレーニングにおける基本的な課題の1つであり、通常、トレーニングとテストの損失の分散によって識別される。 しかし、アクティベーションの流れがオーバーフィッティングを誘発する方法の基盤となるダイナミクスは、あまり理解されていない。 本研究では,レイヤワイドアクティベーション対策の導出と可視化を目的としたパープレキシティに基づく空間性定義を提案する。 これらの新しい説明可能なai戦略は、アクティベーションスパーシティと過剰フィッティング、すなわちテスト損失が高まる直前の機能抽出層におけるスパーシティの増加との間に驚くべき関係を示している。 この傾向は、ネットワークアーキテクチャとレギュライゼーション戦略にまたがって保存され、我々の尺度は、ネットワークの一般化能力を損失ベースの定義から切り離しながら、オーバーフィッティングの信頼できる指標として使用できる。 さらに, 学習中にスパーシティが出現することを明確に罰し, スパーシティの低下が過剰フィッティングに与える影響をリアルタイムで研究できる。 このペナルティを適用して、よく知られた正規表現や一般的なネットワークアーキテクチャでアクティベーション空間を解析することで、アクティベーション空間の減少が一般化と分類性能を効果的に改善できるという仮説を支持する。 提案手法は, 過度に訓練しても, 過度に訓練しても, 過度に適合することなく, 深層モデルのキャパシティを効果的に活用しながら, 濃厚なアクティベーションが識別的特徴学習を可能にすることを示すことによって, アクティベーション空間とネットワークキャパシティの相反する概念に関する新たな知見を提示する。

Overfitting is one of the fundamental challenges when training convolutional neural networks and is usually identified by a diverging training and test loss. The underlying dynamics of how the flow of activations induce overfitting is however poorly understood. In this study we introduce a perplexity-based sparsity definition to derive and visualise layer-wise activation measures. These novel explainable AI strategies reveal a surprising relationship between activation sparsity and overfitting, namely an increase in sparsity in the feature extraction layers shortly before the test loss starts rising. This tendency is preserved across network architectures and reguralisation strategies so that our measures can be used as a reliable indicator for overfitting while decoupling the network's generalisation capabilities from its loss-based definition. Moreover, our differentiable sparsity formulation can be used to explicitly penalise the emergence of sparsity during training so that the impact of reduced sparsity on overfitting can be studied in real-time. Applying this penalty and analysing activation sparsity for well known regularisers and in common network architectures supports the hypothesis that reduced activation sparsity can effectively improve the generalisation and classification performance. In line with other recent work on this topic, our methods reveal novel insights into the contradicting concepts of activation sparsity and network capacity by demonstrating that dense activations can enable discriminative feature learning while efficiently exploiting the capacity of deep models without suffering from overfitting, even when trained excessively.
翻訳日:2021-04-14 20:08:24 公開日:2021-04-13
# (参考訳) 動的軌跡アグリゲーションによる報酬形成 [全文訳有]

Reward Shaping with Dynamic Trajectory Aggregation ( http://arxiv.org/abs/2104.06163v1 )

ライセンス: CC BY 4.0
Takato Okudo and Seiji Yamada(参考訳) 長期報酬を最大化する政策を取得する強化学習が活発に研究されている。 残念なことに、この学習タイプは、実際の環境では状態アクション空間が巨大になるため、現実的な状況ではあまりにも遅く、使いづらい。 効率を学ぶための重要な要素は報酬です。 ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。 この方法は、各領域に対するポテンシャル関数と呼ばれる特定の実値関数を定義する必要がある。 ポテンシャル関数を直接表現することはしばしば困難である。 SARSA-RSは潜在的な機能を学び、それを取得する。 しかし、SARSA-RSは単純な環境にのみ適用できる。 この手法のボトルネックは、設計者が全ての状態に対して集約関数を構築することはほぼ不可能であるため、抽象状態を作る状態の集約である。 サブゴアル級数を用いた軌道アグリゲーションを提案する。 この方法は、試行錯誤中のエピソード中の状態を、サブゴアル系列とサブゴアル同定関数のみで動的に集約する。 デザイナーの努力を最小限にし、高次元の観察が可能な環境に適用する。 実験のために参加者から下記シリーズを得た。 実験は,3つの領域,4部屋(離散状態と離散動作),ピンボール(連続動作と離散動作),ピッキング(連続動作)で行った。 本手法をベースライン強化学習アルゴリズムおよびランダムサブゴールおよびナイーブサブゴールに基づく報酬形成を含む他のサブゴールベース手法と比較した。 その結果、報酬形成は学習効率において他の方法よりも優れていた。

Reinforcement learning, which acquires a policy maximizing long-term rewards, has been actively studied. Unfortunately, this learning type is too slow and difficult to use in practical situations because the state-action space becomes huge in real environments. The essential factor for learning efficiency is rewards. Potential-based reward shaping is a basic method for enriching rewards. This method is required to define a specific real-value function called a potential function for every domain. It is often difficult to represent the potential function directly. SARSA-RS learns the potential function and acquires it. However, SARSA-RS can only be applied to the simple environment. The bottleneck of this method is the aggregation of states to make abstract states since it is almost impossible for designers to build an aggregation function for all states. We propose a trajectory aggregation that uses subgoal series. This method dynamically aggregates states in an episode during trial and error with only the subgoal series and subgoal identification function. It makes designer effort minimal and the application to environments with high-dimensional observations possible. We obtained subgoal series from participants for experiments. We conducted the experiments in three domains, four-rooms(discrete states and discrete actions), pinball(continuous and discrete), and picking(both continuous). We compared our method with a baseline reinforcement learning algorithm and other subgoal-based methods, including random subgoal and naive subgoal-based reward shaping. As a result, our reward shaping outperformed all other methods in learning efficiency.
翻訳日:2021-04-14 19:54:54 公開日:2021-04-13
# (参考訳) ブール分類器の計算知能性について [全文訳有]

On the Computational Intelligibility of Boolean Classifiers ( http://arxiv.org/abs/2104.06172v1 )

ライセンス: CC BY 4.0
Gilles Audemard, Steve Bellart, Louenas Bounia, Fr\'ed\'eric Koriche, Jean-Marie Lagniez, Pierre Marquis(参考訳) 本稿では,多項式時間でXAIクエリに応答できることを特徴とするブール分類器の計算精度について検討する。 考慮中の分類器は、決定木、dnf式、決定リスト、決定規則、ツリーアンサンブル、ブールニューラルネットである。 説明問合せと検証問合せの両方を含む9つのXAIクエリを用いて,分類器群間に大きな知能ギャップが存在することを示す。 一方、9つのXAIクエリはすべて、決定木に対して抽出可能である。 一方、DNF式、決定リスト、無作為な森林、強化された決定木、ブール多層パーセプトロン、二項化されたニューラルネットワークなどは、いずれも牽引できない。

In this paper, we investigate the computational intelligibility of Boolean classifiers, characterized by their ability to answer XAI queries in polynomial time. The classifiers under consideration are decision trees, DNF formulae, decision lists, decision rules, tree ensembles, and Boolean neural nets. Using 9 XAI queries, including both explanation queries and verification queries, we show the existence of large intelligibility gap between the families of classifiers. On the one hand, all the 9 XAI queries are tractable for decision trees. On the other hand, none of them is tractable for DNF formulae, decision lists, random forests, boosted decision trees, Boolean multilayer perceptrons, and binarized neural networks.
翻訳日:2021-04-14 19:40:29 公開日:2021-04-13
# (参考訳) 定常不確定カーネルの低変動を考慮した非バイアスランダム化 [全文訳有]

Towards Unbiased Random Features with LowerVariance For Stationary Indefinite Kernels ( http://arxiv.org/abs/2104.06204v1 )

ライセンス: CC BY 4.0
Qin Luo, Kun Fang, Jie Yang, Xiaolin Huang(参考訳) Random Fourier Features (RFF) は、大規模な状況においてカーネル近似の性能をよく評価するが、カーネルを定常かつ正定値に制限する。 また、非定常カーネルに対しては、入力が単位球に制限された場合、対応する RFF を定常不定カーネルに変換することができる。 多くの手法が定常だが不確定なカーネルを近似する方法を提供している。 しかし、それらは偏りがあるか、大きなばらつきを持っている。 本稿では,多種多様なデータセットやカーネルに対する実験結果から,既存のカーネル近似法と比較して,アルゴリズムが低分散および近似誤差を達成することを検証した。 当初選択されたカーネルに対する近似が向上し,サポートベクタマシンと回帰の枠組みにおける近似アルゴリズムを用いて,分類精度と回帰能力が改善された。

Random Fourier Features (RFF) demonstrate wellappreciated performance in kernel approximation for largescale situations but restrict kernels to be stationary and positive definite. And for non-stationary kernels, the corresponding RFF could be converted to that for stationary indefinite kernels when the inputs are restricted to the unit sphere. Numerous methods provide accessible ways to approximate stationary but indefinite kernels. However, they are either biased or possess large variance. In this article, we propose the generalized orthogonal random features, an unbiased estimation with lower variance.Experimenta l results on various datasets and kernels verify that our algorithm achieves lower variance and approximation error compared with the existing kernel approximation methods. With better approximation to the originally selected kernels, improved classification accuracy and regression ability is obtained with our approximation algorithm in the framework of support vector machine and regression.
翻訳日:2021-04-14 19:14:23 公開日:2021-04-13
# (参考訳) 自動ユーザエクスペリエンステストのためのエージェント [全文訳有]

Agents for Automated User Experience Testing ( http://arxiv.org/abs/2104.06220v1 )

ライセンス: CC BY 4.0
Pedro M. Fernandes, Manuel Lopes, Rui Prada(参考訳) ソフトウェアにおける機能テストの自動化により、開発者は反復的な開発フェーズを通じて、機能に対するネガティブな影響を継続的にチェックできるようになりました。 これはユーザeXperience(UX)には当てはまらない。 ユーザテストは遅い取り組みであり、インタラクティブシステムの開発においてボトルネックとなる可能性がある。 この問題に対処するため,自動UXテストのためのエージェントベースアプローチを提案する。 基本的な問題解決スキルと中核的な影響モデルを備えたエージェントを開発し、ゲームのさまざまなレベルを横断する人工的な感情状態のモデル化を可能にします。 この研究はまだ原始的な状態ですが、ここで提示した結果は、uxテストを自動化するための情緒的コンピューティングモデルが与えたインテリジェントエージェントの使用に対する強いケースであると考えています。

The automation of functional testing in software has allowed developers to continuously check for negative impacts on functionality throughout the iterative phases of development. This is not the case for User eXperience (UX), which has hitherto relied almost exclusively on testing with real users. User testing is a slow endeavour that can become a bottleneck for development of interactive systems. To address this problem, we here propose an agent based approach for automatic UX testing. We develop agents with basic problem solving skills and a core affect model, allowing us to model an artificial affective state as they traverse different levels of a game. Although this research is still at a primordial state, we believe the results here presented make a strong case for the use of intelligent agents endowed with affective computing models for automating UX testing.
翻訳日:2021-04-14 18:59:47 公開日:2021-04-13
# (参考訳) 単粒子cryo-emにおける投影から方位を回復する学習 [全文訳有]

Learning to recover orientations from projections in single-particle cryo-EM ( http://arxiv.org/abs/2104.06237v1 )

ライセンス: CC BY 4.0
Jelena Banjac, Laur\`ene Donati, Micha\"el Defferrard(参考訳) 単粒子核電子顕微鏡(cryo-em)における大きな課題は、撮像に先立つ3d粒子が採用する配向が未知であるが、この知識は高分解能再構成に不可欠である。 得られた2次元プロジェクションの集合から直接これらの方向を復元する手法を提案する。 提案手法は, (i) 射影の対の距離の推定と (ii) それぞれの射影の向きをこれらの距離から復元する2つのステップから構成される。 ステップ(i)では、分解された生体構造から合成cryo-em投射を訓練したシアムニューラルネットワークによってペアワイズ距離を推定する。 ステップ(ii)では、投影から推定される距離と回収された方位によって引き起こされる距離との差を最小化し、方位を回復する。 合成cryo-emデータセットの手法を評価した。 以上の結果から, 高い騒音レベルで移動・劣化する投影から, 方位を正確に復元できることが示されている。 回収の精度は距離推定器の精度に依存する。 実際の実験環境ではまだ展開されていないが,提案手法は,SPAにおけるオリエンテーション回復のための新しい学習手法を提供する。 私たちのコードはhttps://github.com/J elenaBanjac/ protein-reconstructi onで利用可能です。

A major challenge in single-particle cryo-electron microscopy (cryo-EM) is that the orientations adopted by the 3D particles prior to imaging are unknown; yet, this knowledge is essential for high-resolution reconstruction. We present a method to recover these orientations directly from the acquired set of 2D projections. Our approach consists of two steps: (i) the estimation of distances between pairs of projections, and (ii) the recovery of the orientation of each projection from these distances. In step (i), pairwise distances are estimated by a Siamese neural network trained on synthetic cryo-EM projections from resolved bio-structures. In step (ii), orientations are recovered by minimizing the difference between the distances estimated from the projections and the distances induced by the recovered orientations. We evaluated the method on synthetic cryo-EM datasets. Current results demonstrate that orientations can be accurately recovered from projections that are shifted and corrupted with a high level of noise. The accuracy of the recovery depends on the accuracy of the distance estimator. While not yet deployed in a real experimental setup, the proposed method offers a novel learning-based take on orientation recovery in SPA. Our code is available at https://github.com/J elenaBanjac/protein- reconstruction
翻訳日:2021-04-14 18:48:36 公開日:2021-04-13
# (参考訳) 全スライディング画像解析のためのニューラルネットワークの現状調査:一般的な畳み込みニューラルネットワークから潜在的な視覚変換器まで [全文訳有]

A State-of-the-art Survey of Artificial Neural Networks for Whole-slide Image Analysis:from Popular Convolutional Neural Networks to Potential Visual Transformers ( http://arxiv.org/abs/2104.06243v1 )

ライセンス: CC BY 4.0
Chen Li, Xintong Li, Xiaoyan Li, Md Mamunur Rahaman, Xiaoqi Li, Jian Wu, Yudong Yao, Marcin Grzegorzek(参考訳) 近年,コンピュータ支援診断 (cad) 技術や全体スライド画像 (wsi) の進歩に伴い,病理組織学的wsiは徐々に疾患の診断や解析において重要な役割を担ってきた。 病理学者の作業の客観性と精度を高めるため, 病理組織学的WSIの分類, 分類, 検出には, ニューラルネットワーク(ANN)法が一般的に必要である。 本稿では, annに基づくwsi分析手法について概説する。 まず、WSI および ANN メソッドの開発状況を紹介する。 次に、一般的なANN手法を要約する。 次に、利用可能なWSIデータセットと評価指標について論じる。 WSI処理のためのこれらのANNアーキテクチャは、古典的なニューラルネットワークとディープニューラルネットワーク(DNN)に分割され、分析される。 最後に,本分野における解析手法の適用可能性について論じる。 重要なポテンシャル法は、ビジュアルトランスフォーマーである。

In recent years, with the advancement of computer-aided diagnosis (CAD) technology and whole slide image (WSI), histopathological WSI has gradually played a crucial aspect in the diagnosis and analysis of diseases. To increase the objectivity and accuracy of pathologists' work, artificial neural network (ANN) methods have been generally needed in the segmentation, classification, and detection of histopathological WSI. In this paper, WSI analysis methods based on ANN are reviewed. Firstly, the development status of WSI and ANN methods is introduced. Secondly, we summarize the common ANN methods. Next, we discuss publicly available WSI datasets and evaluation metrics. These ANN architectures for WSI processing are divided into classical neural networks and deep neural networks (DNNs) and then analyzed. Finally, the application prospect of the analytical method in this field is discussed. The important potential method is Visual Transformers.
翻訳日:2021-04-14 18:25:38 公開日:2021-04-13
# (参考訳) 深部畳み込みニューラルネットワークによる2つのレキシカテスト計算仮説の物語 [全文訳有]

A Tale of Two Lexica Testing Computational Hypotheses with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2104.06271v1 )

ライセンス: CC BY 4.0
Enes Avcu, Olivia Newman, David Gow(参考訳) Gow (2012) の二重辞書モデルは、単語の第一の目的は、音響音声入力と他の言語表現のマッピングを仲介することである。 機能画像、失語症、行動結果の証拠によって動機づけられたこのモデルは、2つの平行なワードフォーム、背側および腹側処理ストリームの存在を論じている。 本稿では,音と意味のより任意のマッピングよりも,背後の流れにおける音と調音の複雑だが体系的なマッピングが特徴集合に異なる計算圧力を与えるという仮説を検証した。 この仮説をテストするために、2つのディープ畳み込みニューラルネットワーク(CNN)を作成しました。 背側ネットワークは個々の話し言葉を特定するために訓練されたが、腹側ネットワークはそれらを意味クラスにマッピングするように訓練された。 次に,各ネットワークのペナルティメイトレベルからネットワーク活性化のパターンを抽出し,背側と腹側処理ストリームに関連する言語分類への一般化をサポートするネットワークの特徴を検証した。 予備実験の結果,両モデルともにタスクを学習できた。 第2の一般化試験では、腹側CNNは意味的タスクにおいて背側CNNより優れており、背側CNNは調音タスクにおいて腹側CNNより優れていた。 これらの結果は、腹側および背側処理ストリームの異なる処理要求が複数のlexicaの開発に計算圧力を課すという仮説と一致している。

Gow's (2012) dual lexicon model suggests that the primary purpose of words is to mediate the mappings between acoustic-phonetic input and other forms of linguistic representation. Motivated by evidence from functional imaging, aphasia, and behavioral results, the model argues for the existence of two parallel wordform stores: the dorsal and ventral processing streams. In this paper, we tested the hypothesis that the complex, but systematic mapping between sound and articulation in the dorsal stream poses different computational pressures on feature sets than the more arbitrary mapping between sound and meaning. To test this hypothesis, we created two deep convolutional neural networks (CNNs). While the dorsal network was trained to identify individual spoken words, the ventral network was trained to map them onto semantic classes. We then extracted patterns of network activation from the penultimate level of each network and tested how well features generated by the network supported generalization to linguistic categorization associated with the dorsal versus ventral processing streams. Our preliminary results showed both models successfully learned their tasks. Secondary generalization testing showed the ventral CNN outperformed the dorsal CNN on a semantic task: concreteness classification, while the dorsal CNN outperformed the ventral CNN on articulation tasks: classification by onset phoneme class and syllable length. These results are consistent with the hypothesis that the divergent processing demands of the ventral and dorsal processing streams impose computational pressures for the development of multiple lexica.
翻訳日:2021-04-14 17:52:18 公開日:2021-04-13
# (参考訳) 実例による学習:流れの正規化による高速信頼性アウェア地震イメージング [全文訳有]

Learning by example: fast reliability-aware seismic imaging with normalizing flows ( http://arxiv.org/abs/2104.06255v1 )

ライセンス: CC BY 4.0
Ali Siahkoohi and Felix J. Herrmann(参考訳) 不確かさの定量化は、不適切な逆問題の候補解の信頼性に関する定量的な尺度を提供する。 そのシーケンシャルな性質のため、モンテカルロサンプリング法は正確なベイズ推定のために多数のサンプリングステップを必要とし、地震イメージングのような大規模な逆問題に対して計算不可能であることが多い。 我々の主な貢献はデータ駆動の変分推論手法であり、近隣の地震データから得られた後部分布を安価にサンプリングできる非可逆ニューラルネットワークの一種である正規化流(NF)を訓練する。 この結果に到達するために、我々はNFを低解像度と高忠実なマイグレーション画像のペアで訓練する。 数値例では,parihakaデータセットから高忠実度画像を得るとともに,これらの画像から低忠実度画像を得る。 推定中,新しい地震探査から得られたショット記録から,まず逆時間マイグレーション画像を計算した。 次に、この低忠実度画像をnfに送ることで、後方分布からのサンプルへのアクセスを事実上無料で得ることができる。 これらのサンプルを用いて,画像の信頼性に関する最初の評価を含む高忠実度画像の計算を行う。 私たちの知る限りでは、これは隣接する画像から知っていることを条件付きネットワークで訓練し、現在の画像を改善し、信頼性を評価する最初の試みです。

Uncertainty quantification provides quantitative measures on the reliability of candidate solutions of ill-posed inverse problems. Due to their sequential nature, Monte Carlo sampling methods require large numbers of sampling steps for accurate Bayesian inference and are often computationally infeasible for large-scale inverse problems, such as seismic imaging. Our main contribution is a data-driven variational inference approach where we train a normalizing flow (NF), a type of invertible neural net, capable of cheaply sampling the posterior distribution given previously unseen seismic data from neighboring surveys. To arrive at this result, we train the NF on pairs of low- and high-fidelity migrated images. In our numerical example, we obtain high-fidelity images from the Parihaka dataset and low-fidelity images are derived from these images through the process of demigration, followed by adding noise and migration. During inference, given shot records from a new neighboring seismic survey, we first compute the reverse-time migration image. Next, by feeding this low-fidelity migrated image to the NF we gain access to samples from the posterior distribution virtually for free. We use these samples to compute a high-fidelity image including a first assessment of the image's reliability. To our knowledge, this is the first attempt to train a conditional network on what we know from neighboring images to improve the current image and assess its reliability.
翻訳日:2021-04-14 17:42:44 公開日:2021-04-13
# (参考訳) 教師なしコントラスト学習によるグラフ表現学習のための負サンプリング戦略の探索 [全文訳有]

Probing Negative Sampling Strategies to Learn GraphRepresentations via Unsupervised Contrastive Learning ( http://arxiv.org/abs/2104.06317v1 )

ライセンス: CC BY 4.0
Shiyi Chen, Ziao Wang, Xinni Zhang, Xiaofeng Zhang, Dan Peng(参考訳) グラフ表現学習は、様々な現実世界のアプリケーションにとって、長い間重要かつ困難な課題であった。 しかし、ダウンストリームタスクは主に教師付きまたは半教師付き学習の設定で実行される。 そこで本論文は,教師なしコントラスト学習の最近の進歩に触発され,ノードワイドコントラスト学習の実施方法について検討する。 特に,クラス衝突問題と不均衡な負のデータ分散問題をそれぞれ解決する。 実世界の3つのデータセットに対して大規模な実験を行い,提案手法によりSOTAモデルの性能が向上する。

Graph representation learning has long been an important yet challenging task for various real-world applications. However, their downstream tasks are mainly performed in the settings of supervised or semi-supervised learning. Inspired by recent advances in unsupervised contrastive learning, this paper is thus motivated to investigate how the node-wise contrastive learning could be performed. Particularly, we respectively resolve the class collision issue and the imbalanced negative data distribution issue. Extensive experiments are performed on three real-world datasets and the proposed approach achieves the SOTA model performance.
翻訳日:2021-04-14 17:31:55 公開日:2021-04-13
# (参考訳) 生成対話システム評価における言語的特徴の利用について [全文訳有]

On the Use of Linguistic Features for the Evaluation of Generative Dialogue Systems ( http://arxiv.org/abs/2104.06335v1 )

ライセンス: CC BY 4.0
Ian Berlot-Attwell and Frank Rudzicz(参考訳) テキストベースの非タスク指向対話システム(すなわち 'chatbots')を自動評価することは未解決の問題である。 従来のアプローチでは、人間の判断との相関が低かったり、一般化が低かったり、比較や注釈付きデータに金の基準が必要だったりしていた。 既存の評価方法を拡張して, 言語的特徴に基づく指標は, 人間の判断と良好な相関を維持し, 解釈可能であり, ゴールド標準参照や人間の注釈データを必要としないことを示す。 この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。 機能の振る舞いは、テストされたモデルの既知の特性と一致しており、ドメイン間で似ています。 また,本手法は,応答関連性を評価するタスクにおいて,新しい領域へのゼロショット一般化などの有望な特性を示す。

Automatically evaluating text-based, non-task-oriented dialogue systems (i.e., `chatbots') remains an open problem. Previous approaches have suffered challenges ranging from poor correlation with human judgment to poor generalization and have often required a gold standard reference for comparison or human-annotated data. Extending existing evaluation methods, we propose that a metric based on linguistic features may be able to maintain good correlation with human judgment and be interpretable, without requiring a gold-standard reference or human-annotated data. To support this proposition, we measure and analyze various linguistic features on dialogues produced by multiple dialogue models. We find that the features' behaviour is consistent with the known properties of the models tested, and is similar across domains. We also demonstrate that this approach exhibits promising properties such as zero-shot generalization to new domains on the related task of evaluating response relevance.
翻訳日:2021-04-14 17:17:31 公開日:2021-04-13
# (参考訳) 資源制限下の大規模意思決定木計画における深い想像力は最適政策に近い [全文訳有]

Deep imagination is a close to optimal policy for planning in large decision trees under limited resources ( http://arxiv.org/abs/2104.06339v1 )

ライセンス: CC BY 4.0
Ruben Moreno-Bote and Chiara Mastrogiuseppe(参考訳) 多くの決定は、休暇のためにエキゾチックな国を訪れる計画のように、深い、広い決定木で不確実な行動を選択することを含む。 この場合、最善の一連のアクションの徹底的な探索は、多くの可能性と決定に利用可能な限られた時間や計算資源のため、扱いが難しい。 したがって、計画エージェントは、有限探索能力を最適に割り当てるために、幅(ツリーの各レベルでの多くのアクションを探索する)と深さ(ツリー内の多くのレベルを探索する)のバランスをとる必要がある。 本研究では, 有限サンプリング容量を最大決定木に割り当てる問題に対して, 効率的な解析解と数値解析を提供する。 概して最適な政策は, 深度に到達できるように, サンプルの割り当てを最小限に抑えることであり, 広帯域探索よりも深度を優先することにある。 対照的に、貧弱な環境や低容量の環境では、深くサンプリングしないコストで枝を広範囲にサンプリングすることが最善であるが、この方針は深い割り当てよりも極端に優れている。 以上より,計画計画における深い想像力の最適性に関する理論的基礎を提供し,認知システムの有限制約から進化した,一般に有効なヒューリスティックであることを示す。

Many decisions involve choosing an uncertain course of actions in deep and wide decision trees, as when we plan to visit an exotic country for vacation. In these cases, exhaustive search for the best sequence of actions is not tractable due to the large number of possibilities and limited time or computational resources available to make the decision. Therefore, planning agents need to balance breadth (exploring many actions at each level of the tree) and depth (exploring many levels in the tree) to allocate optimally their finite search capacity. We provide efficient analytical solutions and numerical analysis to the problem of allocating finite sampling capacity in one shot to large decision trees. We find that in general the optimal policy is to allocate few samples per level so that deep levels can be reached, thus favoring depth over breadth search. In contrast, in poor environments and at low capacity, it is best to broadly sample branches at the cost of not sampling deeply, although this policy is marginally better than deep allocations. Our results provide a theoretical foundation for the optimality of deep imagination for planning and show that it is a generally valid heuristic that could have evolved from the finite constraints of cognitive systems.
翻訳日:2021-04-14 17:04:19 公開日:2021-04-13
# (参考訳) GPUのスパース近傍法におけるセミリングプリミティブ [全文訳有]

Semiring Primitives for Sparse Neighborhood Methods on the GPU ( http://arxiv.org/abs/2104.06357v1 )

ライセンス: CC BY 4.0
Corey J. Nolet, Divye Gala, Edward Raff, Joe Eaton, Brad Rees, John Zedlewski, Tim Oates(参考訳) スパースベクトル上の数学的演算のための高性能プリミティブは、歪んだ次数分布の課題と、通常密接な演算では問題にならないメモリ消費の制限を扱う必要がある。 スパースセミリングプリミティブは、gpu上での性能とメモリ効率を維持しつつ、広範囲の臨界距離計測をサポートするのに十分な柔軟性を持つことが実証される。 さらに,このプリミティブは,周辺情報検索や機械学習アルゴリズムがスパース入力を受け付けるための基礎的なコンポーネントであることを示す。 われわれの知る限り、これは単一のフレキシブルな設計パラダイムの下でGPU上のいくつかの臨界距離測定の計算を統合することを目的とした最初の研究であり、この分野における将来の研究のための良いベースラインを提供することを期待している。 実装は完全にオープンソースで、https://github.com/r apidsai/cumlで公開されています。

High-performance primitives for mathematical operations on sparse vectors must deal with the challenges of skewed degree distributions and limits on memory consumption that are typically not issues in dense operations. We demonstrate that a sparse semiring primitive can be flexible enough to support a wide range of critical distance measures while maintaining performance and memory efficiency on the GPU. We further show that this primitive is a foundational component for enabling many neighborhood-based information retrieval and machine learning algorithms to accept sparse input. To our knowledge, this is the first work aiming to unify the computation of several critical distance measures on the GPU under a single flexible design paradigm and we hope that it provides a good baseline for future research in this area. Our implementation is fully open source and publicly available at https://github.com/r apidsai/cuml.
翻訳日:2021-04-14 16:37:15 公開日:2021-04-13
# (参考訳) Neuro-Symbolic VQA : AGI desiderataの立場から [全文訳有]

Neuro-Symbolic VQA: A review from the perspective of AGI desiderata ( http://arxiv.org/abs/2104.06365v1 )

ライセンス: CC BY 4.0
Ian Berlot-Attwell(参考訳) AIとMLの究極的な目標は、人工知能(AGI)である。 本稿では,視覚的質問応答 (VQA) に対する神経シンボル (NS) の適応について,AGI desiderata の観点から検討する。 これらのシステムがこれらのデシダラタにいかにうまく適合するか、そしてデシダラタが科学者を反対方向に引っ張り出すかを見る。 この作業を通じて,ベンチマークのモデル評価を誘惑し,これらのシステムの性質と今後の拡張の可能性について議論できることを願っています。

An ultimate goal of the AI and ML fields is artificial general intelligence (AGI); although such systems remain science fiction, various models exhibit aspects of AGI. In this work, we look at neuro-symbolic (NS)approaches to visual question answering (VQA) from the perspective of AGI desiderata. We see how well these systems meet these desiderata, and how the desiderata often pull the scientist in opposing directions. It is my hope that through this work we can temper model evaluation on benchmarks with a discussion of the properties of these systems and their potential for future extension.
翻訳日:2021-04-14 16:16:56 公開日:2021-04-13
# (参考訳) オンチップファインツーンを用いた計算インメモリ加速器の逆攻撃の軽減 [全文訳有]

Mitigating Adversarial Attack for Compute-in-Memory Accelerator Utilizing On-chip Finetune ( http://arxiv.org/abs/2104.06377v1 )

ライセンス: CC BY 4.0
Shanshi Huang, Hongwu Jiang and Shimeng Yu(参考訳) アナログ領域に並列乗算と累積を実装し,畳み込みニューラルネットワーク(CNN)計算を高速化するために,CIM(Compute-in-Memo ry)が提案されている。 しかし、その後の処理は依然としてデジタルドメインで行うことが望ましい。 これはCIMアーキテクチャにおいてデジタルコンバータ(ADC)と類似している。 1つの欠点はプロセス変動によって導入されたadcエラーである。 オフセット低減のため, ADC設計の改善に向けた研究が進められているが, ADC誤差による精度損失はモデル重み付けにより回収できることがわかった。 ADCオフセットの補償に加えて、オンチップの重み付けは、操作された入力サンプルで推論エンジンを騙すことを目的とした敵攻撃に対する追加の保護を提供するために利用することができる。 評価の結果,各チップに特定のADCオフセットパターンにモデル重みを適応させることで,対向攻撃の伝達性が抑制されることがわかった。 C&W法で攻撃されるチップでは、CIFAR-10データセットの分類はほぼ0%に低下する。 しかし、同じ生成した逆数例を他のチップに適用する場合、VGG-8とDenseNet-40の精度は62%以上、精度は85%以上維持できる。

Compute-in-memory (CIM) has been proposed to accelerate the convolution neural network (CNN) computation by implementing parallel multiply and accumulation in analog domain. However, the subsequent processing is still preferred to be performed in digital domain. This makes the analog to digital converter (ADC) critical in CIM architectures. One drawback is the ADC error introduced by process variation. While research efforts are being made to improve ADC design to reduce the offset, we find that the accuracy loss introduced by the ADC error could be recovered by model weight finetune. In addition to compensate ADC offset, on-chip weight finetune could be leveraged to provide additional protection for adversarial attack that aims to fool the inference engine with manipulated input samples. Our evaluation results show that by adapting the model weights to the specific ADC offset pattern to each chip, the transferability of the adversarial attack is suppressed. For a chip being attacked by the C&W method, the classification for CIFAR-10 dataset will drop to almost 0%. However, when applying the similarly generated adversarial examples to other chips, the accuracy could still maintain more than 62% and 85% accuracy for VGG-8 and DenseNet-40, respectively.
翻訳日:2021-04-14 16:04:08 公開日:2021-04-13
# (参考訳) QA-GNN:質問応答のための言語モデルと知識グラフ [全文訳有]

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering ( http://arxiv.org/abs/2104.06378v1 )

ライセンス: CC BY 4.0
Michihiro Yasunaga, Hongyu Ren, Antoine Bosselut, Percy Liang and Jure Leskovec(参考訳) 事前学習された言語モデル(lms)と知識グラフ(kgs)からの知識を使って質問に答える問題は、qaコンテキスト(質問と回答の選択)が与えられた場合、メソッドは(i)大きなkgから関連する知識を特定し、(ii)qaコンテキストとkgで共同推論を行う必要がある。 ここでは,この課題に対処する新たなモデルQA-GNNを提案する。 (i) 関連スコア, (i) LMを用いて与えられたQAコンテキストに対するKGノードの重要性を推定する, (ii) 共同推論, (ii) QAコンテキストとKGを結合グラフに接続し,グラフベースのメッセージパッシングによって表現を相互に更新する,という2つの重要なイノベーションである。 我々は、CommonsenseQAおよびOpenBookQAデータセットのQA-GNNを評価し、既存のLMおよびLM+KGモデルよりも改善され、また、質問の否定を正しく扱えるように解釈可能で構造化された推論を行う能力を示す。

The problem of answering questions using knowledge from pre-trained language models (LMs) and knowledge graphs (KGs) presents two challenges: given a QA context (question and answer choice), methods need to (i) identify relevant knowledge from large KGs, and (ii) perform joint reasoning over the QA context and KG. Here we propose a new model, QA-GNN, which addresses the above challenges through two key innovations: (i) relevance scoring, where we use LMs to estimate the importance of KG nodes relative to the given QA context, and (ii) joint reasoning, where we connect the QA context and KG to form a joint graph, and mutually update their representations through graph-based message passing. We evaluate QA-GNN on the CommonsenseQA and OpenBookQA datasets, and show its improvement over existing LM and LM+KG models, as well as its capability to perform interpretable and structured reasoning, e.g., correctly handling negation in questions.
翻訳日:2021-04-14 15:51:26 公開日:2021-04-13
# (参考訳) EXPLAINABOARD: NLPのための説明可能なリーダーボード [全文訳有]

EXPLAINABOARD: An Explainable Leaderboard for NLP ( http://arxiv.org/abs/2104.06387v1 )

ライセンス: CC BY 4.0
Pengfei Liu, Jinlan Fu, Yang Xiao, Weizhe Yuan, Shuaicheng Chang, Junqi Dai, Yixin Liu, Zihuiwen Ye, Graham Neubig(参考訳) NLP研究の急速な発展に伴い、リーダーボードは様々なNLPタスクにおける各種システムの性能を追跡する一つのツールとして登場した。 それらはある程度この目標に有効であるが、一般的には全体的精度数を通してのみ伝達される、提出されたシステムのより単純な1次元のビューを示す。 本稿では,NLP評価の新たな概念化と実装について述べる: ExplainaBoardは,標準のリーダボードの機能を継承するだけでなく,研究者が単一システム(例えば,)の強度や弱点を診断することを可能にする。 最もパフォーマンスの悪いシステムは何か? (ii)複数のシステム間の関係を解釈する。 (例) システムAはシステムBより優れているのか? システムa、b、cを組み合わせるとどうなるか? そして(iii)予測結果を綿密に検討する(例) 複数のシステムで発生する一般的なエラーとは何であり、特定のエラーが発生するのか? ExplainaBoardは \url{https://github.com/n eulab/ExplainaBoard} でデプロイされ、300以上のシステムからファイル、40のデータセット、9つのタスクを出力し、将来的には「アウトプット駆動」の研究を動機付けるための解釈可能な評価コードもリリースしました。

With the rapid development of NLP research, leaderboards have emerged as one tool to track the performance of various systems on various NLP tasks. They are effective in this goal to some extent, but generally present a rather simplistic one-dimensional view of the submitted systems, communicated only through holistic accuracy numbers. In this paper, we present a new conceptualization and implementation of NLP evaluation: the ExplainaBoard, which in addition to inheriting the functionality of the standard leaderboard, also allows researchers to (i) diagnose strengths and weaknesses of a single system (e.g. what is the best-performing system bad at?) (ii) interpret relationships between multiple systems. (e.g. where does system A outperform system B? What if we combine systems A, B, C?) and (iii) examine prediction results closely (e.g. what are common errors made by multiple systems or and in what contexts do particular errors occur?). ExplainaBoard has been deployed at \url{http://explainaboard .nlpedia.ai/}, and we have additionally released our interpretable evaluation code at \url{https://github.com/n eulab/ExplainaBoard} and output files from more than 300 systems, 40 datasets, and 9 tasks to motivate the "output-driven" research in the future.
翻訳日:2021-04-14 15:23:40 公開日:2021-04-13
# (参考訳) 家庭における形状と材料捕獲 [全文訳有]

Shape and Material Capture at Home ( http://arxiv.org/abs/2104.06397v1 )

ライセンス: CC BY 4.0
Daniel Lichy, Jiaye Wu, Soumyadip Sengupta, David W. Jacobs(参考訳) 本稿では,カメラ,懐中電灯,オプションで三脚のみを用いて物体の形状と反射率を推定する手法を提案する。 本研究では,ユーザが物体の周りを回ってフラッシュライトで照らし,ほんの数枚の画像だけをキャプチャする簡易なデータキャプチャ手法を提案する。 我々の主な技術的貢献は、2^{k}*2^{k}の入力画像と2^{k-1}の前のステップから推定された幾何と反射率を2^{k}*2^{k-1}の解像度で予測できる再帰的ニューラルアーキテクチャの導入である。 この再帰的アーキテクチャはrecnetと呼ばれ、256x256の解像度でトレーニングされるが、推論中に1024x1024の画像を容易に操作できる。 提案手法は,3つ以上の入力画像が与えられた場合と比較して,特にスペキュラハイライトやキャストシャドーの領域において,より正確な表面正規化とアルベドを生成する。 ビデオとコードについては、プロジェクトのwebサイトhttp://dlichy.github .io/shapeandmaterial athome/をご覧ください。

In this paper, we present a technique for estimating the geometry and reflectance of objects using only a camera, flashlight, and optionally a tripod. We propose a simple data capture technique in which the user goes around the object, illuminating it with a flashlight and capturing only a few images. Our main technical contribution is the introduction of a recursive neural architecture, which can predict geometry and reflectance at 2^{k}*2^{k} resolution given an input image at 2^{k}*2^{k} and estimated geometry and reflectance from the previous step at 2^{k-1}*2^{k-1}. This recursive architecture, termed RecNet, is trained with 256x256 resolution but can easily operate on 1024x1024 images during inference. We show that our method produces more accurate surface normal and albedo, especially in regions of specular highlights and cast shadows, compared to previous approaches, given three or fewer input images. For the video and code, please visit the project website http://dlichy.github .io/ShapeAndMaterial AtHome/.
翻訳日:2021-04-14 15:07:46 公開日:2021-04-13
# (参考訳) BERT処理が最初に実行するものを決定するメディエータ [全文訳有]

Mediators in Determining what Processing BERT Performs First ( http://arxiv.org/abs/2104.06400v1 )

ライセンス: CC0 1.0
Aviv Slobodkin, Leshem Choshen, Omri Abend(参考訳) アクティベーションパターンを使用して下流タスクを実行するためのニューラルネットワークは、ネットワークのどの部分がどのタスクを実行するかをローカライズするためにしばしば使用される。 しかし、このような比較において潜在的な媒介要因に対処する研究はほとんどなかった。 テストケース調停因子として,予測の文脈長,すなわち予測を行うのに処理が最小限の処理を必要とするスパンの長さを考える。 文脈長の制御を行わないことは,探索データセットの分布に依存するネットワークの局在パターンに関して矛盾する結論をもたらす可能性がある。 実際、7つのタスクでbertを検索すると、probingデータセットでコンテキスト長の分布を操作すると、それら間で196の異なるランキングを得ることができる。 最後に,このような比較を行うためのベストプラクティスを今後提示する。

Probing neural models for the ability to perform downstream tasks using their activation patterns is often used to localize what parts of the network specialize in performing what tasks. However, little work addressed potential mediating factors in such comparisons. As a test-case mediating factor, we consider the prediction's context length, namely the length of the span whose processing is minimally required to perform the prediction. We show that not controlling for context length may lead to contradictory conclusions as to the localization patterns of the network, depending on the distribution of the probing dataset. Indeed, when probing BERT with seven tasks, we find that it is possible to get 196 different rankings between them when manipulating the distribution of context lengths in the probing dataset. We conclude by presenting best practices for conducting such comparisons in the future.
翻訳日:2021-04-14 14:47:58 公開日:2021-04-13
# (参考訳) Lite-HRNet:軽量高分解能ネットワーク [全文訳有]

Lite-HRNet: A Lightweight High-Resolution Network ( http://arxiv.org/abs/2104.06403v1 )

ライセンス: CC BY 4.0
Changqian Yu, Bin Xiao, Changxin Gao, Lu Yuan, Lei Zhang, Nong Sang, Jingdong Wang(参考訳) 人間のポーズ推定に有効な高分解能ネットワークLite-HRNetを提案する。 まず、ShuffleNetの効率的なシャッフルブロックをHRNet(高分解能ネットワーク)に適用するだけで、MobileNetやSmall HRNetといった一般的な軽量ネットワークよりもパフォーマンスが向上します。 シャッフルブロックの高用量(1x1)の畳み込みが計算ボトルネックとなる。 シャッフルブロックにおけるコストのかかる(1x1)畳み込みを置き換えるために,軽量な条件付きチャネル重み付けを導入する。 チャネル重み付けの複雑さは、チャネルの数で線形であり、ポイントワイド畳み込みの2次時間複雑性よりも低い。 我々のソリューションは、HRNetの並列ブランチで容易に利用できる全てのチャンネルと複数の解像度から重みを学習します。 重みをブリッジとして、チャネルと解像度間で情報を交換し、ポイントワイズ (1x1) 畳み込みによって果たす役割を補償する。 Lite-HRNetは、一般的な軽量ネットワークよりも人間のポーズ推定において優れた結果を示す。 さらに、Lite-HRNetはセマンティックセグメンテーションタスクにも、同じように簡単に適用できる。 コードとモデルはhttps://github.com/H RNet/Lite-HRNetで公開されている。

We present an efficient high-resolution network, Lite-HRNet, for human pose estimation. We start by simply applying the efficient shuffle block in ShuffleNet to HRNet (high-resolution network), yielding stronger performance over popular lightweight networks, such as MobileNet, ShuffleNet, and Small HRNet. We find that the heavily-used pointwise (1x1) convolutions in shuffle blocks become the computational bottleneck. We introduce a lightweight unit, conditional channel weighting, to replace costly pointwise (1x1) convolutions in shuffle blocks. The complexity of channel weighting is linear w.r.t the number of channels and lower than the quadratic time complexity for pointwise convolutions. Our solution learns the weights from all the channels and over multiple resolutions that are readily available in the parallel branches in HRNet. It uses the weights as the bridge to exchange information across channels and resolutions, compensating the role played by the pointwise (1x1) convolution. Lite-HRNet demonstrates superior results on human pose estimation over popular lightweight networks. Moreover, Lite-HRNet can be easily applied to semantic segmentation task in the same lightweight manner. The code and models have been publicly available at https://github.com/H RNet/Lite-HRNet.
翻訳日:2021-04-14 14:38:10 公開日:2021-04-13
# (参考訳) BARF:束調整型ニューラルラジアンスフィールド [全文訳有]

BARF: Bundle-Adjusting Neural Radiance Fields ( http://arxiv.org/abs/2104.06405v1 )

ライセンス: CC BY 4.0
Chen-Hsuan Lin, Wei-Chiu Ma, Antonio Torralba, Simon Lucey(参考訳) neural radiance fields(nerf)は最近、現実世界のシーンのフォトリアリスティックなノベルビューを合成する能力により、コンピュータビジョンコミュニティ内で関心を集めている。 しかし、NeRFの1つの制限は、シーン表現を学ぶために正確なカメラポーズを必要とすることである。 本稿では、ニューラルネットワークの3次元表現を学習し、カメラフレームを登録するジョイント問題である、不完全(あるいは未知)カメラポーズからnerfをトレーニングするための、バンドル調整ニューラルネットワーク放射場(barf)を提案する。 従来の画像アライメントと理論的な関係を確立し, 粗大な粒度登録もNeRFに適用可能であることを示す。 さらに,na\"位置符号化をnrfに適用することは,合成に基づく登録に負の影響を与えることを示した。 合成および実世界のデータに関する実験により、BARFは神経シーンの表現を効果的に最適化し、大きなカメラが同時に不一致を生じさせる。 これにより、未知のカメラポーズからの映像シーケンスのビュー合成とローカライズが可能になり、視覚的ローカライズシステム(例えば、)への新しい道を開くことができる。 slam)と高密度3次元マッピングと再構成への応用

Neural Radiance Fields (NeRF) have recently gained a surge of interest within the computer vision community for its power to synthesize photorealistic novel views of real-world scenes. One limitation of NeRF, however, is its requirement of accurate camera poses to learn the scene representations. In this paper, we propose Bundle-Adjusting Neural Radiance Fields (BARF) for training NeRF from imperfect (or even unknown) camera poses -- the joint problem of learning neural 3D representations and registering camera frames. We establish a theoretical connection to classical image alignment and show that coarse-to-fine registration is also applicable to NeRF. Furthermore, we show that na\"ively applying positional encoding in NeRF has a negative impact on registration with a synthesis-based objective. Experiments on synthetic and real-world data show that BARF can effectively optimize the neural scene representations and resolve large camera pose misalignment at the same time. This enables view synthesis and localization of video sequences from unknown camera poses, opening up new avenues for visual localization systems (e.g. SLAM) and potential applications for dense 3D mapping and reconstruction.
翻訳日:2021-04-14 14:10:57 公開日:2021-04-13
# MultiModalQA: テキスト、テーブル、画像に対する複雑な質問応答

MultiModalQA: Complex Question Answering over Text, Tables and Images ( http://arxiv.org/abs/2104.06039v1 )

ライセンス: Link先を確認
Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi, Jonathan Berant(参考訳) 複雑な質問に答えると、視覚的、テキスト的、表的な情報源からの情報をシームレスに組み合わせられる。 近年、複数の証拠を推論するモデルに対する関心は高まっているが、複数のモダリティにまたがるモデルに対する疑問応答に関する研究は比較的少ない。 本稿では,テキスト,テーブル,画像に対する共同推論を必要とする質問応答データセットであるMultiModalQA(MMQA)を提案する。 複雑なマルチモーダルな質問を大規模に生成し、ウィキペディアからテーブルを抽出し、各テーブルに現れるエンティティを使って画像やテキストの段落をアタッチする新しいフレームワークを用いてMMQAを作成する。 次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。 最後に、クラウドソーシング労働者は、これらの自動生成された質問を、より流動的な言語に言い換える。 我々のマルチホップモデルである ImplicitDecomp は、クロスモーダルな質問に対して平均 F1 Of 51.7 を達成し、38.2 F1 に達する強力なベースラインを大幅に上回っているが、それでも 90.1 F1 である人間のパフォーマンスを大幅に遅れている。

When answering complex questions, people can seamlessly combine information from visual, textual and tabular sources. While interest in models that reason over multiple pieces of evidence has surged in recent years, there has been relatively little work on question answering models that reason across multiple modalities. In this paper, we present MultiModalQA(MMQA): a challenging question answering dataset that requires joint reasoning over text, tables and images. We create MMQA using a new framework for generating complex multi-modal questions at scale, harvesting tables from Wikipedia, and attaching images and text paragraphs using entities that appear in each table. We then define a formal language that allows us to take questions that can be answered from a single modality, and combine them to generate cross-modal questions. Last, crowdsourcing workers take these automatically-genera ted questions and rephrase them into more fluent language. We create 29,918 questions through this procedure, and empirically demonstrate the necessity of a multi-modal multi-hop approach to solve our task: our multi-hop model, ImplicitDecomp, achieves an average F1of 51.7 over cross-modal questions, substantially outperforming a strong baseline that achieves 38.2 F1, but still lags significantly behind human performance, which is at 90.1 F1
翻訳日:2021-04-14 13:50:12 公開日:2021-04-13
# $\delta$-clue:不確実性推定のための様々な説明セット

$\delta$-CLUE: Diverse Sets of Explanations for Uncertainty Estimates ( http://arxiv.org/abs/2104.06323v1 )

ライセンス: Link先を確認
Dan Ley, Umang Bhatt, Adrian Weller(参考訳) 微分確率モデルからの不確実性推定を解釈するために、近年の研究では、非現実的非確実性説明(CLUE)の生成を提案する。 しかし、単一入力の場合、そのような手法は説明に制約が加えられていないため、様々な説明を出力できる。 ここでは、オリジナルのCLUEアプローチを拡張し、$\delta$-CLUEと呼ぶものを提供します。 CLUEは入力を変更するための 'emph{one} の方法を示し、データ多様体に留まり、モデルがその予測に対してより自信を持つようになる。 代わりに、可算 CLUE の \emph{set} を返します: 複数の多種多様な入力は、潜在空間における元の入力の$$\delta$ボール内にあり、いずれも確実な予測をもたらす。

To interpret uncertainty estimates from differentiable probabilistic models, recent work has proposed generating Counterfactual Latent Uncertainty Explanations (CLUEs). However, for a single input, such approaches could output a variety of explanations due to the lack of constraints placed on the explanation. Here we augment the original CLUE approach, to provide what we call $\delta$-CLUE. CLUE indicates \emph{one} way to change an input, while remaining on the data manifold, such that the model becomes more confident about its prediction. We instead return a \emph{set} of plausible CLUEs: multiple, diverse inputs that are within a $\delta$ ball of the original input in latent space, all yielding confident predictions.
翻訳日:2021-04-14 13:49:49 公開日:2021-04-13
# 共分散伝播による簡易認定半径最大化

Simpler Certified Radius Maximization by Propagating Covariances ( http://arxiv.org/abs/2104.05888v1 )

ライセンス: Link先を確認
Xingjian Zhen, Rudrasis Chakraborty, Vikas Singh(参考訳) 頑健なモデルを逆行的に訓練するための戦略の1つは、その認定された半径を最大化することである。 このスキームは通常、モンテカルロサンプリングによって実際に達成されたミニバッチの各サンプルの近傍のガウスサンプルに対応する予測を推定する「スムースド」分類器の解析を含む。 本稿では,ネットワークを介して平滑化分布の共分散行列を直接伝播する方法を同定することで,このサンプリングボトルネックを軽減できるという仮説について検討する。 この目的のために、ネットワークの特定の調整以外に、共分散の伝播には、ネットワークの各段階で分布モーメントがどのように変化し相互作用するかを追跡できる追加の会計を伴う必要がある。 これらの基準を満たすと、Cifar-10、ImageNet、Places365などのデータセット上で認証された半径を最大化するアルゴリズムが得られ、その一方で、適度な深さのネットワーク上では、全体的な精度の妥協は少ない。 実用性を実現する重要な変更点の詳細について述べる。 様々な実験によって、単純化が適切であり、重要な利点と限界が何であるかを評価する。

One strategy for adversarially training a robust model is to maximize its certified radius -- the neighborhood around a given training sample for which the model's prediction remains unchanged. The scheme typically involves analyzing a "smoothed" classifier where one estimates the prediction corresponding to Gaussian samples in the neighborhood of each sample in the mini-batch, accomplished in practice by Monte Carlo sampling. In this paper, we investigate the hypothesis that this sampling bottleneck can potentially be mitigated by identifying ways to directly propagate the covariance matrix of the smoothed distribution through the network. To this end, we find that other than certain adjustments to the network, propagating the covariances must also be accompanied by additional accounting that keeps track of how the distributional moments transform and interact at each stage in the network. We show how satisfying these criteria yields an algorithm for maximizing the certified radius on datasets including Cifar-10, ImageNet, and Places365 while offering runtime savings on networks with moderate depth, with a small compromise in overall accuracy. We describe the details of the key modifications that enable practical use. Via various experiments, we evaluate when our simplifications are sensible, and what the key benefits and limitations are.
翻訳日:2021-04-14 13:49:36 公開日:2021-04-13
# VariTex: 変異型ニューラルフェイステクスチャ

VariTex: Variational Neural Face Textures ( http://arxiv.org/abs/2104.05988v1 )

ライセンス: Link先を確認
Marcel C. B\"uhler (1), Abhimitra Meka (2), Gengyan Li (1 and 2), Thabo Beeler (2), Otmar Hilliges (1) ((1) ETH Zurich, (2) Google)(参考訳) 深部生成モデルは最近、人間の顔のフォトリアリスティック画像を新しいアイデンティティで合成できることを実証した。 このような技術の幅広い適用性に対する鍵となる課題は、外観、頭部のポーズ、顔の形状、表情といった意味的に意味のあるパラメータを独立に制御することである。 本稿では,ニューラルフェイステクスチャの変動的潜在性空間を学習する最初の手法であるvaritexを提案する。 この生成モデルとパラメトリックな顔モデルを組み合わせて,顔のポーズや表情を明示的に制御する。 頭部の完全な画像を生成するために,毛髪などの正確な詳細情報を生成する付加デコーダを提案する。 新しい訓練はポーズ独立な潜在空間を強制し、その結果、潜在コードとポーズ条件外領域の間の1対1のマッピングを学ぶことができる。 その結果、顔のポーズ、顔の形状、表情の微妙な制御が可能となり、新しいアイデンティティのサンプリング、再配置、表情の転送など、下流の幅広いタスクが容易になる新規なアイデンティティの幾何学的一貫した画像を生成することができる。

Deep generative models have recently demonstrated the ability to synthesize photorealistic images of human faces with novel identities. A key challenge to the wide applicability of such techniques is to provide independent control over semantically meaningful parameters: appearance, head pose, face shape, and facial expressions. In this paper, we propose VariTex - to the best of our knowledge the first method that learns a variational latent feature space of neural face textures, which allows sampling of novel identities. We combine this generative model with a parametric face model and gain explicit control over head pose and facial expressions. To generate images of complete human heads, we propose an additive decoder that generates plausible additional details such as hair. A novel training scheme enforces a pose independent latent space and in consequence, allows learning of a one-to-many mapping between latent codes and pose-conditioned exterior regions. The resulting method can generate geometrically consistent images of novel identities allowing fine-grained control over head pose, face shape, and facial expressions, facilitating a broad range of downstream tasks, like sampling novel identities, re-posing, expression transfer, and more.
翻訳日:2021-04-14 13:49:16 公開日:2021-04-13
# VR3Dense:Voxel Representation Learning for 3D Object Detection and Monocular Dense Depth Reconstruction

VR3Dense: Voxel Representation Learning for 3D Object Detection and Monocular Dense Depth Reconstruction ( http://arxiv.org/abs/2104.05932v1 )

ライセンス: Link先を確認
Shubham Shrivastava(参考訳) 3Dオブジェクトの検出と深度推定は、自動運転において最も重要なタスクの1つである。 複数のセンサモダリティが協調してロボットの知覚を改善することが可能であり,そのために,3次元物体検出と単眼高密度深層再構成ニューラルネットワークを共同で訓練する手法を提案する。 インプット、LiDARポイントクラウド、単一のRGBイメージを推論し、オブジェクトのポーズ予測と密に再構成された深度マップを生成する。 LiDARポイントクラウドは一連のボクセルに変換され、その特徴は3D畳み込み層を用いて抽出される。 対応するrgb画像特徴を別の2次元畳み込みニューラルネットワークを用いて抽出する。 さらに,これらの複合機能を用いて,深い深さマップの予測を行う。 物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。 また, 損失関数, エッジ保存スムーズロスを導入することにより, エッジ認識スムーズロス関数と比較して, 深度予測作業で頻繁に使用される深度推定がより優れていることを示す。

3D object detection and dense depth estimation are one of the most vital tasks in autonomous driving. Multiple sensor modalities can jointly attribute towards better robot perception, and to that end, we introduce a method for jointly training 3D object detection and monocular dense depth reconstruction neural networks. It takes as inputs, a LiDAR point-cloud, and a single RGB image during inference and produces object pose predictions as well as a densely reconstructed depth map. LiDAR point-cloud is converted into a set of voxels, and its features are extracted using 3D convolution layers, from which we regress object pose parameters. Corresponding RGB image features are extracted using another 2D convolutional neural network. We further use these combined features to predict a dense depth map. While our object detection is trained in a supervised manner, the depth prediction network is trained with both self-supervised and supervised loss functions. We also introduce a loss function, edge-preserving smooth loss, and show that this results in better depth estimation compared to the edge-aware smooth loss function, frequently used in depth prediction works.
翻訳日:2021-04-14 13:48:55 公開日:2021-04-13
# ShapeMOD:3D形状プログラムのためのマクロ操作ディスカバリ

ShapeMOD: Macro Operation Discovery for 3D Shape Programs ( http://arxiv.org/abs/2104.06392v1 )

ライセンス: Link先を確認
R. Kenny Jones, David Charatan, Paul Guerrero, Niloy J. Mitra, Daniel Ritchie(参考訳) 詳細かつ容易に制御可能な3D形状を作成する一般的な方法は、手続きモデリングである。 プログラムを使って幾何学を生成する このようなプログラムは一連の命令と関連するパラメータ値から構成される。 この表現の利点を完全に実現するためには、形状プログラムはコンパクトで、出力幾何の有意義な操作を可能にする自由度だけを露出すべきである。 この目標を達成する1つの方法は、実行時にベースシェイプモデリング言語から一連のコマンドに展開する高レベルのマクロオペレータを設計することである。 しかし、そのようなマクロを手動で作成することは、形状プログラムそのものと同様に困難であり、ドメインの専門家に限られている。 本稿では,3次元形状プログラムの大規模データセット間で有用なマクロを自動的に検出するアルゴリズムであるShapeMODを提案する。 ShapeMODは命令型ステートメントベースの言語で表現された形状プログラムで動作する。 関数呼び出しの数と入力形状のコレクションを表すのに必要な自由パラメータを最小化することで、プログラムをよりコンパクトにするマクロを見つけるように設計されている。 3d形状構造のためのドメイン特化言語で表現された複数のプログラム群でshapemodを実行します。 大規模な形状コレクションを一般化する共通構造パターンやパラメトリックパターンを抽象化する,簡潔なマクロ集合を自動的に発見する。 また,ShapeMODが検出したマクロは,形状生成モデリングや点群からのプログラムの推測など,下流タスクの性能向上を図っている。 最後に、ShapeMODが発見したマクロがインタラクティブな形状編集をより効率的にすることを示すユーザ研究を行う。

A popular way to create detailed yet easily controllable 3D shapes is via procedural modeling, i.e. generating geometry using programs. Such programs consist of a series of instructions along with their associated parameter values. To fully realize the benefits of this representation, a shape program should be compact and only expose degrees of freedom that allow for meaningful manipulation of output geometry. One way to achieve this goal is to design higher-level macro operators that, when executed, expand into a series of commands from the base shape modeling language. However, manually authoring such macros, much like shape programs themselves, is difficult and largely restricted to domain experts. In this paper, we present ShapeMOD, an algorithm for automatically discovering macros that are useful across large datasets of 3D shape programs. ShapeMOD operates on shape programs expressed in an imperative, statement-based language. It is designed to discover macros that make programs more compact by minimizing the number of function calls and free parameters required to represent an input shape collection. We run ShapeMOD on multiple collections of programs expressed in a domain-specific language for 3D shape structures. We show that it automatically discovers a concise set of macros that abstract out common structural and parametric patterns that generalize over large shape collections. We also demonstrate that the macros found by ShapeMOD improve performance on downstream tasks including shape generative modeling and inferring programs from point clouds. Finally, we conduct a user study that indicates that ShapeMOD's discovered macros make interactive shape editing more efficient.
翻訳日:2021-04-14 13:48:35 公開日:2021-04-13
# Pointer Network Reorderingによる連続構文解析の不連続化削減

Reducing Discontinuous to Continuous Parsing with Pointer Network Reordering ( http://arxiv.org/abs/2104.06239v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez and Carlos G\'omez-Rodr\'iguez(参考訳) 不連続構成パーサは、不連続収率を持つ構成器の存在がタスクに余分な複雑さをもたらすため、精度と速度の観点から常に連続的なアプローチに遅れを取っている。 しかし、不連続木はトークンを並べ替えることで連続変種に変換することができる。 そこで本研究では,不連続な解析を連続的な問題に還元する手法を提案する。 そこで我々は,与えられた入力文の連続トークン配置を正確に生成できるポインタネットワークを開発し,元の順序を復元するための単射関数を定義する。 2つの連続解析器による主要なベンチマークの実験では、我々のアプローチは純粋に不連続な最先端のアルゴリズムと同等だが、かなり高速である。

Discontinuous constituent parsers have always lagged behind continuous approaches in terms of accuracy and speed, as the presence of constituents with discontinuous yield introduces extra complexity to the task. However, a discontinuous tree can be converted into a continuous variant by reordering tokens. Based on that, we propose to reduce discontinuous parsing to a continuous problem, which can then be directly solved by any off-the-shelf continuous parser. To that end, we develop a Pointer Network capable of accurately generating the continuous token arrangement for a given input sentence and define a bijective function to recover the original order. Experiments on the main benchmarks with two continuous parsers prove that our approach is on par in accuracy with purely discontinuous state-of-the-art algorithms, but considerably faster.
翻訳日:2021-04-14 13:47:03 公開日:2021-04-13
# 音声言語理解のためのクリーンデータトレーニングと実世界推論のギャップを埋める

Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding ( http://arxiv.org/abs/2104.06393v1 )

ライセンス: Link先を確認
Di Wu, Yiren Chen, Liang Ding, Dacheng Tao(参考訳) 音声言語理解(slu)システムは通常、さまざまなパイプラインコンポーネントで構成され、各コンポーネントは上流コンポーネントの結果に大きく依存する。 例えば、インテント検出(ID)とスロットフィリング(SF)は、音声をテキストに変換するために上流の音声認識(ASR)を必要とする。 この場合、上流の摂動 (upstream perturbation) は、例えば、 ASRエラー、環境騒音、不注意なユーザの発話は、IDとSFモデルに伝播し、システム性能を低下させる。 したがって、良好な性能のSFモデルとIDモデルはある程度のノイズ耐性が期待できる。 しかし、既存のモデルはクリーンなデータに基づいてトレーニングされ、クリーンなデータトレーニングと実際の推論の間の \textit{gap を引き起こす。 このギャップを埋めるために,良質なサンプルと低品質のサンプルの両方を同じベクトル空間に埋め込む領域適応法を提案する。 一方,低品質サンプルの影響を低減するため,デノナイジング生成モデルを設計する。 広く使われているデータセット、すなわち、実験 snipと大規模な社内データセット(1000万のトレーニング例)は、この手法が現実世界(ノイズ)コーパスのベースラインモデルを上回るだけでなく、ノイズの多い環境で高品質な結果を生み出す堅牢性も向上していることを示している。 ソースコードはリリースされます。

Spoken language understanding (SLU) system usually consists of various pipeline components, where each component heavily relies on the results of its upstream ones. For example, Intent detection (ID), and slot filling (SF) require its upstream automatic speech recognition (ASR) to transform the voice into text. In this case, the upstream perturbations, e.g. ASR errors, environmental noise and careless user speaking, will propagate to the ID and SF models, thus deteriorating the system performance. Therefore, the well-performing SF and ID models are expected to be noise resistant to some extent. However, existing models are trained on clean data, which causes a \textit{gap between clean data training and real-world inference.} To bridge the gap, we propose a method from the perspective of domain adaptation, by which both high- and low-quality samples are embedding into similar vector space. Meanwhile, we design a denoising generation model to reduce the impact of the low-quality samples. Experiments on the widely-used dataset, i.e. Snips, and large scale in-house dataset (10 million training examples) demonstrate that this method not only outperforms the baseline models on real-world (noisy) corpus but also enhances the robustness, that is, it produces high-quality results under a noisy environment. The source code will be released.
翻訳日:2021-04-14 13:46:50 公開日:2021-04-13
# newsclippings: コンテキスト外マルチモーダルメディアの自動生成

NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media ( http://arxiv.org/abs/2104.05893v1 )

ライセンス: Link先を確認
Grace Luo, Trevor Darrell, Anna Rohrbach(参考訳) オンライン誤報の脅威は過大評価されがちで、敵は安価な偽造品から高度な偽造品まで、さまざまなツールを頼りにしている。 我々は、キャプションで表現された特定の物語をサポートするために、画像が文脈外に使われる脅威シナリオに動機付けられている。 テキスト操作によって引き起こされる言語的手がかりにより視覚障害者モデルを用いて,画像テキスト不整合を検出するための先行データセットのいくつかは解決できるが,画像とテキストの両方が非操作だがミスマッチするデータセットを提案する。 本稿では,各キャプションに適した画像の自動検索,関連セマンティクス,非一貫性エンティティ,マッチングエンティティ,一貫性のないセマンティクスコンテキストの抽出について紹介する。 当社の大規模自動生成ニュースクリッピングデータセットでは,モダリティ解析とエンティティミスマッチの推論,ニュースメディアにおけるテキストとイメージ間の意味的ミスマッチといったモデルが必要になります。

The threat of online misinformation is hard to overestimate, with adversaries relying on a range of tools, from cheap fakes to sophisticated deep fakes. We are motivated by a threat scenario where an image is being used out of context to support a certain narrative expressed in a caption. While some prior datasets for detecting image-text inconsistency can be solved with blind models due to linguistic cues introduced by text manipulation, we propose a dataset where both image and text are unmanipulated but mismatched. We introduce several strategies for automatic retrieval of suitable images for the given captions, capturing cases with related semantics but inconsistent entities as well as matching entities but inconsistent semantic context. Our large-scale automatically generated NewsCLIPpings Dataset requires models to jointly analyze both modalities and to reason about entity mismatch as well as semantic mismatch between text and images in news media.
翻訳日:2021-04-14 13:46:25 公開日:2021-04-13
# 知識蒸留による視覚的質問応答予測課題における不一致の対処

Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation ( http://arxiv.org/abs/2104.05965v1 )

ライセンス: Link先を確認
Jae Won Cho, Dong-Jin Kim, Jinsoo Choi, Yunjae Jung, In So Kweon(参考訳) 本研究では,視覚的質問応答差予測タスクから生じたモダリティの欠如の問題に対処し,その課題を解決するための新しい方法を提案する。 我々は,試験時間に存在しない欠如モダリティ(基礎的真理の答え)に対処し,欠如モダリティの問題に対処するために特権的知識蒸留スキームを使用する。 そこで,我々はまず,画像・質問・回答トリプレットを入力とし,ベースラインを上回り,モデルの組み合わせを用いて知識を対象ネットワーク(学生)に蒸留し,画像・質問ペアのみを入力とする「ビッグ」教師を紹介する。 我々は,vizwiz と vqa-v2 の回答差データセットを用いてモデル実験を行い,本手法の性能と今後の研究への多様な可能性を明らかにする。

In this work, we address the issues of missing modalities that have arisen from the Visual Question Answer-Difference prediction task and find a novel method to solve the task at hand. We address the missing modality-the ground truth answers-that are not present at test time and use a privileged knowledge distillation scheme to deal with the issue of the missing modality. In order to efficiently do so, we first introduce a model, the "Big" Teacher, that takes the image/question/answe r triplet as its input and outperforms the baseline, then use a combination of models to distill knowledge to a target network (student) that only takes the image/question pair as its inputs. We experiment our models on the VizWiz and VQA-V2 Answer Difference datasets and show through extensive experimentation and ablation the performances of our method and a diverse possibility for future research.
翻訳日:2021-04-14 13:46:08 公開日:2021-04-13
# ファスグラウンドのための遠絡型モチーフ認識グラフ学習

Disentangled Motif-aware Graph Learning for Phrase Grounding ( http://arxiv.org/abs/2104.06008v1 )

ライセンス: Link先を確認
Zongshen Mu, Siliang Tang, Jie Tan, Qiang Yu, Yueting Zhuang(参考訳) 本稿では,画像中の句の接地のための新しいグラフ学習フレームワークを提案する。 シーケンシャルグラフモデルから密度の高いグラフモデルへと発展し、既存の作品は粗い粒度のコンテキストをキャプチャするが、フレーズと画像領域間のコンテキストの多様性を区別できない。 対照的に、シーングラフの文脈に暗示される異なるモチーフに特に注意を払い、そのモチーフを認識した文脈情報を表現に組み込むために、不連続グラフネットワークを考案する。 さらに,特徴と構造レベルでの介入戦略を採用し,表現の統合と一般化を行う。 最後に、クロスモーダルアテンションネットワークを用いてモーダル内特徴を融合し、各フレーズが各領域と類似性を計算し、最良のグラウンドを選択する。 本研究では,dign(disentangled and interventional graph network)の効率を一連のアブレーション研究により検証し,flickr30kエンティティの最先端性能と参照ゲームベンチマークを実現する。

In this paper, we propose a novel graph learning framework for phrase grounding in the image. Developing from the sequential to the dense graph model, existing works capture coarse-grained context but fail to distinguish the diversity of context among phrases and image regions. In contrast, we pay special attention to different motifs implied in the context of the scene graph and devise the disentangled graph network to integrate the motif-aware contextual information into representations. Besides, we adopt interventional strategies at the feature and the structure levels to consolidate and generalize representations. Finally, the cross-modal attention network is utilized to fuse intra-modal features, where each phrase can be computed similarity with regions to select the best-grounded one. We validate the efficiency of disentangled and interventional graph network (DIGN) through a series of ablation studies, and our model achieves state-of-the-art performance on Flickr30K Entities and ReferIt Game benchmarks.
翻訳日:2021-04-14 13:45:50 公開日:2021-04-13
# 長距離空間相関と時間相関を組み込んだ動的テクスチャ合成

Dynamic Texture Synthesis By Incorporating Long-range Spatial and Temporal Correlations ( http://arxiv.org/abs/2104.05940v1 )

ライセンス: Link先を確認
Kaitai Zhang, Bin Wang, Hong-Shuo Chen, Ye Wang, Shiyu Mou, and C.-C. Jay Kuo(参考訳) 動的テクスチャ合成の主な課題は、合成ビデオにおける空間的・時間的一貫性の維持である。 既存の動的テクスチャ合成モデルの大きな欠点は、長距離テクスチャ相関と動き情報の扱いが悪いことである。 この問題に対処するために,参照テクスチャビデオの構造的および長距離的相関を捉えるために,シフトグラム損失という新たな損失項を組み込んだ。 さらに,複数フレーム間の長周期動作を利用したフレームサンプリング手法を提案する。 これら2つの新しい技術により、既存のテクスチャ合成モデルの応用範囲を拡大することができる。 すなわち、均質性だけでなく、構造的な動的テクスチャパターンも合成できる。 提案した動的テクスチャ合成モデルが最先端の視覚性能を提供することを示すための実験結果が得られた。

The main challenge of dynamic texture synthesis lies in how to maintain spatial and temporal consistency in synthesized videos. The major drawback of existing dynamic texture synthesis models comes from poor treatment of the long-range texture correlation and motion information. To address this problem, we incorporate a new loss term, called the Shifted Gram loss, to capture the structural and long-range correlation of the reference texture video. Furthermore, we introduce a frame sampling strategy to exploit long-period motion across multiple frames. With these two new techniques, the application scope of existing texture synthesis models can be extended. That is, they can synthesize not only homogeneous but also structured dynamic texture patterns. Thorough experimental results are provided to demonstrate that our proposed dynamic texture synthesis model offers state-of-the-art visual performance.
翻訳日:2021-04-14 13:45:04 公開日:2021-04-13
# 高速かつ高精度なスーパーリゾリューションを目指して:ベンチマークデータセットとベースライン

Towards Fast and Accurate Real-World Depth Super-Resolution: Benchmark Dataset and Baseline ( http://arxiv.org/abs/2104.06174v1 )

ライセンス: Link先を確認
Lingzhi He, Hongguang Zhu, Feng Li, Huihui Bai, Runmin Cong, Chunjie Zhang, Chunyu Lin, Meiqin Liu, Yao Zhao(参考訳) 商用深度センサによって得られた深度マップは常に低解像度であり、様々なコンピュータビジョンタスクでの使用が困難である。 したがって、深度マップ超解法(SR)は実用的で価値のある課題であり、深度マップを高分解能(HR)空間にスケールアップする。 しかし、現実のペア化低解像度(LR)とHR深度マップが欠如しているため、既存のほとんどの手法はダウンサンプリングを用いてペア化トレーニングサンプルを得る。 この目的のために,我々はまず「RGB-D-D」という大規模データセットを構築した。 我々のデータセットの「D-D」は、屋内シーンから屋外シーンまで、携帯電話とルシッド・ヘリオスから取得したLRとHRの深度マップのペアを表す。 さらに、RGB画像から高周波成分を適応的に分解して深度マップSRを導出する高速深度マップ超解像(FDSR)ベースラインを提供する。 さらに、実世界のLR深度マップでは、より明確な境界を持つより正確なHR深度マップを作成でき、ある程度の精度で深度値誤差を補正できる。

Depth maps obtained by commercial depth sensors are always in low-resolution, making it difficult to be used in various computer vision tasks. Thus, depth map super-resolution (SR) is a practical and valuable task, which upscales the depth map into high-resolution (HR) space. However, limited by the lack of real-world paired low-resolution (LR) and HR depth maps, most existing methods use downsampling to obtain paired training samples. To this end, we first construct a large-scale dataset named "RGB-D-D", which can greatly promote the study of depth map SR and even more depth-related real-world tasks. The "D-D" in our dataset represents the paired LR and HR depth maps captured from mobile phone and Lucid Helios respectively ranging from indoor scenes to challenging outdoor scenes. Besides, we provide a fast depth map super-resolution (FDSR) baseline, in which the high-frequency component adaptively decomposed from RGB image to guide the depth map SR. Extensive experiments on existing public datasets demonstrate the effectiveness and efficiency of our network compared with the state-of-the-art methods. Moreover, for the real-world LR depth maps, our algorithm can produce more accurate HR depth maps with clearer boundaries and to some extent correct the depth value errors.
翻訳日:2021-04-14 13:44:52 公開日:2021-04-13
# 変圧器における層間パラメータ共有の教訓

Lessons on Parameter Sharing across Layers in Transformers ( http://arxiv.org/abs/2104.06022v1 )

ライセンス: Link先を確認
Sho Takase and Shun Kiyono(参考訳) 本稿ではトランスフォーマーのパラメータ共有手法を提案する(Vaswani et al., 2017)。 提案手法は,Universal Transformers (Dehghani et al., 2019) などの全層で1層のパラメータを共有することで,計算時間の効率を向上させるために広く利用されている手法を緩和する。 各層にパラメータを割り当てるためのシーケンス、サイクル、サイクル(rev)の3つの戦略を提案する。 実験の結果,提案手法はパラメータサイズと計算時間において効率的であることが判明した。 また,提案手法は,最近のWMTコンペティションなど,多くのトレーニングデータを使用する構成においても有効であることを示す。

We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.
翻訳日:2021-04-14 13:43:51 公開日:2021-04-13
# Twitterにおけるボット検出用トランスフォーマーの理解

Understanding Transformers for Bot Detection in Twitter ( http://arxiv.org/abs/2104.06182v1 )

ライセンス: Link先を確認
Andres Garcia-Silva, Cristian Berrio, Jose Manuel Gomez-Perez(参考訳) 本稿では,ニューラルネットワークモデルの内部表現におけるソーシャルメディアデータに対する微調整の影響について光を当てる。 Twitterのボット検出は、ソーシャルメディアにおける偽情報や偏見の自動拡散を緩和し、対処するための重要なタスクである。 ボットまたは人間のアカウントが生成するツイートを、そのコンテンツのみに基づいて検出するために、事前学習された言語モデルの使用について検討する。 GLUEのようなベンチマークの一般的な傾向とは異なり、BERTは通常のテキスト上のほとんどの分類タスクにおいて、GPTやGPT-2のような生成トランスフォーマーよりも優れており、ボット検出タスク上の微調整生成トランスフォーマーは高い精度をもたらす。 各変圧器のアーキテクチャコンポーネントを分析し,その隠れた状態と出力表現に対する微調整の影響について検討する。 以上の結果から, BERTが事前学習中に獲得した構文情報と分布特性の一部は微調整で失われ, 生成的事前学習手法はそれらの特性を保存できることがわかった。

In this paper we shed light on the impact of fine-tuning over social media data in the internal representations of neural language models. We focus on bot detection in Twitter, a key task to mitigate and counteract the automatic spreading of disinformation and bias in social media. We investigate the use of pre-trained language models to tackle the detection of tweets generated by a bot or a human account based exclusively on its content. Unlike the general trend in benchmarks like GLUE, where BERT generally outperforms generative transformers like GPT and GPT-2 for most classification tasks on regular text, we observe that fine-tuning generative transformers on a bot detection task produces higher accuracies. We analyze the architectural components of each transformer and study the effect of fine-tuning on their hidden states and output representations. Among our findings, we show that part of the syntactical information and distributional properties captured by BERT during pre-training is lost upon fine-tuning while the generative pre-training approach manage to preserve these properties.
翻訳日:2021-04-14 13:43:38 公開日:2021-04-13
# 騒音コントラスト推定におけるハード負の理解

Understanding Hard Negatives in Noise Contrastive Estimation ( http://arxiv.org/abs/2104.06245v1 )

ライセンス: Link先を確認
Wenzheng Zhang and Karl Stratos(参考訳) ノイズコントラスト推定では負例の選択が重要である。 最近の研究では、ハードネガティブ(モデルの下では最も不正確な例)は実際に効果的であるが、形式的な正当化なしに使用される。 ハードマイナスの役割を理解するための分析ツールを開発した。 具体的には, 相対損失をクロスエントロピー損失の勾配のバイアス推定器とみなし, 負の分布をモデル分布に設定すると, バイアス低減が生じることを理論的および実証的に示す。 また,テキスト検索における様々なアーキテクチャを統一するスコア関数の一般形式も導出する。 ハードネガと適切なスコア関数を組み合わせることで,ゼロショットエンティティリンクの課題に対して強い結果が得られる。

The choice of negative examples is important in noise contrastive estimation. Recent works find that hard negatives -- highest-scoring incorrect examples under the model -- are effective in practice, but they are used without a formal justification. We develop analytical tools to understand the role of hard negatives. Specifically, we view the contrastive loss as a biased estimator of the gradient of the cross-entropy loss, and show both theoretically and empirically that setting the negative distribution to be the model distribution results in bias reduction. We also derive a general form of the score function that unifies various architectures used in text retrieval. By combining hard negatives with appropriate score functions, we obtain strong results on the challenging task of zero-shot entity linking.
翻訳日:2021-04-14 13:43:22 公開日:2021-04-13
# 言語モデルのデトックス化はマイノリティの声の限界化を危険にさらす

Detoxifying Language Models Risks Marginalizing Minority Voices ( http://arxiv.org/abs/2104.06390v1 )

ライセンス: Link先を確認
Albert Xu, Eshaan Pathak, Eric Wallace, Suchin Gururangan, Maarten Sap, Dan Klein(参考訳) 言語モデル(lms)は、実際に責任を持ってデプロイされるためには、安全かつ公平でなければならない。 安全性を念頭に置いて、多くの解毒技術(例:Dathathri et al)。 2020年、Krauseら。 2020年) 有害なlm世代を緩和するために提案されている。 本研究は,現在のデトキシフィケーション技術が公平性に悪影響を及ぼすことを示し,境界化グループ(例えば,アフリカ系アメリカ人英語や少数民族のアイデンティティ)が使用する言語に対するlmsの活用を減少させる。 特に,方言やグループ識別子の異なる入力に対してlmsが条件付けされた場合,テキスト生成品質の自動的・人的評価を行う。 除毒により、LMは分布シフトに対して脆弱になり、特に疎外化グループで使われる言語では、より脆弱であることが判明した。 これらの障害は毒性データセットの急激な相関を利用した解毒法に由来する。 総じて, LMの制御性と分布性の間の張力に着目した。

Language models (LMs) must be both safe and equitable to be responsibly deployed in practice. With safety in mind, numerous detoxification techniques (e.g., Dathathri et al. 2020; Krause et al. 2020) have been proposed to mitigate toxic LM generations. In this work, we show that current detoxification techniques hurt equity: they decrease the utility of LMs on language used by marginalized groups (e.g., African-American English and minority identity mentions). In particular, we perform automatic and human evaluations of text generation quality when LMs are conditioned on inputs with different dialects and group identifiers. We find that detoxification makes LMs more brittle to distribution shift, especially on language used by marginalized groups. We identify that these failures stem from detoxification methods exploiting spurious correlations in toxicity datasets. Overall, our results highlight the tension between the controllability and distributional robustness of LMs.
翻訳日:2021-04-14 13:43:10 公開日:2021-04-13
# GSA-Forecaster:グラフシーケンスアテンションによるグラフベースの時間依存データの予測

GSA-Forecaster: Forecasting Graph-Based Time-Dependent Data with Graph Sequence Attention ( http://arxiv.org/abs/2104.05914v1 )

ライセンス: Link先を確認
Yang Li, Di Wang, and Jos\'e M. F. Moura(参考訳) グラフベースの時間依存データの予測には、多くの実用的な応用がある。 モデルがデータ内の空間的依存性や時間的依存性を捉えるだけでなく、正確な予測に有用な補助情報を活用する必要があるため、このタスクは困難である。 本稿では,時間依存を扱う場合の最先端モデルの限界を分析する。 この制限に対処するために、グラフベースの時間依存データを予測するための新しいディープラーニングモデルであるGSA-Forecasterを提案する。 gsa-forecasterは,時間依存を効果的に捉えるために,新たな注意機構であるグラフシーケンスアテンション(gsa)を利用する。 gsa-forecasterはデータのグラフ構造をそのアーキテクチャに組み込み、空間依存に対処する。 GSA-Forecasterは、予測をさらに改善するために補助情報も記述している。 我々はGSA-Forecasterを大規模実世界のグラフベースの時間依存データで評価し,6.7%のRMSEと5.8%のMAPE削減による最先端モデルに対する効果を示した。

Forecasting graph-based time-dependent data has many practical applications. This task is challenging as models need not only to capture spatial dependency and temporal dependency within the data, but also to leverage useful auxiliary information for accurate predictions. In this paper, we analyze limitations of state-of-the-art models on dealing with temporal dependency. To address this limitation, we propose GSA-Forecaster, a new deep learning model for forecasting graph-based time-dependent data. GSA-Forecaster leverages graph sequence attention (GSA), a new attention mechanism proposed in this paper, for effectively capturing temporal dependency. GSA-Forecaster embeds the graph structure of the data into its architecture to address spatial dependency. GSA-Forecaster also accounts for auxiliary information to further improve predictions. We evaluate GSA-Forecaster with large-scale real-world graph-based time-dependent data and demonstrate its effectiveness over state-of-the-art models with 6.7% RMSE and 5.8% MAPE reduction.
翻訳日:2021-04-14 13:42:56 公開日:2021-04-13
# ウィキペディアの数学的知識をニューラルネットワークモデルに拡張する

Distilling Wikipedia mathematical knowledge into neural network models ( http://arxiv.org/abs/2104.05930v1 )

ライセンス: Link先を確認
Joanne T. Kim, Mikel Landajuela Larma, Brenden K. Petersen(参考訳) シンボリック数学への機械学習応用はますます普及しているが、トレーニングデータとして使用される実世界のシンボリック表現の集中的なソースが欠けている。 対照的に、自然言語処理の分野は、膨大な量の現実世界のテキストデータを提供するWikipediaのようなリソースを活用している。 言語としての数学」の哲学を採用することで、ウィキペディアに埋め込まれた数学的表現を、下流機械学習タスクで使用されるシンボリックエンコーディングに変換するパイプラインを導入することで、このギャップを埋める。 この "corpus" でトレーニングされた $\textit{mathematical}$ $$\textit{language}$ $$\textit{model}$ は、シンボリック回帰のタスクに対するニューラルガイド付き検索のパフォーマンスを改善するために、事前の手段として使用できる。

Machine learning applications to symbolic mathematics are becoming increasingly popular, yet there lacks a centralized source of real-world symbolic expressions to be used as training data. In contrast, the field of natural language processing leverages resources like Wikipedia that provide enormous amounts of real-world textual data. Adopting the philosophy of "mathematics as language," we bridge this gap by introducing a pipeline for distilling mathematical expressions embedded in Wikipedia into symbolic encodings to be used in downstream machine learning tasks. We demonstrate that a $\textit{mathematical}$ $\textit{language}$ $\textit{model}$ trained on this "corpus" of expressions can be used as a prior to improve the performance of neural-guided search for the task of symbolic regression.
翻訳日:2021-04-14 13:42:39 公開日:2021-04-13
# autooed: 自動最適実験設計プラットフォーム

AutoOED: Automated Optimal Experiment Design Platform ( http://arxiv.org/abs/2104.05959v1 )

ライセンス: Link先を確認
Yunsheng Tian, Mina Konakovi\'c Lukovi\'c, Timothy Erps, Michael Foshey, Wojciech Matusik(参考訳) 最適な解の発見を促進するために,自動機械学習を用いた最適な実験設計プラットフォームであるautooedを提案する。 このプラットフォームは、評価すべき実験の設計を自動的に導くことにより、時間的およびデータ効率的に多目的最適化問題を解決する。 最適化プロセスを自動化するために,最先端性能を持つ複数目的ベイズ最適化アルゴリズムを実装した。 AutoOEDはオープンソースでPythonで書かれている。 コードベースはモジュール化されており、拡張とコードの調整が容易であり、機械学習研究者が独自の多目的ベイズ最適化アルゴリズムを開発し、評価するためのテストベッドとして機能する。 直感的なグラフィカルユーザインタフェース(gui)を提供し、コーディングや機械学習、最適化の経験がほとんど、あるいは全くないユーザのために実験を視覚化し、ガイドする。 さらに、遠隔地における独立作業員による並列化実験評価を可能にするために、分散システムを統合する。 プラットフォームはhttps://autooed.org. com/で利用可能である。

We present AutoOED, an Optimal Experiment Design platform powered with automated machine learning to accelerate the discovery of optimal solutions. The platform solves multi-objective optimization problems in time- and data-efficient manner by automatically guiding the design of experiments to be evaluated. To automate the optimization process, we implement several multi-objective Bayesian optimization algorithms with state-of-the-art performance. AutoOED is open-source and written in Python. The codebase is modular, facilitating extensions and tailoring the code, serving as a testbed for machine learning researchers to easily develop and evaluate their own multi-objective Bayesian optimization algorithms. An intuitive graphical user interface (GUI) is provided to visualize and guide the experiments for users with little or no experience with coding, machine learning, or optimization. Furthermore, a distributed system is integrated to enable parallelized experimental evaluations by independent workers in remote locations. The platform is available at https://autooed.org.
翻訳日:2021-04-14 13:42:24 公開日:2021-04-13
# ランダム林の総合的地域解釈規則

Conclusive Local Interpretation Rules for Random Forests ( http://arxiv.org/abs/2104.06040v1 )

ライセンス: Link先を確認
Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) 差別、性別の不平等、経済的損害、さらには死傷者の可能性を含む重要な状況において、機械学習モデルは、彼らの決定に対して明確な解釈を提供することができる必要がある。 さもなければ、不明瞭な意思決定プロセスは、人々の生活に干渉する社会倫理的な問題を引き起こす可能性がある。 前述のセクターでは、ランダムな森林アルゴリズムが取り組んでおり、それ自身を説明する能力は明らかな要件である。 本稿では,本研究の予備的研究に依拠したライオンモレストについて述べる。 LionForestsは、ルールを説明として提供する、ランダムな森林固有の解釈テクニックである。 二項分類タスクから多クラス分類および回帰タスクに適用でき、安定した理論的背景によって支持される。 感度分析や最先端技術との比較を含む実験も実施し,本研究の有効性を実証した。 最後に,結論性(conclusiveness)と呼ばれるライオンモレストの独特な特性に注目し,解釈の妥当性を提供し,それ以前の手法と区別する。

In critical situations involving discrimination, gender inequality, economic damage, and even the possibility of casualties, machine learning models must be able to provide clear interpretations for their decisions. Otherwise, their obscure decision-making processes can lead to socioethical issues as they interfere with people's lives. In the aforementioned sectors, random forest algorithms strive, thus their ability to explain themselves is an obvious requirement. In this paper, we present LionForests, which relies on a preliminary work of ours. LionForests is a random forest-specific interpretation technique, which provides rules as explanations. It is applicable from binary classification tasks to multi-class classification and regression tasks, and it is supported by a stable theoretical background. Experimentation, including sensitivity analysis and comparison with state-of-the-art techniques, is also performed to demonstrate the efficacy of our contribution. Finally, we highlight a unique property of LionForests, called conclusiveness, that provides interpretation validity and distinguishes it from previous techniques.
翻訳日:2021-04-14 13:42:09 公開日:2021-04-13
# LioNets: 暗黙の層情報を爆発させるニューラルネットワーク特有な局所解釈技術

LioNets: A Neural-Specific Local Interpretation Technique Exploiting Penultimate Layer Information ( http://arxiv.org/abs/2104.06057v1 )

ライセンス: Link先を確認
Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) 人工知能(AI)は、ほぼあらゆる面でテクノロジーの予期せぬ成長に大きな影響を与えている。 AIを利用したシステムは、繊細な経済問題と社会問題を監視し、決定している。 未来は自動化に向かっており、それを妨げてはならない。 しかし、制御不能なAIシステムを恐れている多くの人にとって、これは矛盾する視点である。 この懸念は、性別偏差や不明瞭な意思決定システムなど、社会問題に関連する考慮から生まれたものであるならば合理的である。 説明可能なAI(XAI)は最近、信頼できるシステムへの大きなステップとして扱われ、AIに対する人々の信頼を高めている。 XAIのサブフィールドである解釈可能な機械学習(IML)も研究の緊急の課題である。 本稿では,テキストおよび時系列データに適用された局所的,ニューラルネットワーク固有の解釈プロセスに着目し,IMLコミュニティへの小さな貢献について述べる。 提案手法では,特徴重要度に基づく解釈の提示に対する新たなアプローチと,テキストデータセット上での対実語の生成を提案する。 最終的に、分析手法の評価のために改良された評価基準を導入し、定性的かつ定量的な実験の広範なセットをサポートする。

Artificial Intelligence (AI) has a tremendous impact on the unexpected growth of technology in almost every aspect. AI-powered systems are monitoring and deciding about sensitive economic and societal issues. The future is towards automation, and it must not be prevented. However, this is a conflicting viewpoint for a lot of people, due to the fear of uncontrollable AI systems. This concern could be reasonable if it was originating from considerations associated with social issues, like gender-biased, or obscure decision-making systems. Explainable AI (XAI) is recently treated as a huge step towards reliable systems, enhancing the trust of people to AI. Interpretable machine learning (IML), a subfield of XAI, is also an urgent topic of research. This paper presents a small but significant contribution to the IML community, focusing on a local-based, neural-specific interpretation process applied to textual and time-series data. The proposed methodology introduces new approaches to the presentation of feature importance based interpretations, as well as the production of counterfactual words on textual datasets. Eventually, an improved evaluation metric is introduced for the assessment of interpretation techniques, which supports an extensive set of qualitative and quantitative experiments.
翻訳日:2021-04-14 13:41:55 公開日:2021-04-13
# muesli: ポリシー最適化の改善を組み合わせる

Muesli: Combining Improvements in Policy Optimization ( http://arxiv.org/abs/2104.06159v1 )

ライセンス: Link先を確認
Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, Hado van Hasselt(参考訳) 本稿では,正規化政策最適化とモデル学習を補助的損失として組み合わせた新しいポリシー更新を提案する。 このアップデート(後のMuesli)は、MuZeroのAtariの最先端のパフォーマンスと一致する。 特にMuesliは、ディープサーチを使わずに、ポリシーネットワークで直接動作し、モデルフリーのベースラインに匹敵する計算速度を持つ。 atariの結果は、広範なアブレーションと、連続制御と9x9 goの追加の結果によって補完される。

We propose a novel policy update that combines regularized policy optimization with model learning as an auxiliary loss. The update (henceforth Muesli) matches MuZero's state-of-the-art performance on Atari. Notably, Muesli does so without using deep search: it acts directly with a policy network and has computation speed comparable to model-free baselines. The Atari results are complemented by extensive ablations, and by additional results on continuous control and 9x9 Go.
翻訳日:2021-04-14 13:41:36 公開日:2021-04-13
# SPARK:宇宙環境の知識を活用したSPAcecraft Recognition

SPARK: SPAcecraft Recognition leveraging Knowledge of Space Environment ( http://arxiv.org/abs/2104.05978v1 )

ライセンス: Link先を確認
Mohamed Adel Musallam, Kassem Al Ismaeil, Oyebade Oyedotun, Marcos Damian Perez, Michel Poucet, Djamila Aouada(参考訳) 本稿では,SPARKデータセットを新しい空間オブジェクトマルチモーダル画像データセットとして提案する。 画像に基づく物体認識は、特に軌道上サービス、アクティブデブリ除去、衛星形成などの応用において、宇宙状況認識の重要な構成要素である。 しかし、十分なアノテートされた宇宙データがないため、データ駆動型宇宙船認識手法の開発には研究の努力が限られている。 SPARKデータセットは現実的な宇宙シミュレーション環境下で生成され、様々な軌道シナリオのセンシング条件が多様である。 1モードあたり約150kの画像、RGBと深さ、宇宙船とデブリの11のクラスを提供する。 このデータセットは、オブジェクト認識、分類、検出アルゴリズムのベンチマークと、空間感知条件下でのマルチモーダルなRGB-Depthアプローチを開発する機会を提供する。 予備的な実験評価はデータの妥当性を検証し、宇宙環境に特有の興味深いシナリオを浮き彫りにする。

This paper proposes the SPARK dataset as a new unique space object multi-modal image dataset. Image-based object recognition is an important component of Space Situational Awareness, especially for applications such as on-orbit servicing, active debris removal, and satellite formation. However, the lack of sufficient annotated space data has limited research efforts in developing data-driven spacecraft recognition approaches. The SPARK dataset has been generated under a realistic space simulation environment, with a large diversity in sensing conditions for different orbital scenarios. It provides about 150k images per modality, RGB and depth, and 11 classes for spacecrafts and debris. This dataset offers an opportunity to benchmark and further develop object recognition, classification and detection algorithms, as well as multi-modal RGB-Depth approaches under space sensing conditions. Preliminary experimental evaluation validates the relevance of the data, and highlights interesting challenging scenarios specific to the space environment.
翻訳日:2021-04-14 13:41:29 公開日:2021-04-13
# 画像説明のための高速階層ゲーム

Fast Hierarchical Games for Image Explanations ( http://arxiv.org/abs/2104.06164v1 )

ライセンス: Link先を確認
Jacopo Teneggi, Alexandre Luster, Jeremias Sulam(参考訳) 現代の複雑なニューラルネットワークは、記録を破って難しい問題を解決するため、その予測はますます知性が低下する。 現在の解釈可能性の欠如は、センシティブな設定で正確な機械学習ツールの配置を損なうことが多い。 本研究では,シェープ係数の階層的拡張-階層的シャップ(h-Shap)-に基づく画像分類のモデルに依存しない説明法を提案する。 他のShapleyベースの説明手法とは異なり、h-Shapはスケーラブルで近似なしで計算できる。 複数のインスタンス学習に共通するある種の分布仮定の下で、h-Shapは計算複雑性を指数関数的に改善した正確なシェープ係数を取得する。 我々は、我々の階層的アプローチを、合成データセット、医用画像シナリオ、一般的なコンピュータビジョン問題において、一般的なShapleyベースおよび非Shapleyベースの手法と比較し、h-Shapが精度と実行時間の両方で芸術の状態を上回ることを示す。 コードと実験が公開されている。

As modern complex neural networks keep breaking records and solving harder problems, their predictions also become less and less intelligible. The current lack of interpretability often undermines the deployment of accurate machine learning tools in sensitive settings. In this work, we present a model-agnostic explanation method for image classification based on a hierarchical extension of Shapley coefficients --Hierarchical Shap (h-Shap)-- that resolves some of the limitations of current approaches. Unlike other Shapley-based explanation methods, h-Shap is scalable and can be computed without the need of approximation. Under certain distributional assumptions, such as those common in multiple instance learning, h-Shap retrieves the exact Shapley coefficients with an exponential improvement in computational complexity. We compare our hierarchical approach with popular Shapley-based and non-Shapley-based methods on a synthetic dataset, a medical imaging scenario, and a general computer vision problem, showing that h-Shap outperforms the state of the art in both accuracy and runtime. Code and experiments are made publicly available.
翻訳日:2021-04-14 13:41:16 公開日:2021-04-13
# 条件付きシーケンシャル変調を用いた超軽量フォトリタッチネットワーク

Very Lightweight Photo Retouching Network with Conditional Sequential Modulation ( http://arxiv.org/abs/2104.06279v1 )

ライセンス: Link先を確認
Yihao Liu, Jingwen He, Xiangyu Chen, Zhengwen Zhang, Hengyuan Zhao, Chao Dong, Yu Qiao(参考訳) フォトリタッチは、コントラストの低下、露出の過剰/アンダー、不調和といった写真の欠陥に苦しむ画像の美的視覚品質を改善することを目的としている。 実際には、一連の画像処理操作によって、写真のリタッチを行うことができる。 最も一般的に使用されているリタッチ操作はピクセルに依存しない、すなわち1ピクセルの操作はその隣接するピクセルとは無関係であるため、この特性を利用し、効率的なグローバルフォトリタッチのための特別なアルゴリズムを設計することができる。 これらのグローバルな操作を分析し,MLP(Multi-Layer Perceptron)によって数学的に定式化できることを示す。 この観察に基づいて,極めて軽量なフレームワークである条件付きシーケンシャルリタッチネットワーク(csrnet)を提案する。 CSRNetは$1\times1$の畳み込みを利用しており、既存の学習ベースの手法よりも桁違い小さい37Kのトレーニング可能なパラメータしか含まない。 実験により,提案手法はMIT-Adobe FiveK ベンチマークを用いて,定量的かつ定性的に,最先端の性能を実現することを示す。 グローバルな写真リタッチを実現することに加えて,提案フレームワークは局所的な拡張効果を学習するために容易に拡張することができる。 CSRNet-Lと呼ばれる拡張モデルは、様々なローカル拡張タスクにおいて競合する結果を得る。 コードは利用可能だ。

Photo retouching aims at improving the aesthetic visual quality of images that suffer from photographic defects such as poor contrast, over/under exposure, and inharmonious saturation. In practice, photo retouching can be accomplished by a series of image processing operations. As most commonly-used retouching operations are pixel-independent, i.e., the manipulation on one pixel is uncorrelated with its neighboring pixels, we can take advantage of this property and design a specialized algorithm for efficient global photo retouching. We analyze these global operations and find that they can be mathematically formulated by a Multi-Layer Perceptron (MLP). Based on this observation, we propose an extremely lightweight framework -- Conditional Sequential Retouching Network (CSRNet). Benefiting from the utilization of $1\times1$ convolution, CSRNet only contains less than 37K trainable parameters, which are orders of magnitude smaller than existing learning-based methods. Experiments show that our method achieves state-of-the-art performance on the benchmark MIT-Adobe FiveK dataset quantitively and qualitatively. In addition to achieve global photo retouching, the proposed framework can be easily extended to learn local enhancement effects. The extended model, namly CSRNet-L, also achieves competitive results in various local enhancement tasks. Codes will be available.
翻訳日:2021-04-14 13:40:59 公開日:2021-04-13
# コードスイッチ言語と音声ニューラルモデリングのための多言語トランスファー学習

Multilingual Transfer Learning for Code-Switched Language and Speech Neural Modeling ( http://arxiv.org/abs/2104.06268v1 )

ライセンス: Link先を確認
Genta Indra Winata(参考訳) 本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。 まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。 メタトランスファー学習は、マルチタスク学習方式で学習することで、複数の単言語タスクからコードスイッチングタスクにモデルを迅速に適応させる。 第2に,他言語で学習した有用な知識を入手し,関連する言語の共通性を学習し,語彙構成を活用し,コードスイッチングデータを効果的に表現する,新しい多言語メタ埋め込み手法を提案する。 この方法は、文脈的に事前訓練された多言語モデルと比較してはるかに効率的である。 第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。 上記の問題をさらに緩和するために,単言語並列文からコードスイッチポイントをモデルに教えるために,コピー機構を用いたニューラルネットワークであるpointer-genを用いたデータ拡張法を提案する。 言語理論の必要性を解消し、入力語に参画し、パラレル語をアライメントすることで、単語アライメントや選挙区パーサーを必要とせずにコードスイッチングポイントを捕捉する。 さらに重要なことに、このモデルは構文的に異なる言語に効果的に使用することができ、言語理論に基づくモデルよりも優れている。

In this thesis, we address the data scarcity and limitations of linguistic theory by proposing language-agnostic multi-task training methods. First, we introduce a meta-learning-based approach, meta-transfer learning, in which information is judiciously extracted from high-resource monolingual speech data to the code-switching domain. The meta-transfer learning quickly adapts the model to the code-switching task from a number of monolingual tasks by learning to learn in a multi-task learning fashion. Second, we propose a novel multilingual meta-embeddings approach to effectively represent code-switching data by acquiring useful knowledge learned in other languages, learning the commonalities of closely related languages and leveraging lexical composition. The method is far more efficient compared to contextualized pre-trained multilingual models. Third, we introduce multi-task learning to integrate syntactic information as a transfer learning strategy to a language model and learn where to code-switch. To further alleviate the aforementioned issues, we propose a data augmentation method using Pointer-Gen, a neural network using a copy mechanism to teach the model the code-switch points from monolingual parallel sentences. We disentangle the need for linguistic theory, and the model captures code-switching points by attending to input words and aligning the parallel words, without requiring any word alignments or constituency parsers. More importantly, the model can be effectively used for languages that are syntactically different, and it outperforms the linguistic theory-based models.
翻訳日:2021-04-14 13:40:40 公開日:2021-04-13
# 連続・離散デバイスを含むVolt/VAR制御のための二段階オフポリティクス強化学習

Bi-level Off-policy Reinforcement Learning for Volt/VAR Control Involving Continuous and Discrete Devices ( http://arxiv.org/abs/2104.05902v1 )

ライセンス: Link先を確認
Haotian Liu, Wenchuan Wu(参考訳) アクティブ分散ネットワーク(ADN)のVolt/Var制御(VVC)では、スロータイムスケール離散デバイス(STDD)と高速タイムスケール連続デバイス(FTCD)の両方が関与する。 オンロードタップ切換器(oltc)のようなstddと分散ジェネレータのようなftcdは時系列で調整されるべきである。 このようなVCCは、ADNにおけるFTCDとSTDDを協調的に最適化する2段階最適化問題として定式化されている。 従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。 本稿では,この問題をモデルフリーで解くために,新しい2レベルオフポリシー強化学習(rl)アルゴリズムを提案する。 バイレベルマルコフ決定プロセス(BMDP)は、2時間スケールのVVC問題を記述するために定義され、遅くて速い時間スケールのサブプロブレムに対して別々のエージェントが設定される。 高速な時間スケールサブプロブレムでは, サンプル効率の高いソフトアクター・クリティックのオフポリティ・RL法を採用する。 遅いものには、様々なSTDDを用いて次元の呪いに対処する、オフ・ポリティクスのマルチディスク・ソフトアクター・クリティック(MDSAC)アルゴリズムを開発する。 両エージェントの学習プロセスに存在する非定常的問題を緩和するため,重要サンプリング手法を用いてマルチタイムオフポリチ補正(MTOPC)手法を提案する。 総合的な数値研究は、提案手法がモデル情報なしでSTDDとFTCDの安定かつ良好な最適化を達成できるだけでなく、提案手法が既存の2段階VVC法より優れていることを裏付けるものである。

In Volt/Var control (VVC) of active distribution networks(ADNs), both slow timescale discrete devices (STDDs) and fast timescale continuous devices (FTCDs) are involved. The STDDs such as on-load tap changers (OLTC) and FTCDs such as distributed generators should be coordinated in time sequence. Such VCC is formulated as a two-timescale optimization problem to jointly optimize FTCDs and STDDs in ADNs. Traditional optimization methods are heavily based on accurate models of the system, but sometimes impractical because of their unaffordable effort on modelling. In this paper, a novel bi-level off-policy reinforcement learning (RL) algorithm is proposed to solve this problem in a model-free manner. A Bi-level Markov decision process (BMDP) is defined to describe the two-timescale VVC problem and separate agents are set up for the slow and fast timescale sub-problems. For the fast timescale sub-problem, we adopt an off-policy RL method soft actor-critic with high sample efficiency. For the slow one, we develop an off-policy multi-discrete soft actor-critic (MDSAC) algorithm to address the curse of dimensionality with various STDDs. To mitigate the non-stationary issue existing the two agents' learning processes, we propose a multi-timescale off-policy correction (MTOPC) method by adopting importance sampling technique. Comprehensive numerical studies not only demonstrate that the proposed method can achieve stable and satisfactory optimization of both STDDs and FTCDs without any model information, but also support that the proposed method outperforms existing two-timescale VVC methods.
翻訳日:2021-04-14 13:40:14 公開日:2021-04-13
# BlockGNN: ブロック回路ウェイト行列を用いた効率的なGNN高速化を目指す

BlockGNN: Towards Efficient GNN Acceleration Using Block-Circulant Weight Matrices ( http://arxiv.org/abs/2104.06214v1 )

ライセンス: Link先を確認
Zhe Zhou, Bizhao Shi, Zhe Zhang, Yijin Guan, Guangyu Sun, Guojie Luo(参考訳) 近年、グラフニューラルネットワーク(GNN)は非ユークリッドグラフデータを解析するための最先端のアルゴリズムのように見える。 グラフ構造から高次表現を抽出するためにディープラーニングを適用することで、GNNは様々なタスクにおいて異常な精度と大きな一般化能力を達成する。 しかし、グラフのサイズが増加し、より複雑なGNN層が増加し、より高い特徴次元が得られ、GNNの計算複雑性は指数関数的に増大する。 GNNをリアルタイムに推論する方法は、特にリソース制限のあるエッジコンピューティングプラットフォームでは、難しい問題となっている。 この課題に対処するため,効率的なGNN加速を実現するソフトウェア・ハードウェア共同設計手法であるBlockGNNを提案する。 アルゴリズムレベルでは、ブロック循環重み行列を利用して様々なgnnモデルの複雑さを大幅に低減する。 ハードウェア設計レベルでは,効率的なブロック循環行列計算をサポートするパイプラインCirCoreアーキテクチャを提案する。 CirCoreをベースとして,様々なGNNを低レイテンシで計算するBlockGNNアクセラレータを提案する。 さらに,多様なデプロイタスクの最適構成を決定するために,最適化されたハードウェアパラメータを自動的に選択するのに役立つ性能と資源モデルを導入する。 ZC706 FPGAプラットフォームに関する総合的な実験では、BlockGNNはベースラインのHyGCNアーキテクチャと比較して最大8.3\times$スピードアップ、Intel Xeon CPUプラットフォームと比較して111.9\times$エネルギ削減を実現している。

In recent years, Graph Neural Networks (GNNs) appear to be state-of-the-art algorithms for analyzing non-euclidean graph data. By applying deep-learning to extract high-level representations from graph structures, GNNs achieve extraordinary accuracy and great generalization ability in various tasks. However, with the ever-increasing graph sizes, more and more complicated GNN layers, and higher feature dimensions, the computational complexity of GNNs grows exponentially. How to inference GNNs in real time has become a challenging problem, especially for some resource-limited edge-computing platforms. To tackle this challenge, we propose BlockGNN, a software-hardware co-design approach to realize efficient GNN acceleration. At the algorithm level, we propose to leverage block-circulant weight matrices to greatly reduce the complexity of various GNN models. At the hardware design level, we propose a pipelined CirCore architecture, which supports efficient block-circulant matrices computation. Basing on CirCore, we present a novel BlockGNN accelerator to compute various GNNs with low latency. Moreover, to determine the optimal configurations for diverse deployed tasks, we also introduce a performance and resource model that helps choose the optimal hardware parameters automatically. Comprehensive experiments on the ZC706 FPGA platform demonstrate that on various GNN tasks, BlockGNN achieves up to $8.3\times$ speedup compared to the baseline HyGCN architecture and $111.9\times$ energy reduction compared to the Intel Xeon CPU platform.
翻訳日:2021-04-14 13:39:43 公開日:2021-04-13
# 潜在変数に対する閾値ラッソ補正法:機能的ニューラルコネクティビティへの応用

Thresholded Graphical Lasso Adjusts for Latent Variables: Application to Functional Neural Connectivity ( http://arxiv.org/abs/2104.06389v1 )

ライセンス: Link先を確認
Minjie Wang, Genevera I. Allen(参考訳) 神経科学では、研究者は大規模な神経記録やイメージングからニューロンの接続性を明らかにすることを模索しており、しばしばこの目的のためにグラフィカルモデルの選択と推定技術を使用している。 しかし、既存の技術はニューロンのごく一部からしか記録できないため、広範囲な潜在変数の存在下でグラフの選択が困難になる。 Chandrasekaran et al。 (2012) は、この問題に対処する凸プログラムを提案し、計算と統計の両方の観点から課題を提起した。 この問題を解決するために,既存のグラフ選択法にハードしきい値演算子を適用するという,非常に簡単な解を提案する。 概念的に単純かつ計算的に魅力的で,グラフ選択一貫性の面では,グラフラッソ,近傍選択,クリム推定器のしきい値が,潜在変数のグラフィカルモデル問題に対する既存のアプローチよりも強力な経験的結果を持つことを示す。 また, カルシウムイメージングデータを用いた神経科学のケーススタディにより, 機能的神経結合を推定する手法の適用性を示す。

In neuroscience, researchers seek to uncover the connectivity of neurons from large-scale neural recordings or imaging; often people employ graphical model selection and estimation techniques for this purpose. But, existing technologies can only record from a small subset of neurons leading to a challenging problem of graph selection in the presence of extensive latent variables. Chandrasekaran et al. (2012) proposed a convex program to address this problem that poses challenges from both a computational and statistical perspective. To solve this problem, we propose an incredibly simple solution: apply a hard thresholding operator to existing graph selection methods. Conceptually simple and computationally attractive, we demonstrate that thresholding the graphical Lasso, neighborhood selection, or CLIME estimators have superior theoretical properties in terms of graph selection consistency as well as stronger empirical results than existing approaches for the latent variable graphical model problem. We also demonstrate the applicability of our approach through a neuroscience case study on calcium-imaging data to estimate functional neural connections.
翻訳日:2021-04-14 13:38:55 公開日:2021-04-13
# Fibro-CoSANet: Convolutional Self Attention Network を用いた肺線維症予後予測

Fibro-CoSANet: Pulmonary Fibrosis Prognosis Prediction using a Convolutional Self Attention Network ( http://arxiv.org/abs/2104.05889v1 )

ライセンス: Link先を確認
Zabir Al Nazi, Fazla Rabbi Mashrur, Md Amirul Islam, Shumit Saha(参考訳) 特発性肺線維症(IPF)は肺組織障害による肺機能低下を引き起こす間質性肺疾患である。 肺機能低下は強制活力(FVC)によって評価されるが,IPFの正確な進行を判断することは依然として困難である。 この課題に対処するため、我々はFVCの減少を予測するために、新しいエンドツーエンドのマルチモーダル学習ベースのアプローチであるFibro-CoSANetを提案した。 fibro-cosanetは重ねられた注意層を持つ畳み込みニューラルネットワークフレームワークでct画像と人口統計情報を利用した。 また,OSIC肺線維化進展データセットの広範囲な実験により,最新の改良Laplace Log-Likelihoodスコアの6.68を達成し,提案したFibro-CoSANetの優位性を示した。 このネットワークは、IPFの予後精度を向上させるためにネットワークの設計に関わる研究領域に恩恵をもたらす可能性がある。 Fibro-CoSANetのソースコードは: \url{https://github.com/z abir-nabil/Fibro-CoS ANet}で入手できる。

Idiopathic pulmonary fibrosis (IPF) is a restrictive interstitial lung disease that causes lung function decline by lung tissue scarring. Although lung function decline is assessed by the forced vital capacity (FVC), determining the accurate progression of IPF remains a challenge. To address this challenge, we proposed Fibro-CoSANet, a novel end-to-end multi-modal learning-based approach, to predict the FVC decline. Fibro-CoSANet utilized CT images and demographic information in convolutional neural network frameworks with a stacked attention layer. Extensive experiments on the OSIC Pulmonary Fibrosis Progression Dataset demonstrated the superiority of our proposed Fibro-CoSANet by achieving the new state-of-the-art modified Laplace Log-Likelihood score of -6.68. This network may benefit research areas concerned with designing networks to improve the prognostic accuracy of IPF. The source-code for Fibro-CoSANet is available at: \url{https://github.com/z abir-nabil/Fibro-CoS ANet}.
翻訳日:2021-04-14 13:38:36 公開日:2021-04-13
# AdaINを用いた知識蒸留によるCXRセグメンテーションのためのドメイン適応と自己教師型学習

Unifying domain adaptation and self-supervised learning for CXR segmentation via AdaIN-based knowledge distillation ( http://arxiv.org/abs/2104.05892v1 )

ライセンス: Link先を確認
Yujin Oh and Jong Chul Ye(参考訳) セグメンテーションラベルは少ないため、ラベル無しまたは限定ラベルのみでセグメンテーションネットワークを訓練するための広範な研究が行われている。 特に、ドメイン適応、自己指導型学習、教員学生アーキテクチャは、様々なタスクから知識を抽出し、セグメンテーション性能を向上させるために内製されている。 しかし、これらのアプローチは互いに異なるように見えるため、これらの一見異なるアプローチがより良いパフォーマンスのためにどのように組み合わせられるかは明らかではない。 本稿では,AdaINをベースとした知識蒸留による新しいセグメンテーションフレームワークを提案する。AdaINコード生成器とスタイルエンコーダとともに,AdaINレイヤを持つ単一ジェネレータをトレーニングすることで,生成器がドメイン適応とセグメンテーションの両方を実行することができる。 具体的には,胸部X線(CXR)セグメンテーションタスクにおいて,通常のCXRデータに対してのみセグメンテーションマスクが利用可能である場合の難易度に対処するために,トレーニングモデルを適用し,正常なCXR画像と異常なCXR画像の両方に適用すべきである。 単一のジェネレータは、AdaINコードを変更するだけで通常のドメイン変換やセグメンテーションの異常に使用されるため、コンモン特徴を相乗的に学習してセグメンテーション性能を向上させることができる。 CXRデータを用いた実験結果から,通常のCXR画像と異常なCXR画像の両方に対して,トレーニングされたネットワークが,術式ごとのセグメンテーションを達成できることが確認された。

As the segmentation labels are scarce, extensive researches have been conducted to train segmentation networks without labels or with only limited labels. In particular, domain adaptation, self-supervised learning, and teacher-student architecture have been intro- duced to distill knowledge from various tasks to improve the segmentation performance. However, these approaches appear different from each other, so it is not clear how these seemingly different approaches can be combined for better performance. Inspired by the recent StarGANv2 for multi-domain image translation, here we propose a novel seg- mentation framework via AdaIN-based knowledge distillation, where a single generator with AdaIN layers is trained along with the AdaIN code generator and style encoder so that the generator can perform both domain adaptation and segmentation. Specifically, our framework is designed to deal with difficult situations in chest X-ray (CXR) seg- mentation tasks where segmentation masks are only available for normal CXR data, but the trained model should be applied for both normal and abnormal CXR images. Since a single generator is used for abnormal to normal domain conversion and segmentation by simply changing the AdaIN codes, the generator can synergistically learn the com- mon features to improve segmentation performance. Experimental results using CXR data confirm that the trained network can achieve the state-of-the art segmentation per- formance for both normal and abnormal CXR images.
翻訳日:2021-04-14 13:38:19 公開日:2021-04-13
# 盗賊、それに気を配れ - モデル抽出攻撃を理解するために

Thief, Beware of What Get You There: Towards Understanding Model Extraction Attack ( http://arxiv.org/abs/2104.05921v1 )

ライセンス: Link先を確認
Xinyi Zhang, Chengfang Fang, Jie Shi(参考訳) 商用AIモデルをプライベートに保つことは、競争上の優位性を維持することができる。 一部のシナリオでは、AIモデルはプロプライエタリにトレーニングされており、事前訓練されたモデルも、十分な配布データも公開されていない。 これらのモデルに対するモデル抽出攻撃は、通常より破壊的である。 そこで本稿では,このようなシナリオにおけるモデル抽出の挙動を実証的に検討する。 既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。 加えて、攻撃者のハイパーパラメータの影響(例)。 モデルアーキテクチャとオプティマイザ、およびクエリから取得した情報のユーティリティは、直感的ではない。 これらの現象の原因を説明するための洞察を提供する。 これらの観察により,モデル抽出攻撃を,深層強化学習によってこれらの要因をキャプチャする適応フレームワークに定式化する。 実験の結果,提案手法は既存の手法の改善に有効であり,厳密なシナリオではモデル抽出がまだ可能であることが示された。 我々の研究は、システム設計者がシナリオに基づいてより良い防衛戦略を構築するのに役立つ。

Model extraction increasingly attracts research attentions as keeping commercial AI models private can retain a competitive advantage. In some scenarios, AI models are trained proprietarily, where neither pre-trained models nor sufficient in-distribution data is publicly available. Model extraction attacks against these models are typically more devastating. Therefore, in this paper, we empirically investigate the behaviors of model extraction under such scenarios. We find the effectiveness of existing techniques significantly affected by the absence of pre-trained models. In addition, the impacts of the attacker's hyperparameters, e.g. model architecture and optimizer, as well as the utilities of information retrieved from queries, are counterintuitive. We provide some insights on explaining the possible causes of these phenomena. With these observations, we formulate model extraction attacks into an adaptive framework that captures these factors with deep reinforcement learning. Experiments show that the proposed framework can be used to improve existing techniques, and show that model extraction is still possible in such strict scenarios. Our research can help system designers to construct better defense strategies based on their scenarios.
翻訳日:2021-04-14 13:37:51 公開日:2021-04-13
# 物体を含む行動のオンライン認識

Online Recognition of Actions Involving Objects ( http://arxiv.org/abs/2104.06070v1 )

ライセンス: Link先を確認
Zahra Gharaee and Peter G\"ardenfors and Magnus Johnsson(参考訳) オンラインモードで作業するオブジェクトの動作をリアルタイムに認識するオンラインシステムを提案する。 このシステムは並列に実行される2つの情報処理ストリームをマージする。 1つは、エージェントの動きの空間的軌跡を分析して実行された動作を認識する階層的自己組織化マップ(SOM)システムによって実行される。 それは2つのSOM層とカスタムメイドの教師付きニューラルネットワークで構成される。 第1層SOMの活性化シーケンスは、アクションの実行中にエージェントの顕著な姿勢のシーケンスを表す。 これらのアクティベーションシーケンスはその後、第2層SOMに再コードされ、その後、第3層でカスタマイズされた教師付きニューラルネットワークのアクティビティによってラベル付けされる。 第2の情報処理ストリームは、エージェント近傍の複数のオブジェクトのうちどのオブジェクトが適用されるかを決定する第2のシステムによって実行される。 これは近接測度を適用することで達成される。 提案手法は2つの情報処理ストリームを組み合わせて、エージェントが実行したアクションと、どのオブジェクト上で実行したアクションを決定する。 動作認識システムは優れた性能でテストされている。

We present an online system for real time recognition of actions involving objects working in online mode. The system merges two streams of information processing running in parallel. One is carried out by a hierarchical self-organizing map (SOM) system that recognizes the performed actions by analysing the spatial trajectories of the agent's movements. It consists of two layers of SOMs and a custom made supervised neural network. The activation sequences in the first layer SOM represent the sequences of significant postures of the agent during the performance of actions. These activation sequences are subsequently recoded and clustered in the second layer SOM, and then labeled by the activity in the third layer custom made supervised neural network. The second information processing stream is carried out by a second system that determines which object among several in the agent's vicinity the action is applied to. This is achieved by applying a proximity measure. The presented method combines the two information processing streams to determine what action the agent performed and on what object. The action recognition system has been tested with excellent performance.
翻訳日:2021-04-14 13:37:37 公開日:2021-04-13
# UAV-ReID:無人航空機再識別のベンチマーク

UAV-ReID: A Benchmark on Unmanned Aerial Vehicle Re-identification ( http://arxiv.org/abs/2104.06219v1 )

ライセンス: Link先を確認
Daniel Organisciak, Brian K. S. Isaac-Medina, Matthew Poyser, Shanfeng Hu, Toby P. Breckon, Hubert P. H. Shum(参考訳) 無人航空機(UAV)が様々な用途で利用できるようになると、UAVの破壊のリスクが高まる。 近年のディープラーニング開発により、視覚ベースの対UAVシステムは単一のカメラでUAVを検出し、追跡することができる。 しかし、単一のカメラのカバー範囲は限られており、カメラ間でUAVにマッチするマルチカメラ構成を必要とする - これはreID(re-identificati on)と呼ばれる問題である。 時間的・視点的にオブジェクトにマッチする人物と車両のreIDに関する研究は広く行われているが、私たちの知る限り、UAV reIDの研究は行われていない。 uavは歩行者や車両よりもはるかに小型で、空気中に検出されることが多いため、より広い角度で現れる。 現在UAVデータセットには複数のカメラが使用されていないため、この新興地域での機械学習ソリューションの開発を容易にする、UAV再識別データセットであるUAV-reIDを提案する。 UAV-reIDには2つの設定がある: ビューを横断してパフォーマンスを評価し、トラッキングフレームワークを補助し、Big-to-SmallはスケールにわたってreIDのパフォーマンスを評価し、UAVが長距離から検出されたときに早期のreIDを可能にする。 我々は、異なるreIDバックボーンと損失関数を広範囲に評価してベンチマーク研究を行う。 適切な設定で、深層ネットワークは、UAVの優れた表現を学ぶのに十分強力であり、時間外設定では81.9% mAP、挑戦的なビッグ・ツー・スモール設定では46.5%を達成している。 さらに、視覚トランスフォーマは、スケールの極端なばらつきに対して最も堅牢であることがわかった。

As unmanned aerial vehicles (UAVs) become more accessible with a growing range of applications, the potential risk of UAV disruption increases. Recent development in deep learning allows vision-based counter-UAV systems to detect and track UAVs with a single camera. However, the coverage of a single camera is limited, necessitating the need for multicamera configurations to match UAVs across cameras - a problem known as re-identification (reID). While there has been extensive research on person and vehicle reID to match objects across time and viewpoints, to the best of our knowledge, there has been no research in UAV reID. UAVs are challenging to re-identify: they are much smaller than pedestrians and vehicles and they are often detected in the air so appear at a greater range of angles. Because no UAV data sets currently use multiple cameras, we propose the first new UAV re-identification data set, UAV-reID, that facilitates the development of machine learning solutions in this emerging area. UAV-reID has two settings: Temporally-Near to evaluate performance across views to assist tracking frameworks, and Big-to-Small to evaluate reID performance across scale and to allow early reID when UAVs are detected from a long distance. We conduct a benchmark study by extensively evaluating different reID backbones and loss functions. We demonstrate that with the right setup, deep networks are powerful enough to learn good representations for UAVs, achieving 81.9% mAP on the Temporally-Near setting and 46.5% on the challenging Big-to-Small setting. Furthermore, we find that vision transformers are the most robust to extreme variance of scale.
翻訳日:2021-04-14 13:36:56 公開日:2021-04-13
# Co-Scale Conv-Attentional Image Transformer

Co-Scale Conv-Attentional Image Transformers ( http://arxiv.org/abs/2104.06399v1 )

ライセンス: Link先を確認
Weijian Xu, Yifan Xu, Tyler Chang, Zhuowen Tu(参考訳) 本稿では,co-scale conv-attentional image transformers (coat)について述べる。 まず,トランスフォーマーのエンコーダブランチを個別のスケールで整合性を維持しつつ,異なるスケールで学習した表現を効果的に相互通信できるようにし,コスケールアテンション機構を実現するために,一連のシリアルブロックと並列ブロックを設計する。 第2に,効率的な畳み込み的な実装により,因子化アテンションモジュールにおける相対的位置埋め込み定式化を実現することで,畳み込み機構を考案する。 CoaTは、リッチなマルチスケールおよびコンテキストモデリング機能を備えたイメージトランスフォーマーを提供する。 imagenetでは、比較的小さなコートモデルが、類似した大きさの畳み込みニューラルネットワークや画像/画像トランスフォーマーに比べて優れた分類結果を得る。 coatのバックボーンの有効性はオブジェクト検出とインスタンスセグメンテーションにも示されており、下流のコンピュータビジョンタスクへの適用性を示している。

In this paper, we present Co-scale conv-attentional image Transformers (CoaT), a Transformer-based image classifier equipped with co-scale and conv-attentional mechanisms. First, the co-scale mechanism maintains the integrity of Transformers' encoder branches at individual scales, while allowing representations learned at different scales to effectively communicate with each other; we design a series of serial and parallel blocks to realize the co-scale attention mechanism. Second, we devise a conv-attentional mechanism by realizing a relative position embedding formulation in the factorized attention module with an efficient convolution-like implementation. CoaT empowers image Transformers with enriched multi-scale and contextual modeling capabilities. On ImageNet, relatively small CoaT models attain superior classification results compared with the similar-sized convolutional neural networks and image/vision Transformers. The effectiveness of CoaT's backbone is also illustrated on object detection and instance segmentation, demonstrating its applicability to the downstream computer vision tasks.
翻訳日:2021-04-14 13:36:29 公開日:2021-04-13
# DirectProbe: 分類なし表現の研究

DirectProbe: Studying Representations without Classifiers ( http://arxiv.org/abs/2104.05904v1 )

ライセンス: Link先を確認
Yichu Zhou and Vivek Srikumar(参考訳) 言語構造がどのようにコンテクスト化された埋め込みにエンコードされているかを理解することは、NLP@でその印象的なパフォーマンスを説明するのに役立つだろう。 既存のアプローチでは、通常、分類器を訓練し、表現の良さの代理として正確性、相互情報、複雑さを使用する。 この研究において、異なる表現が異なる分類器を必要とする可能性があるため、そうすることは信頼できないと論じる。 我々は,タスクのバージョン空間の概念に基づいて表現の幾何学を直接研究する,ヒューリスティックなDirectProbeを開発する。 いくつかの言語的タスクと文脈的埋め込みの実験では、訓練された分類器がなくても、DirectProbeは埋め込み空間がラベルの表現方法に光を当てることができ、表現のための分類器のパフォーマンスも期待できる。

Understanding how linguistic structures are encoded in contextualized embedding could help explain their impressive performance across NLP@. Existing approaches for probing them usually call for training classifiers and use the accuracy, mutual information, or complexity as a proxy for the representation's goodness. In this work, we argue that doing so can be unreliable because different representations may need different classifiers. We develop a heuristic, DirectProbe, that directly studies the geometry of a representation by building upon the notion of a version space for a task. Experiments with several linguistic tasks and contextualized embeddings show that, even without training classifiers, DirectProbe can shine light into how an embedding space represents labels, and also anticipate classifier performance for the representation.
翻訳日:2021-04-14 13:35:16 公開日:2021-04-13
# QMSum: クエリベースのマルチドメインミーティング要約のための新しいベンチマーク

QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization ( http://arxiv.org/abs/2104.05938v1 )

ライセンス: Link先を確認
Ming Zhong, Da Yin, Tao Yu, Ahmad Zaidi, Mutethia Mutuma, Rahul Jha, Ahmed Hassan Awadallah, Asli Celikyilmaz, Yang Liu, Xipeng Qiu, Dragomir Radev(参考訳) ミーティングは人間のコラボレーションの重要なコンポーネントです。 会議数の増加が記録され、書き起こされていくにつれ、ミーティングの要約は、主要な決定と完了すべきタスクについて会議に出席したかもしれない、あるいは出席していないかもしれない人たちを思い出させるのに不可欠になっている。 しかし、複数の人やトピックを含む長いミーティングの全内容をカバーする単一の短い要約を作成するのは難しい。 異なるタイプのユーザのニーズを満たすために、モデルがクエリに応じてミーティングのスパンを選択して要約するクエリベースのマルチドメインミーティング要約タスクを定義し、このタスクの新しいベンチマークであるqmsumを紹介する。 QMSumは、複数のドメインで232のミーティングで1,808のクエリサマリーペアで構成されている。 さらに,positation-then-sum marize法を調査し,タスクの強力な要約ベースラインを評価する。 実験結果と手動による分析により,QMSumは今後の研究の要約を長期にわたって行う上で重要な課題であることがわかった。 Dataset は \url{https://github.com/Y ale-LILY/QMSum} で利用可能である。

Meetings are a key component of human collaboration. As increasing numbers of meetings are recorded and transcribed, meeting summaries have become essential to remind those who may or may not have attended the meetings about the key decisions made and the tasks to be completed. However, it is hard to create a single short summary that covers all the content of a long meeting involving multiple people and topics. In order to satisfy the needs of different types of users, we define a new query-based multi-domain meeting summarization task, where models have to select and summarize relevant spans of meetings in response to a query, and we introduce QMSum, a new benchmark for this task. QMSum consists of 1,808 query-summary pairs over 232 meetings in multiple domains. Besides, we investigate a locate-then-summariz e method and evaluate a set of strong summarization baselines on the task. Experimental results and manual analysis reveal that QMSum presents significant challenges in long meeting summarization for future research. Dataset is available at \url{https://github.com/Y ale-LILY/QMSum}.
翻訳日:2021-04-14 13:35:03 公開日:2021-04-13
# 機械翻訳におけるジェンダーバイアス

Gender Bias in Machine Translation ( http://arxiv.org/abs/2104.06001v1 )

ライセンス: Link先を確認
Beatrice Savoldi, Marco Gaido, Luisa Bentivogli, Matteo Negri, Marco Turchi(参考訳) 機械翻訳(mt)技術は,情報収集,詳細化,コミュニケーションのためのアクセス可能なショートカットを提供することで,日々の作業を容易にしてくれます。 しかし、ユーザーや社会全体に害を与える偏見に苦しむこともある。 比較的新しい調査分野として、mtのジェンダーバイアスは依然として内部結合性に欠けており、将来の研究を容易にする統一的な枠組みを提唱している。 この目的のために、i)現在のバイアス概念化を、関連する分野からの理論的洞察を踏まえて批判的にレビューする、ii)mtにおけるジェンダーバイアスの評価を目的とした以前の分析を要約する、iii)これまで提案されてきた緩和戦略を議論する、iv)将来の仕事の潜在的方向性に向けての視点。

Machine translation (MT) technology has facilitated our daily tasks by providing accessible shortcuts for gathering, elaborating and communicating information. However, it can suffer from biases that harm users and society at large. As a relatively new field of inquiry, gender bias in MT still lacks internal cohesion, which advocates for a unified framework to ease future research. To this end, we: i)critically review current conceptualizations of bias in light of theoretical insights from related disciplines, ii) summarize previous analyses aimed at assessing gender bias in MT, iii)discuss the mitigating strategies proposed so far, and iv)point toward potential directions for future work.
翻訳日:2021-04-14 13:34:45 公開日:2021-04-13
# 頭の中に何があるの? マルチタスクトランスモデルにおける創発的挙動

What's in your Head? Emergent Behaviour in Multi-Task Transformer Models ( http://arxiv.org/abs/2104.06129v1 )

ライセンス: Link先を確認
Mor Geva, Uri Katz, Aviv Ben-Arie, Jonathan Berant(参考訳) 自然言語処理におけるマルチタスクトレーニングの主要なパラダイムは、入力を共有事前学習言語モデルで表現し、タスク毎に小さなネットワーク(ヘッド)を追加することである。 入力が与えられると、最終予測を出力するために選択されたヘッドが目標ヘッドとなる。 本研究では,対象外の頭部の動作,すなわち,訓練対象と異なるタスクに属する入力が与えられた場合の頭部の出力について検討する。 非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。 例えば、数値推論タスクにおいて、スパン抽出ヘッドは、入力された引数から、ターゲット生成ヘッドによって生成された数値を生成する計算へ抽出する。 また、対象の質問応答ヘッドで訓練された要約ヘッドは、質問が与えられたときにクエリベースの要約を出力し、回答を抽出するコンテキストを出力する。 この創発的行動は、マルチタスクトレーニングが、解釈可能性や一般化に活用できるスキルの非自明な外挿につながることを示唆している。

The primary paradigm for multi-task training in natural language processing is to represent the input with a shared pre-trained language model, and add a small, thin network (head) per task. Given an input, a target head is the head that is selected for outputting the final prediction. In this work, we examine the behaviour of non-target heads, that is, the output of heads when given input that belongs to a different task than the one they were trained for. We find that non-target heads exhibit emergent behaviour, which may either explain the target task, or generalize beyond their original task. For example, in a numerical reasoning task, a span extraction head extracts from the input the arguments to a computation that results in a number generated by a target generative head. In addition, a summarization head that is trained with a target question answering head, outputs query-based summaries when given a question and a context from which the answer is to be extracted. This emergent behaviour suggests that multi-task training leads to non-trivial extrapolation of skills, which can be harnessed for interpretability and generalization.
翻訳日:2021-04-14 13:34:08 公開日:2021-04-13
# 知識に基づく言語アノテーションが科学埋め込みの品質に及ぼす影響について

On the Impact of Knowledge-based Linguistic Annotations in the Quality of Scientific Embeddings ( http://arxiv.org/abs/2104.06200v1 )

ライセンス: Link先を確認
Andres Garcia-Silva, Ronald Denaux, Jose Manuel Gomez-Perez(参考訳) 基本的に、埋め込みアルゴリズムは、単語の分布表現を符号化する埋め込み空間を生成するために、単語と通常の文脈の間の距離を最適化することで機能する。 単一の単語や単語の断片に加えて、語彙、文法、意味情報を含むテキストの言語学的分析から生じる他の特徴は、埋め込み空間の質を向上させるために使用できる。 しかし、今まで、そのような個々のアノテーションとその組み合わせが埋め込みの品質に与える影響について、正確な理解はありませんでした。 本稿では,科学的コーパスから埋め込みを生成するための明示的な言語アノテーションの利用に関する包括的な研究を行い,その結果の表現への影響を定量化する。 以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。 一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。

In essence, embedding algorithms work by optimizing the distance between a word and its usual context in order to generate an embedding space that encodes the distributional representation of words. In addition to single words or word pieces, other features which result from the linguistic analysis of text, including lexical, grammatical and semantic information, can be used to improve the quality of embedding spaces. However, until now we did not have a precise understanding of the impact that such individual annotations and their possible combinations may have in the quality of the embeddings. In this paper, we conduct a comprehensive study on the use of explicit linguistic annotations to generate embeddings from a scientific corpus and quantify their impact in the resulting representations. Our results show how the effect of such annotations in the embeddings varies depending on the evaluation task. In general, we observe that learning embeddings using linguistic annotations contributes to achieve better evaluation results.
翻訳日:2021-04-14 13:33:51 公開日:2021-04-13
# GLaRA: 弱教師付き名前付きエンティティ認識のためのグラフベースラベル規則の拡張

GLaRA: Graph-based Labeling Rule Augmentation for Weakly Supervised Named Entity Recognition ( http://arxiv.org/abs/2104.06230v1 )

ライセンス: Link先を確認
Xinyan Zhao, Haibo Ding, Zhe Feng(参考訳) 高価な手動アノテーションを使う代わりに、研究者はヒューリスティックなラベリングルールを使用して名前付きエンティティ認識(NER)システムを訓練することを提案した。 しかし、多くの手作業とドメインの専門知識を必要とするため、ラベリングルールの考案は困難である。 この問題を解決するために,ラベル付きデータから新しいラベル付きルールを学ぶために,グラフベースのラベル付きルール拡張フレームワークである \textsc{glara} を提案する。 まず,ラベルなしデータから抽出した候補規則を表すノードを用いたグラフを作成する。 そこで我々は,ルール間の意味関係を探索し,ラベル付け規則を強化する新しいグラフニューラルネットワークを設計する。 ラベルなしデータに拡張ルールを適用し、弱いラベルを生成し、弱いラベル付きデータを使ってNERモデルを訓練する。 提案手法を3つのNERデータセット上で評価した結果,シードルールの小さなセットを与えられた場合,最良基準値に対して+20\% F1スコアを平均的に改善できることが判明した。

Instead of using expensive manual annotations, researchers have proposed to train named entity recognition (NER) systems using heuristic labeling rules. However, devising labeling rules is challenging because it often requires a considerable amount of manual effort and domain expertise. To alleviate this problem, we propose \textsc{GLaRA}, a graph-based labeling rule augmentation framework, to learn new labeling rules from unlabeled data. We first create a graph with nodes representing candidate rules extracted from unlabeled data. Then, we design a new graph neural network to augment labeling rules by exploring the semantic relations between rules. We finally apply the augmented rules on unlabeled data to generate weak labels and train a NER model using the weakly labeled data. We evaluate our method on three NER datasets and find that we can achieve an average improvement of +20\% F1 score over the best baseline when given a small set of seed rules.
翻訳日:2021-04-14 13:33:36 公開日:2021-04-13
# 言語変化のダイナミクスのモデリング:ロジスティック回帰、ピオトロフスキの法則、ポーランドにおけるいくつかの例

Modeling the dynamics of language change: logistic regression, Piotrowski's law, and a handful of examples in Polish ( http://arxiv.org/abs/2104.06324v1 )

ライセンス: Link先を確認
Rafa{\l} L. G\'orski and Maciej Eder(参考訳) 本研究は,ロジスティック回帰によるダイアクロニックプロセスのモデル化について論じる。 このようなアプローチはライムント・ピオトロフスキ(後のピオトロフスキの法則)によって提案され、たとえ実際の言語的証拠が、この文脈で「法律」という概念を使うことに反対しているとしてもである。 本研究では、15世紀から18世紀にかけてポーランド語で起こった9つの変化に対してロジスティック回帰モデルを適用する。 これらの変化の大部分は、言語の変化が実際に非線形なフェーズ変化のシナリオに似ていることを証明した、期待される値に密接に従っている。 また、これらの場合の多項式ロジスティック回帰を標準版では説明できないように提案することで、元のピオトロフスキのアプローチを拡張した。 また, それぞれの言語変化の事例を共同で検討し, コリニア性を検討するか, あるいは, 時間関数の異なるダイナミクスを検討することを提案する。 最後に,本モデルの適合性に及ぼす部分体サイズの影響を検証し,結果を評価した。

The study discusses modeling diachronic processes by logistic regression. Such an approach was suggested by Raimund Piotrowski (hence labelled as Piotrowski's law), even if actual linguistic evidence usually speaks against using the notion of a "law" in this context. In our study, we apply logistic regression models to 9 changes which occurred between 15th and 18th century in the Polish language. The attested course of the majority of these changes closely follow the expected values, which proves that the language change might indeed resemble a nonlinear phase change scenario. We also extend the original Piotrowski's approach by proposing polynomial logistic regression for these cases which can hardly be described by its standard version. Also, we propose to consider individual language change cases jointly, in order to inspect their possible collinearity or, more likely, their different dynamics in the function of time. Last but not least, we evaluate our results by testing the influence of the subcorpus size on the model's goodness-of-fit.
翻訳日:2021-04-14 13:33:21 公開日:2021-04-13
# フォームアソシエーションにおける概念特異的ビアーゼの発見

Finding Concept-specific Biases in Form--Meaning Associations ( http://arxiv.org/abs/2104.06325v1 )

ライセンス: Link先を確認
Tiago Pimentel, Brian Roark, S{\o}ren Wichmann, Ryan Cotterell, Dami\'an Blasi(参考訳) 本研究は,言語間非アービタリティの情報理論的運用について述べる。 語の形と意味の間に小さな言語横断的な関係があることは、新しい考え方ではない。 例えば、Blasi et al., 2016) は、"tongue" という単語は、電話機 [l] を封入する確率よりも高いと主張している。 本研究は,言語非言語性(pimentel et al., 2019)における言語非言語性の検出に用いられる手法を拡張し,言語間関係を測定する。 非アビタラリネスには大きな効果があるが、意外なほど小さい(我々の情報理論的な推定では平均で0.5%以下)。 また,本研究で検討されている概念の4分の1が,言語横断的非言語性を示す概念レベル分析も提供する。 まとめると,本論文は大規模言語間関係を検出する新しい手法を提案する。

This work presents an information-theoreti c operationalisation of cross-linguistic non-arbitrariness. It is not a new idea that there are small, cross-linguistic associations between the forms and meanings of words. For instance, it has been claimed (Blasi et al., 2016) that the word for "tongue" is more likely than chance to contain the phone [l]. By controlling for the influence of language family and geographic proximity within a very large concept-aligned cross-lingual lexicon, we extend methods previously used to detect within language non-arbitrariness (Pimentel et al., 2019) to measure cross-linguistic associations. We find that there is a significant effect of non-arbitrariness, but it is unsurprisingly small (less than 0.5% on average according to our information-theoreti c estimate). We also provide a concept-level analysis which shows that a quarter of the concepts considered in our work exhibit a significant level of cross-linguistic non-arbitrariness. In sum, the paper provides new methods to detect cross-linguistic associations at scale.
翻訳日:2021-04-14 13:33:02 公開日:2021-04-13
# ランダム種子が臨床分類者の公正性に及ぼす影響について

On the Impact of Random Seeds on the Fairness of Clinical Classifiers ( http://arxiv.org/abs/2104.06338v1 )

ライセンス: Link先を確認
Silvio Amir and Jan-Willem van de Meent and Byron C. Wallace(参考訳) 近年の研究では、微調整の大きなネットワークは驚くほどランダムシードの変化に敏感であることが示されている。 臨床NLP研究の標準データセットであるMIMIC-IIIの電子健康記録(EHR)に対する臨床予測タスクにおいて,この現象が人口集団間でのモデルフェアネスに与える影響を検討する。 同一サブグループのパフォーマンスは、全体のパフォーマンスとサブグループのパフォーマンスのトレードオフを示す証拠はないが、全体のパフォーマンスに類似する種子に対して大きく異なる。 しかし,マイノリティ群の交点や幾らかの希少な条件に固有の小さなサンプルサイズは,不一致を正確に推定する能力に制限があることも判明した。 さらに,高い総合性能と低格差を共同最適化しても統計的に有意な改善は得られない。 以上の結果から,MIMIC-IIIを用いた公正な作業は,確率性や小サンプルサイズから生じる明らかな差異の変動を慎重に考慮すべきであることが示唆された。

Recent work has shown that fine-tuning large networks is surprisingly sensitive to changes in random seed(s). We explore the implications of this phenomenon for model fairness across demographic groups in clinical prediction tasks over electronic health records (EHR) in MIMIC-III -- the standard dataset in clinical NLP research. Apparent subgroup performance varies substantially for seeds that yield similar overall performance, although there is no evidence of a trade-off between overall and subgroup performance. However, we also find that the small sample sizes inherent to looking at intersections of minority groups and somewhat rare conditions limit our ability to accurately estimate disparities. Further, we find that jointly optimizing for high overall performance and low disparities does not yield statistically significant improvements. Our results suggest that fairness work using MIMIC-III should carefully account for variations in apparent differences that may arise from stochasticity and small sample sizes.
翻訳日:2021-04-14 13:32:47 公開日:2021-04-13
# グラディエントカーネル回帰

Gradient Kernel Regression ( http://arxiv.org/abs/2104.05874v1 )

ライセンス: Link先を確認
Matt Calder(参考訳) 本稿では,ニューラルネットワークカーネルを用いて驚くべき結果を示す。 このカーネルは、トレーニングポイントで評価された基礎モデルの勾配のベクトルの内積として定義される。 このカーネルはカーネルレグレッションを実行するために使用される。 驚くべきことに、その回帰の精度は、基盤となるネットワークの精度とは無関係である。

In this article a surprising result is demonstrated using the neural tangent kernel. This kernel is defined as the inner product of the vector of the gradient of an underlying model evaluated at training points. This kernel is used to perform kernel regression. The surprising thing is that the accuracy of that regression is independent of the accuracy of the underlying network.
翻訳日:2021-04-14 13:32:33 公開日:2021-04-13
# AIロボットサッカーのための2段階トレーニングアルゴリズム

Two-stage training algorithm for AI robot soccer ( http://arxiv.org/abs/2104.05931v1 )

ライセンス: Link先を確認
Taeyoung Kim, Luiz Felipe Vecchietti, Kyujin Choi, Sanem Sariel, Dongsoo Har(参考訳) マルチエージェント強化学習では,エージェントの協調学習行動が非常に重要である。 異種多エージェント強化学習の分野では、グループ内の異なる種類のエージェント間の協調行動が追求される。 集中トレーニング中に協調行動セットを学習することは、このような協調行動を得る魅力的な方法であるが、この方法は異種エージェントによる学習性能の制限をもたらす。 集中訓練における異種エージェントの学習性能を向上させるために,多種エージェントの訓練を可能にする2段階の異種集中訓練を提案する。 訓練中は2つの訓練プロセスが連続して行われる。 2つの段階の1つは、個々の役割報酬の最大化を目指して、それぞれのエージェントの役割に応じてトレーニングを試みることである。 もう1つは、協力行動を学ぶためにエージェント全体を訓練し、共通の報酬、例えばチーム報酬を最大化しようとすることである。 これら2つのトレーニングプロセスは、各タイムステップで連続して実行されるため、エージェントは役割報酬とチーム報酬を同時に最大化する方法を学ぶことができる。 提案手法は,5対5のAIロボットサッカーを用いて検証を行う。 シミュレーションの結果,ロボットサッカーチームのロボットを効果的に訓練し,協調型マルチエージェントの学習に使用できる他の手法と比較して高い役割報酬と高いチーム報酬を得ることができた。

In multi-agent reinforcement learning, the cooperative learning behavior of agents is very important. In the field of heterogeneous multi-agent reinforcement learning, cooperative behavior among different types of agents in a group is pursued. Learning a joint-action set during centralized training is an attractive way to obtain such cooperative behavior, however, this method brings limited learning performance with heterogeneous agents. To improve the learning performance of heterogeneous agents during centralized training, two-stage heterogeneous centralized training which allows the training of multiple roles of heterogeneous agents is proposed. During training, two training processes are conducted in a series. One of the two stages is to attempt training each agent according to its role, aiming at the maximization of individual role rewards. The other is for training the agents as a whole to make them learn cooperative behaviors while attempting to maximize shared collective rewards, e.g., team rewards. Because these two training processes are conducted in a series in every timestep, agents can learn how to maximize role rewards and team rewards simultaneously. The proposed method is applied to 5 versus 5 AI robot soccer for validation. Simulation results show that the proposed method can train the robots of the robot soccer team effectively, achieving higher role rewards and higher team rewards as compared to other approaches that can be used to solve problems of training cooperative multi-agent.
翻訳日:2021-04-14 13:32:29 公開日:2021-04-13
# 特徴モデリングと構成のためのグループ勧告手法

Group Recommendation Techniques for Feature Modeling and Configuration ( http://arxiv.org/abs/2104.06054v1 )

ライセンス: Link先を確認
Viet-Man Le(参考訳) 大規模な機能モデルでは、機能モデリングと構成プロセスが利害関係者のグループによって行われることが期待されます。 この文脈では、レコメンデーション技術は機能モデル設計の効率を高め、利害関係者のグループのための最適な構成を見つけることができる。 既存の研究では、機能モデルナビゲーションサポート、グループメンバーの満足度、コンフリクト解決に関する多くの問題が示されている。 本研究では,上記の課題に対処する上で,特徴モデリングと構成のためのグループレコメンデーション手法を提案する。

In large-scale feature models, feature modeling and configuration processes are highly expected to be done by a group of stakeholders. In this context, recommendation techniques can increase the efficiency of feature-model design and find optimal configurations for groups of stakeholders. Existing studies show plenty of issues concerning feature model navigation support, group members' satisfaction, and conflict resolution. This study proposes group recommendation techniques for feature modeling and configuration on the basis of addressing the mentioned issues.
翻訳日:2021-04-14 13:32:08 公開日:2021-04-13
# 連続的vaeと潜在変数進化を伴うangry birdsのレベル生成

Level Generation for Angry Birds with Sequential VAE and Latent Variable Evolution ( http://arxiv.org/abs/2104.06106v1 )

ライセンス: Link先を確認
Takumi Tanabe, Kazuto Fukuchi, Jun Sakuma, Youhei Akimoto(参考訳) 機械学習(ml)に基づくゲームレベル生成、特に深層生成モデルは、レベル生成を自動化する技術として注目を集めている。 しかし、既存のMLベースのレベルジェネレーションの応用はタイルベースのレベル表現に限られている。 ml技術がangry birdsのような非タイルベースのレベル表現を持つゲームドメインに適用されると、mlは実数値パラメータで指定されるため、しばしばプレイ可能なレベルを生成しない。 本研究ではangry birdsのゲーム領域における深層生成モデルに基づくレベル生成手法を開発した。 これらの欠点を克服するために,既存の手法ではタイルベースのエンコーディングを採用し,画像として処理するのに対して,レベルを逐次符号化してテキストデータとして処理する手法を提案する。 実験により, 既存の手法と比較して, 生成レベルの安定性と多様性が大幅に向上することが示された。 我々は,aiエージェントのプレイを通じて計算された生成レベルの特徴を安定かつ自然に制御するために,提案するジェネレータに潜在変数進化を適用した。

Video game level generation based on machine learning (ML), in particular, deep generative models, has attracted attention as a technique to automate level generation. However, applications of existing ML-based level generations are mostly limited to tile-based level representation. When ML techniques are applied to game domains with non-tile-based level representation, such as Angry Birds, where objects in a level are specified by real-valued parameters, ML often fails to generate playable levels. In this study, we develop a deep-generative-mode l-based level generation for the game domain of Angry Birds. To overcome these drawbacks, we propose a sequential encoding of a level and process it as text data, whereas existing approaches employ a tile-based encoding and process it as an image. Experiments show that the proposed level generator drastically improves the stability and diversity of generated levels compared with existing approaches. We apply latent variable evolution with the proposed generator to control the feature of a generated level computed through an AI agent's play, while keeping the level stable and natural.
翻訳日:2021-04-14 13:32:00 公開日:2021-04-13
# future is not one-dimensional: イベント予測のためのグラフモデリングベースの複合イベントスキーマインダクション

Future is not One-dimensional: Graph Modeling based Complex Event Schema Induction for Event Prediction ( http://arxiv.org/abs/2104.06344v1 )

ライセンス: Link先を確認
Manling Li, Sha Li, Zhenhailong Wang, Lifu Huang, Kyunghyun Cho, Heng Ji, Jiawei Han, Clare Voss(参考訳) イベントスキーマは、イベントのステレオタイプ構造とその接続に関する知識を符号化する。 イベントが広がるにつれて、スキーマは足場として機能することが不可欠である。 イベントスキーマ誘導に関するこれまでの研究は、原子イベントまたは線形時間イベントシーケンスに焦点を当てており、引数と引数関係によるイベント間の相互作用を無視している。 本稿では、イベント、引数、時間的接続、引数関係を含むグラフベースのスキーマ表現である、テンポラル複合イベントスキーマの概念を紹介する。 さらに,時間的複合イベントスキーマに従ってイベントインスタンスの出現をモデル化する時間的イベントグラフモデルを提案する。 このようなスキーマの構築と評価のために,イベントグラフを伴う6,399の文書を含む新しいスキーマ学習コーパスと,手動で構築したゴールドスキーマをリリースする。 スキーママッチングとインスタンスグラフパープレキシティによる本質的な評価は,線形表現と比較して確率的グラフスキーマライブラリの優れた品質を証明している。 スキーマ誘導イベント予測の外部評価は、イベントグラフモデルの予測能力をさらに証明し、HITS@1上での人間のスキーマとベースラインを17.8%以上上回る。

Event schemas encode knowledge of stereotypical structures of events and their connections. As events unfold, schemas are crucial to act as a scaffolding. Previous work on event schema induction either focuses on atomic events or linear temporal event sequences, ignoring the interplay between events via arguments and argument relations. We introduce the concept of Temporal Complex Event Schema: a graph-based schema representation that encompasses events, arguments, temporal connections and argument relations. Additionally, we propose a Temporal Event Graph Model that models the emergence of event instances following the temporal complex event schema. To build and evaluate such schemas, we release a new schema learning corpus containing 6,399 documents accompanied with event graphs, and manually constructed gold schemas. Intrinsic evaluation by schema matching and instance graph perplexity, prove the superior quality of our probabilistic graph schema library compared to linear representations. Extrinsic evaluation on schema-guided event prediction further demonstrates the predictive power of our event graph model, significantly surpassing human schemas and baselines by more than 17.8% on HITS@1.
翻訳日:2021-04-14 13:31:44 公開日:2021-04-13
# イメージ誘導モデルインバージョンによる画像合成

IMAGINE: Image Synthesis by Image-Guided Model Inversion ( http://arxiv.org/abs/2104.05895v1 )

ライセンス: Link先を確認
Pei Wang, Yijun Li, Krishna Kumar Singh, Jingwan Lu, Nuno Vasconcelos(参考訳) Image-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、単一のトレーニングサンプルから高品質で多様な画像を生成する。 我々は,事前学習した分類器からのイメージセマンティクスの知識を活用し,分類器内の多レベル特徴表現をマッチングすることにより,外部識別器との対角訓練に関連付けることで,妥当な世代を実現する。 IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。 広範な実験結果を用いて,3つの異なる画像領域(オブジェクト,シーン,テクスチャなど)において,最先端のganベースおよびインバージョンベース手法に好適な効果を期待できる質的かつ定量的に示す。

We introduce an inversion based method, denoted as IMAge-Guided model INvErsion (IMAGINE), to generate high-quality and diverse images from only a single training sample. We leverage the knowledge of image semantics from a pre-trained classifier to achieve plausible generations via matching multi-level feature representations in the classifier, associated with adversarial training with an external discriminator. IMAGINE enables the synthesis procedure to simultaneously 1) enforce semantic specificity constraints during the synthesis, 2) produce realistic images without generator training, and 3) give users intuitive control over the generation process. With extensive experimental results, we demonstrate qualitatively and quantitatively that IMAGINE performs favorably against state-of-the-art GAN-based and inversion-based methods, across three different image domains (i.e., objects, scenes, and textures).
翻訳日:2021-04-14 13:30:19 公開日:2021-04-13
# MESD:運動物体のエッジにおける運動端構造の違いによる光学的フローアセスメント

MESD: Exploring Optical Flow Assessment on Edge of Motion Objects with Motion Edge Structure Difference ( http://arxiv.org/abs/2104.05916v1 )

ライセンス: Link先を確認
Bin Liao, Jinlong Hu(参考訳) 光流量推定は様々な応用で評価されている。 本稿では,移動物体の端面における光流場の推定誤差を評価するため,MESD (Motion Edge Structure difference) という新しい手法を提案する。 MPIシンテル, ミドルベリー, KITTI 2012 と KITTI 2015 の4つのベンチマークで, 5つの代表的な光フローアルゴリズムを評価した結果, MESD の比較実験を行った。 実験の結果,MESDは動作エッジ上の光流場の推定誤差を合理的かつ判別的に評価できることがわかった。 その結果、mesdは、関連するコンピュータビジョンアプリケーションにおいて、光学フローアルゴリズムを評価するための既存の一般評価指標の補足指標となる可能性が示唆された。

The optical flow estimation has been assessed in various applications. In this paper, we propose a novel method named motion edge structure difference(MESD) to assess estimation errors of optical flow fields on edge of motion objects. We implement comparison experiments for MESD by evaluating five representative optical flow algorithms on four popular benchmarks: MPI Sintel, Middlebury, KITTI 2012 and KITTI 2015. Our experimental results demonstrate that MESD can reasonably and discriminatively assess estimation errors of optical flow fields on motion edge. The results indicate that MESD could be a supplementary metric to existing general assessment metrics for evaluating optical flow algorithms in related computer vision applications.
翻訳日:2021-04-14 13:30:00 公開日:2021-04-13
# 高速オンラインビデオインスタンスセグメンテーションのためのクロスオーバー学習

Crossover Learning for Fast Online Video Instance Segmentation ( http://arxiv.org/abs/2104.05970v1 )

ライセンス: Link先を確認
Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu(参考訳) フレーム間の時間的視覚コンテキストのモデリングは、ビデオインスタンスセグメンテーション(VIS)や他のビデオ理解タスクにとって重要である。 本稿では,CrossVISという高速オンラインVISモデルを提案する。 VISにおける時間情報モデリングには、現在のフレームのインスタンス機能を用いて、他のフレームの同じインスタンスを画素的にローカライズする新しいクロスオーバー学習方式を提案する。 従来のスキームとは異なり、クロスオーバー学習は機能強化のために追加のネットワークパラメータを必要としない。 インスタンスセグメンテーション損失と統合することで、クロスオーバー学習は効率的なクロスフレームインスタンス間関係学習を可能にし、推論中にコストフリーな改善をもたらす。 さらに、より正確でより安定したオンラインインスタンスアソシエーションのために、グローバルバランスのインスタンス埋め込みブランチが提案されている。 我々は,3つの挑戦的VISベンチマーク(Shaie, YouTube-VIS-2019, OVIS, YouTube-VIS-2021)について広範な実験を行った。 私たちの知る限り、CrossVISはすべてのオンラインVISメソッドで最先端のパフォーマンスを実現し、レイテンシと精度のトレードオフを十分に示しています。 コードは将来の研究を促進するために利用できる。

Modeling temporal visual context across frames is critical for video instance segmentation (VIS) and other video understanding tasks. In this paper, we propose a fast online VIS model named CrossVIS. For temporal information modeling in VIS, we present a novel crossover learning scheme that uses the instance feature in the current frame to pixel-wisely localize the same instance in other frames. Different from previous schemes, crossover learning does not require any additional network parameters for feature enhancement. By integrating with the instance segmentation loss, crossover learning enables efficient cross-frame instance-to-pixel relation learning and brings cost-free improvement during inference. Besides, a global balanced instance embedding branch is proposed for more accurate and more stable online instance association. We conduct extensive experiments on three challenging VIS benchmarks, \ie, YouTube-VIS-2019, OVIS, and YouTube-VIS-2021 to evaluate our methods. To our knowledge, CrossVIS achieves state-of-the-art performance among all online VIS methods and shows a decent trade-off between latency and accuracy. Code will be available to facilitate future research.
翻訳日:2021-04-14 13:29:46 公開日:2021-04-13
# OCM3D:オブジェクト中心のモノクロ3Dオブジェクト検出

OCM3D: Object-Centric Monocular 3D Object Detection ( http://arxiv.org/abs/2104.06041v1 )

ライセンス: Link先を確認
Liang Peng, Fei Liu, Senbo Yan, Xiaofei He, Deng Cai(参考訳) 画像のみと擬似LiDAR表現は、通常、モノクロ3Dオブジェクト検出に使用される。 しかし、それらの手法は、隣接する画像画素の空間的関係をうまく捉えていないか、あるいは単眼の擬似LiDAR点雲のノイズの性質を扱いにくいかの欠点がある。 この問題を克服するため,本稿では,モノクロ3次元物体検出のための新しい物体中心ボクセル表現を提案する。 具体的には、voxelは各オブジェクトの提案に基づいて構築され、そのサイズは点の3d空間分布によって適応的に決定され、ノイズ点雲をvoxelグリッド内で効果的に構成することができる。 この表現は、オブジェクトを正確に3次元空間に配置できることが証明されている。 さらに、以前の研究では、画像全体またはノイズの多い点雲から抽出された深い特徴を通して方向を推定したいと考えている。 対照的に、対象画像パッチからの局所的なRoI情報と適切なリサイズスキームは、無関係な干渉を排除しながら完全な意味的手がかりを提供するので、よりよい入力であると主張する。 さらに、3Dオブジェクトと関連する2Dボックスの関係を考慮し、3Dオブジェクト検出における信頼性機構を分解する。 提案手法はKITTIで評価され,最先端の手法よりも大きなマージンで優れている。 コードはまもなく公開される予定だ。

Image-only and pseudo-LiDAR representations are commonly used for monocular 3D object detection. However, methods based on them have shortcomings of either not well capturing the spatial relationships in neighbored image pixels or being hard to handle the noisy nature of the monocular pseudo-LiDAR point cloud. To overcome these issues, in this paper we propose a novel object-centric voxel representation tailored for monocular 3D object detection. Specifically, voxels are built on each object proposal, and their sizes are adaptively determined by the 3D spatial distribution of the points, allowing the noisy point cloud to be organized effectively within a voxel grid. This representation is proved to be able to locate the object in 3D space accurately. Furthermore, prior works would like to estimate the orientation via deep features extracted from an entire image or a noisy point cloud. By contrast, we argue that the local RoI information from the object image patch alone with a proper resizing scheme is a better input as it provides complete semantic clues meanwhile excludes irrelevant interferences. Besides, we decompose the confidence mechanism in monocular 3D object detection by considering the relationship between 3D objects and the associated 2D boxes. Evaluated on KITTI, our method outperforms state-of-the-art methods by a large margin. The code will be made publicly available soon.
翻訳日:2021-04-14 13:29:26 公開日:2021-04-13
# 表面欠陥検出のための混合監視-弱さから完全教師付き学習へ

Mixed supervision for surface-defect detection: from weakly to fully supervised learning ( http://arxiv.org/abs/2104.06064v1 )

ライセンス: Link先を確認
Jakob Bo\v{z}i\v{c}, Domen Tabernik, Danijel Sko\v{c}aj(参考訳) 近年,産業品質管理における表面欠陥検出問題への深層学習の取り組みが始まっている。 しかし、学習に必要な大量のデータが必要であり、しばしば高精度なラベルを必要とするため、多くの工業的問題が容易に解決できず、あるいはアノテーションの要求によりソリューションのコストが大幅に増加する。 本研究では,完全教師付き学習手法の重い要求を緩和し,より詳細なアノテーションの必要性を低減する。 深層学習アーキテクチャを提案することで、表面欠陥検出のタスクにおいて、弱い(画像レベルの)ラベルから完全な(ピクセルレベルの)アノテーションまで、さまざまな詳細のアノテーションの利用を探求する。 提案するエンドツーエンドアーキテクチャは,欠陥分割と分類結果の2つのサブネットワークで構成されている。 提案手法は,KolektorSDD,DAGM,Se verstal Steel Defectといった産業品質検査用データセットを用いて評価した。 また,実世界の産業問題に対処しながら得られた,複数の欠陥を含む3000以上の画像を含む,kolektorsdd2と呼ばれる新しいデータセットを提案する。 4つのデータセットすべてで最先端の結果を示します。 提案手法は, 完全教師付き設定ですべての関連手法を上回り, 画像レベルのラベルのみを利用できる場合にも, 弱教師付き手法を上回ります。 また,弱ラベル付きトレーニング画像に付加された少数の完全注釈付きサンプルを混合監視することにより,完全教師付きモデルの性能に匹敵する性能が得られるが,アノテーションコストは著しく低下することを示した。

Deep-learning methods have recently started being employed for addressing surface-defect detection problems in industrial quality control. However, with a large amount of data needed for learning, often requiring high-precision labels, many industrial problems cannot be easily solved, or the cost of the solutions would significantly increase due to the annotation requirements. In this work, we relax heavy requirements of fully supervised learning methods and reduce the need for highly detailed annotations. By proposing a deep-learning architecture, we explore the use of annotations of different details ranging from weak (image-level) labels through mixed supervision to full (pixel-level) annotations on the task of surface-defect detection. The proposed end-to-end architecture is composed of two sub-networks yielding defect segmentation and classification results. The proposed method is evaluated on several datasets for industrial quality inspection: KolektorSDD, DAGM and Severstal Steel Defect. We also present a new dataset termed KolektorSDD2 with over 3000 images containing several types of defects, obtained while addressing a real-world industrial problem. We demonstrate state-of-the-art results on all four datasets. The proposed method outperforms all related approaches in fully supervised settings and also outperforms weakly-supervised methods when only image-level labels are available. We also show that mixed supervision with only a handful of fully annotated samples added to weakly labelled training images can result in performance comparable to the fully supervised model's performance but at a significantly lower annotation cost.
翻訳日:2021-04-14 13:29:06 公開日:2021-04-13
# 自己教師付き学習を用いた解釈可能性駆動型サンプル選択による疾患分類とセグメンテーション

Interpretability-Dri ven Sample Selection Using Self Supervised Learning For Disease Classification And Segmentation ( http://arxiv.org/abs/2104.06087v1 )

ライセンス: Link先を確認
Dwarikanath Mahapatra(参考訳) 医用画像解析のための教師あり学習において、サンプル選択手法は、最適化システムの性能を迅速にかつ最小限の専門家相互作用(例)で達成するために基本となる。 アクティブな学習環境におけるラベルクエリ)。 本稿では,解釈可能度マップに含まれる情報を利用した深部特徴に基づく新しいサンプル選択手法を提案する。 情報サンプルのための基底的真理ラベルが存在しない場合、与えられた画像のバッチにおいて最も有益なサンプルを識別するために学習する分類器を訓練するために、新しい自己教師付き学習に基づくアプローチを用いる。 本稿では,肺疾患の分類と病理組織像のセグメンテーションを目的とした能動的学習手法として, Interpretability-Dri ven Sample Selection (IDEAL) というアプローチの利点を示す。 i) 従来の不確実性に基づくサンプル選択手法の発見から生じる観測モデル, (ii) 放射能に基づくモデル, および (iii) 新たなデータ駆動型自己監督手法である。 肺疾患分類のためのNIH胸部X線データセットと公衆病理組織分類データセット(GLaS)を用いて,IDEALを他のベースラインと比較し,アクティブな学習システムにおけるサンプル選択に解釈可能性情報を使用することの可能性を示した。 以上の結果から,本提案手法は,より少ないサンプル数で,アートパフォーマンスに繋がる情報的サンプルの選択において,他の手法よりも優れることが示された。

In supervised learning for medical image analysis, sample selection methodologies are fundamental to attain optimum system performance promptly and with minimal expert interactions (e.g. label querying in an active learning setup). In this paper we propose a novel sample selection methodology based on deep features leveraging information contained in interpretability saliency maps. In the absence of ground truth labels for informative samples, we use a novel self supervised learning based approach for training a classifier that learns to identify the most informative sample in a given batch of images. We demonstrate the benefits of the proposed approach, termed Interpretability-Dri ven Sample Selection (IDEAL), in an active learning setup aimed at lung disease classification and histopathology image segmentation. We analyze three different approaches to determine sample informativeness from interpretability saliency maps: (i) an observational model stemming from findings on previous uncertainty-based sample selection approaches, (ii) a radiomics-based model, and (iii) a novel data-driven self-supervised approach. We compare IDEAL to other baselines using the publicly available NIH chest X-ray dataset for lung disease classification, and a public histopathology segmentation dataset (GLaS), demonstrating the potential of using interpretability information for sample selection in active learning systems. Results show our proposed self supervised approach outperforms other approaches in selecting informative samples leading to state of the art performance with fewer samples.
翻訳日:2021-04-14 13:28:41 公開日:2021-04-13
# インスタンスレベルからの長期分類の改善

Improving Long-Tailed Classification from Instance Level ( http://arxiv.org/abs/2104.06094v1 )

ライセンス: Link先を確認
Yan Zhao, Weicong Chen, Xu Tan, Kai Huang, Jin Xu, Changhu Wang, and Jihong Zhu(参考訳) 現実世界のデータは長いラベルの分布を示す傾向があるため、ニューラルネットワークの分類には大きな課題がある。 既存の手法は主に粗いクラスレベルからこの問題に取り組み、例えばハードサンプルと簡単なサンプルのインスタンスの違いを無視する。 本稿では,long-tailed問題をインスタンスレベルから再検討し,long-tailed分類を改善するための2つのインスタンスレベルコンポーネントを提案する。 1つ目は、適応ロジット調整(Alaptive Logit Adjustment、ALA)損失であり、ロジットに適応調整項を適用する。 クラス依存であり、テールクラスのみに焦点を当てた既存のメソッドの調整用語とは異なり、インスタンス固有の用語を慎重に設計し、クラス依存の用語に追加することで、ネットワークがテールクラスだけでなく、より重要なハードサンプルにもっと注意を払うようにします。 2つ目はMixture-of-Experts (MoE)ネットワークで、マルチエキスパートモジュールとインスタンス対応ルーティングモジュールを含んでいる。 ルーティングモジュールは,各入力インスタンスに応じて複数の専門家の結果を動的に統合するように設計され,専門家ネットワークとエンドツーエンドで共同で訓練されている。この手法は,ImageNet-LTやiNaturalistなど,一般的なロングテールベンチマークにおいて,最先端の手法よりも1%から5%優れていた。

Data in the real world tends to exhibit a long-tailed label distribution, which poses great challenges for neural networks in classification. Existing methods tackle this problem mainly from the coarse-grained class level, ignoring the difference among instances, e.g., hard samples vs. easy samples. In this paper, we revisit the long-tailed problem from the instance level and propose two instance-level components to improve long-tailed classification. The first one is an Adaptive Logit Adjustment (ALA) loss, which applies an adaptive adjusting term to the logit. Different from the adjusting terms in existing methods that are class-dependent and only focus on tail classes, we carefully design an instance-specific term and add it on the class-dependent term to make the network pay more attention to not only tailed class, but more importantly hard samples. The second one is a Mixture-of-Experts (MoE) network, which contains a multi-expert module and an instance-aware routing module. The routing module is designed to dynamically integrate the results of multiple experts according to each input instance, and is trained jointly with the experts network in an end-to-end manner.Extensive experiment results show that our method outperforms the state-of-the-art methods by 1% to 5% on common long-tailed benchmarks including ImageNet-LT and iNaturalist.
翻訳日:2021-04-14 13:28:16 公開日:2021-04-13
# ポイントクラウドにおける投票に基づく3次元物体検出のためのバックトレーシング代表点

Back-tracing Representative Points for Voting-based 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2104.06114v1 )

ライセンス: Link先を確認
Bowen Cheng, Lu Sheng, Shaoshuai Shi, Ming Yang, Dong Xu(参考訳) ポイントクラウドにおける3Dオブジェクト検出は、3Dビジュアルワールドを理解するために様々なアプリケーションに恩恵をもたらす、困難なビジョンタスクである。 最近の多くの研究は、オブジェクトの提案を生成するためにエンドツーエンドのトレーニング可能なHough投票を利用する方法に焦点を当てている。 しかし、現在の投票戦略は、潜在的なオブジェクトの表面からの部分的な投票しか受け取れず、混乱した背景から厳しい反対票が得られ、入力ポイントクラウドからの情報の完全な利用を阻害する。 そこで本研究では,従来のハフ投票法におけるバックトレーシング戦略に触発されて,投票所から代表点を生成的にバックトレーシングし,これらの生成点周辺の相補的なシード点を再検討するバックトレーシング代表点ネットワーク (brnet) と呼ばれる新しい3次元物体検出手法を導入することにより,潜在的な対象物を取り巻く微細な局所的構造を原点雲からよりよく把握する。 したがって、BRNetにおけるこのボトムアップとトップダウン戦略は、予測された投票センタと原表面点との相互整合性を強制し、より信頼性が高くフレキシブルなオブジェクトローカライゼーションとクラス予測結果を達成する。 私たちのbrnetはシンプルだが効果的で、scannet v2(map@0.50の点では+7.5%)とsun rgb-d(map@0.50の点では+4.7%)という2つの大規模ポイントクラウドデータセットの最先端の手法を大幅に上回っていますが、それでも軽量で効率的です。 コードは \href{https://github.com/c heng052/BRNet}{this https URL} で入手できる。

3D object detection in point clouds is a challenging vision task that benefits various applications for understanding the 3D visual world. Lots of recent research focuses on how to exploit end-to-end trainable Hough voting for generating object proposals. However, the current voting strategy can only receive partial votes from the surfaces of potential objects together with severe outlier votes from the cluttered backgrounds, which hampers full utilization of the information from the input point clouds. Inspired by the back-tracing strategy in the conventional Hough voting methods, in this work, we introduce a new 3D object detection method, named as Back-tracing Representative Points Network (BRNet), which generatively back-traces the representative points from the vote centers and also revisits complementary seed points around these generated points, so as to better capture the fine local structural features surrounding the potential objects from the raw point clouds. Therefore, this bottom-up and then top-down strategy in our BRNet enforces mutual consistency between the predicted vote centers and the raw surface points and thus achieves more reliable and flexible object localization and class prediction results. Our BRNet is simple but effective, which significantly outperforms the state-of-the-art methods on two large-scale point cloud datasets, ScanNet V2 (+7.5% in terms of mAP@0.50) and SUN RGB-D (+4.7% in terms of mAP@0.50), while it is still lightweight and efficient. Code will be available at \href{https://github.com/c heng052/BRNet}{this https URL}.
翻訳日:2021-04-14 13:27:46 公開日:2021-04-13
# 生成ニューラルネットワークにおける内部単位の自動補正

Automatic Correction of Internal Units in Generative Neural Networks ( http://arxiv.org/abs/2104.06118v1 )

ライセンス: Link先を確認
Ali Tousi, Haedong Jeong, Jiyeon Han, Hwanil Choi and Jaesik Choi(参考訳) GAN(Generative Adversarial Networks)は,複雑なネットワーク構造を考案し,合成画像生成において良好な性能を示す。 GANは現実的な画像を合成できるが、人工物として知られる欠陥のある視覚パターンを持つ多くの生成画像が存在する。 最近の作業のほとんどが潜在コードの摂動によるアーティファクト生成の修正を試みているが、それらを修正するためにジェネレータの内部ユニットを調査することは少ない。 本研究では,様々な種類のアーティファクト画像を生成する内部ユニットを自動的に識別する手法を考案する。 さらに,検出したアーティファクト単位を変更して生成フローを調整し,元のアウトラインを保存しながら生成品質を向上させるシーケンシャル補正アルゴリズムを提案する。 提案手法は,FIDスコアの観点からベースライン法より優れ,人間の評価に満足できる結果を示す。

Generative Adversarial Networks (GANs) have shown satisfactory performance in synthetic image generation by devising complex network structure and adversarial training scheme. Even though GANs are able to synthesize realistic images, there exists a number of generated images with defective visual patterns which are known as artifacts. While most of the recent work tries to fix artifact generations by perturbing latent code, few investigate internal units of a generator to fix them. In this work, we devise a method that automatically identifies the internal units generating various types of artifact images. We further propose the sequential correction algorithm which adjusts the generation flow by modifying the detected artifact units to improve the quality of generation while preserving the original outline. Our method outperforms the baseline method in terms of FID-score and shows satisfactory results with human evaluation.
翻訳日:2021-04-14 13:27:13 公開日:2021-04-13
# 3次元高忠実マスク顔検出のためのコントラスト文脈認識学習

Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face Presentation Attack Detection ( http://arxiv.org/abs/2104.06148v1 )

ライセンス: Link先を確認
Ajian Liu, Chenxu Zhao, Zitong Yu, Jun Wan, Anyang Su, Xing Liu, Zichang Tan, Sergio Escalera, Junliang Xing, Yanyan Liang, Guodong Guo, Zhen Lei, Stan Z. Li and Du Zhang(参考訳) 顔提示攻撃検出(PAD)は、主に高忠実度マスク攻撃から顔認識システムを保護するために不可欠である。 既存の3dマスクパッドのベンチマークにはいくつかの欠点がある。1) マスクの識別数、センサーの種類、そしてビデオの総数、2) 顔のマスクの忠実度の低い品質。 基礎的な深層モデルとリモート光胸腺撮影法(rPPG)はこれらのベンチマークで許容できる性能を達成したが、実際的なシナリオの必要性には程遠い。 実世界のアプリケーションとのギャップを埋めるため、大規模なHigh-Fidelity Maskデータセット、すなわちCASIA-SURF HiFiMask(略してHiFiMask)を導入する。 具体的には、75人の被験者から計54,600本のビデオが記録され、225のリアルなマスクが7種類のセンサーによって記録されている。 データセットとともに,新しいコントラスト型コンテキスト認識学習フレームワーク,すなわちCCLを提案する。 cclは教師付きパッドタスクのための新しいトレーニング方法論であり、ライブフェイスと高忠実なマスク攻撃のペア間で、リッチなコンテキスト(被験者、マスク材、照明など)を正確に活用することで学習することができる。 HiFiMaskと3つの3次元マスクデータセットの大規模な実験により,本手法の有効性が示された。

Face presentation attack detection (PAD) is essential to secure face recognition systems primarily from high-fidelity mask attacks. Most existing 3D mask PAD benchmarks suffer from several drawbacks: 1) a limited number of mask identities, types of sensors, and a total number of videos; 2) low-fidelity quality of facial masks. Basic deep models and remote photoplethysmography (rPPG) methods achieved acceptable performance on these benchmarks but still far from the needs of practical scenarios. To bridge the gap to real-world applications, we introduce a largescale High-Fidelity Mask dataset, namely CASIA-SURF HiFiMask (briefly HiFiMask). Specifically, a total amount of 54,600 videos are recorded from 75 subjects with 225 realistic masks by 7 new kinds of sensors. Together with the dataset, we propose a novel Contrastive Context-aware Learning framework, namely CCL. CCL is a new training methodology for supervised PAD tasks, which is able to learn by leveraging rich contexts accurately (e.g., subjects, mask material and lighting) among pairs of live faces and high-fidelity mask attacks. Extensive experimental evaluations on HiFiMask and three additional 3D mask datasets demonstrate the effectiveness of our method.
翻訳日:2021-04-14 13:27:01 公開日:2021-04-13
# PHI-MVS:大規模シーン再構成のための平面仮説推論多視点ステレオ

PHI-MVS: Plane Hypothesis Inference Multi-view Stereo for Large-Scale Scene Reconstruction ( http://arxiv.org/abs/2104.06165v1 )

ライセンス: Link先を確認
Shang Sun, Yunan Zheng, Xuelei Shi, Zhenyu Xu, Yiguang Liu(参考訳) patchmatchベースのマルチビューステレオ(mvs)アルゴリズムは、大規模なシーン復元タスクで大きな成功を収めている。 しかし, 相似性測定法がこれらの領域では有効でないため, テクスチャレス平面の再構成は失敗することが多い。 そこで,上記の問題に対処するために,新たな平面仮説推論戦略を提案する。 手順は2つのステップから構成される: 第一に、複数の平面仮説は、回復できない領域のフィルターされた初期深度マップを用いて生成される;第二に、深さ仮説はマルコフランダム場(MRF)を用いて選択される。 この戦略は、許容できる計算時間を増やすだけで、再構成結果の完全性を大幅に向上させることができる。 さらに、拡張畳み込みに似た新しい加速度スキームは、復元にわずかな影響だけで深度マップ推定プロセスを高速化することができる。 我々はこれらのアイデアを新しいMVSパイプライン、PHI-MVS(Plane hypothesis Inference Multi-view Stereo)に統合した。 PHI-MVSの結果はETH3D公開ベンチマークで検証され、最先端技術に対する競合性能を示す。

PatchMatch based Multi-view Stereo (MVS) algorithms have achieved great success in large-scale scene reconstruction tasks. However, reconstruction of texture-less planes often fails as similarity measurement methods may become ineffective on these regions. Thus, a new plane hypothesis inference strategy is proposed to handle the above issue. The procedure consists of two steps: First, multiple plane hypotheses are generated using filtered initial depth maps on regions that are not successfully recovered; Second, depth hypotheses are selected using Markov Random Field (MRF). The strategy can significantly improve the completeness of reconstruction results with only acceptable computing time increasing. Besides, a new acceleration scheme similar to dilated convolution can speed up the depth map estimating process with only a slight influence on the reconstruction. We integrated the above ideas into a new MVS pipeline, Plane Hypothesis Inference Multi-view Stereo (PHI-MVS). The result of PHI-MVS is validated on ETH3D public benchmarks, and it demonstrates competing performance against the state-of-the-art.
翻訳日:2021-04-14 13:26:39 公開日:2021-04-13
# 畳み込みニューラルネットワーク, 中心損失, マハラノビス距離を用いた画像データセットの異常検出

Anomaly Detection in Image Datasets Using Convolutional Neural Networks, Center Loss, and Mahalanobis Distance ( http://arxiv.org/abs/2104.06193v1 )

ライセンス: Link先を確認
Garnik Vareldzhan, Kirill Yurkov, Konstantin Ushenin(参考訳) ユーザアクティビティは、メインのデータ処理パイプラインやトレーニングデータセットに含まれない、品質の悪い、あるいは無関係な画像やデータベクトルをかなりの数生成します。 このようなサンプルは、専門家による手動分析や異常検出アルゴリズムで見つけることができる。 異常サンプルにはいくつかの公式な定義がある。 ニューラルネットワークの場合、異常は通常分布外サンプルとして定義される。 本研究は,画像データセットにおける分布外サンプルの教師ありおよび半教師あり検出手法を提案する。 我々のアプローチは、画像分類問題を解決する典型的なニューラルネットワークを拡張している。 これにより、拡張後の1つのニューラルネットワークは、画像分類と異常検出を同時に解くことができる。 提案手法は、ニューラルネットワークの最後の隠れ層における中心損失とその深い特徴分布に与える影響に基づいている。 本稿では,MNIST と ImageNet-30 データセット上での LeNet と EfficientNet-B0 の手法を提案する。

User activities generate a significant number of poor-quality or irrelevant images and data vectors that cannot be processed in the main data processing pipeline or included in the training dataset. Such samples can be found with manual analysis by an expert or with anomalous detection algorithms. There are several formal definitions for the anomaly samples. For neural networks, the anomalous is usually defined as out-of-distribution samples. This work proposes methods for supervised and semi-supervised detection of out-of-distribution samples in image datasets. Our approach extends a typical neural network that solves the image classification problem. Thus, one neural network after extension can solve image classification and anomalous detection problems simultaneously. Proposed methods are based on the center loss and its effect on a deep feature distribution in a last hidden layer of the neural network. This paper provides an analysis of the proposed methods for the LeNet and EfficientNet-B0 on the MNIST and ImageNet-30 datasets.
翻訳日:2021-04-14 13:26:24 公開日:2021-04-13
# 必要なのは数ピクセルだけ。pixelpickによるセマンティックセグメンテーション

All you need are a few pixels: semantic segmentation with PixelPick ( http://arxiv.org/abs/2104.06394v1 )

ライセンス: Link先を確認
Gyungin Shin, Weidi Xie, Samuel Albanie(参考訳) セマンティックセグメンテーションの課題は、モデルトレーニングを監督するために高密度のピクセルレベルのアノテーションを取得することの禁止コストである。 そこで本研究では,十分なセグメンテーション性能を達成するためには,いくつかの精細なピクセルラベルだけでよいことを示す。 We make the following contributions: (i) We investigate the novel semantic segmentation setting in which labels are supplied only at sparse pixel locations, and show that deep neural networks can use a handful of such labels to good effect; (ii) We demonstrate how to exploit this phenomena within an active learning framework, termed PixelPick, to radically reduce labelling cost, and propose an efficient "mouse-free" annotation strategy to implement our approach; (iii) We conduct extensive experiments to study the influence of annotation diversity under a fixed budget, model pretraining, model capacity and the sampling mechanism for picking pixels in this low annotation regime; (iv) We provide comparisons to the existing state of the art in semantic segmentation with active learning, and demonstrate comparable performance with up to two orders of magnitude fewer pixel annotations on the CamVid, Cityscapes and PASCAL VOC 2012 benchmarks; (v) Finally, we evaluate the efficiency of our annotation pipeline and its sensitivity to annotator error to demonstrate its practicality.

A central challenge for the task of semantic segmentation is the prohibitive cost of obtaining dense pixel-level annotations to supervise model training. In this work, we show that in order to achieve a good level of segmentation performance, all you need are a few well-chosen pixel labels. We make the following contributions: (i) We investigate the novel semantic segmentation setting in which labels are supplied only at sparse pixel locations, and show that deep neural networks can use a handful of such labels to good effect; (ii) We demonstrate how to exploit this phenomena within an active learning framework, termed PixelPick, to radically reduce labelling cost, and propose an efficient "mouse-free" annotation strategy to implement our approach; (iii) We conduct extensive experiments to study the influence of annotation diversity under a fixed budget, model pretraining, model capacity and the sampling mechanism for picking pixels in this low annotation regime; (iv) We provide comparisons to the existing state of the art in semantic segmentation with active learning, and demonstrate comparable performance with up to two orders of magnitude fewer pixel annotations on the CamVid, Cityscapes and PASCAL VOC 2012 benchmarks; (v) Finally, we evaluate the efficiency of our annotation pipeline and its sensitivity to annotator error to demonstrate its practicality.
翻訳日:2021-04-14 13:26:11 公開日:2021-04-13
# 視聴覚対応からの自己教師付き物体検出

Self-supervised object detection from audio-visual correspondence ( http://arxiv.org/abs/2104.06401v1 )

ライセンス: Link先を確認
Triantafyllos Afouras, Yuki M. Asano, Francois Fagan, Andrea Vedaldi, Florian Metze(参考訳) 我々は、監視なしで物体検出器を学習する問題に取り組む。 弱教師付きオブジェクト検出とは異なり、画像レベルのクラスラベルは想定しない。 代わりに、オーディオ・ビジュアルデータから監視信号を抽出し、音声成分を用いて物体検出装置を「教える」。 この問題は音源の定位に関連しているが、検出器は対象をタイプ別に分類し、オブジェクトのインスタンスを列挙し、オブジェクトがサイレントである場合でもそれを行う必要があるため、かなり難しい。 まず,オブジェクトの分類とローカライズを共同で学ぶ対照目的の自己教師付きフレームワークを設計することで,この問題に取り組む。 そして、監視を一切使わずに、これらの自己教師付きラベルとボックスを使用して、イメージベースのオブジェクト検出器をトレーニングします。 これにより,物体検出と音源定位という課題において,従来の非教師なし・弱教師付き検出器よりも優れる。 我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで地上の真実のクラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。

We tackle the problem of learning object detectors without supervision. Differently from weakly-supervised object detection, we do not assume image-level class labels. Instead, we extract a supervisory signal from audio-visual data, using the audio component to "teach" the object detector. While this problem is related to sound source localisation, it is considerably harder because the detector must classify the objects by type, enumerate each instance of the object, and do so even when the object is silent. We tackle this problem by first designing a self-supervised framework with a contrastive objective that jointly learns to classify and localise objects. Then, without using any supervision, we simply use these self-supervised labels and boxes to train an image-based object detector. With this, we outperform previous unsupervised and weakly-supervised detectors for the task of object detection and sound source localization. We also show that we can align this detector to ground-truth classes with as little as one label per pseudo-class, and show how our method can learn to detect generic objects that go beyond instruments, such as airplanes and cats.
翻訳日:2021-04-14 13:25:53 公開日:2021-04-13
# 長距離インスタンスセグメンテーションのためのDropLoss

DropLoss for Long-Tail Instance Segmentation ( http://arxiv.org/abs/2104.06402v1 )

ライセンス: Link先を確認
Ting-I Hsieh, Esther Robb, Hwann-Tzong Chen, Jia-Bin Huang(参考訳) 長い尾のクラス分布は、オブジェクト検出とインスタンスセグメンテーションの実践的応用で広く使われている。 ロングテールインスタンスセグメンテーションでの先行作業は、レアクラスラベルを誤って予測するモデルに対するペナルティを低減し、レアクラスとレアカテゴリ間の損失の不均衡に対処する。 背景予測の正確さによって希少なカテゴリが強く抑制され,全フォアグラウンドカテゴリの確率が同じ重みで減少することを示した。 稀なカテゴリの相対的不頻度のため、これはより頻繁なカテゴリの予測に偏る不均衡につながる。 この知見に基づいて、稀なカテゴリと頻繁なカテゴリ間のトレードオフなしにこの不均衡を補償する、新しい適応的損失であるdroplossを開発した。 この損失により、LVISデータセット上で、まれ、一般的、頻繁なカテゴリにまたがる最先端のmAPを示す。

Long-tailed class distributions are prevalent among the practical applications of object detection and instance segmentation. Prior work in long-tail instance segmentation addresses the imbalance of losses between rare and frequent categories by reducing the penalty for a model incorrectly predicting a rare class label. We demonstrate that the rare categories are heavily suppressed by correct background predictions, which reduces the probability for all foreground categories with equal weight. Due to the relative infrequency of rare categories, this leads to an imbalance that biases towards predicting more frequent categories. Based on this insight, we develop DropLoss -- a novel adaptive loss to compensate for this imbalance without a trade-off between rare and frequent categories. With this loss, we show state-of-the-art mAP across rare, common, and frequent categories on the LVIS dataset.
翻訳日:2021-04-14 13:25:35 公開日:2021-04-13
# 点教師付きインスタンスセグメンテーション

Pointly-Supervised Instance Segmentation ( http://arxiv.org/abs/2104.06404v1 )

ライセンス: Link先を確認
Bowen Cheng and Omkar Parkhi and Alexander Kirillov(参考訳) 我々は,インスタンスセグメンテーションに対する新しい弱い監督形態である,ポイントベースのインスタンスレベルアノテーションを提案する。 標準のバウンディングボックスアノテーションと、各バウンディングボックス内で一様にサンプリングされるラベル付きポイントを組み合わせる。 Mask R-CNNのようなマスクの完全な監視のために開発された既存のインスタンスセグメンテーションモデルは、主要な変更を加えることなく、ポイントベースのアノテーションでシームレスにトレーニングできることを示す。 実験では,COCO,PASCAL VOC,Cityscapes,LVISでトレーニングしたMask R-CNNモデルに対して,各オブジェクトあたりの注釈付きポイントが94%~98%を占めた。 新しいポイントベースのアノテーションは、オブジェクトマスクよりも収集が約5倍速く、新しいデータに対して高品質なインスタンスセグメンテーションがよりアクセスしやすい。 新しいアノテーション形式にインスパイアされた我々は、PointRendインスタンスセグメンテーションモジュールの変更を提案する。 それぞれのオブジェクトに対して、Implicit PointRendと呼ばれる新しいアーキテクチャは、最終的なポイントレベルのマスク予測を行う関数のパラメータを生成する。 Implicit PointRendはより単純で、単一のポイントレベルのマスクロスを使用する。 実験では,提案する点に基づく監督に,新しいモジュールがより適していることを示す。

We propose point-based instance-level annotation, a new form of weak supervision for instance segmentation. It combines the standard bounding box annotation with labeled points that are uniformly sampled inside each bounding box. We show that the existing instance segmentation models developed for full mask supervision, like Mask R-CNN, can be seamlessly trained with the point-based annotation without any major modifications. In our experiments, Mask R-CNN models trained on COCO, PASCAL VOC, Cityscapes, and LVIS with only 10 annotated points per object achieve 94%--98% of their fully-supervised performance. The new point-based annotation is approximately 5 times faster to collect than object masks, making high-quality instance segmentation more accessible for new data. Inspired by the new annotation form, we propose a modification to PointRend instance segmentation module. For each object, the new architecture, called Implicit PointRend, generates parameters for a function that makes the final point-level mask prediction. Implicit PointRend is more straightforward and uses a single point-level mask loss. Our experiments show that the new module is more suitable for the proposed point-based supervision.
翻訳日:2021-04-14 13:25:21 公開日:2021-04-13
# 変圧器を用いた超微細物体認識法(RUFES)

Transformer-based Methods for Recognizing Ultra Fine-grained Entities (RUFES) ( http://arxiv.org/abs/2104.06048v1 )

ライセンス: Link先を確認
Emanuela Boros and Antoine Doucet(参考訳) 本稿では,テキスト分析会議(tac)シリーズの評価ワークショップにおける超細粒体(rufes)トラック認識におけるラ・ロシェル大学の労働統計情報・画像・インタラクション(l3iラボラトリー)の参加について概説する。 我々の参加は2つのニューラルベースモデルに依存している。ひとつは、トレーニング済みで微調整された言語モデルと、微細なエンティティ抽出のためのトランスフォーマー層と、ドキュメント内のエンティティコア参照のためのアウト・オブ・ザ・ボックスモデルである。 当社のアプローチは、きめ細かいエンティティ認識のパフォーマンスを向上させる上で大きな可能性を秘めています。 したがって、将来の研究は、追加の実験と結果のより深い分析に続くモデルの能力を高めることを目的としている。

This paper summarizes the participation of the Laboratoire Informatique, Image et Interaction (L3i laboratory) of the University of La Rochelle in the Recognizing Ultra Fine-grained Entities (RUFES) track within the Text Analysis Conference (TAC) series of evaluation workshops. Our participation relies on two neural-based models, one based on a pre-trained and fine-tuned language model with a stack of Transformer layers for fine-grained entity extraction and one out-of-the-box model for within-document entity coreference. We observe that our approach has great potential in increasing the performance of fine-grained entity recognition. Thus, the future work envisioned is to enhance the ability of the models following additional experiments and a deeper analysis of the results.
翻訳日:2021-04-14 13:25:00 公開日:2021-04-13
# セグメント・ニューラル・トランスデューサ・モデリングの等価性:概念実証

Equivalence of Segmental and Neural Transducer Modeling: A Proof of Concept ( http://arxiv.org/abs/2104.06104v1 )

ライセンス: Link先を確認
Wei Zhou, Albert Zeyer, Andr\'e Merboldt, Ralf Schl\"uter, Hermann Ney(参考訳) 音声認識における直接モデル(ASR)の出現に伴い、隠れマルコフモデル(HMM)に基づくフレームワイド音響モデリングは、エンコーダ・デコーダアテンションモデル、トランスデューサモデル、セグメントモデル(ダイレクトHMM)といった多くのモデリングアーキテクチャに多様化した。 トランスデューサモデルはフレームレベルのモデル定義のままであるが、セグメントモデルはラベルセグメントのレベルで直接定義される。 ソフトアテンションベースのモデルは明示的なアライメントを避けるが、トランスデューサとセグメンショナルアプローチは、セグメント仮説またはより暗黙的に、いわゆるブランクシンボルを出力することによってモデルアライメントを行う。 本稿では,広く用いられているrnnトランスデューサモデルとセグメントモデル(direct hmm)のクラスが等価であることを示す。 空白確率はセグメント長確率に変換され,その逆も示された。 さらに, 時間同期法とラベル/セグメント同期法を同一モデルを用いて比較し, 復号とビームプルーニングについての初期実験を行った。

With the advent of direct models in automatic speech recognition (ASR), the formerly prevalent frame-wise acoustic modeling based on hidden Markov models (HMM) diversified into a number of modeling architectures like encoder-decoder attention models, transducer models and segmental models (direct HMM). While transducer models stay with a frame-level model definition, segmental models are defined on the level of label segments, directly. While (soft-)attention-bas ed models avoid explicit alignment, transducer and segmental approach internally do model alignment, either by segment hypotheses or, more implicitly, by emitting so-called blank symbols. In this work, we prove that the widely used class of RNN-Transducer models and segmental models (direct HMM) are equivalent and therefore show equal modeling power. It is shown that blank probabilities translate into segment length probabilities and vice versa. In addition, we provide initial experiments investigating decoding and beam-pruning, comparing time-synchronous and label-/segment-synch ronous search strategies and their properties using the same underlying model.
翻訳日:2021-04-14 13:24:47 公開日:2021-04-13
# CNNにおける追跡翻訳不変性

Tracking translation invariance in CNNs ( http://arxiv.org/abs/2104.05997v1 )

ライセンス: Link先を確認
Johannes C.Myburgh, Coenraad Mouton, Marelie H.Davel(参考訳) 畳み込みニューラルネットワーク(CNN)は広く使われているが、その翻訳不変性(翻訳入力を扱う能力)はいまだに論争の対象となっている。 翻訳感度マップを用いて、標準CNNが翻訳された入力に対してどれほど敏感であるかを定量化する。 ユークリッド距離に対する感度指標としてのコサイン類似性(Cosine similarity)の利用を提案し、アーキテクチャの比較においてこれらの指標の次元性を制限することの重要性について議論する。 我々の主な焦点は、標準CNNの異なるアーキテクチャコンポーネントがそのネットワークの翻訳に対する感受性に与える影響を調べることである。 畳み込みカーネルサイズとゼロパディングの量を変えることで、生成した特徴写像のサイズを制御し、これらの要素が翻訳不変性に影響を与える範囲を定量化する。 また、cnn内の異なる場所での翻訳不変性を測定し、畳み込み層と完全連結層がそれぞれcnn全体の翻訳不変性に寄与する程度を決定する。 解析の結果,畳み込みカーネルサイズと特徴マップサイズの両方が翻訳不変性に系統的に影響を及ぼすことが示された。 また、畳み込み層は、特にそうせざるを得ない場合、変換不変性が予想されるよりも少ないことが分かっています。

Although Convolutional Neural Networks (CNNs) are widely used, their translation invariance (ability to deal with translated inputs) is still subject to some controversy. We explore this question using translation-sensitiv ity maps to quantify how sensitive a standard CNN is to a translated input. We propose the use of Cosine Similarity as sensitivity metric over Euclidean Distance, and discuss the importance of restricting the dimensionality of either of these metrics when comparing architectures. Our main focus is to investigate the effect of different architectural components of a standard CNN on that network's sensitivity to translation. By varying convolutional kernel sizes and amounts of zero padding, we control the size of the feature maps produced, allowing us to quantify the extent to which these elements influence translation invariance. We also measure translation invariance at different locations within the CNN to determine the extent to which convolutional and fully connected layers, respectively, contribute to the translation invariance of a CNN as a whole. Our analysis indicates that both convolutional kernel size and feature map size have a systematic influence on translation invariance. We also see that convolutional layers contribute less than expected to translation invariance, when not specifically forced to do so.
翻訳日:2021-04-14 13:24:00 公開日:2021-04-13
# ミニバッチSSCAによるサンプルベースおよび特徴ベースフェデレーション学習

Sample-based and Feature-based Federated Learning via Mini-batch SSCA ( http://arxiv.org/abs/2104.06011v1 )

ライセンス: Link先を確認
Chencheng Ye, Ying Cui(参考訳) 大量のデータを送信するためのリソース消費と機密データを露出する懸念のため、クライアントのローカルデータベースを中央サーバにアップロードすることは不可能または望ましくない。 これにより、センシティブなローカルデータを保持する複数のクライアント間での機械学習モデルの協調トレーニングを可能にするための、連合学習がホットな研究分野となっている。 それにもかかわらず、制約のないフェデレーション最適化は主にゆっくりと収束する確率勾配勾配(SGD)を用いて研究され、より困難な制約付きフェデレーション最適化は今のところ研究されていない。 本稿では,サンプルベースおよび特徴ベース連合最適化をそれぞれ検討し,制約付き問題と制約付き問題の両方について考察する。 確率的逐次凸近似(ssca)とミニバッチ手法を用いた連合学習アルゴリズムを提案する。 提案手法は,モデル集約機構によってデータのプライバシを保存でき,そのセキュリティは追加のプライバシ機構によって強化できることを示す。 また,提案アルゴリズムは,各フェデレート最適化問題のKKT点に収束することを示した。 さらに、提案アルゴリズムをアプリケーション例にカスタマイズし、すべての更新がクローズドフォーム式であることを示す。 最後に,提案手法の収束速度,通信コスト,モデル仕様における本質的利点を数値実験により実証する。

Due to the resource consumption for transmitting massive data and the concern for exposing sensitive data, it is impossible or undesirable to upload clients' local databases to a central server. Thus, federated learning has become a hot research area in enabling the collaborative training of machine learning models among multiple clients that hold sensitive local data. Nevertheless, unconstrained federated optimization has been studied mainly using stochastic gradient descent (SGD), which may converge slowly, and constrained federated optimization, which is more challenging, has not been investigated so far. This paper investigates sample-based and feature-based federated optimization, respectively, and considers both the unconstrained problem and the constrained problem for each of them. We propose federated learning algorithms using stochastic successive convex approximation (SSCA) and mini-batch techniques. We show that the proposed algorithms can preserve data privacy through the model aggregation mechanism, and their security can be enhanced via additional privacy mechanisms. We also show that the proposed algorithms converge to Karush-Kuhn-Tucker (KKT) points of the respective federated optimization problems. Besides, we customize the proposed algorithms to application examples and show that all updates have closed-form expressions. Finally, numerical experiments demonstrate the inherent advantages of the proposed algorithms in convergence speeds, communication costs, and model specifications.
翻訳日:2021-04-14 13:23:38 公開日:2021-04-13
# 連続スキーレンタル問題

Sequential Ski Rental Problem ( http://arxiv.org/abs/2104.06050v1 )

ライセンス: Link先を確認
Anant Shah and Arun Rajkumar(参考訳) 古典的なスキーレンタル問題は、スキーシーズンの期間について複数の専門家(機械学習アルゴリズムなど)が助言する場面で最近検討された。 ここでは、そのような専門家予測が利用できない敵シナリオよりも理論性能が向上した頑健なアルゴリズムが開発された。 我々は、この問題を「逐次スキーレンタル」問題と呼ぶ変種とみなす。 ここでは、購入コストとスキーシーズンの長さが学習者に不明なオンライン形式で、スキーレンタル問題の連続を解決しなければならない。 学習者は、スキーを買う真のコストを助言するセットと、スキーシーズンの長さを助言するセットの2つの専門家セットにアクセスできる。 購入コストを予測する専門家に対するある種の確率的な仮定の下で、オンラインアルゴリズムを開発し、後悔の限界を証明します。 実験結果から理論的結果が得られた。

The classical 'buy or rent' ski-rental problem was recently considered in the setting where multiple experts (such as Machine Learning algorithms) advice on the length of the ski season. Here, robust algorithms were developed with improved theoretical performance over adversarial scenarios where such expert predictions were unavailable. We consider a variant of this problem which we call the 'sequential ski-rental' problem. Here, a sequence of ski-rental problems has to be solved in an online fashion where both the buy cost and the length of the ski season are unknown to the learner. The learner has access to two sets of experts, one set who advise on the true cost of buying the ski and another set who advise on the length of the ski season. Under certain stochastic assumptions on the experts who predict the buy costs, we develop online algorithms and prove regret bounds for the same. Our experimental evaluations confirm our theoretical results.
翻訳日:2021-04-14 13:23:18 公開日:2021-04-13
# スケーラブル強化学習のためのpodracerアーキテクチャ

Podracer architectures for scalable Reinforcement Learning ( http://arxiv.org/abs/2104.06272v1 )

ライセンス: Link先を確認
Matteo Hessel, Manuel Kroiss, Aidan Clark, Iurii Kemaev, John Quan, Thomas Keck, Fabio Viola and Hado van Hasselt(参考訳) 最先端AI研究のサポートには、迅速なプロトタイピング、使いやすさ、迅速なイテレーションのバランスと、従来から運用システムに関連付けられていた規模の実験をデプロイする能力が必要だ。TensorFlowやPyTorch、JAXといったディープラーニングフレームワークによって、TPUやGPUといったアクセラレータを透過的に使用することで、現代的なディープラーニングシステムにおいて、より計算集約的なトレーニングと推論の部分をオフロードすることが可能になる。 これらのフレームワークをディープラーニングに使用する一般的なトレーニングパイプラインは、通常は(教師なしの)学習に重点を置いている。 強化学習(RL)エージェントを大規模に訓練する方法はまだ活発な研究分野である。 本報告では、TPUは、スケーラブルで効率的かつ再現可能な方法でRLエージェントを訓練するのに特に適していると論じる。 具体的には,tpu pod上で利用可能なリソースを最大限に活用するために設計された2つのアーキテクチャについて説明する。

Supporting state-of-the-art AI research requires balancing rapid prototyping, ease of use, and quick iteration, with the ability to deploy experiments at a scale traditionally associated with production systems.Deep learning frameworks such as TensorFlow, PyTorch and JAX allow users to transparently make use of accelerators, such as TPUs and GPUs, to offload the more computationally intensive parts of training and inference in modern deep learning systems. Popular training pipelines that use these frameworks for deep learning typically focus on (un-)supervised learning. How to best train reinforcement learning (RL) agents at scale is still an active research area. In this report we argue that TPUs are particularly well suited for training RL agents in a scalable, efficient and reproducible way. Specifically we describe two architectures designed to make the best use of the resources available on a TPU Pod (a special configuration in a Google data center that features multiple TPU devices connected to each other by extremely low latency communication channels).
翻訳日:2021-04-14 13:23:06 公開日:2021-04-13
# 学習モデルによる計画によるオンライン・オフライン強化学習

Online and Offline Reinforcement Learning by Planning with a Learned Model ( http://arxiv.org/abs/2104.06294v1 )

ライセンス: Link先を確認
Julian Schrittwieser and Thomas Hubert and Amol Mandhane and Mohammadamin Barekatain and Ioannis Antonoglou and David Silver(参考訳) 少数のデータから効率的に学ぶことは、固定データセットから学習する場合のオンラインケースとオフラインケースの両方において、モデルベースの強化学習の焦点となっている。 しかし、これまで両方の設定で最先端の結果を示す単一の統一アルゴリズムは存在しなかった。 本稿では,モデルに基づくポリシと値改善演算子を用いて,既存のデータポイント上での新たなトレーニング目標を計算し,データ予算を桁違いに効率的に学習するReanalyseアルゴリズムについて述べる。 さらに、オフラインの強化学習(オフラインRL)のように、環境相互作用のない実演から完全に学習するためにもReanalyseが利用できることを示す。 In the Reanalyse with the MuZero algorithm, we introduced MuZero Unplugged, a single unified algorithm for any data budget, including offline RL。 これまでの研究とは対照的に、我々のアルゴリズムは、オフポリシーやオフラインのRL設定に特別な適応を必要としない。 MuZero Unpluggedは、RL UnpluggedオフラインRLベンチマークと、標準2億フレーム設定におけるAtariのオンラインRLベンチマークに、新しい最先端の結果をセットする。

Learning efficiently from small amounts of data has long been the focus of model-based reinforcement learning, both for the online case when interacting with the environment and the offline case when learning from a fixed dataset. However, to date no single unified algorithm could demonstrate state-of-the-art results in both settings. In this work, we describe the Reanalyse algorithm which uses model-based policy and value improvement operators to compute new improved training targets on existing data points, allowing efficient learning for data budgets varying by several orders of magnitude. We further show that Reanalyse can also be used to learn entirely from demonstrations without any environment interactions, as in the case of offline Reinforcement Learning (offline RL). Combining Reanalyse with the MuZero algorithm, we introduce MuZero Unplugged, a single unified algorithm for any data budget, including offline RL. In contrast to previous work, our algorithm does not require any special adaptations for the off-policy or offline RL settings. MuZero Unplugged sets new state-of-the-art results in the RL Unplugged offline RL benchmark as well as in the online RL benchmark of Atari in the standard 200 million frame setting.
翻訳日:2021-04-14 13:22:44 公開日:2021-04-13
# 複雑な行動空間における学習と計画

Learning and Planning in Complex Action Spaces ( http://arxiv.org/abs/2104.06303v1 )

ライセンス: Link先を確認
Thomas Hubert and Julian Schrittwieser and Ioannis Antonoglou and Mohammadamin Barekatain and Simon Schmitt and David Silver(参考訳) 多くの重要な実世界の問題は、高次元、連続的、あるいは両方であるアクション空間を持ち、すべての可能なアクションの完全な列挙を可能にする。 代わりに、政策評価と改善のために、アクションの小さなサブセットのみをサンプリングできる。 本稿では,このようなアクションサブセットに対する政策評価と改善について,原則的に推論する一般的なフレームワークを提案する。 このサンプルベースのポリシーイテレーションフレームワークは、原則として、ポリシーイテレーションに基づいた強化学習アルゴリズムに適用することができる。 具体的には、サンプリングされたアクションを計画することで、任意の複雑なアクション空間を持つドメインで学習できるMuZeroアルゴリズムの拡張であるSampred MuZeroを提案する。 このアプローチは、Goの古典的なボードゲームと、DeepMind Control SuiteとReal-World RL Suiteの2つの連続制御ベンチマークドメインで実証する。

Many important real-world problems have action spaces that are high-dimensional, continuous or both, making full enumeration of all possible actions infeasible. Instead, only small subsets of actions can be sampled for the purpose of policy evaluation and improvement. In this paper, we propose a general framework to reason in a principled way about policy evaluation and improvement over such sampled action subsets. This sample-based policy iteration framework can in principle be applied to any reinforcement learning algorithm based upon policy iteration. Concretely, we propose Sampled MuZero, an extension of the MuZero algorithm that is able to learn in domains with arbitrarily complex action spaces by planning over sampled actions. We demonstrate this approach on the classical board game of Go and on two continuous control benchmark domains: DeepMind Control Suite and Real-World RL Suite.
翻訳日:2021-04-14 13:22:26 公開日:2021-04-13
# 仮想キャラクタアニメーション制御のためのデータ駆動強化学習

Data-Driven Reinforcement Learning for Virtual Character Animation Control ( http://arxiv.org/abs/2104.06358v1 )

ライセンス: Link先を確認
Vihanga Gamage, Cathy Ennis, Robert Ross(参考訳) 仮想文字アニメーション制御は強化学習(rl)が有効なアプローチである問題である。 現在の研究は物理学に基づくスキルの表現にRLを効果的に適用しているが、世界との物理的な相互作用が欠如しているため、社会行動は報酬関数を設計することが困難である。 一方で、これらのスキルのためのデータ駆動実装は、広範なトレーニングデータを必要とし、汎用性に制約を持つ教師あり学習方法に限定されている。 本稿では,新しいデータ駆動型深層rlアプローチであるrlanimateを提案し,rlの強みとエージェント作成時のモーションデータセットから学習する能力を組み合わせた。 エージェント,環境,状態,行動といった要素の概念的役割を,キャラクターアニメーション領域とモデルベースRLの属性を活用する方法で補足することで,エージェントの数学的構造を定式化する。 このアプローチで訓練されたエージェントは,複数の動作を再現性のあるアニメーションダイナミクスで表現し,反復的なrlトレーニングプロセスを使用することで,モーションキャプチャクリップから学習した表現を通じて有効な動作を認識する。 我々は,現実的なポインティングや揺動動作を表現したトレーニングエージェントを用いて,本手法ではトレーニング時間を大幅に短縮し,最先端物理に基づくRL法と比較してトレーニング中に発生するサンプルエピソードを著しく少なくすることを示した。 また、既存の教師付き学習ベースのアニメーションエージェントと比較して、RLAnimateはトレーニング中に有効な振る舞いの表現を生成するために、モーションクリップの限られたデータセットを必要とする。

Virtual character animation control is a problem for which Reinforcement Learning (RL) is a viable approach. While current work have applied RL effectively to portray physics-based skills, social behaviours are challenging to design reward functions for, due to their lack of physical interaction with the world. On the other hand, data-driven implementations for these skills have been limited to supervised learning methods which require extensive training data and carry constraints on generalisability. In this paper, we propose RLAnimate, a novel data-driven deep RL approach to address this challenge, where we combine the strengths of RL together with an ability to learn from a motion dataset when creating agents. We formalise a mathematical structure for training agents by refining the conceptual roles of elements such as agents, environments, states and actions, in a way that leverages attributes of the character animation domain and model-based RL. An agent trained using our approach learns versatile animation dynamics to portray multiple behaviours, using an iterative RL training process, which becomes aware of valid behaviours via representations learnt from motion capture clips. We demonstrate, by training agents that portray realistic pointing and waving behaviours, that our approach requires a significantly lower training time, and substantially fewer sample episodes to be generated during training relative to state-of-the-art physics-based RL methods. Also, compared to existing supervised learning-based animation agents, RLAnimate needs a limited dataset of motion clips to generate representations of valid behaviours during training.
翻訳日:2021-04-14 13:22:15 公開日:2021-04-13
# 年齢層別イタリアでのcovid-19感染者データ

COVID-19 case data for Italy stratified by age class ( http://arxiv.org/abs/2104.06199v1 )

ライセンス: Link先を確認
Giuseppe Calafiore, Giulia Fracastoro(参考訳) 2020年1月28日から2021年3月20日までにイタリアで発生したcovid-19感染者の日次データについて,第1級は0~9歳,第10級は90歳以上の10歳に区分した。 このデータセットは、日付(日)、年齢、新規患者数、新たに入院した患者数、集中治療を受ける患者数、死亡患者数、回復した患者数、感染した患者数という8つのコラムを含んでいる。 このデータは、2020年8月4日(2020年8月4日)に制定された民間保護省長官の命令に従って、公式な要請により、イタリアの新型コロナウイルス疫学監視機関(Istituto Superiore di Sanit\`a - ISS)が調査目的で公式に公開した。 2020年1月現在、イタリアの人口統計研究所(ISTAT)のデータによると、別のファイルには各年齢層の人口数が含まれている。 このデータは、例えば、イタリアにおけるCOVID-19感染の影響の疫学研究、年齢による死亡率分析、および感染の動的モデルの開発と試験に潜在的に有用である。

The dataset described in this paper contains daily data about COVID-19 cases that occurred in Italy over the period from Jan. 28, 2020 to March 20, 2021, divided into ten age classes of the population, the first class being 0-9 years, the tenth class being 90 years and over. The dataset contains eight columns, namely: date (day), age class, number of new cases, number of newly hospitalized patients, number of patients entering intensive care, number of deceased patients, number of recovered patients, number of active infected patients. This data has been officially released for research purposes by the Italian authority for COVID-19 epidemiologic surveillance (Istituto Superiore di Sanit\`a - ISS), upon formal request by the authors, in accordance with the Ordonnance of the Chief of the Civil Protection Department n. 691 dated Aug. 4 2020. A separate file contains the numerosity of the population in each age class, according to the National Institute of Statistics (ISTAT) data of the resident population of Italy as of Jan. 2020. This data has potential use, for instance, in epidemiologic studies of the effects of the COVID-19 contagion in Italy, in mortality analysis by age class, and in the development and testing of dynamical models of the contagion.
翻訳日:2021-04-14 13:20:48 公開日:2021-04-13
# 自己スーパービジョン学習による流体再構成のためのグローバルトランスポート

Global Transport for Fluid Reconstruction with Learned Self-Supervision ( http://arxiv.org/abs/2104.06031v1 )

ライセンス: Link先を確認
Erik Franz, Barbara Solenthaler, Nils Thuerey(参考訳) 本稿では,グローバルトランスポートの定式化によるスパースビューからボリュームフローを再構築する新しい手法を提案する。 観測の時空関数を得る代わりに、1つの初期状態に基づいてその動きを再構成する。 さらに,観察を知覚しない角度から制約する学習自己スーパービジョンを導入する。 これらの視覚的制約はトランスポート制約と微分可能なレンダリングステップによって結合され、堅牢なエンドツーエンドの再構築アルゴリズムに到達する。 これにより、単一の入力ビューからでも、非常に現実的な流れの動きの再構築が可能となる。 提案する輸送過程のグローバルな再構築により, 流体運動の再現性が向上することを示す。

We propose a novel method to reconstruct volumetric flows from sparse views via a global transport formulation. Instead of obtaining the space-time function of the observations, we reconstruct its motion based on a single initial state. In addition we introduce a learned self-supervision that constrains observations from unseen angles. These visual constraints are coupled via the transport constraints and a differentiable rendering step to arrive at a robust end-to-end reconstruction algorithm. This makes the reconstruction of highly realistic flow motions possible, even from only a single input view. We show with a variety of synthetic and real flows that the proposed global reconstruction of the transport process yields an improved reconstruction of the fluid motion.
翻訳日:2021-04-14 13:19:54 公開日:2021-04-13
# 行動認識のための階層型SOMシステムにおける第1および第2次ダイナミクス

First and Second Order Dynamics in a Hierarchical SOM system for Action Recognition ( http://arxiv.org/abs/2104.06059v1 )

ライセンス: Link先を確認
Zahra Gharaee and Peter G\"ardenfors and Magnus Johnsson(参考訳) 他の人間の行動に対する人間の認識は非常に効率的であり、行動パターンに基づいている。 我々の理論的出発点は、関節運動のダイナミクスが行動分類にとって重要であることである。 この理論に基づいて,行動分類を学習する独自の教師付きニューラルネットワークとともに,自己組織化マップの階層構造を用いた新しい行動認識システムを提案する。 システムはkinectのような3dカメラからの入力を前処理し、関節の位置だけでなく、第1および第2次ダイナミクスに関する情報を利用する。 我々は,公開データセットを用いた2つの実験でシステムを評価し,その性能をより洗練されていない入力前処理と比較した。 その結果,動作のダイナミクスを含むと性能が向上することがわかった。 また、アクションの実行に最も関与している身体の一部に焦点を当てた注意機構も適用します。

Human recognition of the actions of other humans is very efficient and is based on patterns of movements. Our theoretical starting point is that the dynamics of the joint movements is important to action categorization. On the basis of this theory, we present a novel action recognition system that employs a hierarchy of Self-Organizing Maps together with a custom supervised neural network that learns to categorize actions. The system preprocesses the input from a Kinect like 3D camera to exploit the information not only about joint positions, but also their first and second order dynamics. We evaluate our system in two experiments with publicly available data sets, and compare its performance to the performance with less sophisticated preprocessing of the input. The results show that including the dynamics of the actions improves the performance. We also apply an attention mechanism that focuses on the parts of the body that are the most involved in performing the actions.
翻訳日:2021-04-14 13:19:42 公開日:2021-04-13
# aliasingはあなたの味方:rawイメージバーストによるエンドツーエンドのスーパーレゾリューション

Aliasing is your Ally: End-to-End Super-Resolution from Raw Image Bursts ( http://arxiv.org/abs/2104.06191v1 )

ライセンス: Link先を確認
Bruno Lecouat, Jean Ponce, Julien Mairal(参考訳) 本発表では,空間と時間に若干異なる視点から撮影された複数の低解像度スナップショットから高分解能画像を再構成する問題に対処する。 この問題を解決するための主な課題は、(i)入力画像とサブピクセル精度の整合性、(ii)ネイティブカメラデータに対する最大限の忠実性のための生(ノイズ)画像の扱い、(iii)タスクに適した画像事前(正規化器)を設計・学習することである。 我々はこれら3つの課題に,Wronskiらの洞察に基づくハイブリッドアルゴリズムで対処する。 エイリアシングはこの設定における味方であり、パラメータはエンドツーエンドで学習でき、また逆問題に対する古典的アプローチの解釈可能性を維持している。 本手法の有効性は,合成および実画像バーストにおいて実証され,いくつかのベンチマークで新しい状態が設定され,スマートフォンやプロシューマーカメラで撮影された実生バーストに対して優れた質的結果が得られた。

This presentation addresses the problem of reconstructing a high-resolution image from multiple lower-resolution snapshots captured from slightly different viewpoints in space and time. Key challenges for solving this problem include (i) aligning the input pictures with sub-pixel accuracy, (ii) handling raw (noisy) images for maximal faithfulness to native camera data, and (iii) designing/learning an image prior (regularizer) well suited to the task. We address these three challenges with a hybrid algorithm building on the insight from Wronski et al. that aliasing is an ally in this setting, with parameters that can be learned end to end, while retaining the interpretability of classical approaches to inverse problems. The effectiveness of our approach is demonstrated on synthetic and real image bursts, setting a new state of the art on several benchmarks and delivering excellent qualitative results on real raw bursts captured by smartphones and prosumer cameras.
翻訳日:2021-04-14 13:19:30 公開日:2021-04-13
# MRIモダリティの欠如による脳腫瘍切片の潜在相関表現学習

Latent Correlation Representation Learning for Brain Tumor Segmentation with Missing MRI Modalities ( http://arxiv.org/abs/2104.06231v1 )

ライセンス: Link先を確認
Tongxue Zhou, St\ephane Canu, Pierre Vera, Su Ruan(参考訳) MRIは脳腫瘍を評価するために広く用いられている画像技術である。 MR画像から正確な脳腫瘍を抽出することが臨床診断と治療計画の鍵となる。 さらに、マルチモーダルMR画像は、正確な脳腫瘍セグメンテーションのための補完情報を提供することができる。 しかし, 臨床における画像的特徴の欠如は一般的である。 本稿では,新しい脳腫瘍分割アルゴリズムを提案する。 マルチモダリティ間の強い相関が存在するため、潜在多元相関を特に表現するための相関モデルが提案されている。 得られた相関表現のおかげで、モダリティが欠落した場合、セグメンテーションはより堅牢になる。 まず、各エンコーダによって生成される個々の表現を用いて、モダリティ独立パラメータを推定する。 次に、相関モデルは全ての個々の表現を潜在多元相関表現に変換する。 最後に、モダリティ間の相関表現を注意機構を介して共有表現に融合させ、セグメンテーションの最も重要な特徴を強調する。 当社のモデルをBraTS 2018とBraTS 2019データセットで評価し、現在の最先端メソッドよりも優れており、1つ以上のモダリティが欠如している場合に堅牢な結果を生成する。

Magnetic Resonance Imaging (MRI) is a widely used imaging technique to assess brain tumor. Accurately segmenting brain tumor from MR images is the key to clinical diagnostics and treatment planning. In addition, multi-modal MR images can provide complementary information for accurate brain tumor segmentation. However, it's common to miss some imaging modalities in clinical practice. In this paper, we present a novel brain tumor segmentation algorithm with missing modalities. Since it exists a strong correlation between multi-modalities, a correlation model is proposed to specially represent the latent multi-source correlation. Thanks to the obtained correlation representation, the segmentation becomes more robust in the case of missing modality. First, the individual representation produced by each encoder is used to estimate the modality independent parameter. Then, the correlation model transforms all the individual representations to the latent multi-source correlation representations. Finally, the correlation representations across modalities are fused via attention mechanism into a shared representation to emphasize the most important features for segmentation. We evaluate our model on BraTS 2018 and BraTS 2019 dataset, it outperforms the current state-of-the-art methods and produces robust results when one or more modalities are missing.
翻訳日:2021-04-14 13:19:11 公開日:2021-04-13
# ガウス変分推論の計算漸近論

The computational asymptotics of Gaussian variational inference ( http://arxiv.org/abs/2104.05886v1 )

ライセンス: Link先を確認
Zuheng Xu, Trevor Campbell(参考訳) 変分推論はマルコフ連鎖モンテカルロ法(英語版)(Markov chain Monte Carlo method)の一般的な代替であり、前特定された族内の真の後との差を最小化することによってベイズ近似を構成する。 これによりベイズ推論を最適化問題に変換し、単純でスケーラブルな確率最適化アルゴリズムを利用できる。 しかし、変分推論の鍵となる制限は、最適近似が一般に計算できないことであり、単純な設定であっても問題は非凸である。 したがって、最近開発された統計的保証は、すべて最適な変分分布の(データ)漸近特性を含むもので、実際には確実に得られない。 本研究は,ガウス族との人気設定における変分推論の漸近凸性に関する理論的解析と,これらの特性を利用して漸近状態の最適近似を求めるアルゴリズムである一貫した確率的変分推論(CSVI)の2つの主要な寄与を提供する。 CSVIは、最適解の局所的な盆地を見つける抽出可能な初期化手順と、その流域に局所的に閉じ込められているスケールド勾配降下アルゴリズムからなる。 非凸合成および実データを用いた実験では、標準確率勾配降下と比較してCSVIは最適後方近似を得る可能性を向上させる。

Variational inference is a popular alternative to Markov chain Monte Carlo methods that constructs a Bayesian posterior approximation by minimizing a discrepancy to the true posterior within a pre-specified family. This converts Bayesian inference into an optimization problem, enabling the use of simple and scalable stochastic optimization algorithms. However, a key limitation of variational inference is that the optimal approximation is typically not tractable to compute; even in simple settings the problem is nonconvex. Thus, recently developed statistical guarantees -- which all involve the (data) asymptotic properties of the optimal variational distribution -- are not reliably obtained in practice. In this work, we provide two major contributions: a theoretical analysis of the asymptotic convexity properties of variational inference in the popular setting with a Gaussian family; and consistent stochastic variational inference (CSVI), an algorithm that exploits these properties to find the optimal approximation in the asymptotic regime. CSVI consists of a tractable initialization procedure that finds the local basin of the optimal solution, and a scaled gradient descent algorithm that stays locally confined to that basin. Experiments on nonconvex synthetic and real-data examples show that compared with standard stochastic gradient descent, CSVI improves the likelihood of obtaining the globally optimal posterior approximation.
翻訳日:2021-04-14 13:18:53 公開日:2021-04-13
# Bayesian large-sample asymptotics を用いたランダムウォークメトロポリスアルゴリズムの最適スケーリング

Optimal scaling of random walk Metropolis algorithms using Bayesian large-sample asymptotics ( http://arxiv.org/abs/2104.06384v1 )

ライセンス: Link先を確認
Sebastian M Schmon and Philippe Gagnon(参考訳) 高次元漸近は、ランダムウォークメトロポリスアルゴリズムの最適スケーリングを見つけるためのチューニング規則の導出に有用であることが示されている。 弱い収束結果が証明される仮定は、しかしながら制限的であり、ターゲット密度は典型的には積形式であると仮定される。 したがって、ユーザーはそのようなチューニングルールの実用的適用の有効性を疑うかもしれない。 本稿では,異なる観点からの最適スケーリング問題,すなわち大きなサンプル問題に光を当てる。 これにより、現実的な仮定の下で弱い収束結果を証明し、新しいパラメータ次元依存チューニングガイドラインを提案することができる。 提案したガイドラインは,対象密度が製品形式に近い場合と一致しているが,そうでない場合とは大きく異なる。

High-dimensional asymptotics have been shown to be useful to derive tuning rules for finding the optimal scaling in random walk Metropolis algorithms. The assumptions under which weak convergence results are proved are however restrictive; the target density is typically assumed to be of a product form. Users may thus doubt the validity of such tuning rules in practical applications. In this paper, we shed some light on optimal scaling problems from a different perspective, namely a large-sample one. This allows to prove weak convergence results under realistic assumptions and to propose novel parameter dimension dependent tuning guidelines. The proposed guidelines are consistent with previous ones when the target density is close to having a product form, but significantly different when this is not the case.
翻訳日:2021-04-14 13:18:28 公開日:2021-04-13
# 直交初期化ニューラルネットワークにおけるカーネル近似の有効性について

On the validity of kernel approximations for orthogonally-initial ized neural networks ( http://arxiv.org/abs/2104.05878v1 )

ライセンス: Link先を確認
James Martens(参考訳) 本稿では,gaussian-distribute d weightsを持つニューラルネットワークのカーネル関数近似結果を,haar-distributed random orthogonal matrices(再スケーリング可能)を用いて初期化した単層ネットワークに拡張する。 これはランダム行列理論の最近の結果を用いて達成される。

In this note we extend kernel function approximation results for neural networks with Gaussian-distributed weights to single-layer networks initialized using Haar-distributed random orthogonal matrices (with possible rescaling). This is accomplished using recent results from random matrix theory.
翻訳日:2021-04-14 13:17:43 公開日:2021-04-13
# シェイクスピア時代劇の初演日時をモデル化するための多重回帰手法

Multiple regression techniques for modeling dates of first performances of Shakespeare-era plays ( http://arxiv.org/abs/2104.05929v1 )

ライセンス: Link先を確認
Pablo Moscato, Hugh Craig, Gabriel Egan, Mohammad Nazmul Haque, Kevin Huang, Julia Sloan, Jon Corrales de Oliveira(参考訳) シェイクスピアの時代の戯曲の最初の上演日は、通常、複数の間接的な外部ソース、あるいは劇の内容や様式のいくつかの側面を参照して推測しなければならない。 これらの日付を特定することは文学史やシェイクスピアなどの著作様式の発展に重要である。 本研究では,シェークスピア時代の戯曲(181年,1585年~1610年)のセットを取り上げ,標準参考作品から最高のゲーミング日をメタデータとして追加し,それらのサンプル中の個々の単語の確率を計算した。 80/20のトレーニング/テストスプリットでプレイの日時を予測するため,11の回帰手法を適用した。 私たちは一度にひとつのプレーを削除し、確率と重み付けを備えた最高の日付メタデータを使用して、日付と確率の相互作用のモデルを構築しました。 我々は,少数の変数を用いてモデルを伝達し,解釈可能なモデルと次元の縮小をもたらす,メメティックアルゴリズムに基づく連続的フラクション回帰(CFR)を導入した。 100インディペンデントランにおけるcfrモデルで最も一般的に発生する20単語の詳細な分析は、言語的および様式的用語の傾向を説明するのに役立つ。 単語のサブセットによる分析は、シェイクスピア時代の劇のジャンルと署名語の興味深い相関関係を明らかにした。

The date of the first performance of a play of Shakespeare's time must usually be guessed with reference to multiple indirect external sources, or to some aspect of the content or style of the play. Identifying these dates is important to literary history and to accounts of developing authorial styles, such as Shakespeare's. In this study, we took a set of Shakespeare-era plays (181 plays from the period 1585--1610), added the best-guess dates for them from a standard reference work as metadata, and calculated a set of probabilities of individual words in these samples. We applied 11 regression methods to predict the dates of the plays at an 80/20 training/test split. We withdrew one play at a time, used the best-guess date metadata with the probabilities and weightings to infer its date, and thus built a model of date-probabilities interaction. We introduced a memetic algorithm-based Continued Fraction Regression (CFR) which delivered models using a small number of variables, leading to an interpretable model and reduced dimensionality. An in-depth analysis of the most commonly occurring 20 words in the CFR models in 100 independent runs helps explain the trends in linguistic and stylistic terms. The analysis with the subset of words revealed an interesting correlation of signature words with the Shakespeare-era play's genre.
翻訳日:2021-04-14 13:17:39 公開日:2021-04-13
# Fall of Giants: テキストベースのMLaaSが単純な回避攻撃に対していかに人気か

Fall of Giants: How popular text-based MLaaS fall against a simple evasion attack ( http://arxiv.org/abs/2104.05996v1 )

ライセンス: Link先を確認
Luca Pajola and Mauro Conti(参考訳) 機械学習アプリケーションの需要の増加により、企業はMLaaS(Machine-Learni ng-as-a-Service)を提供している。 mlaas(市場推定で2025年までに8000万米ドル)では、複雑なトレーニング手順に対処せずに、高いパフォーマンスのmlモデルに課金する。 MLaaSの中で、テキストベースのアプリケーションは最も人気のあるもの(例えば、言語翻訳者)である。 この人気を考えれば、MLaaSは敵の操作に対して回復力を提供しなければならない。 例えば、間違った翻訳は、両者の誤解につながる可能性がある。 テキストドメインでは、最先端の攻撃は主にMLモデルの弱点を活用する戦略に焦点を当てている。 残念ながら、インデクシングステージ(テキストから数値表現に変換する場合)など、他のパイプラインのステージにはあまり注目されていない。 本稿では,人間の非可読性文字の注入を活用し,索引付け段階のメカニズムに影響を与える「\textit{zero-width} attack(zew)」と呼ばれる新しいテキスト回避手法を提案する。 私たちの単純な効果的な攻撃は、Amazon、Google、IBM、Microsoftといった“巨人”のMLaaSを騙していることを実証しています。 今回のケーススタディでは、ヘイトフルツイートの操作に基づいて、分析された12のサービスのうち、注入戦略に耐性があるのは1つだけです。 最後に、提案する攻撃を防ぐ単純な \textit{input validation} ディフェンスを導入し、テストします。

The increased demand for machine learning applications made companies offer Machine-Learning-as- a-Service (MLaaS). In MLaaS (a market estimated 8000M USD by 2025), users pay for well-performing ML models without dealing with the complicated training procedure. Among MLaaS, text-based applications are the most popular ones (e.g., language translators). Given this popularity, MLaaS must provide resiliency to adversarial manipulations. For example, a wrong translation might lead to a misunderstanding between two parties. In the text domain, state-of-the-art attacks mainly focus on strategies that leverage ML models' weaknesses. Unfortunately, not much attention has been given to the other pipeline' stages, such as the indexing stage (i.e., when a sentence is converted from a textual to a numerical representation) that, if manipulated, can significantly affect the final performance of the application. In this paper, we propose a novel text evasion technique called "\textit{Zero-Width} attack" (ZeW) that leverages the injection of human non-readable characters, affecting indexing stage mechanisms. We demonstrate that our simple yet effective attack deceives MLaaS of "giants" such as Amazon, Google, IBM, and Microsoft. Our case study, based on the manipulation of hateful tweets, shows that out of 12 analyzed services, only one is resistant to our injection strategy. We finally introduce and test a simple \textit{input validation} defense that can prevent our proposed attack.
翻訳日:2021-04-14 13:17:15 公開日:2021-04-13
# パーソナライズされた解釈可能性推定(ML-PIE)を用いたモデル学習

Model Learning with Personalized Interpretability Estimation (ML-PIE) ( http://arxiv.org/abs/2104.06060v1 )

ライセンス: Link先を確認
Marco Virgolin, Andrea De Lorenzo, Francesca Randone, Eric Medvet, Mattias Wahde(参考訳) ハイテイクアプリケーションは、AI生成したモデルを解釈する必要がある。 現在の解釈可能なモデルの合成アルゴリズムは、解釈可能性を表す目的語や正規化語(例えばモデルサイズ)に依存しており、特定のユーザ向けには設計されていない。 しかし、解釈性は本質的に主観的である。 本稿では,ユーザの好みに応じてモデル合成プロセスのステアリングを可能にすることによって,ユーザに適したモデル合成手法を提案する。 二目的進化アルゴリズムを用いて、精度とユーザ固有の解釈可能性のトレードオフを持つモデルを合成する。 後者は、不確実性に基づくアクティブラーニングを用いて収集されたユーザのフィードバックを用いて、進化に並行して訓練されたニューラルネットワークによって推定される。 ユーザビリティを最大化するために、ユーザは、一度に2つのモデルが与えられた場合、どれがより複雑かのみを指示される。 61人の参加者を巻き込んだ実世界の2つのデータセットの実験により、我々のアプローチは異なるユーザにとって非常に異なる解釈可能性の推定を学習できることがわかった。 さらに,非個人化解釈可能性指標を用いたモデルよりも,提案手法を用いたモデルの方が好まれる。

High-stakes applications require AI-generated models to be interpretable. Current algorithms for the synthesis of potentially interpretable models rely on objectives or regularization terms that represent interpretability only coarsely (e.g., model size) and are not designed for a specific user. Yet, interpretability is intrinsically subjective. In this paper, we propose an approach for the synthesis of models that are tailored to the user by enabling the user to steer the model synthesis process according to her or his preferences. We use a bi-objective evolutionary algorithm to synthesize models with trade-offs between accuracy and a user-specific notion of interpretability. The latter is estimated by a neural network that is trained concurrently to the evolution using the feedback of the user, which is collected using uncertainty-based active learning. To maximize usability, the user is only asked to tell, given two models at the time, which one is less complex. With experiments on two real-world datasets involving 61 participants, we find that our approach is capable of learning estimations of interpretability that can be very different for different users. Moreover, the users tend to prefer models found using the proposed approach over models found using non-personalized interpretability indices.
翻訳日:2021-04-14 13:16:54 公開日:2021-04-13
# バイノーラル音声のない視覚情報バイノーラル音声生成

Visually Informed Binaural Audio Generation without Binaural Audios ( http://arxiv.org/abs/2104.06162v1 )

ライセンス: Link先を確認
Xudong Xu, Hang Zhou, Ziwei Liu, Bo Dai, Xiaogang Wang, Dahua Lin(参考訳) ステレオフォニックオーディオ、特にバイノーラルオーディオは、没入型視聴環境において重要な役割を果たす。 近年,マルチチャンネルオーディオコレクションによる視覚誘導ステレオ音声の生成が研究されている。 しかし、プロの録音装置の要求により、既存のデータセットはスケールやバラエティに制限があり、実世界のシナリオにおける教師あり手法の一般化を妨げている。 本研究では,バイノーラル記録のない効果的なパイプラインであるpseudobinauralを提案する。 重要な洞察は、トレーニング用のモノデータと擬似視覚ステレオペアを慎重に構築することだ。 具体的には,球面高調波分解と頭部関連インパルス応答(hrir)を用いて,空間的位置と受聴両耳音の関係を同定する。 次に、視覚モダリティにおいて、モノデータの対応する視覚手がかりを音源位置に手動で配置してペアを形成する。 完全教師付きパラダイムと比較して、我々のバイノーラル・レコーディングフリーパイプラインは、クロスデータセット評価において大きな安定性を示し、主観的嗜好の下で同等のパフォーマンスを達成する。 さらに,バイノーラル録音と組み合わせることで,教師付き環境下でのバイノーラル音声生成の性能をさらに向上させることができる。

Stereophonic audio, especially binaural audio, plays an essential role in immersive viewing environments. Recent research has explored generating visually guided stereophonic audios supervised by multi-channel audio collections. However, due to the requirement of professional recording devices, existing datasets are limited in scale and variety, which impedes the generalization of supervised methods in real-world scenarios. In this work, we propose PseudoBinaural, an effective pipeline that is free of binaural recordings. The key insight is to carefully build pseudo visual-stereo pairs with mono data for training. Specifically, we leverage spherical harmonic decomposition and head-related impulse response (HRIR) to identify the relationship between spatial locations and received binaural audios. Then in the visual modality, corresponding visual cues of the mono data are manually placed at sound source positions to form the pairs. Compared to fully-supervised paradigms, our binaural-recording-f ree pipeline shows great stability in cross-dataset evaluation and achieves comparable performance under subjective preference. Moreover, combined with binaural recordings, our method is able to further boost the performance of binaural audio generation under supervised settings.
翻訳日:2021-04-14 13:16:35 公開日:2021-04-13
# リカレント平衡ネットワーク:安定かつロバストな力学モデルの無拘束学習

Recurrent Equilibrium Networks: Unconstrained Learning of Stable and Robust Dynamical Models ( http://arxiv.org/abs/2104.05942v1 )

ライセンス: Link先を確認
Max Revay, Ruigang Wang, Ian R. Manchester(参考訳) 本稿では,機械学習とシステム同定のための新しい非線形力学モデルであるrens(recurrent equilibrium network)について述べる。 新しいモデルクラスは、安定性とロバスト性を保証する「組み込まれている」:クラス内の全てのモデル -- 強い非線形安定性の形式 -- が収縮しており、モデルは所定のリプシッツ境界を持つことができる。 renは、すべての安定線形システム、すべての既知の契約型リカレントニューラルネットワーク、すべてのディープフィードフォワードニューラルネットワーク、およびすべての安定wiener/hammersteinモデルを表現することができる。 REN は R^N のベクトルによって直接パラメータ化される。 安定性と堅牢性はパラメータ制約なしで確保されるため、制約のない最適化のための一般的な方法を使用することができるため、学習が簡単になる。 ベンチマーク非線形システム同定問題に対して,新しいモデルセットのロバスト性の評価を行った。

This paper introduces recurrent equilibrium networks (RENs), a new class of nonlinear dynamical models for applications in machine learning and system identification. The new model class has "built in" guarantees of stability and robustness: all models in the class are contracting -- a strong form of nonlinear stability -- and models can have prescribed Lipschitz bounds. RENs are otherwise very flexible: they can represent all stable linear systems, all previously-known sets of contracting recurrent neural networks, all deep feedforward neural networks, and all stable Wiener/Hammerstein models. RENs are parameterized directly by a vector in R^N, i.e. stability and robustness are ensured without parameter constraints, which simplifies learning since generic methods for unconstrained optimization can be used. The performance of the robustness of the new model set is evaluated on benchmark nonlinear system identification problems.
翻訳日:2021-04-14 13:16:00 公開日:2021-04-13
# グラフ表現学習のための高次依存性獲得による階層的適応プール

Hierarchical Adaptive Pooling by Capturing High-order Dependency for Graph Representation Learning ( http://arxiv.org/abs/2104.05960v1 )

ライセンス: Link先を確認
Ning Liu, Songlei Jian, Dongsheng Li, Yiming Zhang, Zhiquan Lai, Hongzuo Xu(参考訳) グラフニューラルネットワーク(GNN)はノードレベルのグラフ表現学習タスクでグラフ構造化データを扱うのに十分成熟していることが証明されている。 しかし、表現力のあるグラフレベルの表現を学ぶためのグラフプーリング技術は、依然として困難である。 既存のプーリング手法は、局所的なサブ構造を捕捉するのに苦労するか、高階依存を効果的に利用できないか、表現能力を低下させる。 本稿では,グラフ構造に適応的に敏感な階層型グラフレベル表現学習フレームワークhapを提案する。 HAPは、新しいクロスレベルアテンション機構MOAを利用して、重要な情報を含む高次依存を効果的に捉えながら、近隣に自然に集中する。 また、グラフパターン特性を抽出して、前と後のグラフコンテンツを安定させるグローバルグラフコンテンツGContを学習し、グラフ粗化のグローバルガイダンスを提供する。 この新たなイノベーションは、同じ形式の特徴を持つグラフをまたいだ一般化も促進する。 14のデータセットに対する大規模な実験により、HAPは最大精度22.79%のグラフ分類タスクにおいて12のグラフプーリング法を著しく上回り、最先端のグラフマッチングとグラフ類似性学習アルゴリズムのパフォーマンスを3.5%以上16.7%以上上回った。

Graph neural networks (GNN) have been proven to be mature enough for handling graph-structured data on node-level graph representation learning tasks. However, the graph pooling technique for learning expressive graph-level representation is critical yet still challenging. Existing pooling methods either struggle to capture the local substructure or fail to effectively utilize high-order dependency, thus diminishing the expression capability. In this paper we propose HAP, a hierarchical graph-level representation learning framework, which is adaptively sensitive to graph structures, i.e., HAP clusters local substructures incorporating with high-order dependencies. HAP utilizes a novel cross-level attention mechanism MOA to naturally focus more on close neighborhood while effectively capture higher-order dependency that may contain crucial information. It also learns a global graph content GCont that extracts the graph pattern properties to make the pre- and post-coarsening graph content maintain stable, thus providing global guidance in graph coarsening. This novel innovation also facilitates generalization across graphs with the same form of features. Extensive experiments on fourteen datasets show that HAP significantly outperforms twelve popular graph pooling methods on graph classification task with an maximum accuracy improvement of 22.79%, and exceeds the performance of state-of-the-art graph matching and graph similarity learning algorithms by over 3.5% and 16.7%.
翻訳日:2021-04-14 13:15:46 公開日:2021-04-13
# dyslexia 診断のための経時的EigenPAC

Temporal EigenPAC for dyslexia diagnosis ( http://arxiv.org/abs/2104.05991v1 )

ライセンス: Link先を確認
Nicol\'as Gallego-Molina, Marco Formoso, Andr\'es Ortiz, Francisco J. Mart\'inez-Murcia, Juan L. Luque(参考訳) 脳波信号は、非侵襲的な方法で脳皮質の機能的活動を調べることができる。 しかし、これらの信号の解析は、異なるアーティファクトの存在と非常に低い信号対雑音比のため、単純ではない。 クロス周波数結合(CFC)法は、周波数帯域間の同期に関連する脳波から情報を抽出する方法を提供する。 しかし、CFC法は通常局所的に適用され、同じ電極における位相と振幅の相互作用を計算する。 本研究では, 電極間のPAC特性を計算し, 機能的接続性について検討する。 さらに,7歳児におけるDyslexia関連パターンの探索に主成分分析と併用して行った。 開発手法はPACベースの接続の時間的進化を明らかにする。 PCAによって計算される最大の分散の方向は、古典的な \textit{eigenfaces} 表現に似ているため、ここでは固有PACと呼ばれる。 固有パックへのpacデータの投影は、その識別能力、特にベータガンマバンドにおける特徴のセットを提供する。

Electroencephalograp hy signals allow to explore the functional activity of the brain cortex in a non-invasive way. However, the analysis of these signals is not straightforward due to the presence of different artifacts and the very low signal-to-noise ratio. Cross-Frequency Coupling (CFC) methods provide a way to extract information from EEG, related to the synchronization among frequency bands. However, CFC methods are usually applied in a local way, computing the interaction between phase and amplitude at the same electrode. In this work we show a method to compute PAC features among electrodes to study the functional connectivity. Moreover, this has been applied jointly with Principal Component Analysis to explore patterns related to Dyslexia in 7-years-old children. The developed methodology reveals the temporal evolution of PAC-based connectivity. Directions of greatest variance computed by PCA are called eigenPACs here, since they resemble the classical \textit{eigenfaces} representation. The projection of PAC data onto the eigenPACs provide a set of features that has demonstrates their discriminative capability, specifically in the Beta-Gamma bands.
翻訳日:2021-04-14 13:15:21 公開日:2021-04-13
# NoiseVC: 高品質ゼロショット音声変換を目指して

NoiseVC: Towards High Quality Zero-Shot Voice Conversion ( http://arxiv.org/abs/2104.06074v1 )

ライセンス: Link先を確認
Shijun Wang and Damian Borth(参考訳) 音声変換(Voice conversion, VC)は, 言語的内容を失うことなく音声を対象の音声からソースに変換するタスクであり, 特に訓練中に音源とターゲット話者が見えない場合(ゼロショットVC)は困難である。 以前のアプローチではゼロショット変換を行うには事前訓練されたモデルや言語データが必要である。 一方、vector quantization (vq) やインスタンス正規化 (in) を持つvcモデルは、コンテンツをオーディオから切り離し、うまく変換することができる。 しかし、これらのモデルの絡み合いは、非常に制約されたボトルネック層に依存するため、音質は大幅に犠牲となる。 本稿では,VQとコントラスト予測符号化(Contrastive Predictive Coding, CPC)に基づいてコンテンツを切り離す手法であるNossVCを提案する。 さらに、遠絡能力を高めるためにノイズ増強を行う。 我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。

Voice conversion (VC) is a task that transforms voice from target audio to source without losing linguistic contents, it is challenging especially when source and target speakers are unseen during training (zero-shot VC). Previous approaches require a pre-trained model or linguistic data to do the zero-shot conversion. Meanwhile, VC models with Vector Quantization (VQ) or Instance Normalization (IN) are able to disentangle contents from audios and achieve successful conversions. However, disentanglement in these models highly relies on heavily constrained bottleneck layers, thus, the sound quality is drastically sacrificed. In this paper, we propose NoiseVC, an approach that can disentangle contents based on VQ and Contrastive Predictive Coding (CPC). Additionally, Noise Augmentation is performed to further enhance disentanglement capability. We conduct several experiments and demonstrate that NoiseVC has a strong disentanglement ability with a small sacrifice of quality.
翻訳日:2021-04-14 13:15:04 公開日:2021-04-13
# mdps継続における長期平均報酬の最適化 : 技術報告

Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical Report ( http://arxiv.org/abs/2104.06139v1 )

ライセンス: Link先を確認
Chao Xu, Yiping Xie, Xijun Wang, Howard H. Yang, Dusit Niyato, Tony Q. S. Quek(参考訳) 近年,センサを適切に活性化し,キャッシング可能なモノのインターネット(IoT)ネットワークにおける現状を更新することにより,情報量(AoI)とセンサが消費するエネルギーとのバランスを揺るがしている。 この問題を解決するために、我々は、対応するステータス更新手順を継続するマルコフ決定プロセス(MDP)としてキャストし(すなわち、終了状態のない)、検討されたセンサやユーザ数に対して、状態-動作ペアの数が指数関数的に増加する。 さらに, 次元の呪いを回避するため, 深部強化学習(DRL)アルゴリズムを設計し (resp) 最大化するための手法を確立した。 最小) 平均的な報酬(報酬)。 R-ラーニングを統合することで、長期平均報酬の最大化に適した表強化学習(RL)アルゴリズムと、従来のDRLアルゴリズムが、当初、平均報酬よりも割引された長期累積報酬を最適化するために開発された。 本技術報告では,本方法論の技術的貢献について詳細な議論を行う。

Recently, we have shaken the balance between the information freshness, in terms of age of information (AoI), experienced by users and energy consumed by sensors, by appropriately activating sensors to update their current status in caching enabled Internet of Things (IoT) networks [1]. To solve this problem, we cast the corresponding status update procedure as a continuing Markov Decision Process (MDP) (i.e., without termination states), where the number of state-action pairs increases exponentially with respect to the number of considered sensors and users. Moreover, to circumvent the curse of dimensionality, we have established a methodology for designing deep reinforcement learning (DRL) algorithms to maximize (resp. minimize) the average reward (resp. cost), by integrating R-learning, a tabular reinforcement learning (RL) algorithm tailored for maximizing the long-term average reward, and traditional DRL algorithms, initially developed to optimize the discounted long-term cumulative reward rather the average one. In this technical report, we would present detailed discussions on the technical contributions of this methodology.
翻訳日:2021-04-14 13:14:45 公開日:2021-04-13
# 都市大気汚染シミュレーションの予測改善のためのadversarial autoencoderとadversarial lstm

Adversarial autoencoders and adversarial LSTM for improved forecasts of urban air pollution simulations ( http://arxiv.org/abs/2104.06297v1 )

ライセンス: Link先を確認
C\'esar Quilodr\'an-Casas, Rossella Arcucci, Laetitia Mottet, Yike Guo, Christopher Pain(参考訳) 本稿では,深層学習による都市大気汚染の計算流体力学(cfd)シミュレーションの予測と,特に逆行訓練の改善について述べる。 この敵対的アプローチは、基礎となる物理モデルから予測の発散を減らすことを目的としている。 本手法では,主成分分析(PCA)をベースとした対数自己エンコーダ(PC-AAE)と対数長短期メモリ(LSTM)ネットワークを統合した。 CFD溶液の減階モデル(ROM)がPCAを介して取得されると、主成分時系列に対向オートエンコーダが使用される。 その後、Long Short-Term Memory Network (LSTM) はPC-AAEが生成する潜伏空間上で逆向きにトレーニングを行い、予測を行う。 訓練されたLSTMは、古典的な方法で訓練されたLSTMよりも優れている。 研究エリアは南ロンドンにあり、交通ジャンクション内の3次元速度ベクトルを含む。

This paper presents an approach to improve the forecast of computational fluid dynamics (CFD) simulations of urban air pollution using deep learning, and most specifically adversarial training. This adversarial approach aims to reduce the divergence of the forecasts from the underlying physical model. Our two-step method integrates a Principal Components Analysis (PCA) based adversarial autoencoder (PC-AAE) with adversarial Long short-term memory (LSTM) networks. Once the reduced-order model (ROM) of the CFD solution is obtained via PCA, an adversarial autoencoder is used on the principal components time series. Subsequentially, a Long Short-Term Memory network (LSTM) is adversarially trained on the latent space produced by the PC-AAE to make forecasts. Once trained, the adversarially trained LSTM outperforms a LSTM trained in a classical way. The study area is in South London, including three-dimensional velocity vectors in a busy traffic junction.
翻訳日:2021-04-14 13:14:01 公開日:2021-04-13
# (参考訳) 人間の行動認識と予測のためのイベントベースのタイムスタンプ画像符号化ネットワーク [全文訳有]

Event-based Timestamp Image Encoding Network for Human Action Recognition and Anticipation ( http://arxiv.org/abs/2104.05145v2 )

ライセンス: CC0 1.0
Chaoxing Huang(参考訳) イベントカメラは、人間の行動理解作業に適した低消費電力の非同期で高周波な視覚センサである。 イベントデータの時空間情報を適切にエンコードし、標準コンピュータビジョンツールを用いてデータから学習することが不可欠である。 本研究では、イベントデータの極性情報を入力として符号化した時空間画像と、動作ラベルを出力する2Dネットワークのタイムスタンプ画像符号化を提案する。 さらに,アクションが完了していない場合に,モデルがヒューマンアクションを予測できるように,未来動作情報を生成するための未来タイムスタンプ画像生成器を提案する。 実験の結果,本手法は実世界の行動認識におけるRGBベースベンチマークと同等の性能を達成でき,またジェスチャー認識における技術(SOTA)の状態を達成できることがわかった。 今後のタイムスタンプ画像生成モデルは、動作が完了していない場合の予測精度を効果的に向上させることができる。 また,行動認識と予測における動作情報と出現情報の重要性について考察する。

Event camera is an asynchronous, high frequency vision sensor with low power consumption, which is suitable for human action understanding task. It is vital to encode the spatial-temporal information of event data properly and use standard computer vision tool to learn from the data. In this work, we propose a timestamp image encoding 2D network, which takes the encoded spatial-temporal images with polarity information of the event data as input and output the action label. In addition, we propose a future timestamp image generator to generate futureaction information to aid the model to anticipate the human action when the action is not completed. Experiment results show that our method can achieve the same level of performance as those RGB-based benchmarks on real world action recognition,and also achieve the state of the art (SOTA) result on gesture recognition. Our future timestamp image generating model can effectively improve the prediction accuracy when the action is not completed. We also provide insight discussion on the importance of motion and appearance information in action recognition and anticipation.
翻訳日:2021-04-14 11:45:48 公開日:2021-04-13
# (参考訳) 読み上げ音声における特徴検出のための深層学習 [全文訳有]

Deep Learning for Prominence Detection in Children's Read Speech ( http://arxiv.org/abs/2104.05488v2 )

ライセンス: CC BY-SA 4.0
Kamini Sabu, Mithilesh Vaidya, Preeti Rao(参考訳) 表現的読解は、口頭読解流の特質とされ、言い回しと発音の韻律的実現を包含する。 オーラルリーディングの評価の文脈では、話者のテキスト理解を確立するのに役立つ。 本研究は,音声韻律的特徴とレキシコ・シンタクティック特徴を用いた話者非依存な単語検出のための,子どもの読み書きのラベル付きデータセットについて考察する。 事前調整されたランダムな森林アンサンブル予測器はRNNシーケンス分類器に置き換えられ、より長い発話における潜在的なコンテキスト依存性を利用する。 さらに,エンド・ツー・エンド方式で基本周波数,強度,スペクトル形状の低レベル音響輪郭から単語レベル特徴を得るために深層学習を適用した。 パフォーマンスの比較は、さまざまな機能タイプと、さまざまな機能学習アーキテクチャで示され、目立った単語予測は、可能な限り洞察を引き出す。

Expressive reading, considered the defining attribute of oral reading fluency, comprises the prosodic realization of phrasing and prominence. In the context of evaluating oral reading, it helps to establish the speaker's comprehension of the text. We consider a labeled dataset of children's reading recordings for the speaker-independent detection of prominent words using acoustic-prosodic and lexico-syntactic features. A previous well-tuned random forest ensemble predictor is replaced by an RNN sequence classifier to exploit potential context dependency across the longer utterance. Further, deep learning is applied to obtain word-level features from low-level acoustic contours of fundamental frequency, intensity and spectral shape in an end-to-end fashion. Performance comparisons are presented across the different feature types and across different feature learning architectures for prominent word prediction to draw insights wherever possible.
翻訳日:2021-04-14 11:28:15 公開日:2021-04-13
# 1-Lipschitz ニューラルネットワークの多面性

The Many Faces of 1-Lipschitz Neural Networks ( http://arxiv.org/abs/2104.05097v2 )

ライセンス: Link先を確認
Louis B\'ethune, Alberto Gonz\'alez-Sanz, Franck Mamalet, Mathieu Serrurier(参考訳) リプシッツ制約付きモデルは、ganのwasserstein距離の推定や、敵の攻撃に頑健なニューラルネットワークのトレーニングなど、特定のディープラーニング問題を解決するために用いられてきた。 このような1-Lipschitzネットワークを構築するための新奇で効果的なアルゴリズムにもかかわらず、その使用法はいまだに限られており、表現力は低く、制約のないアルゴリズムよりもデータの適合性が低いと考えられている。 この論文の目的は、1-Lipschitzのニューラルネットワークが、実験的に訓練が困難であるにもかかわらず、非制約のニューラルネットワークよりも理論的に根拠があることを示すことである。 深層学習の範囲における1-Lipschitz関数に関するいくつかの結果を思い出し、それらを拡張して説明し、分類の一般的な性質を導出する。 まず,1-Lipschitz ニューラルネットワークは,従来のニューラルネットワークのように表現力のあるフロンティアに適していることを示す。 ログ損失を最小化する場合、リプシッツ制約の下での最適化問題は十分に仮定され最小であり、通常のニューラルネットワークは驚くほど単純な状況でも分岐可能であることを示す。 そこで,関東ロビッチ・ルビンシュタイン双対性理論の正規化版による1-Lipschitzネットワークの分類と最適輸送の関係について検討した。 最後に、VC次元の予備的境界を導出する。

Lipschitz constrained models have been used to solve specifics deep learning problems such as the estimation of Wasserstein distance for GAN, or the training of neural networks robust to adversarial attacks. Regardless the novel and effective algorithms to build such 1-Lipschitz networks, their usage remains marginal, and they are commonly considered as less expressive and less able to fit properly the data than their unconstrained counterpart. The goal of the paper is to demonstrate that, despite being empirically harder to train, 1-Lipschitz neural networks are theoretically better grounded than unconstrained ones when it comes to classification. To achieve that we recall some results about 1-Lipschitz function in the scope of deep learning and we extend and illustrate them to derive general properties for classification. First, we show that 1-Lipschitz neural network can fit arbitrarily difficult frontier making them as expressive as classical ones. When minimizing the log loss, we prove that the optimization problem under Lipschitz constraint is well posed and have a minimum, whereas regular neural networks can diverge even on remarkably simple situations. Then, we study the link between classification with 1-Lipschitz network and optimal transport thanks to regularized versions of Kantorovich-Rubinste in duality theory. Last, we derive preliminary bounds on their VC dimension.
翻訳日:2021-04-14 11:16:46 公開日:2021-04-13
# 依存関係解析における高速言語間適応のためのメタラーニング

Meta-learning for fast cross-lingual adaptation in dependency parsing ( http://arxiv.org/abs/2104.04736v2 )

ライセンス: Link先を確認
Anna Langedijk, Verna Dankers, Phillip Lippe, Sander Bos, Bryan Cardenas Guevara, Helen Yannakoudakis, Ekaterina Shutova(参考訳) メタラーニング(meta-learning)は、言語間nlp問題におけるリソース不足を克服するために、新しいタスクへの迅速な適応を可能にするテクニックである。 言語間依存関係解析のタスクにモデル非依存型メタラーニング(maml)を適用する。 我々は、新しい言語に迅速に適応できるパラメータ初期化を学ぶために、多様な言語でモデルを訓練する。 事前学習によるメタラーニングは,多種多様・多種多様・低リソースな言語に対して,言語伝達性能と標準教師あり学習ベースラインを大幅に向上させることができる。

Meta-learning, or learning to learn, is a technique that can help to overcome resource scarcity in cross-lingual NLP problems, by enabling fast adaptation to new tasks. We apply model-agnostic meta-learning (MAML) to the task of cross-lingual dependency parsing. We train our model on a diverse set of languages to learn a parameter initialization that can adapt quickly to new languages. We find that meta-learning with pre-training can significantly improve upon the performance of language transfer and standard supervised learning baselines for a variety of unseen, typologically diverse, and low-resource languages, in a few-shot learning setup.
翻訳日:2021-04-14 11:16:23 公開日:2021-04-13
# 外部変数を用いたニューラルベース展開解析:NBEATSxを用いた電力価格予測

Neural basis expansion analysis with exogenous variables: Forecasting electricity prices with NBEATSx ( http://arxiv.org/abs/2104.05522v2 )

ライセンス: Link先を確認
Kin G. Olivares and Cristian Challu and Grzegorz Marcjasz and Rafa{\l} Weron and Artur Dubrawski(参考訳) 神経基盤拡張解析(NBEATS)を拡張し,外因性因子を取り入れた。 NBEATSxと呼ばれるこの手法は、優れたディープラーニングモデルを改善し、外因性変数を含むことによってその能力を拡張し、有用な情報の複数のソースを統合することができる。 nbeatsxモデルの実用性を示すために,電力価格予測(epf)タスクへの応用について,幅広い年月と市場にわたって包括的な研究を行っている。 従来のNBEATSモデルよりも予測精度が20%近く向上し、これらのタスクに特化して確立された他の統計的および機械学習手法よりも最大5%向上した。 さらに、提案したニューラルネットワークは、時系列を構造的に分解し、トレンドと季節成分の相対的な影響を可視化し、モデル化されたプロセスと外因性要因との相互作用を明らかにすることができる解釈可能な構成を持つ。

We extend the neural basis expansion analysis (NBEATS) to incorporate exogenous factors. The resulting method, called NBEATSx, improves on a well performing deep learning model, extending its capabilities by including exogenous variables and allowing it to integrate multiple sources of useful information. To showcase the utility of the NBEATSx model, we conduct a comprehensive study of its application to electricity price forecasting (EPF) tasks across a broad range of years and markets. We observe state-of-the-art performance, significantly improving the forecast accuracy by nearly 20% over the original NBEATS model, and by up to 5% over other well established statistical and machine learning methods specialized for these tasks. Additionally, the proposed neural network has an interpretable configuration that can structurally decompose time series, visualizing the relative impact of trend and seasonal components and revealing the modeled processes' interactions with exogenous factors.
翻訳日:2021-04-14 11:16:11 公開日:2021-04-13
# Havrda-Charvat Entropy を用いた深層学習による肺内視鏡の分類

Deep learning using Havrda-Charvat entropy for classification of pulmonary endomicroscopy ( http://arxiv.org/abs/2104.05450v2 )

ライセンス: Link先を確認
Thibaud Brochet, Jerome Lapuyade-Lahorgue, Sebastien Bougleux, Mathieu Salaun, Su Ruan(参考訳) 肺の光学的内視鏡(PEE)はリアルタイムのイメージング技術である。 肺胞を顕微鏡的に観察することができる。 臨床環境で取得されたPOE画像シーケンスは、その配列の25%が非形式的フレーム(すなわち、)である。 純粋ノイズと運動人工物) 将来のデータ分析では、これらの非形式的フレームはまずシーケンスから取り除かなければならない。 そこで本研究の目的は,内視鏡画像中の不均一画像の自動検出法を開発することである。 我々は,検出問題を分類問題として捉えることを提案する。 CNN(Convolutional Neural Network)に基づく分類器は,Shannonエントロピーのパラメトリック一般化であるHaverda-Charvatエントロピーに基づく新しい損失関数を用いて設計されている。 我々は、シャノンエントロピーよりも安定なモデルを提供するので、この公式を用いてあらゆる種類のデータをよりよく保持することを提案する。 提案手法は,2947個の異なる画像を含む1つのPOEデータセット上でテストし,シャノンエントロピーを用いた場合よりも優れた結果を示し,オーバーフィッティングの問題に対して良好な振る舞いを示す。 キーワード:Deep Learning, CNN, Shannon entropy, Havrda-Charvat entropy, lung optical endomicroscopy。

Pulmonary optical endomicroscopy (POE) is an imaging technology in real time. It allows to examine pulmonary alveoli at a microscopic level. Acquired in clinical settings, a POE image sequence can have as much as 25% of the sequence being uninformative frames (i.e. pure-noise and motion artefacts). For future data analysis, these uninformative frames must be first removed from the sequence. Therefore, the objective of our work is to develop an automatic detection method of uninformative images in endomicroscopy images. We propose to take the detection problem as a classification one. Considering advantages of deep learning methods, a classifier based on CNN (Convolutional Neural Network) is designed with a new loss function based on Havrda-Charvat entropy which is a parametrical generalization of the Shannon entropy. We propose to use this formula to get a better hold on all sorts of data since it provides a model more stable than the Shannon entropy. Our method is tested on one POE dataset including 2947 distinct images, is showing better results than using Shannon entropy and behaves better with regard to the problem of overfitting. Keywords: Deep Learning, CNN, Shannon entropy, Havrda-Charvat entropy, Pulmonary optical endomicroscopy.
翻訳日:2021-04-14 11:15:56 公開日:2021-04-13
# 大規模深層学習推薦モデルの高性能分散学習

High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models ( http://arxiv.org/abs/2104.05158v2 )

ライセンス: Link先を確認
Dheevatsa Mudigere, Yuchen Hao, Jianyu Huang, Andrew Tulloch, Srinivas Sridharan, Xing Liu, Mustafa Ozdal, Jade Nie, Jongsoo Park, Liang Luo, Jie Amy Yang, Leon Gao, Dmytro Ivchenko, Aarti Basant, Yuxi Hu, Jiyan Yang, Ehsan K. Ardestani, Xiaodong Wang, Rakesh Komuravelli, Ching-Hsiang Chu, Serhat Yilmaz, Huayu Li, Jiyuan Qian, Zhuobo Feng, Yinbin Ma, Junjie Yang, Ellie Wen, Hong Li, Lin Yang, Chonglin Sun, Whitney Zhao, Krishna Dhulipala, KR Kishore, Tyler Graf, Assaf Eisenman, Kiran Kumar Matam, Adi Gangidi, Pallab Bhattacharya, Guoqiang Jerry Chen, Manoj Krishnan, Krishnakumar Nair, Petr Lapukhov, Maxim Naumov, Lin Qiao, Mikhail Smelyanskiy, Bill Jia, Vijay Rao(参考訳) ディープラーニングリコメンデーションモデル(dlrms)は、facebookの多くのビジネスクリティカルなサービスで使用されており、データセンターにおけるインフラストラクチャの需要という点で、最大のaiアプリケーションである。 本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて述べる。 我々は、PyTorchに基づく高性能なスケーラブルソフトウェアスタックを導入し、Zionプラットフォーム、すなわちZionEXの新しい進化と組み合わせる。 最大12Trillionパラメータで非常に大きなDLRMをトレーニングできることを示し、従来のシステムよりも40倍のスピードアップを実現できることを示す。 We achieve this by (i) designing the ZionEX platform with dedicated scale-out network, provisioned with high bandwidth, optimal topology and efficient transport (ii) implementing an optimized PyTorch-based training stack supporting both model and data parallelism (iii) developing sharding algorithms capable of hierarchical partitioning of the embedding tables along row, column dimensions and load balancing them across multiple workers; (iv) adding high-performance core operators while retaining flexibility to support optimizers with fully deterministic updates (v) leveraging reduced precision communications, multi-level memory hierarchy (HBM+DDR+SSD) and pipelining. さらに,本番環境における堅牢かつ効率的なエンドツーエンドトレーニングに必要な分散データ取り込みおよびその他のサポートサービスについて,簡単に解説する。

Deep learning recommendation models (DLRMs) are used across many business-critical services at Facebook and are the single largest AI application in terms of infrastructure demand in its data-centers. In this paper we discuss the SW/HW co-designed solution for high-performance distributed training of large-scale DLRMs. We introduce a high-performance scalable software stack based on PyTorch and pair it with the new evolution of Zion platform, namely ZionEX. We demonstrate the capability to train very large DLRMs with up to 12 Trillion parameters and show that we can attain 40X speedup in terms of time to solution over previous systems. We achieve this by (i) designing the ZionEX platform with dedicated scale-out network, provisioned with high bandwidth, optimal topology and efficient transport (ii) implementing an optimized PyTorch-based training stack supporting both model and data parallelism (iii) developing sharding algorithms capable of hierarchical partitioning of the embedding tables along row, column dimensions and load balancing them across multiple workers; (iv) adding high-performance core operators while retaining flexibility to support optimizers with fully deterministic updates (v) leveraging reduced precision communications, multi-level memory hierarchy (HBM+DDR+SSD) and pipelining. Furthermore, we develop and briefly comment on distributed data ingestion and other supporting services that are required for the robust and efficient end-to-end training in production environments.
翻訳日:2021-04-14 11:15:37 公開日:2021-04-13
# 単語群マスク学習による文ペアのニューラルネットワーク予測

Explaining Neural Network Predictions on Sentence Pairs via Learning Word-Group Masks ( http://arxiv.org/abs/2104.04488v2 )

ライセンス: Link先を確認
Hanjie Chen, Song Feng, Jatin Ganhotra, Hui Wan, Chulaka Gunasekara, Sachindra Joshi, Yangfeng Ji(参考訳) ニューラルネットワークモデルの説明は、現実世界のアプリケーションにおける信頼性を高める上で重要である。 既存のほとんどの方法は、個々の特徴属性を特定したり、隣接する特徴間の相互作用を検出することによって、ニューラルネットワークモデルに対するポストホックな説明を生成する。 しかし、入力としてテキストペアを持つモデル(例えばパラフレーズ識別)では、既存の手法は2つのテキスト間の特徴的相互作用を捉えるのに十分ではなく、2つのテキスト間の全てのワードペア相互作用を計算的に非効率に計算することができる。 本研究では,入力テキストペアから相関単語をグループ化し,対応するnlpタスク全体への寄与度を測定するグループマスク(gmask)手法を提案する。 提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて,自然言語推論とparaphrase識別タスクを含む評価を行う。 実験はGMASKがこれらのモデルに忠実な説明を提供することの有効性を示す。

Explaining neural network models is important for increasing their trustworthiness in real-world applications. Most existing methods generate post-hoc explanations for neural network models by identifying individual feature attributions or detecting interactions between adjacent features. However, for models with text pairs as inputs (e.g., paraphrase identification), existing methods are not sufficient to capture feature interactions between two texts and their simple extension of computing all word-pair interactions between two texts is computationally inefficient. In this work, we propose the Group Mask (GMASK) method to implicitly detect word correlations by grouping correlated words from the input text pair together and measure their contribution to the corresponding NLP tasks as a whole. The proposed method is evaluated with two different model architectures (decomposable attention model and BERT) across four datasets, including natural language inference and paraphrase identification tasks. Experiments show the effectiveness of GMASK in providing faithful explanations to these models.
翻訳日:2021-04-14 11:15:22 公開日:2021-04-13
# ビデオ質問応答のためのオブジェクト中心表現学習

Object-Centric Representation Learning for Video Question Answering ( http://arxiv.org/abs/2104.05166v2 )

ライセンス: Link先を確認
Long Hoang Dang, Thao Minh Le, Vuong Le, Truyen Tran(参考訳) ビデオ質問応答(ビデオQA)は、人間のような知的行動のための強力なテストベッドを提供する。 このタスクは、ビデオ処理、言語理解、抽象言語概念を具体的な視覚的アーティファクトに結合すること、時空上の意図的な推論を統合するために、新たな能力を要求する。 ニューラルネットワークは、手作りの機能やルールではなく、例から学ぶことによって、この可能性を達成するための有望なアプローチを提供する。 しかし、ニューラルネットワークは主に機能ベースであり、非構造化ベクトル表現にデータをマッピングするため、シンボルシステムに見られる真の体系的推論ではなく、表面統計を通じてショートカットを悪用する罠に陥る可能性がある。 この問題に取り組むため,我々は映像から時空間構造を構築するための基盤としてオブジェクト中心表現を提唱し,低レベルパターン認識と高レベルシンボリック代数の間の意味的ギャップを橋渡しする。 そこで本研究では,映像を動的かつ条件付きで推論されたオブジェクトのリレーショナルグラフにするための,新たなクエリ誘導表現フレームワークを提案する。 オブジェクトのライフは履歴書にまとめられ、クエリに対する応答を生成する意図的な関係推論のために自然に貸し出される。 このフレームワークは主要なビデオqaデータセットで評価され、ビデオ推論に対するオブジェクト指向アプローチの明確な利点を示しています。

Video question answering (Video QA) presents a powerful testbed for human-like intelligent behaviors. The task demands new capabilities to integrate video processing, language understanding, binding abstract linguistic concepts to concrete visual artifacts, and deliberative reasoning over spacetime. Neural networks offer a promising approach to reach this potential through learning from examples rather than handcrafting features and rules. However, neural networks are predominantly feature-based - they map data to unstructured vectorial representation and thus can fall into the trap of exploiting shortcuts through surface statistics instead of true systematic reasoning seen in symbolic systems. To tackle this issue, we advocate for object-centric representation as a basis for constructing spatio-temporal structures from videos, essentially bridging the semantic gap between low-level pattern recognition and high-level symbolic algebra. To this end, we propose a new query-guided representation framework to turn a video into an evolving relational graph of objects, whose features and interactions are dynamically and conditionally inferred. The object lives are then summarized into resumes, lending naturally for deliberative relational reasoning that produces an answer to the query. The framework is evaluated on major Video QA datasets, demonstrating clear benefits of the object-centric approach to video reasoning.
翻訳日:2021-04-14 11:15:05 公開日:2021-04-13
# StereoPIFu:ステレオビジョンによる人間のデジタル化の深度認識

StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision ( http://arxiv.org/abs/2104.05289v2 )

ライセンス: Link先を確認
Yang Hong, Juyong Zhang, Boyi Jiang, Yudong Guo, Ligang Liu and Hujun Bao(参考訳) 本稿では,ステレオビジョンの幾何学的制約とPIFuの暗黙的機能表現を統合したステレオPIFuを提案する。 まず,立体視ネットワークからのボクセル整列機能を導入し,奥行き認識型再構成を実現する。 さらに、予測された高忠実度人間の深度と占有率の推測を関連付けるために、新しい相対zオフセットが使用される。 第2に、ステレオ画像からの幾何学情報を完全に活用するネットワーク構造を設計し、人体復元の質を向上させる。 その結果,StereoPIFuはカメラ空間における人の身体の空間的位置を自然に推測し,身体の異なる部分の正確な相対位置を維持でき,人間のパフォーマンスを捉えることができる。 このステレオピフは, 従来の作品と比較して, 広範囲な実験結果から, 衣服によるヒト再建のロバスト性, 完全性, 正確性が著しく向上した。

In this paper, we propose StereoPIFu, which integrates the geometric constraints of stereo vision with implicit function representation of PIFu, to recover the 3D shape of the clothed human from a pair of low-cost rectified images. First, we introduce the effective voxel-aligned features from a stereo vision-based network to enable depth-aware reconstruction. Moreover, the novel relative z-offset is employed to associate predicted high-fidelity human depth and occupancy inference, which helps restore fine-level surface details. Second, a network structure that fully utilizes the geometry information from the stereo images is designed to improve the human body reconstruction quality. Consequently, our StereoPIFu can naturally infer the human body's spatial location in camera space and maintain the correct relative position of different parts of the human body, which enables our method to capture human performance. Compared with previous works, our StereoPIFu significantly improves the robustness, completeness, and accuracy of the clothed human reconstruction, which is demonstrated by extensive experimental results.
翻訳日:2021-04-14 11:14:43 公開日:2021-04-13
# View-Guided Point Cloud Completion

View-Guided Point Cloud Completion ( http://arxiv.org/abs/2104.05666v2 )

ライセンス: Link先を確認
Xuancheng Zhang, Yutong Feng, Siqi Li, Changqing Zou, Hai Wan, Xibin Zhao, Yandong Guo, Yue Gao(参考訳) 本稿では,ポイントクラウド完了作業に対するビュー誘導型ソリューションを提案する。 既存のほとんどの方法と異なり、この課題に対処するためにはViPC(view-guided point cloud completion)を導入し、余分な単一ビューイメージから欠落する重要なグローバル構造情報を抽出する。 そこで本手法は,ビュー誘導点雲完了タスクのために収集した新しい大規模データセットにおいて,従来のソリューションよりもはるかに優れた結果が得られることを示す。

This paper presents a view-guided solution for the task of point cloud completion. Unlike most existing methods directly inferring the missing points using shape priors, we address this task by introducing ViPC (view-guided point cloud completion) that takes the missing crucial global structure information from an extra single-view image. By leveraging a framework that sequentially performs effective cross-modality and cross-level fusions, our method achieves significantly superior results over typical existing solutions on a new large-scale dataset we collect for the view-guided point cloud completion task.
翻訳日:2021-04-14 11:14:24 公開日:2021-04-13
# 画像処理メトリクスの一般的な制限:ピクチャーストーリー

Common Limitations of Image Processing Metrics: A Picture Story ( http://arxiv.org/abs/2104.05642v2 )

ライセンス: Link先を確認
Annika Reinke, Matthias Eisenmann, Minu D. Tizabi, Carole H. Sudre, Tim R\"adsch, Michela Antonelli, Tal Arbel, Spyridon Bakas, M. Jorge Cardoso, Veronika Cheplygina, Keyvan Farahani, Ben Glocker, Doreen Heckmann-N\"otzel, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Jens Kleesiek, Tahsin Kurc, Michal Kozubek, Bennett A. Landman, Geert Litjens, Klaus Maier-Hein, Bjoern Menze, Henning M\"uller, Jens Petersen, Mauricio Reyes, Nicola Rieke, Bram Stieltjes, Ronald M. Summers, Sotirios A. Tsaftaris, Bram van Ginneken, Annette Kopp-Schneider, Paul J\"ager, Lena Maier-Hein(参考訳) 自動画像解析の重要性は急速に高まっているが、最近のメタリサーチャーにより、アルゴリズム検証に関する大きな欠陥が明らかになった。 特に、パフォーマンスメトリクスは客観的、透過的、比較パフォーマンス評価の鍵であるが、特定の画像分析タスクに特定のメトリクスを使用する場合、実用的落とし穴には比較的注意が払われていない。 したがって、いくつかの国際的なイニシアチブの共通のミッションは、研究者に問題意識でパフォーマンス指標を選択するためのガイドラインとツールを提供することである。 この動的に更新された文書は、画像分析の分野で一般的に適用されるパフォーマンスメトリクスの重要な制限を説明する目的を持っている。 現在のバージョンは、画像分析の専門家からなる国際コンソーシアムが実施するメトリクスに関するDelphiプロセスに基づいている。

While the importance of automatic image analysis is increasing at an enormous pace, recent meta-research revealed major flaws with respect to algorithm validation. Specifically, performance metrics are key for objective, transparent and comparative performance assessment, but relatively little attention has been given to the practical pitfalls when using specific metrics for a given image analysis task. A common mission of several international initiatives is therefore to provide researchers with guidelines and tools to choose the performance metrics in a problem-aware manner. This dynamically updated document has the purpose to illustrate important limitations of performance metrics commonly applied in the field of image analysis. The current version is based on a Delphi process on metrics conducted by an international consortium of image analysis experts.
翻訳日:2021-04-14 11:14:14 公開日:2021-04-13
# ウェアラブル脳波イベントモニタリングにおける1クラスオートエンコーダによる最適電極設定同定

One-class Autoencoder Approach for Optimal Electrode Set-up Identification in Wearable EEG Event Monitoring ( http://arxiv.org/abs/2104.04546v2 )

ライセンス: Link先を確認
Laura M. Ferrari, Guy Abi Hanna, Paolo Volpe, Esma Ismailova, Fran\c{c}ois Bremond, Maria A. Zuluaga(参考訳) 継続的医療モニタリングのためのウェアラブルデバイスの広範な日常的利用への制限要因は、その面倒で邪魔な性質である。 これは、頭皮と接触する複数の電極の配置を必要とする脳波(eeg)記録において特に当てはまる。 そこで本研究では,脳波によるイベント検出とモニタリングを行うため,最小限の電極数,快適な位置と性能の観点から,ウェアラブル脳波電極の最適セットアップを提案する。 提案手法は,高次元データから潜在表現を学習するために,オートエンコーダ(AE)ネットワークの実証的なパワーを頼りに,異なる電極セットを入力データとして一級分類でAEアーキテクチャを訓練する。 得られたモデルをFスコアを用いて評価し、確立された最適基準に従って最適な設定を選択する。 提案手法は,α波検出をユースケースとして,額と耳の後ろの電極からなる最適なセットアップから,平均f-score 0.78のアルファ状態を検出できることを実証する。 以上の結果から,実生活の医療モニタリングに最適なウェアラブルデバイスの設計と実装を可能にするために,学習に基づくアプローチが有効であることが示唆された。

A limiting factor towards the wide routine use of wearables devices for continuous healthcare monitoring is their cumbersome and obtrusive nature. This is particularly true for electroencephalograp hy (EEG) recordings, which require the placement of multiple electrodes in contact with the scalp. In this work, we propose to identify the optimal wearable EEG electrode set-up, in terms of minimal number of electrodes, comfortable location and performance, for EEG-based event detection and monitoring. By relying on the demonstrated power of autoencoder (AE) networks to learn latent representations from high-dimensional data, our proposed strategy trains an AE architecture in a one-class classification setup with different electrode set-ups as input data. The resulting models are assessed using the F-score and the best set-up is chosen according to the established optimal criteria. Using alpha wave detection as use case, we demonstrate that the proposed method allows to detect an alpha state from an optimal set-up consisting of electrodes in the forehead and behind the ear, with an average F-score of 0.78. Our results suggest that a learning-based approach can be used to enable the design and implementation of optimized wearable devices for real-life healthcare monitoring.
翻訳日:2021-04-14 11:14:03 公開日:2021-04-13
# 物理インフォームド科学機械学習の地下科学への応用:サーベイ

Applications of physics-informed scientific machine learning in subsurface science: A survey ( http://arxiv.org/abs/2104.04764v2 )

ライセンス: Link先を確認
Alexander Y. Sun, Hongkyu Yoon, Chung-Yan Shih, Zhi Zhong(参考訳) 地質構造は、化石エネルギー探査、廃棄物処理、地質炭素隔離、再生可能エネルギー生成といった人間の活動によって変化する地質構造である。 地球系はまた、地球規模の水エネルギーnexusにおいて重要なリンクであり、気候変動や変化に社会的な適応を可能にするための源泉と緩衝機構を提供する。 したがって、ジオシステムの利用と探索は、効率的なモニタリング、リスクアセスメント、そして実用的な実装のための意思決定支援ツールに依存するジオシステムガバナンスにとって重要である。 近年、機械学習(ml)アルゴリズムと新しいセンシング技術が急速に進歩し、地下研究コミュニティがジオシステムガバナンスの有効性と透明性を向上させる新しい機会がもたらされた。 近年の研究では、科学的ML(SciML)モデルに大きな可能性を示しているが、多角性、高次元性、データ分解の不均一性に代表されるジオシステムの管理において、どのようにMLを最大限に活用するかという疑問が残る。 本調査は,SciMLの地層研究における最近の発展と応用について,その正確性,解釈可能性,拡張性,信頼性,一般化のスキルを改良して,地質学的コミュニティに役立てる方法について,体系的なレビューを行う。

Geosystems are geological formations altered by humans activities such as fossil energy exploration, waste disposal, geologic carbon sequestration, and renewable energy generation. Geosystems also represent a critical link in the global water-energy nexus, providing both the source and buffering mechanisms for enabling societal adaptation to climate variability and change. The responsible use and exploration of geosystems are thus critical to the geosystem governance, which in turn depends on the efficient monitoring, risk assessment, and decision support tools for practical implementation. Fast advances in machine learning (ML) algorithms and novel sensing technologies in recent years have presented new opportunities for the subsurface research community to improve the efficacy and transparency of geosystem governance. Although recent studies have shown the great promise of scientific ML (SciML) models, questions remain on how to best leverage ML in the management of geosystems, which are typified by multiscality, high-dimensionality, and data resolution inhomogeneity. This survey will provide a systematic review of the recent development and applications of domain-aware SciML in geosystem researches, with an emphasis on how the accuracy, interpretability, scalability, defensibility, and generalization skill of ML approaches can be improved to better serve the geoscientific community.
翻訳日:2021-04-14 11:13:43 公開日:2021-04-13
# 統一ソースフィルタgan:準周期並列ウェーブガンの因子分解に基づく統一ソースフィルタネットワーク

Unified Source-Filter GAN: Unified Source-filter Network Based On Factorization of Quasi-Periodic Parallel WaveGAN ( http://arxiv.org/abs/2104.04668v2 )

ライセンス: Link先を確認
Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda(参考訳) 音源フィルタモデルの柔軟性を維持しながら、高品質な合成音声波形を生成できるニューラルボコーダを開発するために、単一ニューラルネットワークを用いたデータ駆動音源フィルタモデリングに統一的なアプローチを提案する。 今回提案するunified source-filter generative adversarial network (usfgan) と呼ばれるネットワークは,単一のニューラルネットワークに基づくニューラルボコーダの1つである準周期並列ウェーブガン (qppwg) を,音源励振生成ネットワークと声道共鳴フィルタリングネットワークに分解し,さらに正規化損失を実装した。 さらに、ニューラルソースフィルタ(NSF)にインスパイアされた正弦波波形のみが、ソースフィルタモデルにおける近似の影響を最小限に抑えつつ、周期的なソース励起波形を生成するための最も簡単な手がかりとして用いられる。 実験の結果,uSFGANはQPPWGやNSFといった従来のニューラルボコーダよりも音声品質とピッチ制御性に優れていた。

We propose a unified approach to data-driven source-filter modeling using a single neural network for developing a neural vocoder capable of generating high-quality synthetic speech waveforms while retaining flexibility of the source-filter model to control their voice characteristics. Our proposed network called unified source-filter generative adversarial networks (uSFGAN) is developed by factorizing quasi-periodic parallel WaveGAN (QPPWG), one of the neural vocoders based on a single neural network, into a source excitation generation network and a vocal tract resonance filtering network by additionally implementing a regularization loss. Moreover, inspired by neural source filter (NSF), only a sinusoidal waveform is additionally used as the simplest clue to generate a periodic source excitation waveform while minimizing the effect of approximations in the source filter model. The experimental results demonstrate that uSFGAN outperforms conventional neural vocoders, such as QPPWG and NSF in both speech quality and pitch controllability.
翻訳日:2021-04-14 11:13:21 公開日:2021-04-13
# 制約満足度問題としてのディープラーニング加速器のプログラミング

The Programming of Deep Learning Accelerators as a Constraint Satisfaction Problem ( http://arxiv.org/abs/2104.04731v2 )

ライセンス: Link先を確認
Dennis Rieber, Axel Acosta, Holger Fr\"oning(参考訳) 多くのドメインでDeep Artificial Neural Networks(DNN)の成功は、計算集約型DNNオペレーターのためのハードウェアアクセラレーターに関する豊富な研究を生み出した。 しかし、行列乗算のような複雑な命令を効率的に実装することは、まだ適切に自動化されていない課題である。 この問題を解決するには、しばしば複雑なプログラムとメモリレイアウト変換が必要である。 この問題に対する最初の解決策として、tvmやisamirが提案されており、オペレータのループレベルの表現に取り組み、オペレータへの命令が実行される前にプログラムを書き換える。 このトップダウンアプローチは、探索範囲と検索空間の複雑さの間の緊張関係を生み出す。 本研究では,この問題に対する新しいアプローチを提案する。 我々は,アクセラレータの命令セットに基づいて直接実装を生成できるボトムアップ手法を開発した。 スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。 さらなる制約を加えることで、解法は好ましい解のサブセットを生成することができる。 baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動的に生成し、さらにメモリレイアウトの柔軟性が全体的なパフォーマンスに有益であることを示しています。 参照実装は, 固定埋込戦略によりハードウェア利用率が極めて低いが, ジオ平均速度は x2.49 まで向上し, 個々の演算子は x238 まで改善できる。

The success of Deep Artificial Neural Networks (DNNs) in many domains created a rich body of research concerned with hardware accelerators for compute-intensive DNN operators. However, implementing such operators efficiently with complex instructions such as matrix multiply is a task not yet automated gracefully. Solving this task often requires complex program and memory layout transformations. First solutions to this problem have been proposed, such as TVM or ISAMIR, which work on a loop-level representation of operators and rewrite the program before an instruction embedding into the operator is performed. This top-down approach creates a tension between exploration range and search space complexity. In this work, we propose a new approach to this problem. We have created a bottom-up method that allows the direct generation of implementations based on an accelerator's instruction set. By formulating the embedding as a constraint satisfaction problem over the scalar dataflow, every possible embedding solution is contained in the search space. By adding additional constraints, a solver can produce the subset of preferable solutions. A detailed evaluation using the VTA hardware accelerator with the Baidu DeepBench inference benchmark suite shows that our approach can automatically generate code competitive to reference implementations, and furthermore that memory layout flexibilty can be beneficial for overall performance. While the reference implementation achieves very low hardware utilization due to its fixed embedding strategy, we achieve a geomean speedup of up to x2.49, while individual operators can improve as much as x238.
翻訳日:2021-04-14 11:13:00 公開日:2021-04-13
# 深層マルチエージェント強化学習への共進化的アプローチ

A coevolutionary approach to deep multi-agent reinforcement learning ( http://arxiv.org/abs/2104.05610v2 )

ライセンス: Link先を確認
Daan Klijn, A.E. Eiben(参考訳) 伝統的に、ディープニューラルネットワーク(DNN)は勾配降下によって訓練される。 近年の研究では、DNE(Deep Neuroevolution)は、強化学習(Reinforcement Learning, RL)の分野で特に有用であることが示されている。 これは主に、従来のmdpベースのrlメソッドに比べてスケーラビリティとシンプルさが優れているためである。 これまでのところ、DNEは複雑な単一エージェント問題にのみ適用されている。 進化的手法はマルチエージェント問題にとって自然な選択であるので、DNEが複雑なマルチエージェント設定にも適用できるかどうかが問題となる。 本稿では、Coevolutionに基づく新しいアプローチを記述し、検証する。 提案手法を検証するため,複数エージェントのAtariゲーム上で2つのDeep Coevolutionary Algorithmをベンチマークし,Ape-X DQNの結果と比較した。 以上の結果から,これらの深層共進化アルゴリズム(1)は様々なゲームをうまく練習でき,(2)一部のゲームではap-x dqnよりも優れており,(3)複雑なマルチエージェント意思決定問題に対して共進化は有効なアプローチであることが示された。

Traditionally, Deep Artificial Neural Networks (DNN's) are trained through gradient descent. Recent research shows that Deep Neuroevolution (DNE) is also capable of evolving multi-million-parame ter DNN's, which proved to be particularly useful in the field of Reinforcement Learning (RL). This is mainly due to its excellent scalability and simplicity compared to the traditional MDP-based RL methods. So far, DNE has only been applied to complex single-agent problems. As evolutionary methods are a natural choice for multi-agent problems, the question arises whether DNE can also be applied in a complex multi-agent setting. In this paper, we describe and validate a new approach based on Coevolution. To validate our approach, we benchmark two Deep Coevolutionary Algorithms on a range of multi-agent Atari games and compare our results against the results of Ape-X DQN. Our results show that these Deep Coevolutionary algorithms (1) can be successfully trained to play various games, (2) outperform Ape-X DQN in some of them, and therefore (3) show that Coevolution can be a viable approach to solving complex multi-agent decision-making problems.
翻訳日:2021-04-14 11:12:38 公開日:2021-04-13