このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210303となっている論文です。

PDF登録状況(公開日: 20210303)

TitleAuthorsAbstract論文公表日・翻訳日
# エッジ支援型民主的学習とフェデレーション分析

Edge-assisted Democratized Learning Towards Federated Analytics ( http://arxiv.org/abs/2012.00425v2 )

ライセンス: Link先を確認
Shashi Raj Pandey, Minh N.H. Nguyen, Tri Nguyen Dang, Nguyen H. Tran, Kyi Thar, Zhu Han, Choong Seon Hong(参考訳) 分散データセットの分析的洞察を可能にするfederated analytics(fa)に対する最近の見解では、federated learning(fl)インフラストラクチャを再利用して、トレーニングデバイス全体のモデルパフォーマンスの概要を評価する。 しかし、FLの現在の実現は、FAのスコープが限られている単一のサーバマルチクライアントアーキテクチャを採用しており、しばしば、一般化が不十分な学習モデル、すなわち、現実世界のアプリケーションに対して、新しい/見えないデータを扱う能力をもたらす。 さらに、分散コンピューティングプラットフォームを用いた階層的FL構造は、異なる集約レベルでの不整合モデル性能を示す。 したがって、(i)faの実行可能なインフラを解き放ち、(ii)より良い一般化能力で学習モデルを訓練するflよりも、堅牢な学習メカニズムを設計する必要がある。 本研究では,これらの目的を満たすために,民主化学習(Dem-AI)の原則と設計を採用する。 まず,fa支援の一般化能力を高めるための実践的な枠組みとして,エッジ支援型民主学習機構であるエッジデムリアンの階層的学習構造を示す。 次に,Edge-DemLearnを,分散コンピューティング基盤を活用した分散制御・集約手法を構築するための柔軟なモデルトレーニング機構として検証する。 分散エッジコンピューティングサーバは、地域モデルを構築し、通信負荷を最小化し、分散データ分析アプリケーションのスケーラビリティを保証する。 そこで我々は,エッジ・デムリアンの組合せ制約を処理し,リソース割り当てと複数のサーバとデバイス間の関連を最適化し,高速な知識獲得を実現するために,最適化された2面多対1マッチングアプローチに固執する。 実データを用いた大規模シミュレーションの結果,提案手法の有効性が示された。

A recent take towards Federated Analytics (FA), which allows analytical insights of distributed datasets, reuses the Federated Learning (FL) infrastructure to evaluate the summary of model performances across the training devices. However, the current realization of FL adopts single server-multiple client architecture with limited scope for FA, which often results in learning models with poor generalization, i.e., an ability to handle new/unseen data, for real-world applications. Moreover, a hierarchical FL structure with distributed computing platforms demonstrates incoherent model performances at different aggregation levels. Therefore, we need to design a robust learning mechanism than the FL that (i) unleashes a viable infrastructure for FA and (ii) trains learning models with better generalization capability. In this work, we adopt the novel democratized learning (Dem-AI) principles and designs to meet these objectives. Firstly, we show the hierarchical learning structure of the proposed edge-assisted democratized learning mechanism, namely Edge-DemLearn, as a practical framework to empower generalization capability in support of FA. Secondly, we validate Edge-DemLearn as a flexible model training mechanism to build a distributed control and aggregation methodology in regions by leveraging the distributed computing infrastructure. The distributed edge computing servers construct regional models, minimize the communication loads, and ensure distributed data analytic application's scalability. To that end, we adhere to a near-optimal two-sided many-to-one matching approach to handle the combinatorial constraints in Edge-DemLearn and solve it for fast knowledge acquisition with optimization of resource allocation and associations between multiple servers and devices. Extensive simulation results on real datasets demonstrate the effectiveness of the proposed methods.
翻訳日:2021-05-30 19:32:04 公開日:2021-03-03
# モータ画像BCIシステムにおけるチャネル選択のためのクロスコリレーションに基づく識別基準

Cross-Correlation Based Discriminant Criterion for Channel Selection in Motor Imagery BCI Systems ( http://arxiv.org/abs/2012.01749v5 )

ライセンス: Link先を確認
Jianli Yu and Zhuliang Yu(参考訳) 目的。 多くの脳波(EEG)ベースの脳-コンピュータインタフェース(BCI)システムは、高い性能を得るために大量のチャネルを使用する。 パフォーマンスを損なうことなくチャネルの最適なサブセットを見つけることは、必要かつ困難なタスクです。 アプローチ。 本稿では、異なる運動画像(MI)タスクの精神状態を識別するためのチャンネルの重要性を評価する、相互相関に基づく識別基準(XCDC)を提案する。 チャンネルは、提案された基準に従ってランク付けされ、選択される。 XCDCの有効性を2つの運動画像脳波データセットで評価した。 主な結果。 どちらのデータセットでも、XCDCは全チャネルセットアップと比較して分類精度を損なうことなく、チャネルの量を著しく削減する。 同じ精度の制約の下で、提案手法はピアソンの相関係数と共通空間パターンに基づく既存のチャネル選択法よりも少ないチャネルを必要とする。 XCDCの可視化は神経生理学的原理と一貫した結果を示す。 重要。 本稿では,miタスクにおける脳波チャネルの重要性を評価・ランク付けするための定量的基準を提案し,mi bciシステムのキャリブレーションフェーズにおけるランク付けチャネルを選択する実用的な方法を提案する。

Objective. Many electroencephalogram (EEG)-based brain-computer interface (BCI) systems use a large amount of channels for higher performance, which is time-consuming to set up and inconvenient for practical applications. Finding an optimal subset of channels without compromising the performance is a necessary and challenging task. Approach. In this article, we proposed a cross-correlation based discriminant criterion (XCDC) which assesses the importance of a channel for discriminating the mental states of different motor imagery (MI) tasks. Channels are ranked and selected according to the proposed criterion. The efficacy of XCDC is evaluated on two motor imagery EEG datasets. Main results. In both datasets, XCDC significantly reduces the amount of channels without compromising classification accuracy compared to the all-channel setups. Under the same constraint of accuracy, the proposed method requires fewer channels than existing channel selection methods based on Pearson's correlation coefficient and common spatial pattern. Visualization of XCDC shows consistent results with neurophysiological principles. Significance. This work proposes a quantitative criterion for assessing and ranking the importance of EEG channels in MI tasks and provides a practical method for selecting the ranked channels in the calibration phase of MI BCI systems, which alleviates the computational complexity and configuration difficulty in the subsequent steps, leading to real-time and more convenient BCI systems.
翻訳日:2021-05-23 14:42:12 公開日:2021-03-03
# ノウハウの疫学論理

Epistemic Logic of Know-Who ( http://arxiv.org/abs/2012.06651v2 )

ライセンス: Link先を確認
Sophia Epstein, Pavel Naumov(参考訳) 本論文は,grove-halpernセマンティクスを用いたモダリティとしての"know who"の定義を提案する。 また、モダリティ間の相互作用を「知る者」、「知る者」、「すべてのエージェント」と記述する論理体系も導入している。 主な技術的結果は、提案されたシステムの完全性定理である。

The paper suggests a definition of "know who" as a modality using Grove-Halpern semantics of names. It also introduces a logical system that describes the interplay between modalities "knows who", "knows", and "for all agents". The main technical result is a completeness theorem for the proposed system.
翻訳日:2021-05-11 02:54:43 公開日:2021-03-03
# (参考訳) ベイズ型神経常微分方程式 [全文訳有]

Bayesian Neural Ordinary Differential Equations ( http://arxiv.org/abs/2012.07244v3 )

ライセンス: CC BY 4.0
Raj Dandekar, Karen Chung, Vaibhav Dixit, Mohamed Tarek, Aslan Garcia-Valadez, Krishna Vishal Vemula and Chris Rackauckas(参考訳) 近年,神経常微分方程式(neural ordinary differential equation)は,システムを支配するodeを明示的に定義せず,機械学習によって学習することなく,物理シミュレーションをモデル化するための強力なフレームワークとして登場している。 しかし、「Can Bayesianの学習フレームワークはNeural ODEと統合して、Neural ODEの重みにおける不確実性をしっかりと定量化できるか? 未回答だ a) No-U-Turn MCMC sampler (NUTS), (b) Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) and (c) Stochastic Langevin Gradient Descent (SGLD)。 従来の物理システム上のベイズ推論フレームワークや,gpuアクセラレーションを用いたmnistなどの標準的な機械学習データセットと,ニューラルネットワークodeをうまく統合できることを実証する。 MNISTデータセットでは、1万枚の画像のテストアンサンブルで98.5%の後方サンプル精度が得られる。 その後, 変分推論と正規化フローとニューラル ODE との整合性を初めて実証し, 強力なベイズ型ニューラル ODE オブジェクトを導出した。 最後に,捕食-捕食モデルと疫学系を考慮して,普遍常微分方程式を用いた部分記述力学系におけるモデル仕様の確率的同定を示す。 これにより、認識的不確かさの確率的推定のための科学的機械学習ツールが提供される。

Recently, Neural Ordinary Differential Equations has emerged as a powerful framework for modeling physical simulations without explicitly defining the ODEs governing the system, but instead learning them via machine learning. However, the question: "Can Bayesian learning frameworks be integrated with Neural ODE's to robustly quantify the uncertainty in the weights of a Neural ODE?" remains unanswered. In an effort to address this question, we primarily evaluate the following categories of inference methods: (a) The No-U-Turn MCMC sampler (NUTS), (b) Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) and (c) Stochastic Langevin Gradient Descent (SGLD). We demonstrate the successful integration of Neural ODEs with the above Bayesian inference frameworks on classical physical systems, as well as on standard machine learning datasets like MNIST, using GPU acceleration. On the MNIST dataset, we achieve a posterior sample accuracy of 98.5% on the test ensemble of 10,000 images. Subsequently, for the first time, we demonstrate the successful integration of variational inference with normalizing flows and Neural ODEs, leading to a powerful Bayesian Neural ODE object. Finally, considering a predator-prey model and an epidemiological system, we demonstrate the probabilistic identification of model specification in partially-described dynamical systems using universal ordinary differential equations. Together, this gives a scientific machine learning tool for probabilistic estimation of epistemic uncertainties.
翻訳日:2021-05-09 09:28:16 公開日:2021-03-03
# 関連地図のインタラクティブ可視化による3次元畳み込みニューラルネットワークの理解性の向上:アルツハイマー病における評価

Improving 3D convolutional neural network comprehensibility via interactive visualization of relevance maps: Evaluation in Alzheimer's disease ( http://arxiv.org/abs/2012.10294v3 )

ライセンス: Link先を確認
Martin Dyrba, Moritz Hanzig, Slawek Altenstein, Sebastian Bader, Tommaso Ballarini, Frederic Brosseron, Katharina Buerger, Daniel Cantr\'e, Peter Dechent, Laura Dobisch, Emrah D\"uzel, Michael Ewers, Klaus Fliessbach, Wenzel Glanz, John D. Haynes, Michael T. Heneka, Daniel Janowitz, Deniz Baris Keles, Ingo Kilimann, Christoph Laske, Franziska Maier, Coraline D. Metzger, Matthias H. Munk, Robert Perneczky, Oliver Peters, Lukas Preis, Josef Priller, Boris Rauchmann, Nina Roy, Klaus Scheffler, Anja Schneider, Bj\"orn H. Schott, Annika Spottke, Eike J. Spruth, Marc-Andr\'e Weber, Birgit Ertl-Wagner, Michael Wagner, Jens Wiltfang, Frank Jessen, Stefan J. Teipel(参考訳) 畳み込み型ニューラルネットワーク(CNN)は,MRI(MRI)によるアルツハイマー病(AD)認知症の検出に高い診断精度が得られたが,まだ臨床検査には適用されていない。 この理由の1つは、モデル理解性の欠如である。 最近開発されたCNN関連マップの可視化手法は,このギャップを埋めるのに役立つかもしれない。 より精度の高いモデルは、事前知識によって事前に定義された差別的脳領域にも依存するかどうかを検討した。 認知症および健常性軽度認知障害 (MCI) のMRIでAD検出のためにCNNを訓練し, クロスバリデーションおよびN=1655例を含む3つの独立した検体でモデルの精度を検証した。 本手法の臨床的有用性を検証するため,海馬容積と関連スコアの関連性を検討した。 モデル理解性を改善するために,3次元CNN関連マップのインタラクティブな可視化を行った。 3つの独立したデータセットで、グループ分離はAD認知症対コントロール(AUC$\geq$0.92)とMCI対コントロール(AUC$\approx$0.75)の適度な精度を示した。 関連地図では、海馬萎縮がAD検出の最も有意義な要因と考えられ、他の皮質および皮質下領域の萎縮の寄与も見られた。 海馬内の関連スコアは海馬の体積と強く相関していた(Pearson's r$\approx$-0.81)。 関連地図は、先験を仮定した地域における萎縮を強調した。 これにより、スキャンと診断ラベルに基づいて純粋にデータ駆動で訓練されたCNNモデルの理解性が向上する。 AD関連MRIの異常検出におけるCNNモデルの妥当性は, 海馬関連度の高いスコアと, 独立サンプルで達成されたハイパフォーマンスが有効である。

Although convolutional neural networks (CNN) achieve high diagnostic accuracy for detecting Alzheimer's disease (AD) dementia based on magnetic resonance imaging (MRI) scans, they are not yet applied in clinical routine. One important reason for this is a lack of model comprehensibility. Recently developed visualization methods for deriving CNN relevance maps may help to fill this gap. We investigated whether models with higher accuracy also rely more on discriminative brain regions predefined by prior knowledge. We trained a CNN for the detection of AD in N=663 T1-weighted MRI scans of patients with dementia and amnestic mild cognitive impairment (MCI) and verified the accuracy of the models via cross-validation and in three independent samples including N=1655 cases. We evaluated the association of relevance scores and hippocampus volume to validate the clinical utility of this approach. To improve model comprehensibility, we implemented an interactive visualization of 3D CNN relevance maps. Across three independent datasets, group separation showed high accuracy for AD dementia vs. controls (AUC$\geq$0.92) and moderate accuracy for MCI vs. controls (AUC$\approx$0.75). Relevance maps indicated that hippocampal atrophy was considered as the most informative factor for AD detection, with additional contributions from atrophy in other cortical and subcortical regions. Relevance scores within the hippocampus were highly correlated with hippocampal volumes (Pearson's r$\approx$-0.81). The relevance maps highlighted atrophy in regions that we had hypothesized a priori. This strengthens the comprehensibility of the CNN models, which were trained in a purely data-driven manner based on the scans and diagnosis labels. The high hippocampus relevance scores and high performance achieved in independent samples support the validity of the CNN models in the detection of AD-related MRI abnormalities.
翻訳日:2021-05-01 18:03:10 公開日:2021-03-03
# (参考訳) NISQデバイスにおけるグラディエントフリー量子最適化 [全文訳有]

Gradient-free quantum optimization on NISQ devices ( http://arxiv.org/abs/2012.13453v2 )

ライセンス: CC BY 4.0
L. Franken, B. Georgiev, S. Muecke, M. Wolter, N. Piatkowski and C. Bauckhage(参考訳) 変量量子固有解法 (VQEs) は近年注目されている。 しかし、実際には、大きなパラメータセットやリソース要求の強化戦略のコスト関数勾配を推定する努力に苦しむ。 そこで本研究では,重み依存学習の最近の進歩を考察し,適切な回路アーキテクチャとパラメータチューニングのトレードオフに対処する戦略を提案する。 NEATにインスパイアされたアルゴリズムを用いて、遺伝的競合による回路評価を行い、パラメータ数を超える問題を回避する。 我々の手法はシミュレーションと実際の量子ハードウェアの両方でテストされ、逆イジングハミルトニアンとシェリントン・カークパトリックのスピンモデルを解くために用いられる。

Variational Quantum Eigensolvers (VQEs) have recently attracted considerable attention. Yet, in practice, they still suffer from the efforts for estimating cost function gradients for large parameter sets or resource-demanding reinforcement strategies. Here, we therefore consider recent advances in weight-agnostic learning and propose a strategy that addresses the trade-off between finding appropriate circuit architectures and parameter tuning. We investigate the use of NEAT-inspired algorithms which evaluate circuits via genetic competition and thus circumvent issues due to exceeding numbers of parameters. Our methods are tested both via simulation and on real quantum hardware and are used to solve the transverse Ising Hamiltonian and the Sherrington-Kirkpatr ick spin model.
翻訳日:2021-04-26 02:15:13 公開日:2021-03-03
# ニューラルネットワークの解釈可能性に関する調査

A Survey on Neural Network Interpretability ( http://arxiv.org/abs/2012.14261v2 )

ライセンス: Link先を確認
Yu Zhang, Peter Ti\v{n}o, Ale\v{s} Leonardis, Ke Tang(参考訳) ディープニューラルネットワークの成功に加えて、ブラックボックスの性質についても懸念が高まっている。 解釈可能性問題は、深層学習システムに対する人々の信頼に影響する。 また、アルゴリズム的差別など多くの倫理的問題にも関係している。 さらに、解釈性は、深層ネットワークが他の研究分野、例えば創薬やゲノム学において強力なツールとなるために望ましい性質である。 本稿では,ニューラルネットワークの解釈可能性研究の包括的レビューを行う。 まず,様々な文脈で用いられてきた解釈可能性の定義を明らかにする。 次に, 解釈可能性の重要性を詳述し, 3次元的に整理した新しい分類法, エンゲージメントの種類(受動的対アクティブ解釈アプローチ), 説明の種類, 焦点(局所的からグローバル的解釈可能性まで)を提案する。 この分類学は、関係文献からの論文の分布を意味のある3次元の視点で示すもので、次元の2つは単にカテゴリーではなく順序のサブカテゴリを許容するものである。 最後に,既存の解釈可能性評価手法を要約し,新しい分類法に触発された研究の方向性を提案する。

Along with the great success of deep neural networks, there is also growing concern about their black-box nature. The interpretability issue affects people's trust on deep learning systems. It is also related to many ethical problems, e.g., algorithmic discrimination. Moreover, interpretability is a desired property for deep networks to become powerful tools in other research fields, e.g., drug discovery and genomics. In this survey, we conduct a comprehensive review of the neural network interpretability research. We first clarify the definition of interpretability as it has been used in many different contexts. Then we elaborate on the importance of interpretability and propose a novel taxonomy organized along three dimensions: type of engagement (passive vs. active interpretation approaches), the type of explanation, and the focus (from local to global interpretability). This taxonomy provides a meaningful 3D view of distribution of papers from the relevant literature as two of the dimensions are not simply categorical but allow ordinal subcategories. Finally, we summarize the existing interpretability evaluation methods and suggest possible research directions inspired by our new taxonomy.
翻訳日:2021-04-19 11:12:05 公開日:2021-03-03
# 大規模データ解析のための多モデル最小二乗計算フレームワーク

Multi-Model Least Squares-Based Recomputation Framework for Large Data Analysis ( http://arxiv.org/abs/2101.01271v4 )

ライセンス: Link先を確認
Wandong Zhang (1 and 2), QM Jonathan Wu (1), Yimin Yang (2 and 3), WG Will Zhao (2 and 4), Tianlei Wang (5), and Hui Zhang (6) ((1) University of Windsor, (2) Lakehead University, (3) Vector Institute for Artificial Intelligence, (4) CEGEP de Ste Foy, (5) Hangzhou Dianzi University, (6) Hunan University)(参考訳) ほとんどの多層最小二乗ニューラルネットワークは、教師なし特徴符号化と教師付きパターン分類の2つのステージで構成されている。 教師なし学習が終了すると、潜在符号化は教師なしの微調整なしで修正される。 しかし、ImageNetデータセットの処理のような複雑なタスクでは、直接コード化できる多くの手がかりがあるが、教師なし学習では、特定のタスクに何が役に立つのか正確には理解できない。 これは、教師なし学習がまだ学んでいないヒントを学ぶために潜在空間表現を再訓練する動機となる。 特に、出力層からの誤差行列は各隠蔽層に引き戻され、隠蔽層のパラメータはより一般化された表現のためにムーア・ペンローズ(MP)逆数で再計算される。 本稿では,MP逆(RML-MP)を用いた再計算に基づく多層ネットワークを提案する。 次に、RML-MPの性能を高めるためのスパースRML-MP(SRML-MP)モデルを提案する。 3Kから1.8Mまでの様々なトレーニングサンプルによる実験結果から,提案モデルでは,ほとんどの表現学習アルゴリズムよりも優れた一般化性能が得られた。

Most multilayer least squares (LS)-based neural networks are structured with two separate stages: unsupervised feature encoding and supervised pattern classification. Once the unsupervised learning is finished, the latent encoding would be fixed without supervised fine-tuning. However, in complex tasks such as handling the ImageNet dataset, there are often many more clues that can be directly encoded, while the unsupervised learning, by definition cannot know exactly what is useful for a certain task. This serves as the motivation to retrain the latent space representations to learn some clues that unsupervised learning has not yet learned. In particular, the error matrix from the output layer is pulled back to each hidden layer, and the parameters of the hidden layer are recalculated with Moore-Penrose (MP) inverse for more generalized representations. In this paper, a recomputation-based multilayer network using MP inverse (RML-MP) is developed. A sparse RML-MP (SRML-MP) model to boost the performance of RML-MP is then proposed. The experimental results with varying training samples (from 3 K to 1.8 M) show that the proposed models provide better generalization performance than most representation learning algorithms.
翻訳日:2021-04-11 22:53:31 公開日:2021-03-03
# 学習から再学習へ:ソーシャルロボットナビゲーションにおけるバイアス軽減のためのフレームワーク

From Learning to Relearning: A Framework for Diminishing Bias in Social Robot Navigation ( http://arxiv.org/abs/2101.02647v2 )

ライセンス: Link先を確認
Juana Valeria Hurtado, Laura Londo\~no, and Abhinav Valada(参考訳) ロボット工学と機械学習の飛躍的な進歩は、制御された産業空間に制限されるロボットから、国内および都市環境における新しい日常的なタスクの実行への移行を促進する。 ロボットの存在を安全かつ人間にとって快適にし、公共の場での受容を容易にするために、しばしばナビゲーションや対話のための社会的能力を備えている。 社会に適応したロボットナビゲーションは、人間の観察やデモンストレーションから学んでいる。 人間の行動の模倣を目的としたこれらの手法は、公正な行動を保証するものではない。 その結果、社会的ナビゲーションモデルは、差別や差別のような社会的不公平性を再現し、促進し、増幅することができる。 本研究では,ロボットが計画能力を備え,身体的・社会的要求にもとづいて経路を適応できるように,ソーシャルロボットのナビゲーションモデルにおけるバイアス軽減のための枠組みについて検討する。 提案するフレームワークは,安全性と快適性を考慮した学習プロセスにソーシャルコンテキストを組み込んだ \textit{learning} と,発生前に潜在的に有害な結果を検出し修正する \textit{relearning} の2つのコンポーネントで構成されている。 インタラクションの異なる社会シナリオにおける3つの多様なケーススタディを用いて,技術分析と社会分析の両方を提供する。 さらに,ロボットを社会環境に配置することの倫理的意味と潜在的な解決策を提案する。 本研究では,より公平な社会関係,役割,ダイナミクスを促進し,その結果,社会に肯定的な影響を及ぼすために,人間とロボットの相互作用における公正性の重要性と主張を強調する。

The exponentially increasing advances in robotics and machine learning are facilitating the transition of robots from being confined to controlled industrial spaces to performing novel everyday tasks in domestic and urban environments. In order to make the presence of robots safe as well as comfortable for humans, and to facilitate their acceptance in public environments, they are often equipped with social abilities for navigation and interaction. Socially compliant robot navigation is increasingly being learned from human observations or demonstrations. We argue that these techniques that typically aim to mimic human behavior do not guarantee fair behavior. As a consequence, social navigation models can replicate, promote, and amplify societal unfairness such as discrimination and segregation. In this work, we investigate a framework for diminishing bias in social robot navigation models so that robots are equipped with the capability to plan as well as adapt their paths based on both physical and social demands. Our proposed framework consists of two components: \textit{learning} which incorporates social context into the learning process to account for safety and comfort, and \textit{relearning} to detect and correct potentially harmful outcomes before the onset. We provide both technological and societal analysis using three diverse case studies in different social scenarios of interaction. Moreover, we present ethical implications of deploying robots in social environments and propose potential solutions. Through this study, we highlight the importance and advocate for fairness in human-robot interactions in order to promote more equitable social relationships, roles, and dynamics and consequently positively influence our society.
翻訳日:2021-04-10 13:42:05 公開日:2021-03-03
# 画像マッティングのためのマルチスケール情報アセンブリ

Multi-scale Information Assembly for Image Matting ( http://arxiv.org/abs/2101.02391v2 )

ライセンス: Link先を確認
Yu Qiao, Yuhao Liu, Qiang Zhu, Xin Yang, Yuxin Wang, Qiang Zhang, and Xiaopeng Wei(参考訳) 画像マッチングはコンピュータグラフィックスと視覚における長年の問題であり、主に入力画像の前景を正確に推定するものである。 我々は、フォアグラウンドオブジェクトは、中央のボディ、大きめの境界、精細化された詳細など、異なるレベルの情報で表現できると主張している。 本稿では,この観察に基づいて,単一のrgb画像から高品質なアルファマットを抽出するマルチスケール情報アセンブリフレームワーク(msia-matte)を提案する。 技術的に言えば、入力画像から対象コンテンツとして高度なセマンティクスを抽出し、異なるレベルの前景表現を符号化する初期CNN機能を保持し、よく設計された情報集合戦略と組み合わせる。 広汎な実験により提案したMSIA-matteの有効性が証明でき、既存のマットネットワークと比較して最先端の性能を達成できる。

Image matting is a long-standing problem in computer graphics and vision, mostly identified as the accurate estimation of the foreground in input images. We argue that the foreground objects can be represented by different-level information, including the central bodies, large-grained boundaries, refined details, etc. Based on this observation, in this paper, we propose a multi-scale information assembly framework (MSIA-matte) to pull out high-quality alpha mattes from single RGB images. Technically speaking, given an input image, we extract advanced semantics as our subject content and retain initial CNN features to encode different-level foreground expression, then combine them by our well-designed information assembly strategy. Extensive experiments can prove the effectiveness of the proposed MSIA-matte, and we can achieve state-of-the-art performance compared to most existing matting networks.
翻訳日:2021-04-10 13:37:01 公開日:2021-03-03
# (参考訳) 2021年の農業における深層学習と機械ビジョン [全文訳有]

Deep learning, machine vision in agriculture in 2021 ( http://arxiv.org/abs/2103.04893v1 )

ライセンス: CC BY 4.0
Ildar Rakhmatulin(参考訳) 過去10年間で、ニューラルネットワークの開発における前例のない進歩は、農業産業における雑草の認識など、数十の異なる産業に影響した。 農業作物の認識作業における農業産業活動におけるニューラルネットワークの利用は、新しい方向性である。 いかなる基準もないことは、農業分野におけるニューラルネットワークの使用の実際の状況を理解することを著しく複雑にしている。 この原稿は、ニューラルネットワークによる雑草の分類と追跡のためのニューラルネットワークの利用に関する過去10年間の研究の完全な分析を提示している。 特に、分類と追跡のタスクに様々なニューラルネットワークアルゴリズムを用いた結果の分析を行った。 そこで,本研究では,栽培された物体と雑草を認識するタスクにおいて,ニューラルネットワークの利用を推奨する。 この標準を使用することで、このトピックに関する研究の質が大幅に向上し、あらゆる論文の分析と理解が簡単になる。

Over the past decade, unprecedented progress in the development of neural networks influenced dozens of different industries, including weed recognition in the agro-industrial sector. The use of neural networks in agro-industrial activity in the task of recognizing cultivated crops is a new direction. The absence of any standards significantly complicates the understanding of the real situation of the use of the neural network in the agricultural sector. The manuscript presents the complete analysis of researches over the past 10 years on the use of neural networks for the classification and tracking of weeds due to neural networks. In particular, the analysis of the results of using various neural network algorithms for the task of classification and tracking was presented. As a result, we presented the recommendation for the use of neural networks in the tasks of recognizing a cultivated object and weeds. Using this standard can significantly improve the quality of research on this topic and simplify the analysis and understanding of any paper.
翻訳日:2021-04-05 07:30:50 公開日:2021-03-03
# (参考訳) ドメインとタスク間の不変表現の学習 [全文訳有]

Learning Invariant Representations across Domains and Tasks ( http://arxiv.org/abs/2103.05114v1 )

ライセンス: CC BY 4.0
Jindong Wang, Wenjie Feng, Chang Liu, Chaohui Yu, Mingxuan Du, Renjun Xu, Tao Qin, Tie-Yan Liu(参考訳) 大量の新型コロナウイルス画像サンプルを収集して深層分類モデルを訓練するのに高価で時間がかかるため、トランスファーラーニングは、新型コロナウイルス画像分類のための豊富な典型的な肺炎データセットから知識を伝達する、有望なアプローチである。 しかし、2つのデータセット間の特徴分布のばらつきと、異なる特徴に依存する肺炎とCOVID-19の診断におけるタスク意味の違いにより、負の移動が性能を低下させる可能性がある。 ターゲットデータセットにラベルがない場合、すなわち教師なしのタスク転送学習が可能である場合、さらに難しい。 本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。 ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。 3つの公開COVID-19データセットに対する実験により,提案手法が優れた性能を発揮することが示された。 特にCOVID-DAデータセットでは、最近の強いベースラインと比較して、TANはリコールとF1スコアを5.0%と7.8%増加させる。 さらに,いくつかのパブリックドメイン適応ベンチマークにおいて,TANが優れた性能を発揮することを示す。

Being expensive and time-consuming to collect massive COVID-19 image samples to train deep classification models, transfer learning is a promising approach by transferring knowledge from the abundant typical pneumonia datasets for COVID-19 image classification. However, negative transfer may deteriorate the performance due to the feature distribution divergence between two datasets and task semantic difference in diagnosing pneumonia and COVID-19 that rely on different characteristics. It is even more challenging when the target dataset has no labels available, i.e., unsupervised task transfer learning. In this paper, we propose a novel Task Adaptation Network (TAN) to solve this unsupervised task transfer problem. In addition to learning transferable features via domain-adversarial training, we propose a novel task semantic adaptor that uses the learning-to-learn strategy to adapt the task semantics. Experiments on three public COVID-19 datasets demonstrate that our proposed method achieves superior performance. Especially on COVID-DA dataset, TAN significantly increases the recall and F1 score by 5.0% and 7.8% compared to recently strong baselines. Moreover, we show that TAN also achieves superior performance on several public domain adaptation benchmarks.
翻訳日:2021-04-05 07:24:35 公開日:2021-03-03
# (参考訳) 憎しみ、憎しみ、侮辱:YouTubeにおける不適切なコメントに対する子どもの露出を測定する [全文訳有]

Hate, Obscenity, and Insults: Measuring the Exposure of Children to Inappropriate Comments in YouTube ( http://arxiv.org/abs/2103.09050v1 )

ライセンス: CC BY 4.0
Sultan Alshamrani, Ahmed Abusnaina, Mohammed Abuhamad, Daehun Nyang, David Mohaisen(参考訳) ソーシャルメディアは、子供や青年の日常的な習慣の重要な部分となっている。 さらに、若者の心理的、感情的な幸福と、様々なソーシャルメディアプラットフォームと対話する場合の安全性を確保するために、多大な努力がなされている。 本稿では,この人口層をターゲットとしたyoutubeビデオに投稿された不適切なコメントに対する利用者の露出を調査した。 約400万レコードの大規模データセットを収集し,年齢不適切な5つのカテゴリの存在と各カテゴリへの露出量を調査した。 自然言語処理と機械学習技術を用いて,不適切なコメントの検出を高精度に行うアンサンブル分類器を構築した。 その結果,子どもの動画に対するコメントの11%は有害であり,特に子どものプラットフォームにおけるコメントの監視の重要性が強調された。

Social media has become an essential part of the daily routines of children and adolescents. Moreover, enormous efforts have been made to ensure the psychological and emotional well-being of young users as well as their safety when interacting with various social media platforms. In this paper, we investigate the exposure of those users to inappropriate comments posted on YouTube videos targeting this demographic. We collected a large-scale dataset of approximately four million records and studied the presence of five age-inappropriate categories and the amount of exposure to each category. Using natural language processing and machine learning techniques, we constructed ensemble classifiers that achieved high accuracy in detecting inappropriate comments. Our results show a large percentage of worrisome comments with inappropriate content: we found 11% of the comments on children's videos to be toxic, highlighting the importance of monitoring comments, particularly on children's platforms.
翻訳日:2021-04-05 07:08:29 公開日:2021-03-03
# (参考訳) オートエンコーダを用いたヘリコプターのトラック識別 [全文訳有]

Helicopter Track Identification with Autoencoder ( http://arxiv.org/abs/2103.04768v1 )

ライセンス: CC BY 4.0
Liya Wang, Panta Lucic, Keith Campbell, and Craig Wanke(参考訳) 計算能力、ビッグデータ、アルゴリズムの進歩により、人工知能(AI)、特にディープラーニング(DL)への関心が高まっている。 dlの成功は主にデータ表現にかかっており、異なる表現はデータの背後にある異なる説明的要因を示すことができる。 ここ数年、DLで最も成功したストーリーは教師あり学習です。 しかしながら、教師付き学習を適用する上での課題のひとつは、データラベルの取得やノイズ、あるいは部分的にしか利用できないことだ。 人間は教師なしの方法で学習するので、自己指導型学習手法は近年多くの注目を集めている。 自己教師付き学習における支配的な力はオートエンコーダであり、複数の用途(例えば、データ表現、異常検出、異常)がある。 本研究は, 自動エンコーダを用いて, ヘリコプターの飛行トラックデータの効率的なデータ表現を学習し, ヘリコプターの飛行トラック識別を支援することを目的とした。 私たちのテスト結果は有望です。 例えばフェニックス・ディア・バレー(DVT)空港では、記録された飛行トラックの70%が航空機のタイプを欠いているため、オートエンコーダーはルールベースの手法で検出できるヘリコプターの22倍のヘリコプターを識別することができる。 提案手法では,フライトトラックデータ中の誤ラベル付き航空機の型を同定し,HELOなどの擬似航空機型ラベルを用いた真の型を見つける。 ラベル付けの改善により、これらのデータセットを用いた研究はより信頼性の高い結果が得られる。

Computing power, big data, and advancement of algorithms have led to a renewed interest in artificial intelligence (AI), especially in deep learning (DL). The success of DL largely lies on data representation because different representations can indicate to a degree the different explanatory factors of variation behind the data. In the last few year, the most successful story in DL is supervised learning. However, to apply supervised learning, one challenge is that data labels are expensive to get, noisy, or only partially available. With consideration that we human beings learn in an unsupervised way; self-supervised learning methods have garnered a lot of attention recently. A dominant force in self-supervised learning is the autoencoder, which has multiple uses (e.g., data representation, anomaly detection, denoise). This research explored the application of an autoencoder to learn effective data representation of helicopter flight track data, and then to support helicopter track identification. Our testing results are promising. For example, at Phoenix Deer Valley (DVT) airport, where 70% of recorded flight tracks have missing aircraft types, the autoencoder can help to identify twenty-two times more helicopters than otherwise detectable using rule-based methods; for Grand Canyon West Airport (1G4) airport, the autoencoder can identify thirteen times more helicopters than a current rule-based approach. Our approach can also identify mislabeled aircraft types in the flight track data and find true types for records with pseudo aircraft type labels such as HELO. With improved labelling, studies using these data sets can produce more reliable results.
翻訳日:2021-04-05 06:50:36 公開日:2021-03-03
# 手術スキル評価のための深層ニューラルネットワーク--体系的考察

Deep Neural Networks for the Assessment of Surgical Skills: A Systematic Review ( http://arxiv.org/abs/2103.05113v1 )

ライセンス: Link先を確認
Erim Yanik, Xavier Intes, Uwe Kruger, Pingkun Yan, David Miller, Brian Van Voorst, Basiel Makled, Jack Norfleet, Suvranu De(参考訳) 医学部在学プログラムにおける手術訓練は、見習いモデルに従っている。 学習と評価のプロセスは本質的に主観的で時間を要する。 したがって、手術スキルを評価するための客観的な方法が必要となる。 ここでは,PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)ガイドラインを用いて,手術能力の指標としてキネマティックデータに着目し,Deep Neural Networksを用いた自動的かつ客観的な外科的スキル評価に関する文献を体系的に調査する。 強力なアルゴリズムや複数のデータセットが利用可能であることや、それらをトレーニングしてホストする効率的な計算ハードウェアがあることから、ディープニューラルネットワーク(dnn)に対する近年の関心が高まっている。 530の論文をレビューし,25の論文を体系的レビューに選定した。 本稿では,DNNが自動的かつ客観的な外科的スキル評価のための強力なツールであることを示す。 この分野は、手術訓練生や専門家の人口統計や、キネマティックスやビデオ以外のマルチモーダルデータを代表する、大きくて一般公開された注釈付きデータセットの恩恵を受けるだろう。

Surgical training in medical school residency programs has followed the apprenticeship model. The learning and assessment process is inherently subjective and time-consuming. Thus, there is a need for objective methods to assess surgical skills. Here, we use the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines to systematically survey the literature on the use of Deep Neural Networks for automated and objective surgical skill assessment, with a focus on kinematic data as putative markers of surgical competency. There is considerable recent interest in deep neural networks (DNN) due to the availability of powerful algorithms, multiple datasets, some of which are publicly available, as well as efficient computational hardware to train and host them. We have reviewed 530 papers, of which we selected 25 for this systematic review. Based on this review, we concluded that DNNs are powerful tools for automated, objective surgical skill assessment using both kinematic and video data. The field would benefit from large, publicly available, annotated datasets that are representative of the surgical trainee and expert demographics and multimodal data beyond kinematics and videos.
翻訳日:2021-04-05 00:56:44 公開日:2021-03-03
# ニュース記事の内容に対するユーザーコメントのアライメントをお願いします。

Stay on Topic, Please: Aligning User Comments to the Content of a News Article ( http://arxiv.org/abs/2103.06130v1 )

ライセンス: Link先を確認
Jumanah Alshehri, Marija Stanojevic, Eduard Dragut, Zoran Obradovic(参考訳) 社会科学者は、ニュース記事に投稿されたコンテンツがジャーナリストのコンテンツと無関係である場合、最大50%のシェアを示した。 本研究では,新しい記事ベースに投稿されたコメントをコンテンツに関連付けるように分類するアルゴリズムを提案する。 このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。 我々は,共同で記事の埋め込みを学習し,関連するコメントのクラスを推測するBERTAC,BAERTベースのアプローチを提案する。 予測されたラベルと真のラベルの差を罰する順序的分類損失を導入する。 提案する損失が学習プロセスに与える影響を明らかにするため,詳細な研究を行った。 5つの代表的なニュースメディアの結果から,ベースラインに対して最大36%の精度向上,ba-bcモデルに最大25%の精度でコメントクラスを学習できることがわかった。 BA-BCは2つのモデルからなるアプローチであり、ニュース記事の形式言語とコメントの非公式言語を不一致に捉えることを目的としている。 また,分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行った。 コメントと記事のアライメントに関するユーザアライメントは、krippendorff氏のアルファスコアに応じて“モデレート”であり、分類作業が難しいことを示唆している。

Social scientists have shown that up to 50% if the content posted to a news article have no relation to its journalistic content. In this study we propose a classification algorithm to categorize user comments posted to a new article base don their alignment to its content. The alignment seek to match user comments to an article based on similarity off content, entities in discussion, and topic. We proposed a BERTAC, BAERT-based approach that learn jointly article-comment embeddings and infers the relevance class of comments. We introduce an ordinal classification loss that penalizes the difference between the predicted and true label. We conduct a thorough study to show influence of the proposed loss on the learning process. The results on five representative news outlets show that our approach can learn the comment class with up to 36% average accuracy improvement compering to the baselines, and up to 25% compering to the BA-BC model. BA-BC is out approach that consists of two models aimed to capture dis-jointly the formal language of news articles and the informal language of comments. We also conduct a user study to evaluate human labeling performance to understand the difficulty of the classification task. The user agreement on comment-article alignment is "moderate" per Krippendorff's alpha score, which suggests that the classification task is difficult.
翻訳日:2021-04-05 00:56:23 公開日:2021-03-03
# コンピュータゲームによる2人の心間の低レベルの認知能力伝達

Low-level cognitive skill transfer between two individuals' minds via computer game-based framework ( http://arxiv.org/abs/2103.05563v1 )

ライセンス: Link先を確認
Ahmet Orun(参考訳) ここで紹介される新しい技術は、低レベルの認知スキルを2人(例えば)間で伝達する第1段階を達成することを目的としている。 専門家から学習者へ) ゲーム環境において、対象の「学習者」個人に対して、連続的に高いレベルの宣言的学習プロセスを容易にする。 このような低レベルの認知スキルは、手続き的知識と関連づけられ、ゲームセッション中に無意識にゲームヒーローを介して無意識の心の振る舞いを露呈する高度にインタラクティブなコンピュータゲームドメインのような、(伝統的な教育環境ではなく)新しい技術によって、明かされ、伝達される、低レベルの心のレベルで確立される。 ゲームヒーローが公開する認知データは記録され、ベイジアンネットワークのような人工知能技術によってモデル化され、認知スキル伝達の初期段階と認知刺激が生成され、学習者を訓練するためにゲームエージェントとして使用される。

The novel technique introduced here aims to accomplish the first stage of transferring low-level cognitive skills between two individuals (e.g. from expert to learner) to ease the consecutive higher level declarative learning process for the target "learner" individual in a game environment. Such low-level cognitive skill is associated with the procedural knowledge and established at low-level of mind which can be unveiled and transferred by only a novel technique (rather than by a traditional educational environment ) like a highly interactive computer game domain in which a user exposes his/her unconscious mind behaviors via the game-hero non-deliberately during the game sessions. The cognitive data exposed by the game-hero would be recorded, and then be modelled by the artificial intelligence technique like Bayesian networks for an early stage of cognitive skill transfer and the cognitive stimuli are also generated to be used as game agents to train the learner.
翻訳日:2021-04-05 00:54:45 公開日:2021-03-03
# out-of-distributionデータを用いた望ましくない機能コントリビューションの削除

Removing Undesirable Feature Contributions Using Out-of-Distribution Data ( http://arxiv.org/abs/2101.06639v2 )

ライセンス: Link先を確認
Saehyung Lee, Changhwa Park, Hyungyu Lee, Jihun Yi, Jonghyun Lee, Sungroh Yoon(参考訳) ニューラルネットワークのトレーニングと推論の間のギャップを埋めるために、いくつかのデータ拡張手法がラベルなし分散(uid)データをデプロイする。 しかし、これらの手法は、UIDデータの可用性と擬似ラベルへのアルゴリズムの依存に関して明確な制限がある。 そこで,本稿では,先述の課題を伴わないアウト・オブ・ディストリビューション(OOD)データを用いて,逆学習と標準学習の両方における一般化を改善するためのデータ拡張手法を提案する。 CIFAR-10, CIFAR-100, ImageNetのサブセットを用いて, 各学習シナリオにおいてOODデータを用いて理論的に一般化を改善する方法を示し, 理論的解析を補完する。 その結果,人間の視点では相関性に乏しい画像データにおいても,望ましくない特徴が共有されていることがわかった。 また,UIDデータがない場合に利用できる他のデータ拡張手法との比較により,提案手法の利点を示す。 さらに,提案手法により,既存の対人訓練をさらに改善できることを示す。

Several data augmentation methods deploy unlabeled-in-distrib ution (UID) data to bridge the gap between the training and inference of neural networks. However, these methods have clear limitations in terms of availability of UID data and dependence of algorithms on pseudo-labels. Herein, we propose a data augmentation method to improve generalization in both adversarial and standard learning by using out-of-distribution (OOD) data that are devoid of the abovementioned issues. We show how to improve generalization theoretically using OOD data in each learning scenario and complement our theoretical analysis with experiments on CIFAR-10, CIFAR-100, and a subset of ImageNet. The results indicate that undesirable features are shared even among image data that seem to have little correlation from a human point of view. We also present the advantages of the proposed method through comparison with other data augmentation methods, which can be used in the absence of UID data. Furthermore, we demonstrate that the proposed method can further improve the existing state-of-the-art adversarial training.
翻訳日:2021-03-27 20:21:23 公開日:2021-03-03
# 物体間相互作用検出のための移動可能な対話性知識

Transferable Interactiveness Knowledge for Human-Object Interaction Detection ( http://arxiv.org/abs/2101.10292v3 )

ライセンス: Link先を確認
Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Xijie Huang, Liang Xu, Cewu Lu(参考訳) ヒューマンオブジェクトインタラクション(HOI)検出は、人間がオブジェクトとどのように相互作用するかを理解する上で重要な問題です。 本稿では,人間と物体が相互に相互作用するか否かを示す対話性知識について検討する。 対話性に関する知識は、HOIデータセット全体で学習でき、多様なHOIカテゴリ設定のギャップを埋めることができる。 私たちのコアアイデアは、対話性ネットワークを利用して、複数のHOIデータセットから一般的な対話性知識を学び、HOI分類の前に非相互作用抑制(NIS)を実行することです。 対話性の一般化能力を考慮すると、対話性ネットワークは伝達可能な知識学習者であり、任意のHOI検出モデルと協調して望ましい結果が得られる。 ヒューマンインスタンスとボディパートの機能を組み合わせて、階層的パラダイムのインタラクティブ性、すなわちインスタンスレベルとボディパートレベルのインタラクティブ性を学びます。 その後、学習を指導し、より深いインタラクティブな視覚手がかりを抽出するために、一貫性タスクが提案される。 提案手法をHICO-DET, V-COCO, PaStaNet-HOIデータセット上で幅広く評価した。 学習された対話性により,本手法は最先端のHOI検出方法より優れ,その有効性と柔軟性を検証できる。 コードはhttps://github.com/D irtyHarryLYL/Transfe rable-Interactivenes s-Networkで入手できる。

Human-Object Interaction (HOI) detection is an important problem to understand how humans interact with objects. In this paper, we explore interactiveness knowledge which indicates whether a human and an object interact with each other or not. We found that interactiveness knowledge can be learned across HOI datasets and bridge the gap between diverse HOI category settings. Our core idea is to exploit an interactiveness network to learn the general interactiveness knowledge from multiple HOI datasets and perform Non-Interaction Suppression (NIS) before HOI classification in inference. On account of the generalization ability of interactiveness, interactiveness network is a transferable knowledge learner and can be cooperated with any HOI detection models to achieve desirable results. We utilize the human instance and body part features together to learn the interactiveness in hierarchical paradigm, i.e., instance-level and body part-level interactivenesses. Thereafter, a consistency task is proposed to guide the learning and extract deeper interactive visual clues. We extensively evaluate the proposed method on HICO-DET, V-COCO, and a newly constructed PaStaNet-HOI dataset. With the learned interactiveness, our method outperforms state-of-the-art HOI detection methods, verifying its efficacy and flexibility. Code is available at https://github.com/D irtyHarryLYL/Transfe rable-Interactivenes s-Network.
翻訳日:2021-03-14 19:22:05 公開日:2021-03-03
# (参考訳) CDSM --Deep Bayesian Dynamic Survival Modelを用いた因果推論 [全文訳有]

CDSM -- Casual Inference using Deep Bayesian Dynamic Survival Models ( http://arxiv.org/abs/2101.10643v6 )

ライセンス: CC BY 4.0
Jie Zhu, Blanca Gallego(参考訳) 縦方向の観察健康データにおける因果推論は、しばしば、時間変動共変体の存在下での時間変化結果に対する治療効果の正確な推定を必要とする。 この逐次的治療効果推定問題に対処するため,ベイジアン繰り返しサブネットワークを用いた潜在的な結果フレームワークを用いて生存曲線の差を推定する因果動的生存モデル(CDSM)を開発した。 シミュレーションされたサバイバルデータセットを使用して、CDSMはサンプル寸法、イベントレート、結束および重複のシナリオにわたる良好な因果効果推定性能を示した。 しかし, 試料サイズの増加は, 元のデータが高度に連結されているか, あるいは重複レベルが低ければ有効でないことがわかった。 2つの大規模臨床コホート研究において, 予測条件平均治療効果を同定し, 時間と患者サブグループによる個人効果の不均一性を同定した。 このモデルは、レコメンデーションシステムで使用できる個別の絶対治療効果推定を提供します。

Causal inference in longitudinal observational health data often requires the accurate estimation of treatment effects on time-to-event outcomes in the presence of time-varying covariates. To tackle this sequential treatment effect estimation problem, we have developed a causal dynamic survival model (CDSM) that uses the potential outcomes framework with the Bayesian recurrent sub-networks to estimate the difference in survival curves. Using simulated survival datasets, CDSM has shown good causal effect estimation performance across scenarios of sample dimension, event rate, confounding and overlapping. However, we found increasing the sample size is not effective if the original data is highly confounded or with low level of overlapping. In two large clinical cohort studies, our model identified the expected conditional average treatment effect and detected individual effect heterogeneity over time and patient subgroups. The model provides individualized absolute treatment effect estimations that could be used in recommendation systems.
翻訳日:2021-03-14 12:48:50 公開日:2021-03-03
# (参考訳) ディジタルコヒーレントシステムにおける双方向リカレントニューラルネットワークモデルとvolterra非線形等化器の性能と複雑性解析 [全文訳有]

Performance and Complexity Analysis of bi-directional Recurrent Neural Network Models vs. Volterra Nonlinear Equalizers in Digital Coherent Systems ( http://arxiv.org/abs/2103.03832v1 )

ライセンス: CC BY 4.0
Stavros Deligiannidis, Charis Mesaritakis, Adonis Bogris(参考訳) 偏光多重16-QAMおよび32-QAM信号を有するデジタルコヒーレントシステムにおけるファイバー非線形の補償のための後処理ユニットとしての繰り返しニューラルネットワーク(RNN)モデルの複雑さと性能を検討する。 本研究では,Bi-LSTM,Bi-GRU,Bi-V anilla-RNNの3つの二方向RNNモデルを評価し,特に分散非マネージドシステムにおける非線形補償器の有望性を示した。 シミュレーションでは,3つのモデルが類似した補償性能を示すことが示され,実生活システムではバニラ・rnn単位に基づく最も単純なスキームが望ましい。 両Vanilla-RNNとVolterraの非線形イコライザを比較し、性能と複雑性の両方においてその優位性を示すことにより、RNN処理はコヒーレント検出を用いた長距離光通信システムのアップグレードのための非常に有望な経路であることを強調した。

We investigate the complexity and performance of recurrent neural network (RNN) models as post-processing units for the compensation of fibre nonlinearities in digital coherent systems carrying polarization multiplexed 16-QAM and 32-QAM signals. We evaluate three bi-directional RNN models, namely the bi-LSTM, bi-GRU and bi-Vanilla-RNN and show that all of them are promising nonlinearity compensators especially in dispersion unmanaged systems. Our simulations show that during inference the three models provide similar compensation performance, therefore in real-life systems the simplest scheme based on Vanilla-RNN units should be preferred. We compare bi-Vanilla-RNN with Volterra nonlinear equalizers and exhibit its superiority both in terms of performance and complexity, thus highlighting that RNN processing is a very promising pathway for the upgrade of long-haul optical communication systems utilizing coherent detection.
翻訳日:2021-03-09 08:26:40 公開日:2021-03-03
# (参考訳) ペルシャ感情分析のための新しいコンテキスト対応マルチモーダルフレームワーク

A Novel Context-Aware Multimodal Framework for Persian Sentiment Analysis ( http://arxiv.org/abs/2103.02636v1 )

ライセンス: CC BY 4.0
Kia Dashtipour, Mandar Gogate, Erik Cambria, Amir Hussain(参考訳) 感情分析に関する最近の研究は、テキストモダリティを活用している。 しかし、ソーシャルメディアプラットフォームに毎日投稿される何百万時間というビデオ録画は、より効果的に大衆の認識を計測するために活用できる重要な非構造化情報を持っている。 マルチモーダル感情分析(Multimodal sentiment analysis)は、音声、視覚、テキストの手がかりを文脈的に活用することで、ビデオから感情を計算的に理解し、収集する革新的なソリューションを提供する。 本稿では,まず,800以上の発話からなるペルシャ語マルチモーダルデータセットを,研究者がペルシャ語におけるマルチモーダル感情分析アプローチを評価するためのベンチマークリソースとして提示する。 第二に,音響的,視覚的,テキスト的手がかりを同時に活用し,表現された感情をより正確に決定する,新しい文脈認識型マルチモーダル感情分析フレームワークを提案する。 我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。 実験の結果、テキスト、音響、視覚などのマルチモーダル特徴の文脈的統合は、ユニモーダル特徴(89.24%)よりも優れた性能(91.39%)をもたらすことが示された。

Most recent works on sentiment analysis have exploited the text modality. However, millions of hours of video recordings posted on social media platforms everyday hold vital unstructured information that can be exploited to more effectively gauge public perception. Multimodal sentiment analysis offers an innovative solution to computationally understand and harvest sentiments from videos by contextually exploiting audio, visual and textual cues. In this paper, we, firstly, present a first of its kind Persian multimodal dataset comprising more than 800 utterances, as a benchmark resource for researchers to evaluate multimodal sentiment analysis approaches in Persian language. Secondly, we present a novel context-aware multimodal sentiment analysis framework, that simultaneously exploits acoustic, visual and textual cues to more accurately determine the expressed sentiment. We employ both decision-level (late) and feature-level (early) fusion methods to integrate affective cross-modal information. Experimental results demonstrate that the contextual integration of multimodal features such as textual, acoustic and visual features deliver better performance (91.39%) compared to unimodal features (89.24%).
翻訳日:2021-03-07 22:50:26 公開日:2021-03-03
# (参考訳) 意見形成領域における議論的対話システムの自然言語理解 [全文訳有]

Natural Language Understanding for Argumentative Dialogue Systems in the Opinion Building Domain ( http://arxiv.org/abs/2103.02691v1 )

ライセンス: CC BY 4.0
Waheed Ahmed Abro, Annalena Aicher, Niklas Rach, Stefan Ultes, Wolfgang Minker, Guilin Qi(参考訳) 本稿では,情報探索・意見構築領域における議論的対話システムのための自然言語理解(NLU)フレームワークを提案する。 提案手法は,複数のユーザの意図を識別し,ユーザが自然言語で参照するシステム引数を識別する。 本モデルは,議論的な対話システムに適用可能であり,議論の的となる話題に対して意見を述べることができる。 提案手法を評価するために,各システムと対話するユーザの発話を収集し,広範囲にわたるオンライン調査において意図と参照の議論をラベル付けした。 データ収集には、複数のトピックと2つの異なるユーザータイプ(英国のネイティブスピーカーと中国の非ネイティブスピーカー)が含まれます。 本評価は,新たなトピックや言語習熟度,ユーザの文化的背景に対する提案手法の堅牢性に加えて,ベースラインアプローチよりも活用手法の明確な優位性を示すものである。

This paper introduces a natural language understanding (NLU) framework for argumentative dialogue systems in the information-seeking and opinion building domain. Our approach distinguishes multiple user intents and identifies system arguments the user refers to in his or her natural language utterances. Our model is applicable in an argumentative dialogue system that allows the user to inform him-/herself about and build his/her opinion towards a controversial topic. In order to evaluate the proposed approach, we collect user utterances for the interaction with the respective system and labeled with intent and reference argument in an extensive online study. The data collection includes multiple topics and two different user types (native speakers from the UK and non-native speakers from China). The evaluation indicates a clear advantage of the utilized techniques over baseline approaches, as well as a robustness of the proposed approach against new topics and different language proficiency as well as cultural background of the user.
翻訳日:2021-03-07 22:49:25 公開日:2021-03-03
# (参考訳) 機械学習における分布一般化の概要

Out of Distribution Generalization in Machine Learning ( http://arxiv.org/abs/2103.02667v1 )

ライセンス: CC BY 4.0
Martin Arjovsky(参考訳) 近年、機械学習は様々な分野で大きな成功を収めています。 しかしながら、これらの成功談の多くは、トレーニングとテストディストリビューションが互いに非常によく似ているところにあります。 モデルがトレーニングされたデータとわずかに異なるデータでテストされる日常の状況では、MLアルゴリズムは壮大に失敗する可能性があります。 この研究は、この問題を形式的に定義し、データに妥当な仮定のセットと、それらから取得したい保証の種類を定義しようとしています。 次に,分散問題,それらの仮定のある種のクラスに注目し,より信頼性の高い一般化を可能にするこれらの仮定に従う単純なアルゴリズムを導入する。 論文の中心的なトピックは、データの因果構造を発見し、その文脈に関係なく(予測するためにそれらを使用したときに)信頼できる特徴を見つけ、分布の一般化から外す、という強いつながりである。

Machine learning has achieved tremendous success in a variety of domains in recent years. However, a lot of these success stories have been in places where the training and the testing distributions are extremely similar to each other. In everyday situations when models are tested in slightly different data than they were trained on, ML algorithms can fail spectacularly. This research attempts to formally define this problem, what sets of assumptions are reasonable to make in our data and what kind of guarantees we hope to obtain from them. Then, we focus on a certain class of out of distribution problems, their assumptions, and introduce simple algorithms that follow from these assumptions that are able to provide more reliable generalization. A central topic in the thesis is the strong link between discovering the causal structure of the data, finding features that are reliable (when using them to predict) regardless of their context, and out of distribution generalization.
翻訳日:2021-03-07 22:37:16 公開日:2021-03-03
# (参考訳) 計算とメモリ効率のよいユニバーサル音源分離 [全文訳有]

Compute and memory efficient universal sound source separation ( http://arxiv.org/abs/2103.02644v1 )

ライセンス: CC BY 4.0
Efthymios Tzinis, Zhepei Wang, Xilin Jiang and Paris Smaragdis(参考訳) ディープラーニングによるオーディオソース分離の最近の進歩により、多くのニューラルネットワークモデルがこの基本的な推定問題に対する堅牢なソリューションを提供することができました。 本研究では,実世界のシナリオにおけるニューラルネットワークの適用を妨げる複数の計算的側面に注目しながら,汎用音源分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供する。 この畳み込みネットワークのバックボーン構造は、単純な一次元畳み込みによって行われる、Successive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF) およびそれらの凝集である。 このメカニズムにより,可変数のソースが存在する,限られた計算資源(例えば,計算資源)で,多種多様な設定で高い忠実度信号分離が得られる。 浮動小数点演算、メモリフットプリント、パラメータの数とレイテンシ)。 実験の結果,SuDoRM-RFモデルは計算資源の要求がかなり高い最先端のベンチマークを数回上回っていることがわかった。 SuDoRM-RFの因果的変化は、10dBスケール不変信号対歪み比改善(SI-SDRi)のリアルタイム音声分離において、ラップトップデバイス上で最大20倍の速度で競合性能を得ることができる。

Recent progress in audio source separation lead by deep learning has enabled many neural network models to provide robust solutions to this fundamental estimation problem. In this study, we provide a family of efficient neural network architectures for general purpose audio source separation while focusing on multiple computational aspects that hinder the application of neural networks in real-world scenarios. The backbone structure of this convolutional network is the SUccessive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF) as well as their aggregation which is performed through simple one-dimensional convolutions. This mechanism enables our models to obtain high fidelity signal separation in a wide variety of settings where variable number of sources are present and with limited computational resources (e.g. floating point operations, memory footprint, number of parameters and latency). Our experiments show that SuDoRM-RF models perform comparably and even surpass several state-of-the-art benchmarks with significantly higher computational resource requirements. The causal variation of SuDoRM-RF is able to obtain competitive performance in real-time speech separation of around 10dB scale-invariant signal-to-distortion ratio improvement (SI-SDRi) while remaining up to 20 times faster than real-time on a laptop device.
翻訳日:2021-03-07 21:30:26 公開日:2021-03-03
# (参考訳) 単語埋め込み機能を持つマルウェア分類 [全文訳有]

Malware Classification with Word Embedding Features ( http://arxiv.org/abs/2103.02711v1 )

ライセンス: CC BY 4.0
Aparna Sunil Kale and Fabio Di Troia and Mark Stamp(参考訳) マルウェア分類は情報セキュリティにおいて重要かつ困難な問題である。 現代のマルウェア分類技術は、オペコードシーケンス、API呼び出し、バイト$n$-gramなどの機能に基づいてトレーニングできる機械学習モデルに依存している。 本研究では、オプコードの特徴を検討する。 HMM2Vecと呼ばれるテクニックである隠れマルコフモデルをトレーニングし、これらのオプコードシーケンスにWord2Vecを埋め込み、特徴ベクトルを設計するハイブリッド機械学習技術を実装します。 得られたHMM2VecおよびWord2Vec埋め込みベクトルは、分類アルゴリズムの機能として使用されます。 具体的には、サポートベクターマシン(SVM)、$k$-NN($k$-NN)、ランダムフォレスト(RF)、および畳み込みニューラルネットワーク(CNN)分類器を検討します。 さまざまなマルウェアファミリーについて実質的な実験を行っています。 我々の実験は、この分野のこれまでのどの研究にも及ばない。

Malware classification is an important and challenging problem in information security. Modern malware classification techniques rely on machine learning models that can be trained on features such as opcode sequences, API calls, and byte $n$-grams, among many others. In this research, we consider opcode features. We implement hybrid machine learning techniques, where we engineer feature vectors by training hidden Markov models -- a technique that we refer to as HMM2Vec -- and Word2Vec embeddings on these opcode sequences. The resulting HMM2Vec and Word2Vec embedding vectors are then used as features for classification algorithms. Specifically, we consider support vector machine (SVM), $k$-nearest neighbor ($k$-NN), random forest (RF), and convolutional neural network (CNN) classifiers. We conduct substantial experiments over a variety of malware families. Our experiments extend well beyond any previous work in this field.
翻訳日:2021-03-07 21:08:09 公開日:2021-03-03
# (参考訳) 対向攻撃に対する強汎化能力を有する強固な対向ネットワーク型エンドツーエンド通信システム [全文訳有]

A Robust Adversarial Network-Based End-to-End Communications System With Strong Generalization Ability Against Adversarial Attacks ( http://arxiv.org/abs/2103.02654v1 )

ライセンス: CC BY 4.0
Yudi Dong and Huaxia Wang and Yu-Dong Yao(参考訳) 本論文では,エンドツーエンド通信システムにおける敵対攻撃を防御するためのGANフレームワークに基づく新たな防御機構を提案する。 具体的には、生成ネットワークを利用して強力な敵をモデル化し、エンド・ツー・エンドの通信システムがミニマックスゲームを介して生成攻撃ネットワークと戦えるようにする。 提案手法は,ホワイトボックスやブラックボックスの対向攻撃に対して有効であるだけでなく,無攻撃でも良好な性能を維持するための優れた一般化能力を有することを示す。 また,GANをベースとしたエンドツーエンドシステムは,従来の通信システムやエンドツーエンド通信システムよりも,対角的訓練を伴わずに優れた性能を発揮することを示す。

We propose a novel defensive mechanism based on a generative adversarial network (GAN) framework to defend against adversarial attacks in end-to-end communications systems. Specifically, we utilize a generative network to model a powerful adversary and enable the end-to-end communications system to combat the generative attack network via a minimax game. We show that the proposed system not only works well against white-box and black-box adversarial attacks but also possesses excellent generalization capabilities to maintain good performance under no attacks. We also show that our GAN-based end-to-end system outperforms the conventional communications system and the end-to-end communications system with/without adversarial training.
翻訳日:2021-03-07 20:53:19 公開日:2021-03-03
# (参考訳) GMM-HMMモデルを用いたマルウェア分類 [全文訳有]

Malware Classification with GMM-HMM Models ( http://arxiv.org/abs/2103.02753v1 )

ライセンス: CC BY 4.0
Jing Zhao and Samanvitha Basole and Mark Stamp(参考訳) 離散隠れマルコフモデル(HMM)は、しばしばマルウェアの検出や分類問題に適用される。 しかし、離散HMM、すなわちガウス混合モデル-HMM(GMM-HMM)の連続アナログは、サイバーセキュリティの分野ではめったに考えられません。 本稿では,GMM-HMMをマルウェア分類に用いた結果と,離散HMMを用いた結果を比較した。 特徴として,オプコード列とエントロピー系列を考える。 GMM-HMMは離散HMMに匹敵する結果が得られるのに対し、エントロピーに基づく特徴では、GMM-HMMは一般に、離散HMMで達成した分類結果よりも大幅に改善される。

Discrete hidden Markov models (HMM) are often applied to malware detection and classification problems. However, the continuous analog of discrete HMMs, that is, Gaussian mixture model-HMMs (GMM-HMM), are rarely considered in the field of cybersecurity. In this paper, we use GMM-HMMs for malware classification and we compare our results to those obtained using discrete HMMs. As features, we consider opcode sequences and entropy-based sequences. For our opcode features, GMM-HMMs produce results that are comparable to those obtained using discrete HMMs, whereas for our entropy-based features, GMM-HMMs generally improve significantly on the classification results that we have achieved with discrete HMMs.
翻訳日:2021-03-07 19:43:05 公開日:2021-03-03
# (参考訳) 経済強化学習による効率的なUAV軌道計画 [全文訳有]

Efficient UAV Trajectory-Planning using Economic Reinforcement Learning ( http://arxiv.org/abs/2103.02676v1 )

ライセンス: CC BY 4.0
Alvi Ataur Khalil, Alexander J Byrne, Mohammad Ashiqur Rahman, Mohammad Hossein Manshaei(参考訳) 無人航空機(UAV)の設計の進歩は、監視、ファイアファイアファイティング、セルラーネットワーク、配送アプリケーションなど様々な用途に応用を広げている。 さらに、コストの低下により、UAVを運用するシステムも人気を博している。 システムにおけるuavの特異性は、軌道や経路計画や協調問題の新しい集合を生み出す。 環境にはUAVよりも多くの関心点(POI)が含まれており、障害物や飛行禁止区域がある。 UAV間でタスクを分散するための経済トランザクションに触発された新しいマルチエージェント強化学習アルゴリズムであるREPlannerを紹介します。 このシステムは経済理論、特にUAVがPOIを割り当てたオークション機構を中心に展開している。 エージェントが協力し、リソースを競うことができるマルチエージェント経済ゲームとして、パス計画問題を策定します。 次に,この問題を部分可観測マルコフ決定プロセス(pomdp)に変換し,各エージェントにデプロイした強化学習(rl)モデルを用いて解決する。 UAV協力によるタスク分布の計算を行うため、Swarmサイズの変化に対して非常に耐性が高い。 提案するネットワークおよび経済ゲームアーキテクチャは,Swarmの動作を維持しながら,Swarmを創発的な現象として効果的にコーディネートすることができる。 評価の結果, replanner は従来の rl ベースの軌道探索を効率良く上回ることがわかった。

Advances in unmanned aerial vehicle (UAV) design have opened up applications as varied as surveillance, firefighting, cellular networks, and delivery applications. Additionally, due to decreases in cost, systems employing fleets of UAVs have become popular. The uniqueness of UAVs in systems creates a novel set of trajectory or path planning and coordination problems. Environments include many more points of interest (POIs) than UAVs, with obstacles and no-fly zones. We introduce REPlanner, a novel multi-agent reinforcement learning algorithm inspired by economic transactions to distribute tasks between UAVs. This system revolves around an economic theory, in particular an auction mechanism where UAVs trade assigned POIs. We formulate the path planning problem as a multi-agent economic game, where agents can cooperate and compete for resources. We then translate the problem into a Partially Observable Markov decision process (POMDP), which is solved using a reinforcement learning (RL) model deployed on each agent. As the system computes task distributions via UAV cooperation, it is highly resilient to any change in the swarm size. Our proposed network and economic game architecture can effectively coordinate the swarm as an emergent phenomenon while maintaining the swarm's operation. Evaluation results prove that REPlanner efficiently outperforms conventional RL-based trajectory search.
翻訳日:2021-03-07 18:24:42 公開日:2021-03-03
# (参考訳) シフト不変性は対向ロバスト性を低下させる [全文訳有]

Shift Invariance Can Reduce Adversarial Robustness ( http://arxiv.org/abs/2103.02695v1 )

ライセンス: CC BY 4.0
Songwei Ge, Vasu Singla, Ronen Basri, David Jacobs(参考訳) シフト不変性は、分類のパフォーマンスを向上させるCNNの重要な特性です。 しかし, 円偏移に対する不変性は, 逆攻撃に対する感受性を増大させる可能性がある。 まず,シフト不変線形分類器を用いた場合,クラス間のマージンを特徴付ける。 マージンは信号のDC成分にのみ依存できることを示します。 そして、無限に広いネットワークに関する結果を用いて、単純なケースでは、完全連結でシフト不変なニューラルネットワークが線形決定境界を生成することを示す。 これを用いて、ニューラルネットワークにおけるシフト不変性は、グレーの背景に黒または白のドットを持つ単一の画像からなる2つのクラスの単純なケースの逆例を生成することを証明します。 実際のデータセットと現実的なアーキテクチャでは、シフト不変性は逆の堅牢性を減らすことを実証的に示しています。 最後に,この接続の起点を調べるために合成データを用いた初期実験について述べる。

Shift invariance is a critical property of CNNs that improves performance on classification. However, we show that invariance to circular shifts can also lead to greater sensitivity to adversarial attacks. We first characterize the margin between classes when a shift-invariant linear classifier is used. We show that the margin can only depend on the DC component of the signals. Then, using results about infinitely wide networks, we show that in some simple cases, fully connected and shift-invariant neural networks produce linear decision boundaries. Using this, we prove that shift invariance in neural networks produces adversarial examples for the simple case of two classes, each consisting of a single image with a black or white dot on a gray background. This is more than a curiosity; we show empirically that with real datasets and realistic architectures, shift invariance reduces adversarial robustness. Finally, we describe initial experiments using synthetic data to probe the source of this connection.
翻訳日:2021-03-07 14:17:12 公開日:2021-03-03
# (参考訳) 線形時間複雑度をもつ線形帯域アルゴリズム [全文訳有]

Linear Bandit Algorithms with Sublinear Time Complexity ( http://arxiv.org/abs/2103.02729v1 )

ライセンス: CC BY 4.0
Shuo Yang, Tongzheng Ren, Sanjay Shakkottai, Eric Price, Inderjit S. Dhillon, Sujay Sanghavi(参考訳) 既存の線形バンディットアルゴリズムを高速化し,arms $k$ でステップ毎の複雑性サブリニアを実現する。 サブリニア複雑さの鍵は、多くの線形バンディットアルゴリズムのアーム選択が最大内積探索(MIPS)問題に減少することである。 これに対応するアルゴリズムとして, 線形前処理時間とサブ線形クエリ時間を組み合わせた適応クエリ列のMIPS問題を大まかに解くアルゴリズムを提案する。 提案したMIPSソルバをサブルーチンとして、サブ線形時間複雑性を実現する2つのバンドレートアルゴリズム(UTBとTSをベースとする)を提案する。 我々は、ステップ毎の時間複雑性と後悔のトレードオフを明示的に特徴付け、提案したアルゴリズムが、ある$\alpha(T) > 0$および$\widetilde O(\sqrt{T})$ regretに対して$O(K^{1-\alpha(T)})$ステップ毎の複雑性を達成可能であることを示す。 さらに,ステップ毎の時間複雑性に対する下限を提供するトレードオフの理論的限界を提案する。 また、近似MIPSアルゴリズムの他の選択や線形帯域問題への応用についても論じる。

We propose to accelerate existing linear bandit algorithms to achieve per-step time complexity sublinear in the number of arms $K$. The key to sublinear complexity is the realization that the arm selection in many linear bandit algorithms reduces to the maximum inner product search (MIPS) problem. Correspondingly, we propose an algorithm that approximately solves the MIPS problem for a sequence of adaptive queries yielding near-linear preprocessing time complexity and sublinear query time complexity. Using the proposed MIPS solver as a sub-routine, we present two bandit algorithms (one based on UCB, and the other based on TS) that achieve sublinear time complexity. We explicitly characterize the tradeoff between the per-step time complexity and regret, and show that our proposed algorithms can achieve $O(K^{1-\alpha(T)})$ per-step complexity for some $\alpha(T) > 0$ and $\widetilde O(\sqrt{T})$ regret, where $T$ is the time horizon. Further, we present the theoretical limit of the tradeoff, which provides a lower bound for the per-step time complexity. We also discuss other choices of approximate MIPS algorithms and other applications to linear bandit problems.
翻訳日:2021-03-07 13:56:55 公開日:2021-03-03
# (参考訳) 腕のトータルオーダーのない組合せバンディット [全文訳有]

Combinatorial Bandits without Total Order for Arms ( http://arxiv.org/abs/2103.02741v1 )

ライセンス: CC BY 4.0
Shuo Yang, Tongzheng Ren, Inderjit S. Dhillon, Sujay Sanghavi(参考訳) ここでは、各ステップで、オンライン学習者がアームセット $\mathcal{A}$ から size-$k$ サブセット $s$ を選択し、ここで $\left|\mathcal{A}\right| = n$ を選択し、選択されたセット $s$ で各アームの確率的報酬を観察します。 オンライン学習者の目標は、期待される総報酬を最大化する$s^*$を選択しないことによる後悔を最小限に抑えることである。 具体的には、(1) 腕の報酬分布が集合 $s$ に依存し、(2) 重要なことに、$\mathcal{A}$ の腕に対して \textit{no total order} が存在するという挑戦的な設定に焦点をあてる。 本稿では,セット依存の報酬分布をキャプチャし,腕の合計順序を仮定しない報酬モデルを提案する。 そこで本研究では,各アームに対してUCBを維持し,上-$k$UBBで腕を選択するアッパー信頼境界(UCB)アルゴリズムを提案する。 我々は新しい後悔分析を開発し、$o\left(\frac{k^2n \log t}{\epsilon}\right)$ gap-dependent regretboundと$o\left(k^2\sqrt{n t \log t}\right)$ gap-independent regretboundを示す。 また,提案した報奨モデルに対して,提案アルゴリズムは任意の定数$k$に対してほぼ最適であることを示す。 様々な報酬モデルに対する実験結果から,アルゴリズムの適用可能性を示す。

We consider the combinatorial bandits problem, where at each time step, the online learner selects a size-$k$ subset $s$ from the arms set $\mathcal{A}$, where $\left|\mathcal{A}\right| = n$, and observes a stochastic reward of each arm in the selected set $s$. The goal of the online learner is to minimize the regret, induced by not selecting $s^*$ which maximizes the expected total reward. Specifically, we focus on a challenging setting where 1) the reward distribution of an arm depends on the set $s$ it is part of, and crucially 2) there is \textit{no total order} for the arms in $\mathcal{A}$. In this paper, we formally present a reward model that captures set-dependent reward distribution and assumes no total order for arms. Correspondingly, we propose an Upper Confidence Bound (UCB) algorithm that maintains UCB for each individual arm and selects the arms with top-$k$ UCB. We develop a novel regret analysis and show an $O\left(\frac{k^2 n \log T}{\epsilon}\right)$ gap-dependent regret bound as well as an $O\left(k^2\sqrt{n T \log T}\right)$ gap-independent regret bound. We also provide a lower bound for the proposed reward model, which shows our proposed algorithm is near-optimal for any constant $k$. Empirical results on various reward models demonstrate the broad applicability of our algorithm.
翻訳日:2021-03-07 13:20:27 公開日:2021-03-03
# (参考訳) 認識の悪化: 逆気象条件シミュレーションのための自律走行車知覚性能のリアルタイム劣化 [全文訳有]

Worsening Perception: Real-time Degradation of Autonomous Vehicle Perception Performance for Simulation of Adverse Weather Conditions ( http://arxiv.org/abs/2103.02760v1 )

ライセンス: CC BY 4.0
Ivan Fursa, Elias Fandi, Valentina Musat, Jacob Culley, Enric Gil, Louise Bilous, Isaac Vander Sluis, Alexander Rast and Andrew Bradley(参考訳) 自動運転車は、運転する環境を見るために知覚サブシステムに大きく依存している。 残念ながら、さまざまな気象条件の影響は、物体検出アルゴリズムに重要な課題をもたらし、したがって、それが経験する可能性のあるすべての条件で車両を広くテストすることが不可欠です。 しかし、予測不可能な天候は、悪条件下での現実世界のテストを、専門施設へのアクセス、敏感な電子機器の耐候性を必要とする高価で時間のかかるタスクにすることができます。 シミュレーションは実世界のテストの代替となり、強力な計算ハードウェア上で実世界のより視覚的な表現を開発する研究もある。 自動運転車パイプラインのその後のサブシステムは、シミュレーションの視覚的リアリズムに気づいていないことを考えると、知覚の下流のモジュールを開発するとき、外観はほとんどの結果ではありません。 本研究は、視覚精度ではなく、知覚システム性能に与える影響に着目した自律走行車における、単純で軽量な画像拡張システムの利用の可能性を検討するものである。 本研究で開発したプロトタイプシステムは、最小限の調整で、カメラレンズへの水滴の影響と光条件の低下の両方を再現できます。 このシステムは、計算ハードウェアを使用して8ms未満のレイテンシを導入し、車両に搭載するのに適しており、シミュレーションの実験中に実行できるリアルタイム実装や、現実世界での拡張現実テストに理想的に適している。

Autonomous vehicles rely heavily upon their perception subsystems to see the environment in which they operate. Unfortunately, the effect of varying weather conditions presents a significant challenge to object detection algorithms, and thus it is imperative to test the vehicle extensively in all conditions which it may experience. However, unpredictable weather can make real-world testing in adverse conditions an expensive and time consuming task requiring access to specialist facilities, and weatherproofing of sensitive electronics. Simulation provides an alternative to real world testing, with some studies developing increasingly visually realistic representations of the real world on powerful compute hardware. Given that subsequent subsystems in the autonomous vehicle pipeline are unaware of the visual realism of the simulation, when developing modules downstream of perception the appearance is of little consequence - rather it is how the perception system performs in the prevailing weather condition that is important. This study explores the potential of using a simple, lightweight image augmentation system in an autonomous racing vehicle - focusing not on visual accuracy, but rather the effect upon perception system performance. With minimal adjustment, the prototype system developed in this study can replicate the effects of both water droplets on the camera lens, and fading light conditions. The system introduces a latency of less than 8 ms using compute hardware that is well suited to being carried in the vehicle - rendering it ideally suited to real-time implementation that can be run during experiments in simulation, and augmented reality testing in the real world.
翻訳日:2021-03-07 11:41:43 公開日:2021-03-03
# (参考訳) 時空間機械学習アーキテクチャに基づくマルチモード呼吸器疾患悪化予測手法 [全文訳有]

A Multi-Modal Respiratory Disease Exacerbation Prediction Technique Based on a Spatio-Temporal Machine Learning Architecture ( http://arxiv.org/abs/2103.03086v1 )

ライセンス: CC BY 4.0
Rohan Tan Bhowmik(参考訳) 慢性閉塞性肺疾患や喘息などの慢性呼吸器疾患は深刻な健康危機であり、世界中の多くの人々に影響を及ぼし、経済に大きなコストがかかる。 呼吸器症状の進行を評価する現在の方法は、主観的・不正確なか、複雑で厄介であり、環境要因を含まない。 予測評価と早期介入の欠如、予期せぬ悪化は入院と高い医療費につながる可能性があります。 本研究は, リアルタイムかつ正確な呼吸器イベント検出のための新しい時空間機械学習アーキテクチャに基づいて, COPDなどの呼吸器疾患の悪化リスクを予測するマルチモーダルソリューションを提案し, 地域環境・気象データ・トレンドの追跡を行う。 提案された新しい機械学習アーキテクチャは、畳み込みニューラルネットワークと繰り返しニューラルネットワークのキー属性をブレンドし、呼吸音にエンコードされた空間的および時間的特徴の両方を抽出し、正確な分類と症状の追跡を可能にする。 環境センサと気象センサのデータ、そして振り返り医療研究に基づく予測モデルと組み合わせることで、このソリューションは呼吸器疾患の悪化を早期に警告し、提供することができる。 本研究は,早期医療介入による患者の生活の質の向上を図り,入院率と医療費の低減を図る。

Chronic respiratory diseases, such as chronic obstructive pulmonary disease and asthma, are a serious health crisis, affecting a large number of people globally and inflicting major costs on the economy. Current methods for assessing the progression of respiratory symptoms are either subjective and inaccurate, or complex and cumbersome, and do not incorporate environmental factors. Lacking predictive assessments and early intervention, unexpected exacerbations can lead to hospitalizations and high medical costs. This work presents a multi-modal solution for predicting the exacerbation risks of respiratory diseases, such as COPD, based on a novel spatio-temporal machine learning architecture for real-time and accurate respiratory events detection, and tracking of local environmental and meteorological data and trends. The proposed new machine learning architecture blends key attributes of both convolutional and recurrent neural networks, allowing extraction of both spatial and temporal features encoded in respiratory sounds, thereby leading to accurate classification and tracking of symptoms. Combined with the data from environmental and meteorological sensors, and a predictive model based on retrospective medical studies, this solution can assess and provide early warnings of respiratory disease exacerbations. This research will improve the quality of patients' lives through early medical intervention, thereby reducing hospitalization rates and medical costs.
翻訳日:2021-03-07 11:14:26 公開日:2021-03-03
# (参考訳) 機械学習モデルに対する逆リスク評価のための修正ドレーク方程式 [全文訳有]

A Modified Drake Equation for Assessing Adversarial Risk to Machine Learning Models ( http://arxiv.org/abs/2103.02718v1 )

ライセンス: CC BY 4.0
Josh Kalin, David Noever, Matthew Ciolino(参考訳) プロダクションにデプロイされた各機械学習モデルには、敵攻撃のリスクがある。 経験的尺度を用いた寄与要因と不確実性の定量化は、一般的な機械学習モデルタイプのダウンロードとデプロイのリスクを評価する上で、業界に役立つだろう。 ドレーク方程式は不確実性をパラメータ化し、無線で使える地球外文明の数を推定するために用いられることで有名である。 本研究は, 従来のドレイク方程式の定式化を改良し, 展開モデルに対する潜在的に成功した敵攻撃の数を推定することを提案する。 これまでの研究では、パブリックモデルアーキテクチャの脆弱性を発見する方法を概説しているが、提案された方程式は、敵対的攻撃の潜在的な危険因子を評価するための半定量的ベンチマークを提供する。

Each machine learning model deployed into production has a risk of adversarial attack. Quantifying the contributing factors and uncertainties using empirical measures could assist the industry with assessing the risk of downloading and deploying common machine learning model types. The Drake Equation is famously used for parameterizing uncertainties and estimating the number of radio-capable extra-terrestrial civilizations. This work proposes modifying the traditional Drake Equation's formalism to estimate the number of potentially successful adversarial attacks on a deployed model. While previous work has outlined methods for discovering vulnerabilities in public model architectures, the proposed equation seeks to provide a semi-quantitative benchmark for evaluating the potential risk factors of adversarial attacks.
翻訳日:2021-03-07 10:39:18 公開日:2021-03-03
# (参考訳) 長期記憶モデルを用いたマルウェア分類 [全文訳有]

Malware Classification Using Long Short-Term Memory Models ( http://arxiv.org/abs/2103.02746v1 )

ライセンス: CC BY 4.0
Dennis Dang and Fabio Di Troia and Mark Stamp(参考訳) シグネチャーと異常ベースの技術は、マルウェア検出に不可欠なアプローチです。 しかし、マルウェアの高度化と複雑化に伴い、これらの技術はますます非効率化している。 そのため、研究者はより優れたパフォーマンスモデルを構築するために深層学習に移行した。 本論文では,4種類の長期記憶モデル(LSTM)モデルを作成し,それぞれ20ファミリーのマルウェアサンプルを分類する訓練を行う。 マルウェアから抽出したオペコードを特徴とする。 自然言語処理 (NLP) において, 単語埋め込みや双方向LSTM (biLSTM) などの手法を用いており, 畳み込みニューラルネットワーク (CNN) も採用している。 マルウェア分類実験において,単語埋め込み,biLSTM,CNN層からなるモデルが最適であることがわかった。

Signature and anomaly based techniques are the quintessential approaches to malware detection. However, these techniques have become increasingly ineffective as malware has become more sophisticated and complex. Researchers have therefore turned to deep learning to construct better performing model. In this paper, we create four different long-short term memory (LSTM) based models and train each to classify malware samples from 20 families. Our features consist of opcodes extracted from malware executables. We employ techniques used in natural language processing (NLP), including word embedding and bidirection LSTMs (biLSTM), and we also use convolutional neural networks (CNN). We find that a model consisting of word embedding, biLSTMs, and CNN layers performs best in our malware classification experiments.
翻訳日:2021-03-07 10:33:26 公開日:2021-03-03
# (参考訳) 強誘電体finfet系ニューラルネットワークにおける温度変動誘起精度低下の緩和 [全文訳有]

Alleviation of Temperature Variation Induced Accuracy Degradation in Ferroelectric FinFET Based Neural Network ( http://arxiv.org/abs/2103.03111v1 )

ライセンス: CC BY 4.0
Sourav De, Yao-Jen Lee and Darsen D. Lu(参考訳) 本稿では,事前学習した全強誘電体深層ニューラルネットワークの推論精度に対する温度変動の影響と,これらの影響を緩和するための設計手法について報告する。 mnistデータセットをベースラインとして,96.4%の推論精度を有する事前学習型ニューラルネットワーク(nn)を採用した。 温度変化の余波として、プログラムされたセルのコンダクタンスドリフトは、幅広いゲートバイアスに対してコンパクトなモデルにより捕捉された。 本研究では,300kで訓練されたnnに対して,233kでアナログニューラルネットワークにおいて有意な推定精度低下を観測し,最後に「読み取り電圧」最適化を施したバイナリニューラルネットワークを展開し,温度変動による精度低下に対するnnの耐性を確保し,推定精度96.1%を維持した。

This paper reports the impacts of temperature variation on the inference accuracy of pre-trained all-ferroelectric FinFET deep neural networks, along with plausible design techniques to abate these impacts. We adopted a pre-trained artificial neural network (NN) with 96.4% inference accuracy on the MNIST dataset as the baseline. As an aftermath of temperature change, the conductance drift of a programmed cell was captured by a compact model over a wide range of gate bias. We observe a significant inference accuracy degradation in the analog neural network at 233 K for a NN trained at 300 K. Finally, we deployed binary neural networks with "read voltage" optimization to ensure immunity of NN to accuracy degradation under temperature variation, maintaining an inference accuracy 96.1%
翻訳日:2021-03-07 09:20:44 公開日:2021-03-03
# (参考訳) IH-GAN: セル構造の入射表面ベース逆設計のための条件付き生成モデル [全文訳有]

IH-GAN: A Conditional Generative Model for Implicit Surface-Based Inverse Design of Cellular Structures ( http://arxiv.org/abs/2103.02588v1 )

ライセンス: CC BY 4.0
Jun Wang, Wei Chen, Mark Fuge, Rahul Rai(参考訳) 可変密度セル構造は、トポロジカルに最適化された機能的にグレードされた構造、特にそれらの構造が離散密度マップとして表現される場合の接続性や製造性の問題に克服することができる。 可変密度セル構造を作るための1つのna\"iveなアプローチは、離散密度マップを、対応する密度を持つ非選択的な単位セルに置き換えることである。 しかし、等価密度だけでは等価な機械的特性が保証されないため、所望の機械的挙動を損なう。 別のアプローチでは、ホモジェネライゼーション法を用いて各ユニットセルの有効な特性を推定し、スケーリング法に従ってユニットセルを再マップする。 しかし、スケーリング法は、物質的性質空間から単型単位セルへの間接かつ不正確なマッピングを行うことで、単に問題を緩和する。 対照的に, 正確なマッピングを自動学習し, 望ましい性質(ヤング率, ポアソン比)に基づく多様なセル単位細胞を生成することで, この問題を解決する深層生成モデルを提案する。 本手法は,暗黙の関数ベース単位細胞と条件付き生成対向ネットワークを用いて実証する。 その結果,(1) 特定の材料特性を高精度に満たす各種ユニットセル(相対誤差<5%)の生成,2) 高品質のインターフェース接続(インターフェースにおける平均重複面積98.7%) の機能的グレード化,3) 従来のトポロジ最適化可変密度構造(応力の84.4%低減,変位率の7%削減) に対する構造性能の向上が可能となった。

Variable-density cellular structures can overcome connectivity and manufacturability issues of topologically-optimi zed, functionally graded structures, particularly when those structures are represented as discrete density maps. One na\"ive approach to creating variable-density cellular structures is simply replacing the discrete density map with an unselective type of unit cells having corresponding densities. However, doing so breaks the desired mechanical behavior, as equivalent density alone does not guarantee equivalent mechanical properties. Another approach uses homogenization methods to estimate each pre-defined unit cell's effective properties and remaps the unit cells following a scaling law. However, a scaling law merely mitigates the problem by performing an indirect and inaccurate mapping from the material property space to single-type unit cells. In contrast, we propose a deep generative model that resolves this problem by automatically learning an accurate mapping and generating diverse cellular unit cells conditioned on desired properties (i.e., Young's modulus and Poisson's ratio). We demonstrate our method via the use of implicit function-based unit cells and conditional generative adversarial networks. Results show that our method can 1) generate various unit cells that satisfy given material properties with high accuracy (relative error <5%), 2) create functionally graded cellular structures with high-quality interface connectivity (98.7% average overlap area at interfaces), and 3) improve the structural performance over the conventional topology-optimized variable-density structure (84.4% reduction in concentrated stress and extra 7% reduction in displacement).
翻訳日:2021-03-07 05:53:39 公開日:2021-03-03
# (参考訳) 深層学習による衛星画像からの人口分布のセンシング:モデル選択、近隣効果、系統的バイアス [全文訳有]

Sensing population distribution from satellite imagery via deep learning: model selection, neighboring effect, and systematic biases ( http://arxiv.org/abs/2103.02155v1 )

ライセンス: CC BY 4.0
Xiao Huang, Di Zhu, Fan Zhang, Tao Liu, Xiao Li, Lei Zou(参考訳) リモートセンシング技術の急速な発展により、地上の豊かで大規模で時間的な情報を提供し、潜伏した特徴や隠れた地理的パターンを抽出できる新たな深層学習手法と組み合わせることができる。 本研究では,リモートセンシング画像から個体群分布を推定し,隣接効果の寄与を調査し,系統的個体群推定バイアスを探究する,一般的な最先端ディープラーニングモデルの性能比較を初めて試みる。 本研究では,sentinel-2画像パッチと対応する人口数をランドスカン人口グリッドからマッピングすることにより,vgg,resnet,xception ,drknetという4つの一般的なディープラーニングアーキテクチャをエンドツーエンドでトレーニングする。 結果は、DenseNetが他の3モデルよりも優れており、VGGは、選択された隣のシナリオすべてでメトリクスを評価する上で、最悪のパフォーマンスであることを示している。 隣接する効果については, 既存の研究と矛盾する結果, 近隣のサイズの増加は、すべての評価指標で4つの選択モデルすべてに普遍的に見られる人口推定性能の減少につながることを示唆している。 さらに、選択されたディープラーニングモデルは、近隣のサイズに関係なく、疎密な画像パッチと密密な画像パッチを過大評価する傾向にある、注目すべき、普遍的なバイアスが存在する。 本研究が提供する方法論的,実験的,文脈的知識は,リモートセンシング画像を用いて人口分布を推定する幅広い将来の研究に有効であることが期待されている。

The rapid development of remote sensing techniques provides rich, large-coverage, and high-temporal information of the ground, which can be coupled with the emerging deep learning approaches that enable latent features and hidden geographical patterns to be extracted. This study marks the first attempt to cross-compare performances of popular state-of-the-art deep learning models in estimating population distribution from remote sensing images, investigate the contribution of neighboring effect, and explore the potential systematic population estimation biases. We conduct an end-to-end training of four popular deep learning architectures, i.e., VGG, ResNet, Xception, and DenseNet, by establishing a mapping between Sentinel-2 image patches and their corresponding population count from the LandScan population grid. The results reveal that DenseNet outperforms the other three models, while VGG has the worst performances in all evaluating metrics under all selected neighboring scenarios. As for the neighboring effect, contradicting existing studies, our results suggest that the increase of neighboring sizes leads to reduced population estimation performance, which is found universal for all four selected models in all evaluating metrics. In addition, there exists a notable, universal bias that all selected deep learning models tend to overestimate sparsely populated image patches and underestimate densely populated image patches, regardless of neighboring sizes. The methodological, experimental, and contextual knowledge this study provides is expected to benefit a wide range of future studies that estimate population distribution via remote sensing imagery.
翻訳日:2021-03-07 05:24:20 公開日:2021-03-03
# (参考訳) ICAM-reg: 個々のスキャンにおける神経現象のマッピングにおける特徴属性による解釈可能な分類と回帰 [全文訳有]

ICAM-reg: Interpretable Classification and Regression with Feature Attribution for Mapping Neurological Phenotypes in Individual Scans ( http://arxiv.org/abs/2103.02561v1 )

ライセンス: CC BY 4.0
Cher Bass, Mariana da Silva, Carole Sudre, Logan Z. J. Williams, Petru-Daniel Tudosiu, Fidel Alfaro-Almagro, Sean P. Fitzgibbon, Matthew F. Glasser, Stephen M. Smith, Emma C. Robinson(参考訳) 医用画像の重要な目的は、個々のスキャンに特有の疾患のパターンを正確に検出できることであるが、形状と外観の異質性の度合いによって、脳画像においてこのことが課題である。 グローバルテンプレートへの画像登録に基づく伝統的な手法は、伝統的に、集団平均効果の研究に主に適する人口ベースの分析を利用するため、病気の可変的な特徴を検出することができない。 そこで本研究では,生成的深層学習における最近の進歩を活かし,同時分類法,回帰法,特徴帰属法(fa)を開発した。 具体的には、ICAMと呼ばれるVAE-GAN翻訳ネットワークを用いて、背景コンファウンドからクラス関連機能を明示的に切り離し、神経学的表現型の解釈性と回帰性を改善する。 本研究では、開発中のHuman Connectome Project(dHCP)とUK Biobankデータセットを用いて、アルツハイマー病ニューロイメージングイニシアティブ(ADNI)コホートにおけるMini-Mental State examination(MMSE)認知テストスコア予測と、神経発達と神経変性の両方における脳年齢予測について検証した。 本稿では,生成したfaマップを用いて異常予測を説明し,回帰加群を組み込むことで潜在空間の不連続性を改善することを示す。 私たちのコードはGithub https://github.com/C herBass/ICAMで無料で入手できます。

An important goal of medical imaging is to be able to precisely detect patterns of disease specific to individual scans; however, this is challenged in brain imaging by the degree of heterogeneity of shape and appearance. Traditional methods, based on image registration to a global template, historically fail to detect variable features of disease, as they utilise population-based analyses, suited primarily to studying group-average effects. In this paper we therefore take advantage of recent developments in generative deep learning to develop a method for simultaneous classification, or regression, and feature attribution (FA). Specifically, we explore the use of a VAE-GAN translation network called ICAM, to explicitly disentangle class relevant features from background confounds for improved interpretability and regression of neurological phenotypes. We validate our method on the tasks of Mini-Mental State Examination (MMSE) cognitive test score prediction for the Alzheimer's Disease Neuroimaging Initiative (ADNI) cohort, as well as brain age prediction, for both neurodevelopment and neurodegeneration, using the developing Human Connectome Project (dHCP) and UK Biobank datasets. We show that the generated FA maps can be used to explain outlier predictions and demonstrate that the inclusion of a regression module improves the disentanglement of the latent space. Our code is freely available on Github https://github.com/C herBass/ICAM.
翻訳日:2021-03-07 04:56:37 公開日:2021-03-03
# (参考訳) アドホックマイクロホンアレーを用いた連続音声分離 [全文訳有]

Continuous Speech Separation with Ad Hoc Microphone Arrays ( http://arxiv.org/abs/2103.02378v1 )

ライセンス: CC BY 4.0
Dongmei Wang, Takuya Yoshioka, Zhuo Chen, Xiaofei Wang, Tianyan Zhou, Zhong Meng(参考訳) 音声分離は複数話者音声認識に有効であることが示された。 配列が空間的に分散した非同期マイクロホンで構成されているアドホックマイクロホンアレイのセットアップでは、事前にマイクの数や形状が不明であるため、さらなる課題が克服される必要がある。 先行研究では、空間時間インターリーブ構造により、ニューラルネットワークはアドホックアレイのマルチチャネル信号を効率的に利用することができる。 本稿では,このアプローチをさらに継続的音声分離に拡張する。 実際の連続録音に対して音声分離を可能にする技術がいくつか紹介されている。 まず,アドホックアレイ信号の時空間モデリングにトランスフォーマネットワークを適用した。 さらに,単一話者セグメントにおける音声重複問題を軽減するため,アドホックアレーのシナリオではより厳しい2つの手法が提案されている。 1つの方法は、模擬訓練データと実記録との音響ミスマッチを低減するためのデバイス歪みシミュレーションである。 もう1つは、単一の話者セグメントを検出して出力信号チャネルをマージする話者カウントである。 複数の異なるデバイスで結合されたリブリスピーチ発話の連続記録からなる新しいデータセットであるadhoc-libicssの実験結果は、単一話者セグメントの性能劣化が少なく、重複音声のasr精度を著しく向上できることを示した。

Speech separation has been shown effective for multi-talker speech recognition. Under the ad hoc microphone array setup where the array consists of spatially distributed asynchronous microphones, additional challenges must be overcome as the geometry and number of microphones are unknown beforehand. Prior studies show, with a spatial-temporalinte rleaving structure, neural networks can efficiently utilize the multi-channel signals of the ad hoc array. In this paper, we further extend this approach to continuous speech separation. Several techniques are introduced to enable speech separation for real continuous recordings. First, we apply a transformer-based network for spatio-temporal modeling of the ad hoc array signals. In addition, two methods are proposed to mitigate a speech duplication problem during single talker segments, which seems more severe in the ad hoc array scenarios. One method is device distortion simulation for reducing the acoustic mismatch between simulated training data and real recordings. The other is speaker counting to detect the single speaker segments and merge the output signal channels. Experimental results for AdHoc-LibiCSS, a new dataset consisting of continuous recordings of concatenated LibriSpeech utterances obtained by multiple different devices, show the proposed separation method can significantly improve the ASR accuracy for overlapped speech with little performance degradation for single talker segments.
翻訳日:2021-03-07 04:21:41 公開日:2021-03-03
# (参考訳) 類似性計算と教師付き学習のための化学インフォームドマクロ分子グラフ表現 [全文訳有]

Chemistry-informed Macromolecule Graph Representation for Similarity Computation and Supervised Learning ( http://arxiv.org/abs/2103.02565v1 )

ライセンス: CC BY 4.0
Somesh Mohapatra, Joyce An, Rafael G\'omez-Bombarelli(参考訳) 高分子は、異なる立体化学的構成とトポロジーに存在する共有結合モノマー単位からなる、大きくて複雑な分子である。 このような化学多様性の結果、マクロ分子の表現、比較、学習が重要な課題として浮上する。 そこで我々は,モノマーと結合をそれぞれノードとエッジとするマクロ分子グラフ表現を開発した。 分子指紋をノードとエッジ属性に用い,マクロ分子の生化学的性質を捉えた。 グラフ編集距離とグラフカーネルを用いて,化学およびトポロジーの異なる2つのマクロ分子間の化学類似性の計算を初めて行った。 また,様々なグリカン分類タスクのためにグラフニューラルネットワークを訓練し,最新の結果を得た。 我々の研究は、マクロ分子の表現、比較、学習のための一般的なフレームワークを提供し、マクロ分子化学空間における定量的化学インフォームド決定および反復設計を可能にする。

Macromolecules are large, complex molecules composed of covalently bonded monomer units, existing in different stereochemical configurations and topologies. As a result of such chemical diversity, representing, comparing, and learning over macromolecules emerge as critical challenges. To address this, we developed a macromolecule graph representation, with monomers and bonds as nodes and edges, respectively. We captured the inherent chemistry of the macromolecule by using molecular fingerprints for node and edge attributes. For the first time, we demonstrated computation of chemical similarity between 2 macromolecules of varying chemistry and topology, using exact graph edit distances and graph kernels. We also trained graph neural networks for a variety of glycan classification tasks, achieving state-of-the-art results. Our work has two-fold implications - it provides a general framework for representation, comparison, and learning of macromolecules; and enables quantitative chemistry-informed decision-making and iterative design in the macromolecular chemical space.
翻訳日:2021-03-07 04:11:19 公開日:2021-03-03
# (参考訳) ランダム特徴の注意 [全文訳有]

Random Feature Attention ( http://arxiv.org/abs/2103.02143v1 )

ライセンス: CC BY 4.0
Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong(参考訳) トランスフォーマーは、様々なシーケンスモデリングタスクのための最先端モデルである。 中心となるアテンション関数は、各タイミングで入力間のペアワイズ相互作用をモデル化する。 注意力は強いが、二次時間と列長の空間複雑性のため、長い列に対して効率的にスケールしない。 ソフトマックス関数を近似するためにランダム特徴法を用いた線形時間空間注意法 RFA を提案し,その変圧器への応用について検討する。 RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。 言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。 機械翻訳実験では、RFAはバニラ変圧器の2倍の速度で復号する。 既存の効率的な変圧器の変種と比較して、RFAは3つの長文分類データセットの精度と効率の両面で競合する。 分析の結果,RFAの効率向上は特に長いシーケンスで顕著であり,大きな入力や高速復号化速度,メモリフットプリントの低いタスクでは特に有効であることが示唆された。

Transformers are state-of-the-art models for a variety of sequence modeling tasks. At their core is an attention function which models pairwise interactions between the inputs at every timestep. While attention is powerful, it does not scale efficiently to long sequences due to its quadratic time and space complexity in the sequence length. We propose RFA, a linear time and space attention that uses random feature methods to approximate the softmax function, and explore its application in transformers. RFA can be used as a drop-in replacement for conventional softmax attention and offers a straightforward way of learning with recency bias through an optional gating mechanism. Experiments on language modeling and machine translation demonstrate that RFA achieves similar or better performance compared to strong transformer baselines. In the machine translation experiment, RFA decodes twice as fast as a vanilla transformer. Compared to existing efficient transformer variants, RFA is competitive in terms of both accuracy and efficiency on three long text classification datasets. Our analysis shows that RFA's efficiency gains are especially notable on long sequences, suggesting that RFA will be particularly useful in tasks that require working with large inputs, fast decoding speed, or low memory footprints.
翻訳日:2021-03-07 03:47:03 公開日:2021-03-03
# (参考訳) クロスドメインテキスト-SQL解析のための階層型SQL-to-Question生成によるデータ拡張 [全文訳有]

Data Augmentation with Hierarchical SQL-to-Question Generation for Cross-domain Text-to-SQL Parsing ( http://arxiv.org/abs/2103.02227v1 )

ライセンス: CC BY 4.0
Ao Zhang, Kun Wu, Lijie Wang, Zhenghua Li, Xinyan Xiao, Hua Wu, Min Zhang, Haifeng Wang(参考訳) データ拡張は、データスパースを緩和する能力が深層学習時代に多くの研究の注目を集めている。 未確認評価データベースのデータ不足は、まさにクロスドメインのテキスト-SQL解析における大きな課題である。 以前の作業では、生成されたデータの品質を保証するために人間の介入が必要か、複雑なsqlクエリの処理に失敗したかのどちらかである。 本稿では,単純なデータ拡張フレームワークを提案する。 まず、データベースが与えられたら、抽象構文木文法 \cite{yin2018tranx} に基づいて大量のSQLクエリを自動的に生成する。 生成したクエリには、トレーニングデータ内の少なくとも80\%のsqlパターンをカバーする必要があります。 第2に,本研究の主な貢献である,高品質な自然言語問題を得るための階層型SQL-to-quest生成モデルを提案する。 3つのクロスドメインデータセット、すなわち英語でのWikiSQLとSpider、中国語のDuSQLに関する実験は、提案されたデータ拡張フレームワークが強いベースラインよりも一貫してパフォーマンスを向上させることができることを示しており、特に階層生成モデルは改善の鍵である。

Data augmentation has attracted a lot of research attention in the deep learning era for its ability in alleviating data sparseness. The lack of data for unseen evaluation databases is exactly the major challenge for cross-domain text-to-SQL parsing. Previous works either require human intervention to guarantee the quality of generated data \cite{yu2018syntaxsqlnet}, or fail to handle complex SQL queries \cite{guo2018question}. This paper presents a simple yet effective data augmentation framework. First, given a database, we automatically produce a large amount of SQL queries based on an abstract syntax tree grammar \cite{yin2018tranx}. We require the generated queries cover at least 80\% of SQL patterns in the training data for better distribution matching. Second, we propose a hierarchical SQL-to-question generation model to obtain high-quality natural language questions, which is the major contribution of this work. Experiments on three cross-domain datasets, i.e., WikiSQL and Spider in English, and DuSQL in Chinese, show that our proposed data augmentation framework can consistently improve performance over strong baselines, and in particular the hierarchical generation model is the key for the improvement.
翻訳日:2021-03-07 03:12:27 公開日:2021-03-03
# (参考訳) Lex2vec: Distant Supervisionによる説明可能な単語埋め込み [全文訳有]

Lex2vec: making Explainable Word Embedding via Distant Supervision ( http://arxiv.org/abs/2103.02269v1 )

ライセンス: CC BY 4.0
Fabio Celli(参考訳) 本稿では,語彙資源を利用して単語埋め込みに情報を注入し,その埋め込み次元を遠隔監視により命名するLex2vecというアルゴリズムを提案する。 本研究は, 可読性が高く, 埋込寸法が良好な情報ラベルを抽出するための最適パラメータの評価を行う。

In this technical report we propose an algorithm, called Lex2vec, that exploits lexical resources to inject information into word embeddings and name the embedding dimensions by means of distant supervision. We evaluate the optimal parameters to extract a number of informative labels that is readable and has a good coverage for the embedding dimensions.
翻訳日:2021-03-07 02:47:27 公開日:2021-03-03
# (参考訳) 注意関係ネットワークを用いたスロットタギングのためのFew-shot Learning [全文訳有]

Few-shot Learning for Slot Tagging with Attentive Relational Network ( http://arxiv.org/abs/2103.02333v1 )

ライセンス: CC0 1.0
Cennet Oguz, Ngoc Thang Vu(参考訳) メトリックベース学習は、特にコンピュータビジョンにおいて、少ないショット学習のためのよく知られた手法である。 近年、多くの自然言語処理アプリケーションで使われているが、スロットタグ付けには使われていない。 本稿では、スロットタグングタスクにおけるメトリックベースの学習方法を検討し、新しいメトリクスベースの学習アーキテクチャ - Attentive Relational Networkを提案する。 本提案手法は,ELMOやBERTなどの事前学習した文脈埋め込みと,注意メカニズムを用いて,自然言語処理アプリケーション全般に適応する関係ネットワークを拡張したものである。 SNIPSデータを用いた結果,提案手法は,他の最先端のメトリックベース学習法よりも優れていた。

Metric-based learning is a well-known family of methods for few-shot learning, especially in computer vision. Recently, they have been used in many natural language processing applications but not for slot tagging. In this paper, we explore metric-based learning methods in the slot tagging task and propose a novel metric-based learning architecture - Attentive Relational Network. Our proposed method extends relation networks, making them more suitable for natural language processing applications in general, by leveraging pretrained contextual embeddings such as ELMO and BERT and by using attention mechanism. The results on SNIPS data show that our proposed method outperforms other state-of-the-art metric-based learning methods.
翻訳日:2021-03-07 02:43:40 公開日:2021-03-03
# (参考訳) OAG-BERT: 未熟なエンティティ強化アカデミック言語モデル [全文訳有]

OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Model ( http://arxiv.org/abs/2103.02410v1 )

ライセンス: CC BY 4.0
Xiao Liu, Da Yin, Xingjian Zhang, Kai Su, Kan Wu, Hongxia Yang, Jie Tang(参考訳) 言語モデルをドメイン知識で強化することは重要だが、難しい。 世界最大の公開学術グラフOpen Academic Graph(OAG)に基づいて、論文、著者、コンセプト、会場、所属を含む巨大な異種実体を統合するアカデミック言語モデル、すなわちOAG-BERTを事前にトレーニングします。 我々はOAG-BERTにエンティティ情報をキャプチャする能力を持たせるために、異種エンティティ型埋め込み、エンティティ認識2D位置符号化、スパン認識エンティティマスキングなどの新しい事前学習戦略を開発する。 ゼロショット推論のために、OAG-BERTがスクラッチからエンティティ名を生成するための特別なデコード戦略を設計する。 我々は,NLPベンチマーク,ゼロショットエンティティ推論,異種グラフリンク予測,著者名曖昧化など,下流のさまざまな学術課題についてOAG-BERTを評価した。 結果は、学術的テキストの理解と異種実体からのモデリング知識の両方に対する提案された事前トレーニングアプローチの有効性を示す。 OAG-BERTは、NSFC(中国国立自然科学財団)のレビュアーレコメンデーションや、AMinerシステムのペーパータグ付けなど、複数の実世界のアプリケーションに展開されています。 また、CogDLパッケージを通じて一般公開されている。

To enrich language models with domain knowledge is crucial but difficult. Based on the world's largest public academic graph Open Academic Graph (OAG), we pre-train an academic language model, namely OAG-BERT, which integrates massive heterogeneous entities including paper, author, concept, venue, and affiliation. To better endow OAG-BERT with the ability to capture entity information, we develop novel pre-training strategies including heterogeneous entity type embedding, entity-aware 2D positional encoding, and span-aware entity masking. For zero-shot inference, we design a special decoding strategy to allow OAG-BERT to generate entity names from scratch. We evaluate the OAG-BERT on various downstream academic tasks, including NLP benchmarks, zero-shot entity inference, heterogeneous graph link prediction, and author name disambiguation. Results demonstrate the effectiveness of the proposed pre-training approach to both comprehending academic texts and modeling knowledge from heterogeneous entities. OAG-BERT has been deployed to multiple real-world applications, such as reviewer recommendations for NSFC (National Nature Science Foundation of China) and paper tagging in the AMiner system. It is also available to the public through the CogDL package.
翻訳日:2021-03-07 02:31:48 公開日:2021-03-03
# (参考訳) ポッドキャスト中の外部コンテンツの検出 [全文訳有]

Detecting Extraneous Content in Podcasts ( http://arxiv.org/abs/2103.02585v1 )

ライセンス: CC BY 4.0
Sravana Reddy, Yongze Yu, Aasish Pappu, Aswin Sivaraman, Rezvaneh Rezapour, Rosie Jones(参考訳) ポッドキャストのエピソードには、広告などのメインコンテンツに余計な素材が含まれており、音声と書き込まれた説明にインターリーブされる。 本論文では,ポッドキャスト記述や音声転写において,テキストパターンとリスニングパターンの両方を利用した分類器を提案する。 本モデルの有効性を,ポッドキャスト要約の下流タスクで評価し,ROUGEのスコアを安定的に改善し,要約で生成された外部コンテンツを減らすことができることを示す。

Podcast episodes often contain material extraneous to the main content, such as advertisements, interleaved within the audio and the written descriptions. We present classifiers that leverage both textual and listening patterns in order to detect such content in podcast descriptions and audio transcripts. We demonstrate that our models are effective by evaluating them on the downstream task of podcast summarization and show that we can substantively improve ROUGE scores and reduce the extraneous content generated in the summaries.
翻訳日:2021-03-07 02:07:49 公開日:2021-03-03
# (参考訳) Deep Learning Vision-Based Manipulation を用いた拡張可能な義肢の設計 [全文訳有]

Design of an Affordable Prosthetic Arm Equipped with Deep Learning Vision-Based Manipulation ( http://arxiv.org/abs/2103.02099v1 )

ライセンス: CC BY 4.0
Alishba Imran, William Escobar, Freidoon Barez(参考訳) 世界中の多くのアンシュートには、高価なコスト、機械システムの複雑さ、可用性の欠如により、個人的に義肢を所有する選択肢が限られている。 義手の主な制御方法は、(1)体力制御、(2)外力機械制御、(3)筋電制御の3つです。 これらの方法は、コントロールされた状況下では良好に機能するが、堅牢性、弱い適応性、長期トレーニング、そして使用中の重度の精神的な負担により、臨床および日常的な使用においてしばしば崩壊する。 この論文は、手頃で簡単に使える新しい義肢の設計過程の完全な概要を述べており、義肢のコストを平均1万ドルから700ドルに削減している。 この3dプリント義手は、深度カメラとクローズドループのオフポリシー深層学習アルゴリズムを備えており、対象物に対する形状把握を支援する。 現在の強化学習マスターの作業は個々のスキルのみであり、手で操作するパラレル顎グリッパーに重点を置いている。 実世界の操作をより良く行う一般化を実現するため、特に、Deep Deterministic Policy gradient (DDPG)のような非政治アルゴリズムによるスケーラブルな学習を通じて、マルコフ決定プロセス(MDP)の一般的なフレームワークの使用に焦点を当て、義肢の把握という文脈でこの問題を研究する。 未確認のオブジェクトに対して78%の成功率を実現し、操作タスクのために複数のオブジェクトをまたいだ一般化を実現しました。 この作業により、人工装具は安価で使いやすく、アンプでグローバルにアクセスできるようになります。 今後の作業には、人間が機械と対話してタスクを完了している他の医療補助デバイスにも同様のアプローチを適用することが含まれる。

Many amputees throughout the world are left with limited options to personally own a prosthetic arm due to the expensive cost, mechanical system complexity, and lack of availability. The three main control methods of prosthetic hands are: (1) body-powered control, (2) extrinsic mechanical control, and (3) myoelectric control. These methods can perform well under a controlled situation but will often break down in clinical and everyday use due to poor robustness, weak adaptability, long-term training, and heavy mental burden during use. This paper lays the complete outline of the design process of an affordable and easily accessible novel prosthetic arm that reduces the cost of prosthetics from $10,000 to $700 on average. The 3D printed prosthetic arm is equipped with a depth camera and closed-loop off-policy deep learning algorithm to help form grasps to the object in view. Current work in reinforcement learning masters only individual skills and is heavily focused on parallel jaw grippers for in-hand manipulation. In order to create generalization, which better performs real-world manipulation, the focus is specifically on using the general framework of Markov Decision Process (MDP) through scalable learning with off-policy algorithms such as deep deterministic policy gradient (DDPG) and to study this question in the context of grasping a prosthetic arm. We were able to achieve a 78% grasp success rate on previously unseen objects and generalize across multiple objects for manipulation tasks. This work will make prosthetics cheaper, easier to use and accessible globally for amputees. Future work includes applying similar approaches to other medical assistive devices where a human is interacting with a machine to complete a task.
翻訳日:2021-03-07 01:56:23 公開日:2021-03-03
# (参考訳) 伝統的な畳み込みニューラルネットワークへの熱帯畳み込みの代替手法 [全文訳有]

An Alternative Practice of Tropical Convolution to Traditional Convolutional Neural Networks ( http://arxiv.org/abs/2103.02096v1 )

ライセンス: CC BY 4.0
Shiqing Fan, Ye Luo(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの機械学習分野で使われている。 実用的な応用において、畳み込みニューラルネットワークの計算コストは、畳み込み演算における浮動小数点数の乗算演算の多さから、ネットワークの深化とデータボリュームの増大とともに高まることが多い。 そこで本研究では,従来の畳み込み層における乗算と加算をそれぞれ加算と分/最大演算に置き換える熱帯畳み込み上に構築した,熱帯畳み込みニューラルネットワーク(TCNN)と呼ばれる新しいタイプのCNNを提案する。 さらに, 熱帯畳み込み演算子は本質的に非線形演算子であるため, 従来のCNNよりも高い非線形整合性が期待できる。 実験では、画像分類タスクにおけるTNNの異なるアーキテクチャを、類似のサイズのCNNと比較してテストし、解析する。 結果は、TCNNがMNISTおよびCIFAR10画像データセット上の通常の畳み込み層よりも高い表現力を達成できることを示しています。 異なるノイズ環境では、TCNNと通常のCNNの堅牢性には勝利と損失がある。

Convolutional neural networks (CNNs) have been used in many machine learning fields. In practical applications, the computational cost of convolutional neural networks is often high with the deepening of the network and the growth of data volume, mostly due to a large amount of multiplication operations of floating-point numbers in convolution operations. To reduce the amount of multiplications, we propose a new type of CNNs called Tropical Convolutional Neural Networks (TCNNs) which are built on tropical convolutions in which the multiplications and additions in conventional convolutional layers are replaced by additions and min/max operations respectively. In addition, since tropical convolution operators are essentially nonlinear operators, we expect TCNNs to have higher nonlinear fitting ability than conventional CNNs. In the experiments, we test and analyze several different architectures of TCNNs for image classification tasks in comparison with similar-sized conventional CNNs. The results show that TCNN can achieve higher expressive power than ordinary convolutional layers on the MNIST and CIFAR10 image data set. In different noise environments, there are wins and losses in the robustness of TCNN and ordinary CNNs.
翻訳日:2021-03-07 01:32:14 公開日:2021-03-03
# (参考訳) 生成的対向ネットワークに基づく動きブラインド顔のデブロアリングプロセッサ [全文訳有]

Deblurring Processor for Motion-Blurred Faces Based on Generative Adversarial Networks ( http://arxiv.org/abs/2103.02121v1 )

ライセンス: CC BY 4.0
Shiqing Fan, Ye Luo(参考訳) 低品質の顔画像復元は、今日のコンピュータビジョン分野で人気のある研究方向です。 顔検出や顔認識などのタスクの前処理として使用できます。 現在,様々な環境条件下での低品質な顔の問題解決には多くの課題がある。 本論文では,主に運動破砕面の修復に焦点を当てる。 ますます豊富なモバイルシーンでは、動きが鈍い顔の迅速な回復は、顔のマッチングなどのタスクに非常に効果的な速度改善をもたらすことができます。 この目的を達成するために,GAN(Generative Adversarial Network)に基づく動きブルの顔画像信号のデブロアリング手法を提案する。 エンドツーエンドの手法を使用して、シャープな画像生成装置、すなわち、動きを破った顔画像のプロセッサを訓練する。 本稿では,動画像の処理の進展,ganの発達と変化,および基本的な概念について述べる。 その後、イメージプロセッサのネットワーク構造とトレーニング最適化設計の詳細を提供します。 次に,一部の一般的な顔データに対してモーションボケ画像生成実験を行い,その2対のボケ画像とシャープ画像データを用いて,プロセッサganのトレーニングおよびテスト実験を行い,視覚表示を行った。 最後に、MTCNNを使用して、デブレーションプロセッサによって生成された画像の顔を検出し、ぼやけた画像の結果と比較します。 以上の結果から, デブラリング処理装置の動作ブラインド画像に対する処理効果は, 直観と顔検出評価指標の両方において有意な改善を示した。

Low-quality face image restoration is a popular research direction in today's computer vision field. It can be used as a pre-work for tasks such as face detection and face recognition. At present, there is a lot of work to solve the problem of low-quality faces under various environmental conditions. This paper mainly focuses on the restoration of motion-blurred faces. In increasingly abundant mobile scenes, the fast recovery of motion-blurred faces can bring highly effective speed improvements in tasks such as face matching. In order to achieve this goal, a deblurring method for motion-blurred facial image signals based on generative adversarial networks(GANs) is proposed. It uses an end-to-end method to train a sharp image generator, i.e., a processor for motion-blurred facial images. This paper introduce the processing progress of motion-blurred images, the development and changes of GANs and some basic concepts. After that, it give the details of network structure and training optimization design of the image processor. Then we conducted a motion blur image generation experiment on some general facial data set, and used the pairs of blurred and sharp face image data to perform the training and testing experiments of the processor GAN, and gave some visual displays. Finally, MTCNN is used to detect the faces of the image generated by the deblurring processor, and compare it with the result of the blurred image. From the results, the processing effect of the deblurring processor on the motion-blurred picture has a significant improvement both in terms of intuition and evaluation indicators of face detection.
翻訳日:2021-03-07 01:22:27 公開日:2021-03-03
# (参考訳) 雑音ラベル学習のための強化戦略 [全文訳有]

Augmentation Strategies for Learning with Noisy Labels ( http://arxiv.org/abs/2103.02130v1 )

ライセンス: CC BY 4.0
Kento Nishi, Yi Ding, Alex Rich, Tobias H\"ollerer(参考訳) 不完全なラベルは、実世界のデータセットに普遍的です。 ラベルノイズに強いディープニューラルネットワーク(DNN)を訓練するいくつかの成功した方法は、ウォームアップフェーズ中の損失に基づいてサンプルをフィルタリングして、クリーンなラベル付きサンプルの最初のセットをキュレートし、その後の損失計算のための擬似ラベルとしてネットワークの出力を使用することである。 本稿では,「ノイズラベルを用いた学習」問題に取り組むアルゴリズムの強化戦略について検討する。 CIFAR-10 と CIFAR-100 に基づく合成データセットと実世界データセット Clothing1M を用いて,複数の拡張戦略を提案し,検討する。 これらのアルゴリズムにいくつかの共通性があるため、損失モデリングタスクに1組の加減と学習のためのもう1セットを用いることが最も効果的であり、最先端や他の以前の方法の結果を改善することが判明した。 さらに, ウォームアップ期間中に添加することで, 不正確なラベル付き試料に対する損失収束挙動に負の影響がみられた。 我々は,この拡張戦略を最先端技術に導入し,評価されたすべての騒音レベルにおける性能向上を実証する。 特に、CIFAR-10ベンチマークの精度を90%の対称雑音で絶対精度で15%以上向上し、実世界のデータセットであるClathing1Mの性能も向上する。 (※同等の貢献)

Imperfect labels are ubiquitous in real-world datasets. Several recent successful methods for training deep neural networks (DNNs) robust to label noise have used two primary techniques: filtering samples based on loss during a warm-up phase to curate an initial set of cleanly labeled samples, and using the output of a network as a pseudo-label for subsequent loss calculations. In this paper, we evaluate different augmentation strategies for algorithms tackling the "learning with noisy labels" problem. We propose and examine multiple augmentation strategies and evaluate them using synthetic datasets based on CIFAR-10 and CIFAR-100, as well as on the real-world dataset Clothing1M. Due to several commonalities in these algorithms, we find that using one set of augmentations for loss modeling tasks and another set for learning is the most effective, improving results on the state-of-the-art and other previous methods. Furthermore, we find that applying augmentation during the warm-up period can negatively impact the loss convergence behavior of correctly versus incorrectly labeled samples. We introduce this augmentation strategy to the state-of-the-art technique and demonstrate that we can improve performance across all evaluated noise levels. In particular, we improve accuracy on the CIFAR-10 benchmark at 90% symmetric noise by more than 15% in absolute accuracy and we also improve performance on the real-world dataset Clothing1M. (* equal contribution)
翻訳日:2021-03-07 01:13:14 公開日:2021-03-03
# (参考訳) PML:長尾年齢分類のためのプログレッシブマージン損失 [全文訳有]

PML: Progressive Margin Loss for Long-tailed Age Classification ( http://arxiv.org/abs/2103.02140v1 )

ライセンス: CC0 1.0
Zongyong Deng, Hao Liu, Yaoxing Wang, Chenyang Wang, Zekuan Yu, Xuehong Sun(参考訳) 本稿では,無拘束顔年齢分類のためのプログレッシブマージン損失(PML)手法を提案する。 従来の方法では、各クラスがデータ分布を概説する適切なインスタンスを所有していると強く仮定しており、トレーニングサンプルが年齢クラスに分散しているバイアス予測に繋がる可能性が高い。 その代わり, PML は, クラス内分散, クラス間分散, クラス中心の相互差を完全に取り除いて, 年齢ラベルのパターンを適応的に洗練することを目的としている。 私たちのPMLは通常、順序のマージンと変分マージンを組み込み、グローバルに調整されたディープニューラルネットワークパラダイムを同時にプラグインします。 より具体的には、序列マージンは実世界の年齢ラベルの相関関係を活用することを学習する。 したがって、ばらつきマージンを利用して、尾状サンプルの予測を誤解させるヘッドクラスの影響を最小限に抑えます。 さらに,厳密で効率的なモデルトレーニングを実現するために,一連の指標カリキュラムを慎重に検討する。 3つの顔の老化データセットに関する広範な実験結果は、当社のPMLが最先端の技術と比較して魅力的なパフォーマンスを達成していることを示しています。 コードは公開されます。

In this paper, we propose a progressive margin loss (PML) approach for unconstrained facial age classification. Conventional methods make strong assumption on that each class owns adequate instances to outline its data distribution, likely leading to bias prediction where the training samples are sparse across age classes. Instead, our PML aims to adaptively refine the age label pattern by enforcing a couple of margins, which fully takes in the in-between discrepancy of the intra-class variance, inter-class variance and class center. Our PML typically incorporates with the ordinal margin and the variational margin, simultaneously plugging in the globally-tuned deep neural network paradigm. More specifically, the ordinal margin learns to exploit the correlated relationship of the real-world age labels. Accordingly, the variational margin is leveraged to minimize the influence of head classes that misleads the prediction of tailed samples. Moreover, our optimization carefully seeks a series of indicator curricula to achieve robust and efficient model training. Extensive experimental results on three face aging datasets demonstrate that our PML achieves compelling performance compared to state of the arts. Code will be made publicly.
翻訳日:2021-03-07 00:40:00 公開日:2021-03-03
# (参考訳) 生物医学画像分割のためのカテゴリ中心プロトタイプアグリグナーを用いた非監視領域適応ネットワーク [全文訳有]

Unsupervised Domain Adaptation Network with Category-Centric Prototype Aligner for Biomedical Image Segmentation ( http://arxiv.org/abs/2103.02220v1 )

ライセンス: CC BY 4.0
Ping Gong, Wenwen Yu, Qiuwen Sun, Ruohan Zhao, Junfeng Hu(参考訳) バイオメディカルイメージセグメンテーションにおける深層学習の成功により、ドメイン間のギャップが不均一な特徴を持つ未確認データに展開する際のモデルパフォーマンスに深刻な影響を及ぼすため、ドメインシフトは重要かつ困難な問題となる。 そこで本研究では,ラベル付きソースドメインから非ラベル付きターゲットドメインに学習したモデルを一般化して,クロスモダリティバイオメディカル画像分割のための新しい非監視ドメイン適応ネットワークを提案する。 具体的には、条件付きドメイン識別器〜(CDD)とカテゴリ中心のプロトタイプアライメント器〜(CCPA)の2つのキーモジュールからなる。 CDDは、分類作業における条件付きドメイン敵ネットワークから拡張され、複雑なクロスモダリティバイオメディカルイメージの処理に有効で堅牢である。 CCPAは、クロスドメインオブジェクト検出におけるグラフ誘発プロトタイプアライメント機構から改善され、精巧なプロトタイプ表現を通じて、正確なインスタンスレベルの特徴を活用できる。 さらに、エントロピーに基づく損失によるクラス不均衡の負の効果にも対処できる。 心臓サブストラクショナルセグメンテーションタスクの公開ベンチマークに関する広範囲な実験により,本手法が目標領域の性能を大幅に改善することを示した。

With the widespread success of deep learning in biomedical image segmentation, domain shift becomes a critical and challenging problem, as the gap between two domains can severely affect model performance when deployed to unseen data with heterogeneous features. To alleviate this problem, we present a novel unsupervised domain adaptation network, for generalizing models learned from the labeled source domain to the unlabeled target domain for cross-modality biomedical image segmentation. Specifically, our approach consists of two key modules, a conditional domain discriminator~(CDD) and a category-centric prototype aligner~(CCPA). The CDD, extended from conditional domain adversarial networks in classifier tasks, is effective and robust in handling complex cross-modality biomedical images. The CCPA, improved from the graph-induced prototype alignment mechanism in cross-domain object detection, can exploit precise instance-level features through an elaborate prototype representation. In addition, it can address the negative effect of class imbalance via entropy-based loss. Extensive experiments on a public benchmark for the cardiac substructure segmentation task demonstrate that our method significantly improves performance on the target domain.
翻訳日:2021-03-07 00:26:25 公開日:2021-03-03
# (参考訳) MotionRNN:時空変動運動を用いたフレキシブルな映像予測モデル [全文訳有]

MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions ( http://arxiv.org/abs/2103.02243v1 )

ライセンス: CC BY 4.0
Haixu Wu, Zhiyu Yao, Mingsheng Long, Jianmin Wan(参考訳) 本稿では,空間と時間の両方で絶え間なく変化する時空変動運動を予測する新たな次元から映像予測に取り組む。 以前の方法は、主に時間状態遷移を捕捉するが、運動自体の複雑な時空間変動を見落とし、絶えず変化する動きに適応することは困難である。 物理世界の動きは過渡的な変動と動きの傾向に分解できるが、後者は過去の動きの蓄積と見なすことができる。 したがって、時空変動運動をより予測可能にする鍵は、過渡変動と運動トレンドを同時に捉えることである。 これらの観察に基づいて,モーション内の複雑な変動を捉え,時空変動のシナリオに適応できる motionrnn フレームワークを提案する。 MotionRNNには2つの主な貢献がある。 1つ目は、過渡変動と動きの傾向を統一的にモデル化できるモーションGRUユニットを設計することである。 2つ目は、rnnベースの予測モデルにmotiongruを適用し、変化可能な動きの予測能力を大幅に向上し、積み重ねられた多層予測モデルにおける動き消失を回避する新しいフレキシブルビデオ予測アーキテクチャを示すことである。 高い柔軟性により、このフレームワークは決定論的時空間予測のための一連のモデルに適応することができる。 当社の MotionRNN は、時空変動運動によるビデオ予測の3つの困難なベンチマークで大幅な改善をもたらすことができます。

This paper tackles video prediction from a new dimension of predicting spacetime-varying motions that are incessantly changing across both space and time. Prior methods mainly capture the temporal state transitions but overlook the complex spatiotemporal variations of the motion itself, making them difficult to adapt to ever-changing motions. We observe that physical world motions can be decomposed into transient variation and motion trend, while the latter can be regarded as the accumulation of previous motions. Thus, simultaneously capturing the transient variation and the motion trend is the key to make spacetime-varying motions more predictable. Based on these observations, we propose the MotionRNN framework, which can capture the complex variations within motions and adapt to spacetime-varying scenarios. MotionRNN has two main contributions. The first is that we design the MotionGRU unit, which can model the transient variation and motion trend in a unified way. The second is that we apply the MotionGRU to RNN-based predictive models and indicate a new flexible video prediction architecture with a Motion Highway that can significantly improve the ability to predict changeable motions and avoid motion vanishing for stacked multiple-layer predictive models. With high flexibility, this framework can adapt to a series of models for deterministic spatiotemporal prediction. Our MotionRNN can yield significant improvements on three challenging benchmarks for video prediction with spacetime-varying motions.
翻訳日:2021-03-07 00:01:38 公開日:2021-03-03
# (参考訳) ID-Unet: ビュー合成のための反復ソフトとハード変形 [全文訳有]

ID-Unet: Iterative Soft and Hard Deformation for View Synthesis ( http://arxiv.org/abs/2103.02264v1 )

ライセンス: CC BY 4.0
Mingyu Yin, Li Sun, Qingli Li(参考訳) ビュー合成は通常、オートエンコーダによって行われ、エンコーダはソースビュー画像を潜在コンテンツコードにマッピングし、デコーダはその条件に従ってターゲットビューイメージに変換する。 しかし、ソースの内容はよくこの設定に保持されていないため、ビュー翻訳中に不要な変更が発生します。 unetのようなスキップ接続の追加は問題を緩和するが、ビューの適合性に障害を引き起こすことが多い。 本稿では, 音源から目標への変形を反復的に行う新しいアーキテクチャを提案する。 エンコーダの複数の層からの機能を単に組み込むのではなく、ソフトで硬い変形モジュールを設計し、それによってエンコーダの機能を異なる解像度でターゲットビューにワープし、詳細を補うためにデコーダに結果を与える。 特に、現在の反り流は、同じ解像度の特徴を調整するだけでなく、高解像度の特徴を粗く変形させる近似としても使用されます。 そして、残留流を高分解能で推定して印加することにより、粗粒度から細粒度までの変形が構築される。 モデルをよりよく制約するために,中間フローとその歪んだ特徴に基づいて,粗い目標視像を合成する。 2つの異なるデータセットにおける広範なアブレーション研究と最終結果は,提案モデルの有効性を示している。

View synthesis is usually done by an autoencoder, in which the encoder maps a source view image into a latent content code, and the decoder transforms it into a target view image according to the condition. However, the source contents are often not well kept in this setting, which leads to unnecessary changes during the view translation. Although adding skipped connections, like Unet, alleviates the problem, but it often causes the failure on the view conformity. This paper proposes a new architecture by performing the source-to-target deformation in an iterative way. Instead of simply incorporating the features from multiple layers of the encoder, we design soft and hard deformation modules, which warp the encoder features to the target view at different resolutions, and give results to the decoder to complement the details. Particularly, the current warping flow is not only used to align the feature of the same resolution, but also as an approximation to coarsely deform the high resolution feature. Then the residual flow is estimated and applied in the high resolution, so that the deformation is built up in the coarse-to-fine fashion. To better constrain the model, we synthesize a rough target view image based on the intermediate flows and their warped features. The extensive ablation studies and the final results on two different data sets show the effectiveness of the proposed model.
翻訳日:2021-03-06 23:08:24 公開日:2021-03-03
# (参考訳) ドメインとビューポイント非依存ハンドアクション認識 [全文訳有]

Domain and View-point Agnostic Hand Action Recognition ( http://arxiv.org/abs/2103.02303v1 )

ライセンス: CC BY-SA 4.0
Alberto Sabater, I\~nigo Alonso, Luis Montesano, Ana C. Murillo(参考訳) 手の行為の認識は人間のロボット相互作用、仮想現実または生命記録システムの適用を用いる人間の行為の認識の特別な例です。 このような異種アクティビティのセットを認識するのに有用なアクション分類器を構築することは非常に困難です。 特定のアプリケーションから異なるアクションにまたがる非常に微妙な変更があるが、ドメイン間での大きなバリエーション(例)もある。 仮想現実 vs ライフログ)。 この課題に対処する新しい骨格に基づく手の動き表現モデルを導入する。 提案するフレームワークは、アプリケーションドメインやカメラ記録ビューポイントに依存しない。 本稿では,1つの特定のドメイン(ドメイン間動作分類)と異なるドメイン(ドメイン間動作分類)の両方に作用する動作表現モデルの性能を示す。 ドメイン内のケースでは、私たちのアプローチは、よく知られたハンドアクション認識ベンチマークの現在の最先端の方法よりも優れたまたは同様のパフォーマンスを得ます。 そして、ドメイン間ハンドアクション認識(すなわち、フロントビュー記録におけるモーション表現モデルをトレーニングし、エゴセントリックと第三者のビューの両方でテストする)を行う場合、このアプローチは、ドメイン内でトレーニングされた最先端のメソッドに匹敵する結果を得る。

Hand action recognition is a special case of human action recognition with applications in human robot interaction, virtual reality or life-logging systems. Building action classifiers that are useful to recognize such heterogeneous set of activities is very challenging. There are very subtle changes across different actions from a given application but also large variations across domains (e.g. virtual reality vs life-logging). This work introduces a novel skeleton-based hand motion representation model that tackles this problem. The framework we propose is agnostic to the application domain or camera recording view-point. We demonstrate the performance of our proposed motion representation model both working for a single specific domain (intra-domain action classification) and working for different unseen domains (cross-domain action classification). For the intra-domain case, our approach gets better or similar performance than current state-of-the-art methods on well-known hand action recognition benchmarks. And when performing cross-domain hand action recognition (i.e., training our motion representation model in frontal-view recordings and testing it both for egocentric and third-person views), our approach achieves comparable results to the state-of-the-art methods that are trained intra-domain.
翻訳日:2021-03-06 22:39:26 公開日:2021-03-03
# (参考訳) 事前学習モデルを用いない調理物体の状態識別 [全文訳有]

Cooking Object's State Identification Without Using Pretrained Model ( http://arxiv.org/abs/2103.02305v1 )

ライセンス: CC BY 4.0
Md Sadman Sakib(参考訳) 最近、ロボット料理は非常に有望な分野である。 レシピを実行するには、ロボットは異なるオブジェクトとその状態を認識する必要がある。 オブジェクト認識とは対照的に、状態識別はあまり研究されていない。 しかし、異なるレシピがオブジェクトの異なる状態を必要とする可能性があるため、非常に重要です。 さらに、ロボットの把持は状態に依存する。 事前訓練されたモデルは、通常この種のテストで非常によく機能する。 私たちの課題は、事前訓練されたモデルを使わずにこの問題に対処することでした。 本稿では,CNNを提案し,それをゼロから訓練した。 モデルは、調理状態認識チャレンジからデータセット上でトレーニングされ、テストされる。 また,ネットワークの性能を様々な観点から評価した。 我々のモデルは、目に見えないテストデータセットで65.8%の精度を達成する。

Recently, Robotic Cooking has been a very promising field. To execute a recipe, a robot has to recognize different objects and their states. Contrary to object recognition, state identification has not been explored that much. But it is very important because different recipe might require different state of an object. Moreover, robotic grasping depends on the state. Pretrained model usually perform very well in this type of tests. Our challenge was to handle this problem without using any pretrained model. In this paper, we have proposed a CNN and trained it from scratch. The model is trained and tested on the dataset from cooking state recognition challenge. We have also evaluated the performance of our network from various perspective. Our model achieves 65.8% accuracy on the unseen test dataset.
翻訳日:2021-03-06 22:24:44 公開日:2021-03-03
# (参考訳) 自己分散バイナリニューラルネットワーク [全文訳有]

Self-Distribution Binary Neural Networks ( http://arxiv.org/abs/2103.02394v1 )

ライセンス: CC BY 4.0
Ping Xue, Yang Lu, Jingfei Chang, Xing Wei, Zhen Wei(参考訳) 本研究では、重みとアクティベーションの両方がバイナリ(すなわち1ビット表現)である2進ニューラルネットワーク(BNN)について検討する。 特徴表現はディープニューラルネットワークにとって重要ですが、BNNでは特徴はサインでしか異なります。 先行研究では、量子化誤差を低減し、bnnの分類精度を効果的に向上するために、二元重みとアクティベーションにスケーリング係数を導入する。 しかしながら、スケーリング要因はネットワークの計算複雑性を増加させるだけでなく、バイナリ機能の兆候にも意味をなさない。 そこで,SD-BNN(Self-Distrib ution Binary Neural Network)を提案する。 まず、アクティベーション自己分布(ASD)を用いて、アクティベーションの符号分布を適応的に調整し、畳み込みの出力の符号差を改善する。 第二に、重量自己分布(WSD)を通じて重みの符号分布を調整し、畳み込みの符号分布を微調整します。 さまざまなネットワーク構造を持つCIFAR-10およびImageNetデータセットの広範な実験は、提案されたSD-BNNが常に最先端の(SOTA)BNN(例えば、CIFAR-10で92.5%、ResNet-18で66.5%)を計算コストで上回ることを示唆している。 コードはhttps://github.com/ pingxue-hfut/SD-BNNで入手できる。

In this work, we study the binary neural networks (BNNs) of which both the weights and activations are binary (i.e., 1-bit representation). Feature representation is critical for deep neural networks, while in BNNs, the features only differ in signs. Prior work introduces scaling factors into binary weights and activations to reduce the quantization error and effectively improves the classification accuracy of BNNs. However, the scaling factors not only increase the computational complexity of networks, but also make no sense to the signs of binary features. To this end, Self-Distribution Binary Neural Network (SD-BNN) is proposed. Firstly, we utilize Activation Self Distribution (ASD) to adaptively adjust the sign distribution of activations, thereby improve the sign differences of the outputs of the convolution. Secondly, we adjust the sign distribution of weights through Weight Self Distribution (WSD) and then fine-tune the sign distribution of the outputs of the convolution. Extensive experiments on CIFAR-10 and ImageNet datasets with various network structures show that the proposed SD-BNN consistently outperforms the state-of-the-art (SOTA) BNNs (e.g., achieves 92.5% on CIFAR-10 and 66.5% on ImageNet with ResNet-18) with less computation cost. Code is available at https://github.com/ pingxue-hfut/SD-BNN.
翻訳日:2021-03-06 22:20:41 公開日:2021-03-03
# (参考訳) ニューラルネットワーク設計のための微分可能なニューラルネットワーク学習 [全文訳有]

Differentiable Neural Architecture Learning for Efficient Neural Network Design ( http://arxiv.org/abs/2103.02126v1 )

ライセンス: CC0 1.0
Qingbei Guo and Xiao-Jun Wu and Josef Kittler and Zhiquan Feng(参考訳) ニューラルネットワークの自動設計は、ディープ畳み込みニューラルネットワーク(CNN)の進化、特に組み込みおよびモバイルプラットフォームへの展開によって、ますます注目を集めている。 ニューラルネットワークアーキテクチャサーチ(NAS)が直面する最大の問題の1つは、例えば強化学習と進化最適化アルゴリズムを使用して、膨大な計算コストでトレーニングするために、多数の候補ニューラルネットワークが必要であることである。 最近の微分可能ニューラルネットワーク検索(dnas)でさえ、学習したアーキテクチャパラメータの確率分布に基づいて少数の候補ニューラルネットワークをサンプリングし、最終的なニューラルアーキテクチャを選択する。 この計算複雑性問題に対処するため、スケールドシグモイド関数に基づく新しい \emph{Architecture parametersisation} を導入し、候補ニューラルネットワークを評価することなくニューラルネットワークを最適化するための一般的な \emph{Differentiable Neural Architecture Learning} (DNAL) 法を提案する。 具体的には、確率的スーパーネットや従来のCNNの場合、スケールドシグモイド関数によって制御されるアーキテクチャコンポーネントを備えた新しいチャネルワイズモジュール層を構築します。 これらのニューラルネットワークモデルをスクラッチからトレーニングします。 ネットワーク最適化は重み最適化とアーキテクチャ最適化に分離される。 コンバージェンス保証付き連続スケールドシグモイド法によるニューラルアーキテクチャの非凸最適化問題に対処します。 広範な実験により、DNAL法は神経アーキテクチャ検索コストにおいて優れた性能を発揮します。 DNALが学習した最適なネットワークは、CIFAR-10とImageNet-1Kのデータセットの精度、モデルサイズ、計算複雑性で最先端の手法によって生成されたものを上回る。

Automated neural network design has received ever-increasing attention with the evolution of deep convolutional neural networks (CNNs), especially involving their deployment on embedded and mobile platforms. One of the biggest problems that neural architecture search (NAS) confronts is that a large number of candidate neural architectures are required to train, using, for instance, reinforcement learning and evolutionary optimisation algorithms, at a vast computation cost. Even recent differentiable neural architecture search (DNAS) samples a small number of candidate neural architectures based on the probability distribution of learned architecture parameters to select the final neural architecture. To address this computational complexity issue, we introduce a novel \emph{architecture parameterisation} based on scaled sigmoid function, and propose a general \emph{Differentiable Neural Architecture Learning} (DNAL) method to optimize the neural architecture without the need to evaluate candidate neural networks. Specifically, for stochastic supernets as well as conventional CNNs, we build a new channel-wise module layer with the architecture components controlled by a scaled sigmoid function. We train these neural network models from scratch. The network optimization is decoupled into the weight optimization and the architecture optimization. We address the non-convex optimization problem of neural architecture by the continuous scaled sigmoid method with convergence guarantees. Extensive experiments demonstrate our DNAL method delivers superior performance in terms of neural architecture search cost. The optimal networks learned by DNAL surpass those produced by the state-of-the-art methods on the benchmark CIFAR-10 and ImageNet-1K dataset in accuracy, model size and computational complexity.
翻訳日:2021-03-06 22:04:52 公開日:2021-03-03
# (参考訳) POI-Embedding法によるユーザ優先ツアー推薦 [全文訳有]

User Preferential Tour Recommendation Based on POI-Embedding Methods ( http://arxiv.org/abs/2103.02464v1 )

ライセンス: CC BY 4.0
Ngai Lam Ho, Kwan Hui Lim(参考訳) ツアーの旅程の計画と推奨は、不慣れな国の観光客にとって困難なタスクです。 多くのツアーレコメンデーションは、幅広いpoiカテゴリのみを考慮し、ユーザの好みや他のロケーション制約とうまく一致しない。 POI型をより細かく表現するPOI埋め込み手法を用いてパーソナライズされたツアーを推薦するアルゴリズムを提案する。 我々の推薦アルゴリズムは、時間的制約と位置的制約を最適化するPOIのシーケンスと、類似した観光客の過去の軌跡に基づくユーザの好みを生成する。 ツアーレコメンデーションアルゴリズムは、自然言語処理における単語埋め込みモデルとしてモデル化され、時間制約を満たすイテレーションを生成する反復アルゴリズムと組み合わせられる。 4都市のFlickrデータセットを使用して、予備実験の結果は、リコール、精度、F1スコアの測定に基づいて、アルゴリズムが関連性のある正確な旅程を推薦できることを示しています。

Tour itinerary planning and recommendation are challenging tasks for tourists in unfamiliar countries. Many tour recommenders only consider broad POI categories and do not align well with users' preferences and other locational constraints. We propose an algorithm to recommend personalized tours using POI-embedding methods, which provides a finer representation of POI types. Our recommendation algorithm will generate a sequence of POIs that optimizes time and locational constraints, as well as user's preferences based on past trajectories from similar tourists. Our tour recommendation algorithm is modelled as a word embedding model in natural language processing, coupled with an iterative algorithm for generating itineraries that satisfies time constraints. Using a Flickr dataset of 4 cities, preliminary experimental results show that our algorithm is able to recommend a relevant and accurate itinerary, based on measures of recall, precision and F1-scores.
翻訳日:2021-03-06 21:35:35 公開日:2021-03-03
# (参考訳) イメージングlidarを用いたロバスト位置認識 [全文訳有]

Robust Place Recognition using an Imaging Lidar ( http://arxiv.org/abs/2103.02111v1 )

ライセンス: CC0 1.0
Tixiao Shan, Brendan Englot, Fabio Duarte, Carlo Ratti, Daniela Rus(参考訳) 画像品質の高い3D点群を生成するイメージングライダーを用いたロバストなリアルタイム位置認識手法を提案する。 イメージングライダーの強度測定値を利用して点群を投影し、強度画像を得る。 ORB特徴ディスクリプタは画像から抽出され、bug-of-wordsベクターにエンコードされる。 ベクトルは点雲を識別するために使用され、DBoWが高速な位置認識クエリのために保持するデータベースに挿入される。 返された候補は、視覚特徴記述子マッチングによってさらに検証される。 そこで我々は,2次元画像空間における対応関係を用いてユークリッド空間における視覚特徴の位置の再投影誤差を最小化するpnpを適用した。 カメラとlidarに基づく位置認識手法の利点を組み合わせることで,本手法は真に回転不変であり,逆再訪と逆再訪に対処できる。 提案手法は, さまざまなスケールと環境の異なるプラットフォームから収集されたデータセット上で評価される。 私たちの実装はhttps://git.io/imagi ng-lidar-place-recog nitionで利用可能です。

We propose a methodology for robust, real-time place recognition using an imaging lidar, which yields image-quality high-resolution 3D point clouds. Utilizing the intensity readings of an imaging lidar, we project the point cloud and obtain an intensity image. ORB feature descriptors are extracted from the image and encoded into a bag-of-words vector. The vector, used to identify the point cloud, is inserted into a database that is maintained by DBoW for fast place recognition queries. The returned candidate is further validated by matching visual feature descriptors. To reject matching outliers, we apply PnP, which minimizes the reprojection error of visual features' positions in Euclidean space with their correspondences in 2D image space, using RANSAC. Combining the advantages from both camera and lidar-based place recognition approaches, our method is truly rotation-invariant and can tackle reverse revisiting and upside-down revisiting. The proposed method is evaluated on datasets gathered from a variety of platforms over different scales and environments. Our implementation is available at https://git.io/imagi ng-lidar-place-recog nition
翻訳日:2021-03-06 21:29:48 公開日:2021-03-03
# (参考訳) フェデレーション学習を用いた深層学習に基づく磁気共鳴画像再構成のための多施設連携 [全文訳有]

Multi-institutional Collaborations for Improving Deep Learning-based Magnetic Resonance Image Reconstruction Using Federated Learning ( http://arxiv.org/abs/2103.02148v1 )

ライセンス: CC BY 4.0
Pengfei Guo, Puyang Wang, Jinyuan Zhou, Shanshan Jiang, Vishal M. Patel(参考訳) アンダーサンプルデータからのMR画像の高速かつ正確な再構成は,多くの臨床応用において重要である。 近年、深層学習法はMR画像の再構築に優れた性能を発揮することが示されています。 しかし,これらの手法では,高コストの取得や医療データプライバシ規制のため,収集や共有が困難である大量のデータを必要とする。 この課題を克服するために,我々は,異なる施設で利用可能なmrデータを活用しながら患者のプライバシーを保ちながら,連合学習(fl)ベースのソリューションを提案する。 しかし、FL設定でトレーニングされたモデルの一般化性は、異なるセンサー、疾患タイプ、取得プロトコルなどを持つ複数の機関で収集されたデータから得られる、ドメインシフトによって、いまだにサブ最適である。 そこで本研究では,mr画像再構成のためのクロスサイトモデリング手法を提案する。 MR画像再構成のためのFLに関する様々な知見を提供するため,広範囲な実験を行った。 提案手法は,mr画像再構成における患者のプライバシを損なうことなく多施設データを活用するための有望な方向性であることを示す。 私たちのコードはhttps://github.com/g uopengf/FLMRCMで入手できます。

Fast and accurate reconstruction of magnetic resonance (MR) images from under-sampled data is important in many clinical applications. In recent years, deep learning-based methods have been shown to produce superior performance on MR image reconstruction. However, these methods require large amounts of data which is difficult to collect and share due to the high cost of acquisition and medical data privacy regulations. In order to overcome this challenge, we propose a federated learning (FL) based solution in which we take advantage of the MR data available at different institutions while preserving patients' privacy. However, the generalizability of models trained with the FL setting can still be suboptimal due to domain shift, which results from the data collected at multiple institutions with different sensors, disease types, and acquisition protocols, etc. With the motivation of circumventing this challenge, we propose a cross-site modeling for MR image reconstruction in which the learned intermediate latent features among different source sites are aligned with the distribution of the latent features at the target site. Extensive experiments are conducted to provide various insights about FL for MR image reconstruction. Experimental results demonstrate that the proposed framework is a promising direction to utilize multi-institutional data without compromising patients' privacy for achieving improved MR image reconstruction. Our code will be available at https://github.com/g uopengf/FLMRCM.
翻訳日:2021-03-06 21:16:02 公開日:2021-03-03
# (参考訳) K-FACE:制約のない環境を考慮した大規模KIST顔データベース [全文訳有]

K-FACE: A Large-Scale KIST Face Database in Consideration with Unconstrained Environments ( http://arxiv.org/abs/2103.02211v1 )

ライセンス: CC BY 4.0
Yeji Choi, Hyunjung Park, Gi Pyo Nam, Haksub Kim, Heeseung Choi, Junghyun Cho, Ig-Jae Kim(参考訳) 本論文では,KISTの大規模顔データベースをK-FACEと表記し,そのデータを取得するために特別に設計された新しいキャプチャデバイスについて述べる。 K-FACEデータベースは、性別と年齢の比率を考慮して選択された1000人の被験者の100万以上の高品質な画像を含んでいる。 27のポーズ、35の照明条件、3つの表現、および5種類のアクセサリーの組み合わせによるオクルージョンを含む様々な属性を含んでいる。 K-FACEデータベースは、精巧な照明制御と複数のカメラを備えた半球撮影システムを通じて体系的に構築されているため、ポーズ、照明変更、アクセサリーなどの性能劣化を引き起こす要因の影響を正確に分析することが可能である。 我々は、ポーズや照明などの外部環境要因のバランスだけでなく、性別や年齢グループといった個人的特性のバランスも考慮している。 男女比は同じであるが、被験者の年齢層は両性別で20代から50代まで均一に分布している。 k-faceデータベースは、顔認識、顔前面化、照明正規化、顔年齢推定、三次元顔モデル生成など、様々な視覚タスクで広く利用することができる。 K-FACEデータベースの体系的な多様性と統一性がこれらの研究分野を促進することを期待しています。

In this paper, we introduce a new large-scale face database from KIST, denoted as K-FACE, and describe a novel capturing device specifically designed to obtain the data. The K-FACE database contains more than 1 million high-quality images of 1,000 subjects selected by considering the ratio of gender and age groups. It includes a variety of attributes, including 27 poses, 35 lighting conditions, three expressions, and occlusions by the combination of five types of accessories. As the K-FACE database is systematically constructed through a hemispherical capturing system with elaborate lighting control and multiple cameras, it is possible to accurately analyze the effects of factors that cause performance degradation, such as poses, lighting changes, and accessories. We consider not only the balance of external environmental factors, such as pose and lighting, but also the balance of personal characteristics such as gender and age group. The gender ratio is the same, while the age groups of subjects are uniformly distributed from the 20s to 50s for both genders. The K-FACE database can be extensively utilized in various vision tasks, such as face recognition, face frontalization, illumination normalization, face age estimation, and three-dimensional face model generation. We expect systematic diversity and uniformity of the K-FACE database to promote these research fields.
翻訳日:2021-03-06 20:57:13 公開日:2021-03-03
# (参考訳) K-means Segmentation Based-on Lab Color Space for Embryo Egg Detection [全文訳有]

K-means Segmentation Based-on Lab Color Space for Embryo Egg Detection ( http://arxiv.org/abs/2103.02288v1 )

ライセンス: CC BY 4.0
Shoffan Saifullah(参考訳) このハッチ過程は、初期卵因子の横で卵をハッチする成功にも影響を及ぼす。 この結果がハッチの発生率が高いためには,ハッチ開始時の胚の発生を確認する必要がある。 このプロセスは、最後まで抱卵し続ける胚を持つ卵を選別することを目的としている。 最大チェックはハッチング期間の最初の週に行われます。 本研究は,卵子中の胚の存在を検出することを目的とする。 胚の存在の検出はセグメンテーションを用いて行われる。 卵のイメージはラボカラー画像に基づくk-meansアルゴリズムでセグメンテーションされる。 画像取得の結果は、実験室カラースペース画像に変換される。 Labのカラースペース画像の結果は、各色にK平均を使用して処理されます。 K平均プロセスはクラスタk=3を使用し、このクラスタは画像を背景、卵、卵の3つの部分に分けます。 黄身卵は胚の特徴を持つ卵の一部である。 本研究は,初期セグメンテーションにおける色の概念と最終段階におけるグレースケールを適用する。 初期フェーズの結果,k-meansクラスタリングを用いた画像分割の結果は3つの部分からなるグループ化が可能であることがわかった。 グレースケール画像処理段階では、カラー画像分割の結果は、グレースケーリング、画像強化、および形態で処理されます。 したがって、卵黄分画が卵胚の存在を示すことは明らかである。 このプロセスと結果に基づいて、胚検出プロセスの初期段階において、ラボ色空間に基づくK平均セグメンテーションを用いることができる。 MSEとMSSIMの値は0.0486と0.9979であり、その結果が卵黄中の胚の検出を示すことを参考にすることができる。

The hatching process also influences the success of hatching eggs beside the initial egg factor. So that the results have a large percentage of hatching, it is necessary to check the development of the embryo at the beginning of the hatching. This process aims to sort eggs that have embryos to remain hatched until the end. Maximum checking is done the first week in the hatching period. This study aims to detect the presence of embryos in eggs. Detection of the existence of embryos is processed using segmentation. Egg images are segmented using the K-means algorithm based on Lab color images. The results of the images acquisition are converted into Lab color space images. The results of Lab color space images are processed using K-means for each color. The K-means process uses cluster k=3, where this cluster divided the image into three parts, namely background, eggs, and yolk eggs. Yolk eggs are part of eggs that have embryonic characteristics. This study applies the concept of color in the initial segmentation and grayscale in the final stages. The results of the initial phase show that the image segmentation results using k-means clustering based on Lab color space provide a grouping of three parts. At the grayscale image processing stage, the results of color image segmentation are processed with grayscaling, image enhancement, and morphology. Thus, it seems clear that the yolk segmented shows the presence of egg embryos. Based on this process and results, K-means segmentation based on Lab color space can be used for the initial stages of the embryo detection process. The evaluation uses MSE and MSSIM, with values of 0.0486 and 0.9979; this can be used as a reference that the results obtained can indicate the detection of embryos in egg yolk.
翻訳日:2021-03-06 20:48:28 公開日:2021-03-03
# (参考訳) 実世界単一画像の超解像度:短いレビュー [全文訳有]

Real-World Single Image Super-Resolution: A Brief Review ( http://arxiv.org/abs/2103.02368v1 )

ライセンス: CC BY 4.0
Honggang Chen, Xiaohai He, Linbo Qing, Yuanyuan Wu, Chao Ren, Ce Zhu(参考訳) 低分解能(LR)観測から高分解能(HR)画像を再構成することを目的とした単一画像超解像(SISR)は,近年,画像処理分野において活発な研究課題となっている。 特に、深層学習に基づく超解像(SR)アプローチは、多くの注目を集め、合成データの再構成性能を大幅に向上させた。 最近の研究では、合成データのシミュレーション結果は、通常、実世界画像の超解像能力を過大評価している。 この文脈では、より多くの研究者が現実的な画像のためのSRアプローチの開発に力を注いでいる。 本稿では,実世界の単一画像超解像(RSISR)の総合的なレビューを行う。 具体的には、RSISRの重要な公開データセットと評価指標、RSISRメソッドの4つの主要なカテゴリ、すなわち劣化モデリングベースのRSISR、画像ペアベースのRSISR、ドメイン翻訳ベースのRSISR、および自己学習ベースのRSISRについて説明します。 ベンチマークデータセット上の代表的なRSISRメソッドの中で、再構築品質と計算効率の両方の観点から比較も行われている。 また,RSISRの課題と今後の研究課題についても論じる。

Single image super-resolution (SISR), which aims to reconstruct a high-resolution (HR) image from a low-resolution (LR) observation, has been an active research topic in the area of image processing in recent decades. Particularly, deep learning-based super-resolution (SR) approaches have drawn much attention and have greatly improved the reconstruction performance on synthetic data. Recent studies show that simulation results on synthetic data usually overestimate the capacity to super-resolve real-world images. In this context, more and more researchers devote themselves to develop SR approaches for realistic images. This article aims to make a comprehensive review on real-world single image super-resolution (RSISR). More specifically, this review covers the critical publically available datasets and assessment metrics for RSISR, and four major categories of RSISR methods, namely the degradation modeling-based RSISR, image pairs-based RSISR, domain translation-based RSISR, and self-learning-based RSISR. Comparisons are also made among representative RSISR methods on benchmark datasets, in terms of both reconstruction quality and computational efficiency. Besides, we discuss challenges and promising research topics on RSISR.
翻訳日:2021-03-06 20:36:00 公開日:2021-03-03
# (参考訳) Vanishing Twin GAN: 弱生成逆数ネットワークの訓練が半教師付き画像分類を改善する [全文訳有]

Vanishing Twin GAN: How training a weak Generative Adversarial Network can improve semi-supervised image classification ( http://arxiv.org/abs/2103.02496v1 )

ライセンス: CC BY 4.0
Saman Motamed and Farzad Khalvati(参考訳) Generative Adversarial Networksは、半教師付きフレームワークでランダムノイズのリアルなイメージへのマッピングを学習することができる。 このマッピング能力は、半教師付き画像分類に使用でき、教師付き分類に使用するトレーニングデータがない未知のクラスの画像を検出することができる。 しかし、未知のクラスが既知のクラスと類似した特性を共有する場合、GANは両方のクラスに似たイメージを一般化して生成することを学ぶことができる。 この一般化能力は分類性能を妨げる可能性がある。 本研究では,Vanishing Twin GANを提案する。 弱いGANをトレーニングし、通常のGANと平行な出力画像を使用することで、Vanishing Twinトレーニングは、画像類似性が分類タスクを損なうような半教師付き画像分類を改善する。

Generative Adversarial Networks can learn the mapping of random noise to realistic images in a semi-supervised framework. This mapping ability can be used for semi-supervised image classification to detect images of an unknown class where there is no training data to be used for supervised classification. However, if the unknown class shares similar characteristics to the known class(es), GANs can learn to generalize and generate images that look like both classes. This generalization ability can hinder the classification performance. In this work, we propose the Vanishing Twin GAN. By training a weak GAN and using its generated output image parallel to the regular GAN, the Vanishing Twin training improves semi-supervised image classification where image similarity can hurt classification tasks.
翻訳日:2021-03-06 19:49:47 公開日:2021-03-03
# (参考訳) ニューラル3次元ビデオ合成 [全文訳有]

Neural 3D Video Synthesis ( http://arxiv.org/abs/2103.02597v1 )

ライセンス: CC BY 4.0
Tianye Li, Mira Slavcheva, Michael Zollhoefer, Simon Green, Christoph Lassner, Changil Kim, Tanner Schmidt, Steven Lovegrove, Michael Goesele, Zhaoyang Lv(参考訳) 本稿では,高画質な映像合成と動き補間が可能なコンパクトかつ表現豊かな表現で,動的現実シーンのマルチビュー映像記録を表現できる3次元映像合成の新しい手法を提案する。 私たちのアプローチは、モデルフリーでダイナミックな設定に、新しい方向の静的神経放射体の高品質とコンパクトさを取ります。 私たちのアプローチの核心は、コンパクトな潜入符号のセットを使用してシーンダイナミクスを表す新しい時間調節神経放射フィールドです。 ビデオの隣接フレーム間の変化が典型的には小さく局所的に一貫性があるという事実を生かすべく,ニューラルネットワークの効率的なトレーニングのための2つの新しい戦略を提案する:1)効率的な階層的トレーニングスキーム,2)入力ビデオの時間的変動に基づいて次のレイを選択する重要なサンプリング戦略。 これら2つの戦略を組み合わせることで、トレーニング速度が大幅に向上し、トレーニングプロセスが迅速に収束し、高品質な結果が得られます。 学習した表現は、非常にコンパクトで、28MBのモデルサイズで18台のカメラで10秒30FPSのマルチビュービデオ記録を表現できる。 本手法は,高度に複雑でダイナミックなシーンでも1k以上の解像度で高精細な広角ノベルビューをレンダリングできることを実証する。 広範な質的定量的評価を行い,我々のアプローチが現在の技術に勝っていることを示す。 https://neural-3d-vi deo.github.io/

We propose a novel approach for 3D video synthesis that is able to represent multi-view video recordings of a dynamic real-world scene in a compact, yet expressive representation that enables high-quality view synthesis and motion interpolation. Our approach takes the high quality and compactness of static neural radiance fields in a new direction: to a model-free, dynamic setting. At the core of our approach is a novel time-conditioned neural radiance fields that represents scene dynamics using a set of compact latent codes. To exploit the fact that changes between adjacent frames of a video are typically small and locally consistent, we propose two novel strategies for efficient training of our neural network: 1) An efficient hierarchical training scheme, and 2) an importance sampling strategy that selects the next rays for training based on the temporal variation of the input videos. In combination, these two strategies significantly boost the training speed, lead to fast convergence of the training process, and enable high quality results. Our learned representation is highly compact and able to represent a 10 second 30 FPS multi-view video recording by 18 cameras with a model size of just 28MB. We demonstrate that our method can render high-fidelity wide-angle novel views at over 1K resolution, even for highly complex and dynamic scenes. We perform an extensive qualitative and quantitative evaluation that shows that our approach outperforms the current state of the art. We include additional video and information at: https://neural-3d-vi deo.github.io/
翻訳日:2021-03-06 19:42:26 公開日:2021-03-03
# (参考訳) Rajasthan Summer Monsoon Rainfall (RSMR)予測のための深遠ニューラルネットワークに基づくモデル [全文訳有]

A Deep and Wide Neural Network-based Model for Rajasthan Summer Monsoon Rainfall (RSMR) Prediction ( http://arxiv.org/abs/2103.02157v1 )

ライセンス: CC BY 4.0
Vikas Bajpai and Anukriti Bansal(参考訳) モンスーンの降雨の重要性は、農業から工業まで年間を通じての活動に影響を与えるため無視できない。 正確な降雨推定と予測は、水資源管理と農業の分野における意思決定に非常に役立ちます。 モンスーン降雨の動的性質のため、正確な予測は非常に難しい課題となる。 本稿では,インドのラジャスタン州における夏季モンスーン降雨を予測するために,一次元畳み込みニュートラルネットワーク,多層パーセプトロン,広層ニューラルネットワークなど,様々な深層学習手法を分析し,評価する。 IMDグリッドデータセットから、ラジャスタンの地理的境界内にある484座標の降雨データが選択されます。 また,水資源部門から降雨量計158局の降雨データも収集した。 本稿では,これら2つのデータセットにおける各種アルゴリズムの比較を行い,ディープワイドニューラルネットワークモデルが,他の2つのアプローチよりも優れていることを示す。

Importance of monsoon rainfall cannot be ignored as it affects round the year activities ranging from agriculture to industrial. Accurate rainfall estimation and prediction is very helpful in decision making in the sectors of water resource management and agriculture. Due to dynamic nature of monsoon rainfall, it's accurate prediction becomes very challenging task. In this paper, we analyze and evaluate various deep learning approaches such as one dimensional Convolutional Neutral Network, Multi-layer Perceptron and Wide Deep Neural Networks for the prediction of summer monsoon rainfall in Indian state of Rajasthan.For our analysis purpose we have used two different types of datasets for our experiments. From IMD grided dataset, rainfall data of 484 coordinates are selected which lies within the geographical boundaries of Rajasthan. We have also collected rainfall data of 158 rain gauge station from water resources department. The comparison of various algorithms on both these data sets is presented in this paper and it is found that Deep Wide Neural Network based model outperforms the other two approaches.
翻訳日:2021-03-06 19:14:12 公開日:2021-03-03
# (参考訳) 説明責任を有する自動運転におけるドライバ疲労の予測 [全文訳有]

Predicting Driver Fatigue in Automated Driving with Explainability ( http://arxiv.org/abs/2103.02162v1 )

ライセンス: CC BY 4.0
Feng Zhou, Areen Alsaid, Mike Blommer, Reates Curry, Radhakrishnan Swaminathan, Dev Kochhar, Walter Talamonti, Louis Tijerina(参考訳) 単調な自動運転は疲労運転の発生率を高めることが研究で示されている。 高度な機械学習技術に基づく多くの予測モデルは、特に手動運転における運転者の疲労を監視するために提案されたが、これらのブラックボックス機械学習モデルがどのように機能するかはほとんど分かっていない。 本稿では,eXtreme Gradient Boosting (XGBoost) と SHAP (SHapley Additive exPlanations) を組み合わせて,その効率と精度について説明し,ドライバーの疲労を予測することを提案した。 まず、ドライバ疲労の根底にある真実を得るために、応答変数として、0から100の間のPERCLOS(経時的にまぶた閉鎖のパーセンテージ)が用いられました。 第2に,XGBoostを用いた生理的・行動的尺度を用いたドライバ疲労回帰モデルを構築し,3.847ルート平均二乗誤差(RMSE),1.768平均絶対誤差(MAE),0.996調整値R^2$の他の機械学習モデルよりも優れていた。 第3に,最も重要な予測変数の同定にSHAPを用い,世界規模で最も重要な予測変数の主な効果を示し,個々の予測を局所的に説明することによって,ブラックボックスXGBoostモデルを明らかにした。 このような説明可能なドライバ疲労予測モデルは、自動運転から手動運転への移行期間など、必要に応じて自動運転に介入する方法に関する洞察を提供した。

Research indicates that monotonous automated driving increases the incidence of fatigued driving. Although many prediction models based on advanced machine learning techniques were proposed to monitor driver fatigue, especially in manual driving, little is known about how these black-box machine learning models work. In this paper, we proposed a combination of eXtreme Gradient Boosting (XGBoost) and SHAP (SHapley Additive exPlanations) to predict driver fatigue with explanations due to their efficiency and accuracy. First, in order to obtain the ground truth of driver fatigue, PERCLOS (percentage of eyelid closure over the pupil over time) between 0 and 100 was used as the response variable. Second, we built a driver fatigue regression model using both physiological and behavioral measures with XGBoost and it outperformed other selected machine learning models with 3.847 root-mean-squared error (RMSE), 1.768 mean absolute error (MAE) and 0.996 adjusted $R^2$. Third, we employed SHAP to identify the most important predictor variables and uncovered the black-box XGBoost model by showing the main effects of most important predictor variables globally and explaining individual predictions locally. Such an explainable driver fatigue prediction model offered insights into how to intervene in automated driving when necessary, such as during the takeover transition period from automated driving to manual driving.
翻訳日:2021-03-06 18:56:10 公開日:2021-03-03
# (参考訳) 性能保証型慣性センサによる方位推定のための強化学習 [全文訳有]

Reinforcement Learning for Orientation Estimation Using Inertial Sensors with Performance Guarantee ( http://arxiv.org/abs/2103.02357v1 )

ライセンス: CC BY 4.0
Liang Hu, Yujie Tang, Zhipeng Zhou and Wei Pan(参考訳) 本稿では、慣性センサと磁気センサを組み合わせた方向推定のための深部強化学習(DRL)アルゴリズムを提案する。 制御理論におけるリャプノフ法は、方向推定誤差の収束を証明するために用いられる。 理論結果に基づき、推定値ゲインとリアプノフ関数はディープニューラルネットワークによってパラメータ化され、サンプルから学習される。 DRL推定器は、市販センサから収集した数値シミュレーションと実データの両方において、よく知られた3つの方向推定手法と比較される。 その結果,提案アルゴリズムは任意の推定初期化に優れ,他のアルゴリズムでは適用できない非常に大きな角速度に適応できることがわかった。 私たちの知る限りでは、これは推定誤差境界保証を備えた最初のDRLベースのオリエンテーション推定方法です。

This paper presents a deep reinforcement learning (DRL) algorithm for orientation estimation using inertial sensors combined with magnetometer. The Lyapunov method in control theory is employed to prove the convergence of orientation estimation errors. Based on the theoretical results, the estimator gains and a Lyapunov function are parametrized by deep neural networks and learned from samples. The DRL estimator is compared with three well-known orientation estimation methods on both numerical simulations and real datasets collected from commercially available sensors. The results show that the proposed algorithm is superior for arbitrary estimation initialization and can adapt to very large angular velocities for which other algorithms can be hardly applicable. To the best of our knowledge, this is the first DRL-based orientation estimation method with estimation error boundedness guarantee.
翻訳日:2021-03-06 18:38:17 公開日:2021-03-03
# (参考訳) データ駆動最適化のための確率的切断平面 [全文訳有]

Stochastic Cutting Planes for Data-Driven Optimization ( http://arxiv.org/abs/2103.02506v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas, Michael Lingzhi Li(参考訳) 大規模データ駆動型Mixed-Integer Nonlinear Optimization (MINLO)問題に対する切断面法の確率的バージョンを紹介する。 非常に弱い仮定の下で、確率的アルゴリズムは高い確率で$\epsilon$-Optimal解に収束できることを示す。 いくつかの問題に関する数値実験は、確率的切断面が標準的な切断面法と比較して複数の倍率の速度アップを提供することができることを示している。 さらに, 確率的切断面に対するサンプリングの限界を実験的に検討し, 多くの問題に対して, 高品質な解には, $o(\sqrt[3]{n})$ のサンプリングサイズが十分であることを示す。

We introduce a stochastic version of the cutting-plane method for a large class of data-driven Mixed-Integer Nonlinear Optimization (MINLO) problems. We show that under very weak assumptions the stochastic algorithm is able to converge to an $\epsilon$-optimal solution with high probability. Numerical experiments on several problems show that stochastic cutting planes is able to deliver a multiple order-of-magnitude speedup compared to the standard cutting-plane method. We further experimentally explore the lower limits of sampling for stochastic cutting planes and show that for many problems, a sampling size of $O(\sqrt[3]{n})$ appears to be sufficient for high quality solutions.
翻訳日:2021-03-06 18:15:47 公開日:2021-03-03
# (参考訳) 過空フェデレーションエッジ学習のための時間構造支援グラディエントアグリゲーション [全文訳有]

Temporal-Structure-A ssisted Gradient Aggregation for Over-the-Air Federated Edge Learning ( http://arxiv.org/abs/2103.02270v1 )

ライセンス: CC BY 4.0
Dian Fan, Xiaojun Yuan, Ying-Jun Angela Zhang(参考訳) 本稿では,フェデレーションエッジラーニング(FEEL)システムにおける空中モデル集約について検討する。 本稿では,モデル集約系列の固有時間構造を特徴付けるマルコフ確率モデルを提案する。 この時間的確率モデルを用いて,ベイズ的観点からの過去のすべての観測から所望の集計更新を推測するためにモデル集約問題を定式化する。 メッセージパッシングに基づくアルゴリズムである時間構造支援勾配アグリゲーション(TSA-GA)を開発し、この推定タスクを低複雑性およびほぼ最適性能で実現する。 提案されたTSA-GAアルゴリズムの挙動を特徴づける状態進化(SE)解析をさらに確立し、特定の標準規則条件下でFEELシステムの損失低減が予想されるという明確な境界を導出する。 さらに,マルコフモデルにおける未知のパラメータを学習するための期待最大化(em)戦略を考案する。 提案したTSAGAアルゴリズムは最先端のアルゴリズムよりも優れており、収束率と最終テスト精度の両方の観点から誤差のないベンチマークとして同等の学習性能が得られることを示す。

In this paper, we investigate over-the-air model aggregation in a federated edge learning (FEEL) system. We introduce a Markovian probability model to characterize the intrinsic temporal structure of the model aggregation series. With this temporal probability model, we formulate the model aggregation problem as to infer the desired aggregated update given all the past observations from a Bayesian perspective. We develop a message passing based algorithm, termed temporal-structure-a ssisted gradient aggregation (TSA-GA), to fulfil this estimation task with low complexity and near-optimal performance. We further establish the state evolution (SE) analysis to characterize the behaviour of the proposed TSA-GA algorithm, and derive an explicit bound of the expected loss reduction of the FEEL system under certain standard regularity conditions. In addition, we develop an expectation maximization (EM) strategy to learn the unknown parameters in the Markovian model. We show that the proposed TSAGA algorithm significantly outperforms the state-of-the-art, and is able to achieve comparable learning performance as the error-free benchmark in terms of both convergence rate and final test accuracy.
翻訳日:2021-03-06 16:31:39 公開日:2021-03-03
# (参考訳) マルチビューオーディオと音楽分類 [全文訳有]

Multi-view Audio and Music Classification ( http://arxiv.org/abs/2103.02420v1 )

ライセンス: CC BY 4.0
Huy Phan, Huy Le Nguyen, Oliver Y. Ch\'en, Lam Pham, Philipp Koch, Ian McLoughlin, Alfred Mertins(参考訳) 本研究では,音声と音楽の分類のためのマルチビュー学習手法を提案する。 典型的な4つの低レベル表現(すなわち)を考える。 音声と音楽の認識タスクによく使用される) 提案するマルチビューネットワークは4つのサブネットワークで構成され、それぞれが1つの入力タイプを処理している。 サブネットワーク内の学習された埋め込みは連結され、単純な連結ネットワークに似た分類のために多視点埋め込みを形成する。 しかし、ジョイント分類分枝とは別に、ネットワークはサブネットワークのシングルビュー埋め込みに4つの分類分枝を維持している。 次に,分類枝の学習行動を追跡し,その重みをネットワークトレーニングのための勾配を比例的にブレンドする新しい手法を提案する。 重みは、一般化しているブランチでの学習が奨励される一方で、過度に適合しているブランチでの学習が遅くなるように適応される。 3つの異なる音声・音楽分類タスクの実験から,提案したマルチビューネットワークは単一ビューベースラインを上回るだけでなく,結合性や後期融合に基づくマルチビューベースラインよりも優れていることが示された。

We propose in this work a multi-view learning approach for audio and music classification. Considering four typical low-level representations (i.e. different views) commonly used for audio and music recognition tasks, the proposed multi-view network consists of four subnetworks, each handling one input types. The learned embedding in the subnetworks are then concatenated to form the multi-view embedding for classification similar to a simple concatenation network. However, apart from the joint classification branch, the network also maintains four classification branches on the single-view embedding of the subnetworks. A novel method is then proposed to keep track of the learning behavior on the classification branches and adapt their weights to proportionally blend their gradients for network training. The weights are adapted in such a way that learning on a branch that is generalizing well will be encouraged whereas learning on a branch that is overfitting will be slowed down. Experiments on three different audio and music classification tasks show that the proposed multi-view network not only outperforms the single-view baselines but also is superior to the multi-view baselines based on concatenation and late fusion.
翻訳日:2021-03-06 15:11:50 公開日:2021-03-03
# (参考訳) 共通腐敗に対する敵対的訓練の有効性について

On the effectiveness of adversarial training against common corruptions ( http://arxiv.org/abs/2103.02325v1 )

ライセンス: CC BY 4.0
Klim Kireev, Maksym Andriushchenko, Nicolas Flammarion(参考訳) 共通の腐敗に対するロバスト性に関する文献は、この設定で敵意トレーニングがパフォーマンスを向上させることができるかどうかについてのコンセンサスを示さない。 まず, 適切に選択された摂動半径を持つ場合, $\ell_p$ が共通の腐敗に対する強力なベースラインとなることを示す。 そこで本稿では, 単純なガウス雑音によるデータ拡張よりも, 対人訓練が優れた理由を説明する。 これに関連して、ガウスの増補が一般的な汚職精度に顕著な有害な影響を及ぼす訓練に使用される特定の標準偏差に過適合する場合に、$\sigma$-overfitting 現象を同定する。 本稿では、この問題を緩和し、学習された知覚的イメージパッチ類似度を距離メトリックとして、対人訓練を効率的に緩和することにより、さらに$\ell_p$の対人トレーニングを強化する方法について論じる。 CIFAR-10とImageNet-100の実験を通して、我々のアプローチは、$\ell_p$の逆行トレーニングベースラインを改善するだけでなく、AugMix、ANT、SINなどのデータ拡張手法による累積的なゲインを持つことを示した。 実験のコードはhttps://github.com/t ml-epfl/adv-training -corruptions.comで公開されている。

The literature on robustness towards common corruptions shows no consensus on whether adversarial training can improve the performance in this setting. First, we show that, when used with an appropriately selected perturbation radius, $\ell_p$ adversarial training can serve as a strong baseline against common corruptions. Then we explain why adversarial training performs better than data augmentation with simple Gaussian noise which has been observed to be a meaningful baseline on common corruptions. Related to this, we identify the $\sigma$-overfitting phenomenon when Gaussian augmentation overfits to a particular standard deviation used for training which has a significant detrimental effect on common corruption accuracy. We discuss how to alleviate this problem and then how to further enhance $\ell_p$ adversarial training by introducing an efficient relaxation of adversarial training with learned perceptual image patch similarity as the distance metric. Through experiments on CIFAR-10 and ImageNet-100, we show that our approach does not only improve the $\ell_p$ adversarial training baseline but also has cumulative gains with data augmentation methods such as AugMix, ANT, and SIN leading to state-of-the-art performance on common corruptions. The code of our experiments is publicly available at https://github.com/t ml-epfl/adv-training -corruptions.
翻訳日:2021-03-06 14:59:49 公開日:2021-03-03
# (参考訳) オープンワールドオブジェクト検出に向けて [全文訳有]

Towards Open World Object Detection ( http://arxiv.org/abs/2103.02603v1 )

ライセンス: CC BY 4.0
K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian(参考訳) 人間は環境中の未知のオブジェクトのインスタンスを識別する自然な本能を持っている。 これらの未知の事例に関する本質的な好奇心は、最終的に対応する知識が利用可能になるとき、それらについて学ぶのに役立つ。 これは、"open world object detection"と呼ばれる、新しいコンピュータビジョンの問題を提案する動機となっている。これは、1) モデルに導入されていないオブジェクトを、明示的な監督なしに、"unknown"として識別し、2) 対応するラベルが徐々に受信されるときに、これらの識別された未知のカテゴリを徐々に学習する。 この問題を定式化し、強力な評価プロトコルを導入し、コントラストクラスタリングとエネルギーベースの未知の識別に基づいてORE: Open World Object Detectorと呼ばれる新しいソリューションを提供します。 私たちの実験評価とアブレーション研究は、オープンワールドの目的を達成するためにOREの有効性を分析します。 興味深い副産物として、未知のインスタンスの識別と特徴付けは、追加の方法論的努力なしに最先端のパフォーマンスを達成するインクリメンタルなオブジェクト検出設定における混乱を減少させる。 本研究は、新たに特定され、かつ重要な研究方向性のさらなる研究を引き付けることを願っています。

Humans have a natural instinct to identify unknown object instances in their environments. The intrinsic curiosity about these unknown instances aids in learning about them, when the corresponding knowledge is eventually available. This motivates us to propose a novel computer vision problem called: `Open World Object Detection', where a model is tasked to: 1) identify objects that have not been introduced to it as `unknown', without explicit supervision to do so, and 2) incrementally learn these identified unknown categories without forgetting previously learned classes, when the corresponding labels are progressively received. We formulate the problem, introduce a strong evaluation protocol and provide a novel solution, which we call ORE: Open World Object Detector, based on contrastive clustering and energy based unknown identification. Our experimental evaluation and ablation studies analyze the efficacy of ORE in achieving Open World objectives. As an interesting by-product, we find that identifying and characterizing unknown instances helps to reduce confusion in an incremental object detection setting, where we achieve state-of-the-art performance, with no extra methodological effort. We hope that our work will attract further research into this newly identified, yet crucial research direction.
翻訳日:2021-03-06 14:58:41 公開日:2021-03-03
# (参考訳) ドメインの一般化:調査 [全文訳有]

Domain Generalization: A Survey ( http://arxiv.org/abs/2103.02503v1 )

ライセンス: CC BY 4.0
Kaiyang Zhou, Ziwei Liu, Yu Qiao, Tao Xiang, Chen Change Loy(参考訳) アウト・オブ・ディストリビューション(OOD)データへの一般化は、マシンの再生が困難な人間にとって自然な能力である。 これは、ほとんどの統計学習アルゴリズムがi.d.~仮定に強く依存しているのに対し、実際にはターゲットデータは、ドメインシフトとして知られるソースデータとは異なる分布から来ることが多いためである。 ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。 2011年に初めて導入されて以来、DGの研究は10年もの進歩を遂げてきた。 このトピックに関する10年間の研究によって、ドメインアライメント、メタ学習、データ拡張、アンサンブル学習など、さまざまな方法論が開発され、オブジェクト認識、セグメンテーション、アクション認識、人物再識別といった様々な応用がカバーされている。 本稿では, dgの10年間の発展を概観するために, 初めて総合的な文献レビューを行った。 まず、問題定義を与え、DGがドメイン適応や伝達学習といった他の分野とどのように関係しているかについて議論することで背景をカバーします。 第2に,既存の手法を徹底的に検討し,その方法論とモチベーションに基づく分類を提示する。 最後に、この調査を潜在的な研究の方向で結論づける。

Generalization to out-of-distribution (OOD) data is a capability natural to humans yet challenging for machines to reproduce. This is because most statistical learning algorithms strongly rely on the i.i.d.~assumption while in practice the target data often come from a different distribution than the source data, known as domain shift. Domain generalization (DG) aims to achieve OOD generalization by only using source domain data for model learning. Since first introduced in 2011, research in DG has undergone a decade progress. Ten years of research in this topic have led to a broad spectrum of methodologies, e.g., based on domain alignment, meta-learning, data augmentation, or ensemble learning, just to name a few; and have covered various applications such as object recognition, segmentation, action recognition, and person re-identification. In this paper, for the first time, a comprehensive literature review is provided to summarize the ten-year development in DG. First, we cover the background by giving the problem definitions and discussing how DG is related to other fields like domain adaptation and transfer learning. Second, we conduct a thorough review into existing methods and present a taxonomy based on their methodologies and motivations. Finally, we conclude this survey with potential research directions.
翻訳日:2021-03-06 14:07:33 公開日:2021-03-03
# (参考訳) 2次注意を伴う反復的文脈化アルゴリズム [全文訳有]

An Iterative Contextualization Algorithm with Second-Order Attention ( http://arxiv.org/abs/2103.02190v1 )

ライセンス: CC BY-SA 4.0
Diego Maupom\'e and Marie-Jean Meurs(参考訳) 単語の順序を考慮に入れ、現在の単語が互いにどのように関連しているかを確立する必要があるため、文を構成する単語の表現を結合全体にまとめることは困難です。 提案するソリューションは、コンテキストを反復的に調整することにあります。 私たちのアルゴリズムは、おそらくコンテキストの誤った値から始まり、手元のトークンに関してこの値を調整します。 これを実現するために、単語の表現はシンボルの埋め込みと位置エンコーディングを1つのベクトルに組み合わせて構築される。 このアルゴリズムは、新しい2次注意機構を用いて、これらのベクトルを反復的に重み付け、集約する。 私たちのモデルは、よく知られたテキスト分類タスクで強い結果を報告します。

Combining the representations of the words that make up a sentence into a cohesive whole is difficult, since it needs to account for the order of words, and to establish how the words present relate to each other. The solution we propose consists in iteratively adjusting the context. Our algorithm starts with a presumably erroneous value of the context, and adjusts this value with respect to the tokens at hand. In order to achieve this, representations of words are built combining their symbolic embedding with a positional encoding into single vectors. The algorithm then iteratively weighs and aggregates these vectors using our novel second-order attention mechanism. Our models report strong results in several well-known text classification tasks.
翻訳日:2021-03-06 13:12:15 公開日:2021-03-03
# (参考訳) ニューラルマシン翻訳におけるドメイン適応のためのメタキュリキュラム学習 [全文訳有]

Meta-Curriculum Learning for Domain Adaptation in Neural Machine Translation ( http://arxiv.org/abs/2103.02262v1 )

ライセンス: CC BY 4.0
Runzhe Zhan, Xuebo Liu, Derek F. Wong, Lidia S. Chao(参考訳) メタラーニングは低リソースニューラルネットワーク翻訳(NMT)に有用であることが十分に検証されている。 しかし, メタトレーニング段階においては, メタトレーニング段階において, ドメインの翻訳性能が向上しないことがわかった。 本稿では,NMTにおけるドメイン適応のためのメタカリキュラム学習を提案することにより,この問題を軽減することを目的とする。 メタトレーニング中、nmtはまず各ドメインから類似のカリキュラムを学習し、悪い局所的最適の早期に陥ることを避け、最終的に個人性のカリキュラムを学習し、ドメイン固有の知識を学ぶためのモデルロバスト性を改善する。 10種類の低リソースドメインに対する実験結果から,メタカリキュラム学習は慣れ親しんだドメインと馴染みのないドメインの両方の翻訳性能を向上させることが示唆された。 すべてのコードとデータはhttps://github.com/N LP2CT/Meta-Curriculu mで自由に利用できます。

Meta-learning has been sufficiently validated to be beneficial for low-resource neural machine translation (NMT). However, we find that meta-trained NMT fails to improve the translation performance of the domain unseen at the meta-training stage. In this paper, we aim to alleviate this issue by proposing a novel meta-curriculum learning for domain adaptation in NMT. During meta-training, the NMT first learns the similar curricula from each domain to avoid falling into a bad local optimum early, and finally learns the curricula of individualities to improve the model robustness for learning domain-specific knowledge. Experimental results on 10 different low-resource domains show that meta-curriculum learning can improve the translation performance of both familiar and unfamiliar domains. All the codes and data are freely available at https://github.com/N LP2CT/Meta-Curriculu m.
翻訳日:2021-03-06 13:04:17 公開日:2021-03-03
# (参考訳) 変動ベイを用いたメタラーニング

Meta-Learning with Variational Bayes ( http://arxiv.org/abs/2103.02265v1 )

ライセンス: CC BY 4.0
Lucas D. Lingle(参考訳) メタ学習の分野は、今日の機械学習システムが少量のデータに効率的に適応する能力を改善することを目指している。 一般的にこれは、監視や報酬関数に基づいたタスク関連目標を改善するために、パラメータ化された更新ルールでシステムをトレーニングすることで達成される。 しかし、実際的な関心のある多くのドメインでは、タスクデータはラベルなし、または報酬機能は利用できません。 本稿では, 人工エージェントにおける人間レベルの認知的柔軟性を得るための重要な前提条件として, 生成メタ学習のより一般的な問題に対処するための新しいアプローチを提案する。 我々の貢献は、AEVBフレームワークと平均場変動ベイズを活用し、高速適応潜在空間生成モデルを作成する。 我々の貢献の核心は新たな成果であり、広範囲の深層生成潜在変数モデルにおいて、関連するVB更新は生成ニューラルネットワークに依存しないことを示している。

The field of meta-learning seeks to improve the ability of today's machine learning systems to adapt efficiently to small amounts of data. Typically this is accomplished by training a system with a parametrized update rule to improve a task-relevant objective based on supervision or a reward function. However, in many domains of practical interest, task data is unlabeled, or reward functions are unavailable. In this paper we introduce a new approach to address the more general problem of generative meta-learning, which we argue is an important prerequisite for obtaining human-level cognitive flexibility in artificial agents, and can benefit many practical applications along the way. Our contribution leverages the AEVB framework and mean-field variational Bayes, and creates fast-adapting latent-space generative models. At the heart of our contribution is a new result, showing that for a broad class of deep generative latent variable models, the relevant VB updates do not depend on any generative neural network.
翻訳日:2021-03-06 12:50:31 公開日:2021-03-03
# (参考訳) エネルギーに基づくシーングラフ生成学習 [全文訳有]

Energy-Based Learning for Scene Graph Generation ( http://arxiv.org/abs/2103.02221v1 )

ライセンス: CC BY 4.0
Mohammed Suhail, Abhay Mittal, Behjat Siddiquie, Chris Broaddus, Jayan Eledath, Gerard Medioni, Leonid Sigal(参考訳) 伝統的なシーングラフ生成法は、オブジェクトと関係を独立したエンティティとして扱うクロスエントロピー損失を用いて訓練される。 しかし、そのような定式化は、本質的に構造化された予測問題において、出力空間の構造を無視する。 本研究では,シーングラフ生成のための新しいエネルギーベース学習フレームワークを提案する。 提案する定式化により,シーングラフの構造を出力空間に効率的に組み込むことができる。 学習フレームワークのこの追加制約は、誘導バイアスとして機能し、モデルが少数のラベルから効率的に学習できるようにします。 提案したエネルギーベースのフレームワークを使用して,既存の最先端モデルをトレーニングし,それぞれVisual GenomeとGQAベンチマークデータセット上で,最大21%,最大27%の大幅なパフォーマンス向上を実現している。 さらに,データ不足のゼロショットおよびマイショット設定において,優れた性能を示すことにより,提案フレームワークの学習効率を示す。

Traditional scene graph generation methods are trained using cross-entropy losses that treat objects and relationships as independent entities. Such a formulation, however, ignores the structure in the output space, in an inherently structured prediction problem. In this work, we introduce a novel energy-based learning framework for generating scene graphs. The proposed formulation allows for efficiently incorporating the structure of scene graphs in the output space. This additional constraint in the learning framework acts as an inductive bias and allows models to learn efficiently from a small number of labels. We use the proposed energy-based framework to train existing state-of-the-art models and obtain a significant performance improvement, of up to 21% and 27%, on the Visual Genome and GQA benchmark datasets, respectively. Furthermore, we showcase the learning efficiency of the proposed framework by demonstrating superior performance in the zero- and few-shot settings where data is scarce.
翻訳日:2021-03-06 12:44:54 公開日:2021-03-03
# (参考訳) 限定ラベルシナリオにおける土地被覆マッピング:調査 [全文訳有]

Land Cover Mapping in Limited Labels Scenario: A Survey ( http://arxiv.org/abs/2103.02429v1 )

ライセンス: CC BY 4.0
Rahul Ghosh, Xiaowei Jia, Vipin Kumar(参考訳) 土地被覆マッピングは、地球環境の変化を監視し、天然資源を管理するために不可欠です。 残念なことに、従来の分類モデルは、既存の土地被覆製品で利用可能な限られたトレーニングデータと、時間と空間におけるデータの多様性に苦しめられている。 この調査では、これらの問題に対処するために使用される土地被覆マッピングおよび機械学習手法における課題を構造化および包括的に概観する。 また、この有望な方向に研究を進めるためのギャップと機会についても論じる。

Land cover mapping is essential for monitoring global environmental change and managing natural resources. Unfortunately, traditional classification models are plagued by limited training data available in existing land cover products and data heterogeneity over space and time. In this survey, we provide a structured and comprehensive overview of challenges in land cover mapping and machine learning methods used to address these problems. We also discuss the gaps and opportunities that exist for advancing research in this promising direction.
翻訳日:2021-03-06 12:30:37 公開日:2021-03-03
# (参考訳) LQResNet: 動的プロセス学習のためのディープニューラルネットワークアーキテクチャ [全文訳有]

LQResNet: A Deep Neural Network Architecture for Learning Dynamic Processes ( http://arxiv.org/abs/2103.02249v1 )

ライセンス: CC BY 4.0
Pawan Goyal and Peter Benner(参考訳) 例えば、動的プロセスの過渡的な挙動を分析し、最適化や制御などの工学的研究を実行するには、数学的モデリングが不可欠である。 第一原理と専門知識の助けを借りて、動的モデルを構築することができるが、生物学、化学プラント、神経科学、金融市場など、複雑な動的プロセスに対して、これはしばしば面倒な作業である。 したがって、ダイナミックスプロセスのデータ駆動モデリングは魅力的な選択となり、センサーと計測技術の急速な進歩に支えられている。 データ駆動型アプローチ、すなわち演算子推論フレームワークは、非線形項の特定の構造が想定される動的プロセスをモデル化する。 本研究では,演算子推論とディープニューラルネットワークの手法を組み合わせて,未知の非線形ダイナミクスを推定する手法を提案する。 このアプローチでは、ディープラーニングの最近の進歩と、可能であればプロセスの事前知識を使用する。 また,提案手法の拡張と利点についても概説する。 提案手法は,ニューラルダイナミクスと糖分解オシレータに遭遇するダイナミクス過程の望ましいタスクを達成することを実証する。

Mathematical modeling is an essential step, for example, to analyze the transient behavior of a dynamical process and to perform engineering studies such as optimization and control. With the help of first-principles and expert knowledge, a dynamic model can be built, but for complex dynamic processes, appearing, e.g., in biology, chemical plants, neuroscience, financial markets, this often remains an onerous task. Hence, data-driven modeling of the dynamics process becomes an attractive choice and is supported by the rapid advancement in sensor and measurement technology. A data-driven approach, namely operator inference framework, models a dynamic process, where a particular structure of the nonlinear term is assumed. In this work, we suggest combining the operator inference with certain deep neural network approaches to infer the unknown nonlinear dynamics of the system. The approach uses recent advancements in deep learning and possible prior knowledge of the process if possible. We also briefly discuss several extensions and advantages of the proposed methodology. We demonstrate that the proposed methodology accomplishes the desired tasks for dynamics processes encountered in neural dynamics and the glycolytic oscillator.
翻訳日:2021-03-06 10:30:24 公開日:2021-03-03
# (参考訳) 感情発生ペア抽出のためのエンドツーエンドネットワーク [全文訳有]

An End-to-End Network for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2103.01544v2 )

ライセンス: CC BY 4.0
Aaditya Singh and Shreeshail Hingane and Saim Wani and Ashutosh Modi(参考訳) Emotion-Cause Pair Extraction(ECPE)のタスクは、文書中の感情とその対応する原因のすべての潜在的な条項ペアを抽出することを目指しています。 感情原因抽出(ECE)のよりよく研究されたタスクとは異なり、ECPEはアノテーションとして提供される感情条項を必要としない。 以前のECPEの研究は、感情抽出、原因抽出、ペアリングを独立して行うマルチステージアプローチ、あるいはその制限を解決するために複雑なアーキテクチャを使用していた。 本稿では,ECPEタスクのエンドツーエンドモデルを提案する。 英語ECPEコーパスが利用できないため、NCCIR-13 ECEコーパスを適応させ、このデータセット上にECPEタスクのベースラインを確立します。 提案手法は,多段階アプローチよりも高い性能向上(F1スコアの約6.5増加)を達成し,最先端手法に匹敵する性能を実現する。

The task of Emotion-Cause Pair Extraction (ECPE) aims to extract all potential clause-pairs of emotions and their corresponding causes in a document. Unlike the more well-studied task of Emotion Cause Extraction (ECE), ECPE does not require the emotion clauses to be provided as annotations. Previous works on ECPE have either followed a multi-stage approach where emotion extraction, cause extraction, and pairing are done independently or use complex architectures to resolve its limitations. In this paper, we propose an end-to-end model for the ECPE task. Due to the unavailability of an English language ECPE corpus, we adapt the NTCIR-13 ECE corpus and establish a baseline for the ECPE task on this dataset. On this dataset, the proposed method produces significant performance improvements (~6.5 increase in F1 score) over the multi-stage approach and achieves comparable performance to the state-of-the-art methods.
翻訳日:2021-03-06 10:11:37 公開日:2021-03-03
# (参考訳) 構成可能なNLPワークフローのためのデータセンタフレームワーク [全文訳有]

A Data-Centric Framework for Composable NLP Workflows ( http://arxiv.org/abs/2103.01834v2 )

ライセンス: CC BY 4.0
Zhengzhong Liu, Guanxiong Ding, Avinash Bukkittu, Mansi Gupta, Pengzhi Gao, Atif Ahmed, Shikun Zhang, Xin Gao, Swapnil Singhavi, Linwei Li, Wei Wei, Zecong Hu, Haoran Shi, Xiaodan Liang, Teruko Mitamura, Eric P. Xing, and Zhiting Hu(参考訳) アプリケーションドメインにおける経験的自然言語処理(NLP)システム(例えば、医療、金融、教育)は、データの取り込み、人間のアノテーション、テキスト検索、分析、生成、可視化など、さまざまなコンポーネント間の相互運用を含む。 このような高度なNLPワークフローの迅速な開発を支援するために,我々は統一されたオープンソースフレームワークを構築している。 このフレームワークは、幅広いNLPタスクによって異種結果をエンコードするための統一データ表現を導入している。 nlpタスク、ビジュアライゼーション、アノテーションのためのプロセッサの大規模なリポジトリを提供しており、統一表現の下で完全な相互運用性で簡単に組み立てることができる。 拡張性の高いフレームワークにより、外部の既製のNLPとディープラーニングライブラリからカスタムプロセッサをプラグインできる。 フレームワーク全体は,2つのモジュール化された統合可能なオープンソースプロジェクト,すなわちforte1(ワークフローインフラストラクチャとnlp関数プロセッサ)とstave2(ユーザインタラクション,可視化,アノテーション)を通じて提供される。

Empirical natural language processing (NLP) systems in application domains (e.g., healthcare, finance, education) involve interoperation among multiple components, ranging from data ingestion, human annotation, to text retrieval, analysis, generation, and visualization. We establish a unified open-source framework to support fast development of such sophisticated NLP workflows in a composable manner. The framework introduces a uniform data representation to encode heterogeneous results by a wide range of NLP tasks. It offers a large repository of processors for NLP tasks, visualization, and annotation, which can be easily assembled with full interoperability under the unified representation. The highly extensible framework allows plugging in custom processors from external off-the-shelf NLP and deep learning libraries. The whole framework is delivered through two modularized yet integratable open-source projects, namely Forte1 (for workflow infrastructure and NLP function processors) and Stave2 (for user interaction, visualization, and annotation).
翻訳日:2021-03-06 10:00:52 公開日:2021-03-03
# (参考訳) 対人情報ボトルネック [全文訳有]

Adversarial Information Bottleneck ( http://arxiv.org/abs/2103.00381v2 )

ライセンス: CC BY 4.0
Penglong Zhai and Shihua Zhang(参考訳) 情報ボトルネック(IB)の原則は、トレードオフハイパーパラメータによってバランスのとれた情報圧縮と予測の観点でディープラーニングを説明するために採用されています。 IBの原理を最適化してロバスト性を向上し、トレードオフハイパーパラメータによる圧縮の効果を明らかにする方法は2つの課題である。 従来の手法では、表現の学習にランダムノイズを導入し、ニュアンス情報圧縮と意味情報抽出における最先端性能を実現し、ISBの原理を最適化しようとした。 しかし、逆境の摂動に抵抗する彼らのパフォーマンスは、それほど印象的ではない。 この目的のために,Min-Max最適化問題を解くことで効率よく最適化できる,表現の基盤分布に関する明確な仮定を伴わない逆情報ボトルネック(AIB)手法を提案する。 合成および実世界のデータセットに関する数値実験は、複数の競合するIB法と比較して、より不変な表現を学習し、敵対的な摂動を緩和する効果を示す。 さらに,IB曲線と対比する多様なIB手法の対角的ロバスト性を解析し,IB曲線の膝点に対応するハイパーパラメータ$\beta$のIBモデルが,圧縮と予測の最良のトレードオフを達成し,様々な攻撃に対して最良のロバスト性を有することを示す。

The information bottleneck (IB) principle has been adopted to explain deep learning in terms of information compression and prediction, which are balanced by a trade-off hyperparameter. How to optimize the IB principle for better robustness and figure out the effects of compression through the trade-off hyperparameter are two challenging problems. Previous methods attempted to optimize the IB principle by introducing random noise into learning the representation and achieved state-of-the-art performance in the nuisance information compression and semantic information extraction. However, their performance on resisting adversarial perturbations is far less impressive. To this end, we propose an adversarial information bottleneck (AIB) method without any explicit assumptions about the underlying distribution of the representations, which can be optimized effectively by solving a Min-Max optimization problem. Numerical experiments on synthetic and real-world datasets demonstrate its effectiveness on learning more invariant representations and mitigating adversarial perturbations compared to several competing IB methods. In addition, we analyse the adversarial robustness of diverse IB methods contrasting with their IB curves, and reveal that IB models with the hyperparameter $\beta$ corresponding to the knee point in the IB curve achieve the best trade-off between compression and prediction, and has best robustness against various attacks.
翻訳日:2021-03-06 09:51:57 公開日:2021-03-03
# (参考訳) 高速かつ証明可能な対向ロバスト性を実現するためのマルチクラスブースティングフレームワーク [全文訳有]

A Multiclass Boosting Framework for Achieving Fast and Provable Adversarial Robustness ( http://arxiv.org/abs/2103.01276v2 )

ライセンス: CC BY 4.0
Jacob Abernethy, Pranjal Awasthi, Satyen Kale(参考訳) ディープニューラルネットワークの公表された成果に加えて、オブジェクト認識などのタスクの成功に明らかなバグが現れました。バニラメソッドを使用して訓練されたディープモデルでは、これらの破損が事実上見えない場合でも、出力予測を変更するために入力イメージをわずかに破損させることができます。 この明らかな堅牢性の欠如により、研究者は敵がそのような能力を持つのを防げる方法を提案している。 最先端のアプローチでは、ロバスト性要件を損失関数に組み込んでおり、トレーニングプロセスでは、元の入力ではなく、逆に破壊的な勾配降下ステップを踏む。 本稿では,対向ロバスト性を確保するためのマルチクラスブースティングフレームワークを提案する。 ブーストアルゴリズムは、典型的にはミニマックスの保証を満たすように設計されたため、一般的に敵対的なシナリオに適しています。 この方法論の理論的基盤を提供し、弱い訓練の託宣を条件として、堅牢性を達成できる条件を記述する。 実例では, 逆ロバスト・マルチクラス・ブースティングが最先端の手法に勝るだけでなく, トレーニング時間のごく一部で実現していることを示す。

Alongside the well-publicized accomplishments of deep neural networks there has emerged an apparent bug in their success on tasks such as object recognition: with deep models trained using vanilla methods, input images can be slightly corrupted in order to modify output predictions, even when these corruptions are practically invisible. This apparent lack of robustness has led researchers to propose methods that can help to prevent an adversary from having such capabilities. The state-of-the-art approaches have incorporated the robustness requirement into the loss function, and the training process involves taking stochastic gradient descent steps not using original inputs but on adversarially-corrup ted ones. In this paper we propose a multiclass boosting framework to ensure adversarial robustness. Boosting algorithms are generally well-suited for adversarial scenarios, as they were classically designed to satisfy a minimax guarantee. We provide a theoretical foundation for this methodology and describe conditions under which robustness can be achieved given a weak training oracle. We show empirically that adversarially-robust multiclass boosting not only outperforms the state-of-the-art methods, it does so at a fraction of the training time.
翻訳日:2021-03-06 09:28:22 公開日:2021-03-03
# (参考訳) タスク類似度測定によるニューラルアーキテクチャ検索 [全文訳有]

Neural Architecture Search From Task Similarity Measure ( http://arxiv.org/abs/2103.00241v2 )

ライセンス: CC BY 4.0
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Vahid Tarokh(参考訳) 本稿では,フィッシャー情報を用いて定義された各種タスク間の類似度尺度に基づくニューラルアーキテクチャ探索フレームワークを提案する。 対象と既存のタスクの集合との関係を利用することで、アーキテクチャの探索空間を大幅に削減することができ、可能なアーキテクチャの集合における最適な候補の発見が容易になる。 このメソッドは、対象タスクのネットワークをゼロからトレーニングする要件を排除します。 シミュレーションの結果,提案手法の有効性と最先端手法との競合性を示す。

In this paper, we propose a neural architecture search framework based on a similarity measure between various tasks defined in terms of Fisher information. By utilizing the relation between a target and a set of existing tasks, the search space of architectures can be significantly reduced, making the discovery of the best candidates in the set of possible architectures tractable. This method eliminates the requirement for training the networks from scratch for the target task. Simulation results illustrate the efficacy of our proposed approach and its competitiveness with state-of-the-art methods.
翻訳日:2021-03-06 08:48:07 公開日:2021-03-03
# (参考訳) multi-spectral consistency loss を用いた単眼熱ビデオの教師なし深度とエゴモーション推定 [全文訳有]

Unsupervised Depth and Ego-motion Estimation for Monocular Thermal Video using Multi-spectral Consistency Loss ( http://arxiv.org/abs/2103.00760v2 )

ライセンス: CC BY 4.0
Ukcheol Shin, Kyunghyun Lee, Seokju Lee, In So Kweon(参考訳) ディープラーニングベースの深度とエゴモーションネットワークのほとんどは、可視カメラ用に設計されています。 しかし、可視カメラは外部光源の存在に大きく依存しています。 したがって、夜間のシーンやトンネル、その他の過酷な条件などの低照度条件下での使用は困難です。 熱カメラは、外部光源によらずLWIR(Long Wave Infrared Radiation)を検出するため、この問題を補うための解決策の1つである。 しかし、この利点にもかかわらず、熱カメラの深度とエゴモーション推定の研究は、これまでのところ活発に行われていない。 本稿では,全日深度とエゴモーション推定のための教師なし学習手法を提案する。 提案手法はマルチスペクトル整合性損失を利用して、熱画像から推定した深度で可視・熱画像の再構成を行い、ネットワークの相補的な監視を行う。 提案手法で訓練されたネットワークは、低照度およびゼロ照度条件下での単眼熱ビデオの深度とポーズを堅牢に推定する。 我々の知る限りでは、これは単眼サーマルビデオからの深度とエゴモーションの両方を教師なしで同時に推定する最初の試みである。

Most of the deep-learning based depth and ego-motion networks have been designed for visible cameras. However, visible cameras heavily rely on the presence of an external light source. Therefore, it is challenging to use them under low-light conditions such as night scenes, tunnels, and other harsh conditions. A thermal camera is one solution to compensate for this problem because it detects Long Wave Infrared Radiation(LWIR) regardless of any external light sources. However, despite this advantage, both depth and ego-motion estimation research for the thermal camera are not actively explored until so far. In this paper, we propose an unsupervised learning method for the all-day depth and ego-motion estimation. The proposed method exploits multi-spectral consistency loss to gives complementary supervision for the networks by reconstructing visible and thermal images with the depth and pose estimated from thermal images. The networks trained with the proposed method robustly estimate the depth and pose from monocular thermal video under low-light and even zero-light conditions. To the best of our knowledge, this is the first work to simultaneously estimate both depth and ego-motion from the monocular thermal video in an unsupervised manner.
翻訳日:2021-03-06 08:29:06 公開日:2021-03-03
# グラフ畳み込みネットワーク学習におけるサンプリングの重要性について

On the Importance of Sampling in Learning Graph Convolutional Networks ( http://arxiv.org/abs/2103.02696v1 )

ライセンス: Link先を確認
Weilin Cong, Morteza Ramezani, Mehrdad Mahdavi(参考訳) Graph Convolutional Networks (GCNs) は、様々なグラフ関連アプリケーションにおいて、目覚ましい進歩を遂げている。 大きなグラフでのGCNのトレーニングは、大きな成功にもかかわらず、計算とメモリの問題に悩まされている。 これらの障害を回避する潜在的パスはサンプリングベースのメソッドで、各レイヤにノードのサブセットがサンプリングされる。 近年の研究ではサンプリングベース手法の有効性が実証されているが、現実的な設定下では理論的収束保証がなく、最適化中に進化するパラメータの情報を完全に活用できない。 本稿では、メモリ予算の下で任意のサンプリングメソッドを加速できる一般の \textbf{\textit{二重分散還元}} スキーマを記述および分析する。 提案手法は, 前方伝搬時のノード埋め込み近似分散(\emph{zeroth-order variance})と後方伝搬時の層方向勾配分散(\emph{first-order variance})に, 誘導分散が分解可能であることを示すサンプリング手法の分散に対する注意深い解析である。 提案したスキーマの収束を理論的に解析し,$\mathcal{O}(1/T)$収束率を満足することを示す。 我々は,提案するスキーマを異なるサンプリング法に統合し,異なる実世界グラフに適用することにより,理論結果を補完する。 コードは~\url{https://github.com/C ongWeilin/SGCN.git}で公開されている。

Graph Convolutional Networks (GCNs) have achieved impressive empirical advancement across a wide variety of graph-related applications. Despite their great success, training GCNs on large graphs suffers from computational and memory issues. A potential path to circumvent these obstacles is sampling-based methods, where at each layer a subset of nodes is sampled. Although recent studies have empirically demonstrated the effectiveness of sampling-based methods, these works lack theoretical convergence guarantees under realistic settings and cannot fully leverage the information of evolving parameters during optimization. In this paper, we describe and analyze a general \textbf{\textit{doubly variance reduction}} schema that can accelerate any sampling method under the memory budget. The motivating impetus for the proposed schema is a careful analysis for the variance of sampling methods where it is shown that the induced variance can be decomposed into node embedding approximation variance (\emph{zeroth-order variance}) during forward propagation and layerwise-gradient variance (\emph{first-order variance}) during backward propagation. We theoretically analyze the convergence of the proposed schema and show that it enjoys an $\mathcal{O}(1/T)$ convergence rate. We complement our theoretical results by integrating the proposed schema in different sampling methods and applying them to different large real-world graphs. Code is public available at~\url{https://github.com/C ongWeilin/SGCN.git}.
翻訳日:2021-03-05 15:12:40 公開日:2021-03-03
# 広義のグラフニューラルネットワーク: 集約はおそらく、指数的トレーサビリティ損失につながる

Wide Graph Neural Networks: Aggregation Provably Leads to Exponentially Trainability Loss ( http://arxiv.org/abs/2103.03113v1 )

ライセンス: Link先を確認
Wei Huang, Yayong Li, Weitao Du, Richard Yi Da Xu, Jie Yin, and Ling Chen(参考訳) グラフ畳み込みネットワーク(GCN)とその変種は、グラフ構造化データを扱う上で大きな成功を収めた。 しかし、深いGCNが過スムージングな問題に悩まされることはよく知られており、ノード表現はより多くの層を積み重ねるにつれて区別できない傾向にある。 広範に研究が進められているが、深いGCNの表現性と訓練性を研究するための理論的分析はほとんど行われていない。 本研究では、表現力と訓練能力の分析に対応する、無限大のGCNのガウスプロセスカーネル(GPK)とグラフニューラルタンジェントカーネル(GNTK)をそれぞれ検討することにより、これらの特性を実証する。 まず,GPKに平均場理論を適用することにより,指数関数的に崩壊する無限大GCNの表現性を証明する。 また,大深度でのgntkの漸近的挙動を定式化し,指数関数的に広いgcnと深いgcnの学習能力の低下を明らかにした。 さらに, 残差接続集合解析のための理論的枠組みを拡張した。 これらの手法は指数崩壊を軽度に緩和できるが、根本的には克服できなかった。 最後に、この研究のすべての理論結果が、様々なグラフ構造化データセット上で実験的に裏付けられている。

Graph convolutional networks (GCNs) and their variants have achieved great success in dealing with graph-structured data. However, it is well known that deep GCNs will suffer from over-smoothing problem, where node representations tend to be indistinguishable as we stack up more layers. Although extensive research has confirmed this prevailing understanding, few theoretical analyses have been conducted to study the expressivity and trainability of deep GCNs. In this work, we demonstrate these characterizations by studying the Gaussian Process Kernel (GPK) and Graph Neural Tangent Kernel (GNTK) of an infinitely-wide GCN, corresponding to the analysis on expressivity and trainability, respectively. We first prove the expressivity of infinitely-wide GCNs decaying at an exponential rate by applying the mean-field theory on GPK. Besides, we formulate the asymptotic behaviors of GNTK in the large depth, which enables us to reveal the dropping trainability of wide and deep GCNs at an exponential rate. Additionally, we extend our theoretical framework to analyze residual connection-resemble techniques. We found that these techniques can mildly mitigate exponential decay, but they failed to overcome it fundamentally. Finally, all theoretical results in this work are corroborated experimentally on a variety of graph-structured datasets.
翻訳日:2021-03-05 15:08:54 公開日:2021-03-03
# 道徳・機械・解釈問題--モラルエージェント構築のための価値に基づくウィトゲンシュタイン的アプローチ

Morality, Machines and the Interpretation Problem: A value-based, Wittgensteinian approach to building Moral Agents ( http://arxiv.org/abs/2103.02728v1 )

ライセンス: Link先を確認
Cosmin Badea, Gregory Artus(参考訳) 私たちは、機械に道徳性を構築する試みは、私たちが解釈問題と呼ぶもので、私たちが機械に与えた規則は、私たちが道徳的に否定する可能性のある方法で無限の解釈にオープンであり、人工知能の解釈問題は、ルールが独自の適用の基準を含めることができないというウィトゲンシュタインの一般的な主張の例であると主張しています。 ゲームを例として、規範空間の構造を定義し、規範空間内の任意のルールフォローは、その空間の外にある値によって導かれ、それ自身は規則として表現できないと主張する。 In light of this problem, we analyse the types of mistakes an artificial moral agent could make and we make suggestions about how to build morality into machines by getting them to interpret the rules we give in accordance with these external values, through explicit moral reasoning and the presence of structured values, the adjustment of causal power assigned to the agent and interaction with human agents, such that the machine develops a virtuous character and the impact of the interpretation problem is minimised.

We argue that the attempt to build morality into machines is subject to what we call the Interpretation problem, whereby any rule we give the machine is open to infinite interpretation in ways that we might morally disapprove of, and that the interpretation problem in Artificial Intelligence is an illustration of Wittgenstein's general claim that no rule can contain the criteria for its own application. Using games as an example, we attempt to define the structure of normative spaces and argue that any rule-following within a normative space is guided by values that are external to that space and which cannot themselves be represented as rules. In light of this problem, we analyse the types of mistakes an artificial moral agent could make and we make suggestions about how to build morality into machines by getting them to interpret the rules we give in accordance with these external values, through explicit moral reasoning and the presence of structured values, the adjustment of causal power assigned to the agent and interaction with human agents, such that the machine develops a virtuous character and the impact of the interpretation problem is minimised.
翻訳日:2021-03-05 15:08:34 公開日:2021-03-03
# 強混合連続時間確率過程のコントラスト学習

Contrastive learning of strong-mixing continuous-time stochastic processes ( http://arxiv.org/abs/2103.02740v1 )

ライセンス: Link先を確認
Bingbin Liu, Pradeep Ravikumar, Andrej Risteski(参考訳) コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。 最近、多くの異なるドメインにまたがるラベルがない中で、主要な学習パラダイムの1つとして登場した。 脳画像、テキスト、画像)。 しかし、統計的およびアルゴリズム的なトレーニングの多くの側面の理論的理解は、かなり分かりにくいままである。 本研究では,強混合連続時間確率過程からデータを得る場合の時系列の設定を,より正確に検討する。 拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。 さらに,この課題を解決するためのサンプル複雑性境界を与え,コントラスト損失の値が学習核の分布的近接性に何を意味するのかを定量的に特徴付ける。 副産物として、コントラスト分布の適切な設定と、この設定における他のハイパーパラメータを照らします。

Contrastive learning is a family of self-supervised methods where a model is trained to solve a classification task constructed from unlabeled data. It has recently emerged as one of the leading learning paradigms in the absence of labels across many different domains (e.g. brain imaging, text, images). However, theoretical understanding of many aspects of training, both statistical and algorithmic, remain fairly elusive. In this work, we study the setting of time series -- more precisely, when we get data from a strong-mixing continuous-time stochastic process. We show that a properly constructed contrastive learning task can be used to estimate the transition kernel for small-to-mid-range intervals in the diffusion case. Moreover, we give sample complexity bounds for solving this task and quantitatively characterize what the value of the contrastive loss implies for distributional closeness of the learned kernel. As a byproduct, we illuminate the appropriate settings for the contrastive distribution, as well as other hyperparameters in this setup.
翻訳日:2021-03-05 15:08:02 公開日:2021-03-03
# 遅延変動推定法におけるラベル付き値とラベルなし値の比較

Comparing the Value of Labeled and Unlabeled Data in Method-of-Moments Latent Variable Estimation ( http://arxiv.org/abs/2103.02761v1 )

ライセンス: Link先を確認
Mayee F. Chen, Benjamin Cohen-Wang, Stephen Mussmann, Frederic Sala, Christopher R\'e(参考訳) 現代の機械学習のためのラベリングデータは高価で時間がかかります。 潜在変数モデルは、ラベルのないデータを操作するより弱い、簡単に取得できるソースからラベルを推測するために使うことができる。 このようなモデルはラベル付きデータを使ってトレーニングすることもでき、重要な疑問を提示している。 我々は、メソッド・オブ・モーメントの潜伏変数推定におけるモデルの誤特定に焦点を当てたフレームワークを介してこれを答える。 我々の中心となる結果は一般化誤差のバイアス分散分解であり、これはラベルなしのみのアプローチが誤特定の下で追加バイアスを引き起こすことを示している。 そして、ある場合においてこのバイアスを確実に排除する補正を導入する。 分解フレームワークを3つのシナリオ – 明確に特定され,不特定で,修正されたモデル – に適用し,1)ラベル付きデータとラベルなしデータを選択し,2)組み合わせから学習する。 理論上, 合成実験により, 特定されたモデルではラベル付点がラベル付点以上の定数に値することを示した。 しかし、誤特定の場合、その相対値は追加のバイアスのため高いが、補正によって減少する可能性がある。 また,本手法を,データセット構築のための現実の弱い監視手法の研究にも応用する。

Labeling data for modern machine learning is expensive and time-consuming. Latent variable models can be used to infer labels from weaker, easier-to-acquire sources operating on unlabeled data. Such models can also be trained using labeled data, presenting a key question: should a user invest in few labeled or many unlabeled points? We answer this via a framework centered on model misspecification in method-of-moments latent variable estimation. Our core result is a bias-variance decomposition of the generalization error, which shows that the unlabeled-only approach incurs additional bias under misspecification. We then introduce a correction that provably removes this bias in certain cases. We apply our decomposition framework to three scenarios -- well-specified, misspecified, and corrected models -- to 1) choose between labeled and unlabeled data and 2) learn from their combination. We observe theoretically and with synthetic experiments that for well-specified models, labeled points are worth a constant factor more than unlabeled points. With misspecification, however, their relative value is higher due to the additional bias but can be reduced with correction. We also apply our approach to study real-world weak supervision techniques for dataset construction.
翻訳日:2021-03-05 15:07:45 公開日:2021-03-03
# COIN:暗黙のニューラル表現による圧縮

COIN: COmpression with Implicit Neural representations ( http://arxiv.org/abs/2103.03123v1 )

ライセンス: Link先を確認
Emilien Dupont, Adam Goli\'nski, Milad Alizadeh, Yee Whye Teh, Arnaud Doucet(参考訳) 画像の各画素のrgb値を格納する代わりに、画像に過剰に適合したニューラルネットワークの重みを格納する。 具体的には、イメージをエンコードするために、ピクセル位置をRGB値にマップするMLPと適合します。 次に、画像のコードとしてこのMLPの重みを定量化し、保存します。 画像をデコードするには、すべてのピクセル位置でMLPを評価するだけです。 この単純なアプローチは、エントロピーコーディングや重みよりも分布を学習することなく、JPEGを低ビットレートで上回ります。 我々のフレームワークはまだ最先端の圧縮手法と競合していないが、他のニューラルデータ圧縮手法の代替となるような、様々な魅力的な特性があることが示される。

We propose a new simple approach for image compression: instead of storing the RGB values for each pixel of an image, we store the weights of a neural network overfitted to the image. Specifically, to encode an image, we fit it with an MLP which maps pixel locations to RGB values. We then quantize and store the weights of this MLP as a code for the image. To decode the image, we simply evaluate the MLP at every pixel location. We found that this simple approach outperforms JPEG at low bit-rates, even without entropy coding or learning a distribution over weights. While our framework is not yet competitive with state of the art compression methods, we show that it has various attractive properties which could make it a viable alternative to other neural data compression approaches.
翻訳日:2021-03-05 15:02:03 公開日:2021-03-03
# Semantic Contrastive Learningによる深層クラスタリング

Deep Clustering by Semantic Contrastive Learning ( http://arxiv.org/abs/2103.02662v1 )

ライセンス: Link先を確認
Jiabo Huang and Shaogang Gong(参考訳) 自己指導型表現学習では対照的な学習が顕著に成功したが、深層クラスタリングの可能性はいまだ不明である。 これは、インスタンスの識別戦略がクラスに敏感ではなく、セマンティクスの概念とクラスの間の基本的な決定境界を推論できないという根本的な制限のためである。 本研究では,SCL(Semantic Contrastive Learning)と呼ばれる新しい変種を導入することで,この問題を解決する。 従来のコントラスト学習とディープクラスタリングの両方の特徴を,非ラベル付きトレーニングデータに距離ベースのクラスタ構造を付与し,差別的コントラストロス定式化を導入することで検討する。 クラス境界をオンザフライで明確にモデリングするために、視覚的類似性と意味的決定境界によって与えられる2つの異なる予測に基づいてクラスタリング整合性条件を更に定式化する。 視覚意味論の明示的な理解に向けて暗黙的な表現学習を進めることで、SCLは対照的な学習と深いクラスタリングの強みを統一的なアプローチで強化することができる。 広範な実験により、提案手法は6つの挑戦的オブジェクト認識ベンチマーク、特に粒度の細かいデータセットにおいて、最先端のディープクラスタリング手法よりも優れていることが示された。

Whilst contrastive learning has achieved remarkable success in self-supervised representation learning, its potential for deep clustering remains unknown. This is due to its fundamental limitation that the instance discrimination strategy it takes is not class sensitive and hence unable to reason about the underlying decision boundaries between semantic concepts or classes. In this work, we solve this problem by introducing a novel variant called Semantic Contrastive Learning (SCL). It explores the characteristics of both conventional contrastive learning and deep clustering by imposing distance-based cluster structures on unlabelled training data and also introducing a discriminative contrastive loss formulation. For explicitly modelling class boundaries on-the-fly, we further formulate a clustering consistency condition on the two different predictions given by visual similarities and semantic decision boundaries. By advancing implicit representation learning towards explicit understandings of visual semantics, SCL can amplify jointly the strengths of contrastive learning and deep clustering in a unified approach. Extensive experiments show that the proposed model outperforms the state-of-the-art deep clustering methods on six challenging object recognition benchmarks, especially on finer-grained and larger datasets.
翻訳日:2021-03-05 15:00:45 公開日:2021-03-03
# ポイントクラウド登録に関する総合調査

A comprehensive survey on point cloud registration ( http://arxiv.org/abs/2103.02690v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Guofeng Mei, Jian Zhang, Rana Abbas(参考訳) 登録は、2つのポイントクラウド間の変換推定の問題であり、最適化の観点から長い開発の歴史を経験してきた。 最近のディープラーニングの成功は、登録の堅牢性と効率を大幅に改善した。 本調査では,最適化手法と深層学習手法の関連性を総合的に検討し,さらなる研究知見を提供する。 さらに,近年の3次元センサと3次元再構成技術により,新たな研究方向が明らかになってきた。 この調査は、クロスソースポイントクラウド登録の開発をレビューし、最新の登録アルゴリズムを評価するための新しいベンチマークを構築します。 さらに、この調査はベンチマークデータセットを要約し、さまざまなドメインにまたがるポイントクラウド登録アプリケーションについても論じている。 最後に,この急成長分野における研究の方向性について考察する。

Registration is a problem of transformation estimation between two point clouds, which has experienced a long history of development from an optimization aspect. The recent success of deep learning has vastly improved registration robustness and efficiency. This survey tries to conduct a comprehensive review and build the connection between optimization-based methods and deep learning methods, to provide further research insight. Moreover, with the recent development of 3D sensors and 3D reconstruction techniques, a new research direction also emerges to align cross-source point clouds. This survey reviews the development of cross-source point cloud registration and builds a new benchmark to evaluate the state-of-the-art registration algorithms. Besides, this survey summarizes the benchmark data sets and discusses point cloud registration applications across various domains. Finally, this survey proposes potential research directions in this rapidly growing field.
翻訳日:2021-03-05 15:00:23 公開日:2021-03-03
# Eccentricityを用いたシーンモーションの効率的なデータ駆動エンコーディング

Efficient data-driven encoding of scene motion using Eccentricity ( http://arxiv.org/abs/2103.02743v1 )

ライセンス: Link先を確認
Bruno Costa, Enrique Corona, Mostafa Parchami, Gint Puskorius, Dimitar Filev(参考訳) 本稿では,映像・映像ストリームから生成した静的マップを用いて動的視覚シーンを表現する新しい手法を提案する。 このような表現は、動的環境における動きの視覚的評価を容易にする。 これらのマップは、最近導入されたEccentricityデータ分析の概念に基づいて、再帰的に計算された2D行列である。 偏心性は、画像の特定のピクセルとその正規性モデルとの差の計量として機能し、画像の同じ空間領域の過去の読み値の平均とばらつきによって計算される。 偏心マップはシーンに関する時間的情報を持っているが、実際の画像をバッチに保存したり処理したりする必要はない。 むしろ、全ての計算は、メモリに格納された少数の統計情報に基づいて再帰的に行われ、非常に計算効率のよい(プロセッサとメモリの)方法をもたらす。 潜在的なアプリケーションのリストには、ビデオベースのアクティビティ認識、意図認識、オブジェクト追跡、ビデオ記述などが含まれる。

This paper presents a novel approach of representing dynamic visual scenes with static maps generated from video/image streams. Such representation allows easy visual assessment of motion in dynamic environments. These maps are 2D matrices calculated recursively, in a pixel-wise manner, that is based on the recently introduced concept of Eccentricity data analysis. Eccentricity works as a metric of a discrepancy between a particular pixel of an image and its normality model, calculated in terms of mean and variance of past readings of the same spatial region of the image. While Eccentricity maps carry temporal information about the scene, actual images do not need to be stored nor processed in batches. Rather, all the calculations are done recursively, based on a small amount of statistical information stored in memory, thus resulting in a very computationally efficient (processor- and memory-wise) method. The list of potential applications includes video-based activity recognition, intent recognition, object tracking, video description, and so on.
翻訳日:2021-03-05 15:00:11 公開日:2021-03-03
# ビデオにおける非同期とスパースなヒューマンオブジェクトインタラクションの学習

Learning Asynchronous and Sparse Human-Object Interaction in Videos ( http://arxiv.org/abs/2103.02758v1 )

ライセンス: Link先を確認
Romero Morais, Vuong Le, Svetha Venkatesh, Truyen Tran(参考訳) 人間の活動はビデオから学ぶことができる。 効果的なモデリングにより、アクションラベルだけでなく、サブアクティビティの進行のようなアクティビティの時間的構造も発見できる。 生の映像信号からその構造を自動的に認識することは、本物のモデリングと人間とオブジェクトの相互作用の認識を成功させる新しい機能である。 この目的に向けて,ビデオシーン内のエンティティに関連付けられたインタラクションイベントの構造を自動的に検出できるリカレントグラフネットワークであるAsynchronous-Sparse Interaction Graph Networks (ASSIGN)を導入する。 先駆者は、その動的構造と共存する隣人との相互作用を含むビデオエンティティの自律的な振る舞いを学ぶ。 私たちのモデルにおけるエンティティの寿命は他のモデルと非同期なので、複雑なシナリオへの適応においてより柔軟です。 それらの相互作用は時間的にスパースするため、真の基礎となる性質に忠実であり、推論と学習においてより堅牢である。 ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。 モデルの時間構造を発見するネイティブな能力は、以前このタスクに必須だった外部セグメンテーションへの依存を排除します。

Human activities can be learned from video. With effective modeling it is possible to discover not only the action labels but also the temporal structures of the activities such as the progression of the sub-activities. Automatically recognizing such structure from raw video signal is a new capability that promises authentic modeling and successful recognition of human-object interactions. Toward this goal, we introduce Asynchronous-Sparse Interaction Graph Networks (ASSIGN), a recurrent graph network that is able to automatically detect the structure of interaction events associated with entities in a video scene. ASSIGN pioneers learning of autonomous behavior of video entities including their dynamic structure and their interaction with the coexisting neighbors. Entities' lives in our model are asynchronous to those of others therefore more flexible in adaptation to complex scenarios. Their interactions are sparse in time hence more faithful to the true underlying nature and more robust in inference and learning. ASSIGN is tested on human-object interaction recognition and shows superior performance in segmenting and labeling of human sub-activities and object affordances from raw videos. The native ability for discovering temporal structures of the model also eliminates the dependence on external segmentation that was previously mandatory for this task.
翻訳日:2021-03-05 14:59:54 公開日:2021-03-03
# クラス条件ラベル雑音の統計的仮説検定

Statistical Hypothesis Testing for Class-Conditional Label Noise ( http://arxiv.org/abs/2103.02630v1 )

ライセンス: Link先を確認
Rafael Poyiadzi, Weisong Yang, Niall Twomey, Raul Santos-Rodriguez(参考訳) この作業では、機械学習の実践者に質問に答えるためのツールを提供することを目的としています。 特に,与えられたインスタンスラベルペアのデータセットがクラス条件ラベルノイズで破損しているかどうかを確実に確認するための仮説テストを行う。 以前の研究では、ノイズレートの直接的な推定を探っているが、これは実際に難しいことが知られており、見積もりの信頼性について実際の理解を提供していない。 これらの手法は典型的にはアンカーポイントを必要とする - 真の後続が 0 または 1 である例。 異なることに、この論文では、真の後方が約1/2のアンカー点の集合にアクセスできると仮定する。 提案する仮説実験は,ロジスティック回帰モデルにおける最大度推定器の漸近特性に基づき,クラス条件雑音の存在を一様雑音と正確に区別する。 私達は訓練のサンプルのサイズ、アンカー点の数、騒音率の相違および現実的なリラックスしたアンカーの使用のテストへの力の依存の理論的で、経験的な分析を含むテストの主要な特性を、確立します。

In this work we aim to provide machine learning practitioners with tools to answer the question: is there class-conditional flipping noise in my labels? In particular, we present hypothesis tests to reliably check whether a given dataset of instance-label pairs has been corrupted with class-conditional label noise. While previous works explore the direct estimation of the noise rates, this is known to be hard in practice and does not offer a real understanding of how trustworthy the estimates are. These methods typically require anchor points - examples whose true posterior is either 0 or 1. Differently, in this paper we assume we have access to a set of anchor points whose true posterior is approximately 1/2. The proposed hypothesis tests are built upon the asymptotic properties of Maximum Likelihood Estimators for Logistic Regression models and accurately distinguish the presence of class-conditional noise from uniform noise. We establish the main properties of the tests, including a theoretical and empirical analysis of the dependence of the power on the test on the training sample size, the number of anchor points, the difference of the noise rates and the use of realistic relaxed anchors.
翻訳日:2021-03-05 14:54:43 公開日:2021-03-03
# Rotograd: マルチタスク学習のための動的勾配均質化

Rotograd: Dynamic Gradient Homogenization for Multi-Task Learning ( http://arxiv.org/abs/2103.02631v1 )

ライセンス: Link先を確認
Adri\'an Javaloy and Isabel Valera(参考訳) マルチタスク学習(MTL)はいくつかのドメインでうまく適用されていますが、依然として課題を引き起こします。 負の移動の結果、複数のタスクを同時に学習すると、予期せぬ結果に繋がる。 この望ましくない行動に寄与する重要な要因は、相反する勾配の問題である。 本稿では,共有表現を回転させることにより,すべてのタスクの勾配方向を均質化するMTL,Rotogradの新たなアプローチを提案する。 我々のアルゴリズムはStackelbergゲームとして形式化されており、安定性を保証することができる。 Rotogradは、タスク重み付けアプローチ(GradNormなど)と透過的に組み合わせて、負の移動を軽減し、堅牢な学習プロセスをもたらす。 いくつかのアーキテクチャ (ResNetなど) とデータセット (CIFARなど) に関する詳細な経験的評価は、我々の理論的な結果を検証し、Rotogradが以前のアプローチより優れていることを示す。 Pytorchの実装はhttps://github.com/a drianjav/rotograd で見ることができる。

While multi-task learning (MTL) has been successfully applied in several domains, it still triggers challenges. As a consequence of negative transfer, simultaneously learning several tasks can lead to unexpectedly poor results. A key factor contributing to this undesirable behavior is the problem of conflicting gradients. In this paper, we propose a novel approach for MTL, Rotograd, which homogenizes the gradient directions across all tasks by rotating their shared representation. Our algorithm is formalized as a Stackelberg game, which allows us to provide stability guarantees. Rotograd can be transparently combined with task-weighting approaches (e.g., GradNorm) to mitigate negative transfer, resulting in a robust learning process. Thorough empirical evaluation on several architectures (e.g., ResNet) and datasets (e.g., CIFAR) verifies our theoretical results, and shows that Rotograd outperforms previous approaches. A Pytorch implementation can be found in https://github.com/a drianjav/rotograd .
翻訳日:2021-03-05 14:54:24 公開日:2021-03-03
# 後継機能セット:ポリシー間の後継表現の一般化

Successor Feature Sets: Generalizing Successor Representations Across Policies ( http://arxiv.org/abs/2103.02650v1 )

ライセンス: Link先を確認
Kiant\'e Brantley, Soroush Mehri, Geoffrey J. Gordon(参考訳) 例えば、エージェントが過去の経験から新しい目標へと一般化するのを手助けすることができ、人間や動物の学習者からの行動や神経データの説明として提案されている。 また、モデルベースとモデルフリーのRLメソッドの間に自然なブリッジを形成し、前者と同様に将来の経験について予測し、後者と同様に、全割引報酬の効率的な予測を可能にする。 しかし、後継スタイルの表現は、ポリシー間の一般化に最適化されていない:典型的には、ポリシーの限られたリストを保持し、表現学習やgpiによって情報を共有する。 後継スタイルの表現は、通常、潜在変数に関する情報の収集や推論を規定しない。 これらの制限に対処するために、我々は予測状態表現、信念空間値反復、後継機能、凸解析からのアイデアをまとめる:我々は、異なる潜在状態、ポリシー、報酬関数を含む、この表現内の複数の情報ソースを接続するベルマン方程式と共に、新しい一般的な後継スタイルの表現を開発する。 例えば、新しい報酬機能のための最適なポリシーや、新しいデモを模倣したポリシーを効率的に読み取ることができます。 本稿では,この制限された設定でさえ,多くの興味深い疑問をもたらすため,新しい表現を小さく,既知の環境で正確に計算することに焦点を当てる。 我々の実装は、大規模で未知の環境にスケールしません - POMDP値の反復を一般化し、スケールが難しいので、期待してもよいでしょう。 しかし、将来の作業によって、大きな未知の環境において、アイデアを近似推論に拡張できると信じています。

Successor-style representations have many advantages for reinforcement learning: for example, they can help an agent generalize from past experience to new goals, and they have been proposed as explanations of behavioral and neural data from human and animal learners. They also form a natural bridge between model-based and model-free RL methods: like the former they make predictions about future experiences, and like the latter they allow efficient prediction of total discounted rewards. However, successor-style representations are not optimized to generalize across policies: typically, we maintain a limited-length list of policies, and share information among them by representation learning or GPI. Successor-style representations also typically make no provision for gathering information or reasoning about latent variables. To address these limitations, we bring together ideas from predictive state representations, belief space value iteration, successor features, and convex analysis: we develop a new, general successor-style representation, together with a Bellman equation that connects multiple sources of information within this representation, including different latent states, policies, and reward functions. The new representation is highly expressive: for example, it lets us efficiently read off an optimal policy for a new reward function, or a policy that imitates a new demonstration. For this paper, we focus on exact computation of the new representation in small, known environments, since even this restricted setting offers plenty of interesting questions. Our implementation does not scale to large, unknown environments -- nor would we expect it to, since it generalizes POMDP value iteration, which is difficult to scale. However, we believe that future work will allow us to extend our ideas to approximate reasoning in large, unknown environments.
翻訳日:2021-03-05 14:54:07 公開日:2021-03-03
# 教師なし変数選択のための欲望探索アルゴリズム--比較研究

Greedy Search Algorithms for Unsupervised Variable Selection: A Comparative Study ( http://arxiv.org/abs/2103.02687v1 )

ライセンス: Link先を確認
Federico Zocco, Marco Maggipinto, Gian Antonio Susto and Se\'an McLoone(参考訳) ディメンショナリティの低減は、特に多数の候補変数がある場合、スケーラブルで解釈可能なデータ駆動モデルの開発において重要なステップです。 本論文では,非教師付き変数選択に基づく次元還元,特に,最適部分集合選択に対する計算的トラクタブル近似として,様々な研究者が提案した教師なし勾配選択法に焦点を当てる。 これらの方法は、二乗相関、説明分散、相互情報およびフレームポテンシャルを含む、採用された選択基準によって大きく区別される。 これらの異なる手法を体系的に比較した文献の欠如に動機づけられ,シミュレーションと実世界のケーススタディの両方を考慮した7つの教師なし変数選択アルゴリズムを批判的に評価した。 また、性能保証を提供する理論結果をレビューし、部分モジュラリティの概念に関連するある種の欲求選択関数に対する効率的な実装を可能にする。 さらに、前方選択成分分析(FSCA)アルゴリズムに基づいて説明された分散の遅延実装を初めて導入し、評価します。 実験結果から,(1) フレームポテンシャルよりも分散説明および相互情報に基づく選択法の方が近似誤差が小さいこと,(2) 遅延FSCAの実装はFSCAと同等の性能を持ち,しかも計算速度は桁違いに速く,教師なし変数選択のアルゴリズムとして選択できること,などが示唆された。

Dimensionality reduction is a important step in the development of scalable and interpretable data-driven models, especially when there are a large number of candidate variables. This paper focuses on unsupervised variable selection based dimensionality reduction, and in particular on unsupervised greedy selection methods, which have been proposed by various researchers as computationally tractable approximations to optimal subset selection. These methods are largely distinguished from each other by the selection criterion adopted, which include squared correlation, variance explained, mutual information and frame potential. Motivated by the absence in the literature of a systematic comparison of these different methods, we present a critical evaluation of seven unsupervised greedy variable selection algorithms considering both simulated and real world case studies. We also review the theoretical results that provide performance guarantees and enable efficient implementations for certain classes of greedy selection function, related to the concept of submodularity. Furthermore, we introduce and evaluate for the first time, a lazy implementation of the variance explained based forward selection component analysis (FSCA) algorithm. Our experimental results show that: (1) variance explained and mutual information based selection methods yield smaller approximation errors than frame potential; (2) the lazy FSCA implementation has similar performance to FSCA, while being an order of magnitude faster to compute, making it the algorithm of choice for unsupervised variable selection.
翻訳日:2021-03-05 14:53:39 公開日:2021-03-03
# Open-RANネットワークにおけるリソース割り当てのための自己再生学習戦略

Self-play Learning Strategies for Resource Assignment in Open-RAN Networks ( http://arxiv.org/abs/2103.02649v1 )

ライセンス: Link先を確認
Xiaoyang Wang, Jonathan D Thomas, Robert J Piechocki, Shipra Kapoor, Raul Santos-Rodriguez, Arjun Parekh(参考訳) Open Radio Access Network(ORAN)は、大規模なIoTやURLLCなど、さまざまなQoS要件のネットワークサービスをサポートするため、アクセスの民主化と将来のモバイルデータネットワークのコストの削減を目的として開発されています。 ORANでは、ネットワーク機能は、リモートユニット(RU)、分散ユニット(DU)、中央ユニット(CU)に分解され、商業オフシェルフ(COTS)展開上の柔軟なソフトウェアを可能にします。 さらに、将来の集中処理のためのローカルなモバイルエッジコンピューティングセンタへの可変ru要求のマッピングは、セルラーネットワークの消費電力を大幅に削減する。 本稿では,2次元ビンパッキング問題としてモデル化されたoranシステムにおけるru-duリソース割り当て問題について検討する。 AlphaGo Zeroにインスパイアされたニューラルモンテカルロツリーサーチ(MCTS)を用いて,効率的なRU-DU資源管理を実現するために,深層強化学習に基づくセルフプレイ手法を提案する。 代表的2次元ビンパッキング環境と実地データを用いた実験により,ネットワーク条件の異なる知的ru-duリソース割り当てを実現する。

Open Radio Access Network (ORAN) is being developed with an aim to democratise access and lower the cost of future mobile data networks, supporting network services with various QoS requirements, such as massive IoT and URLLC. In ORAN, network functionality is dis-aggregated into remote units (RUs), distributed units (DUs) and central units (CUs), which allows flexible software on Commercial-Off-The-S helf (COTS) deployments. Furthermore, the mapping of variable RU requirements to local mobile edge computing centres for future centralized processing would significantly reduce the power consumption in cellular networks. In this paper, we study the RU-DU resource assignment problem in an ORAN system, modelled as a 2D bin packing problem. A deep reinforcement learning-based self-play approach is proposed to achieve efficient RU-DU resource management, with AlphaGo Zero inspired neural Monte-Carlo Tree Search (MCTS). Experiments on representative 2D bin packing environment and real sites data show that the self-play learning strategy achieves intelligent RU-DU resource assignment for different network conditions.
翻訳日:2021-03-05 14:51:58 公開日:2021-03-03
# 確率帯域における露光の公正性

Fairness of Exposure in Stochastic Bandits ( http://arxiv.org/abs/2103.02735v1 )

ライセンス: Link先を確認
Lequn Wang, Yiwei Bai, Wen Sun, Thorsten Joachims(参考訳) コンテキスト的バンディットアルゴリズムは、オンラインシステム(例えば)における推奨に広く使われている。 マーケットプレース、音楽ストリーミング、ニュース)では、どのアイテムがユーザーに露出するかに大きな影響を与えている。 これにより、アイテムと、この露出の恩恵を受ける売り手、アーティスト、作家に公平性に関する質問が提起されます。 我々は、従来のバンディットの定式化は望ましくない不公平な勝者獲得につながると論じている。 そこで本研究では,ユーザに対して有用性を最適化しながら,アイテムへの露出の公平性を保証する新たなバンディット目標を提案する。 我々は, 公平な後悔と後悔の報いを定式化し, 確率的多腕バンディットと確率的線形バンディットの両方に対してアルゴリズムを提案する。 このアルゴリズムは, 線形不公平を後悔し, 後悔を報いることを証明した。 理論解析以外にも、これらのアルゴリズムが異なる腕への露出を効果的にアロケートできるという実証的な証拠も提供する。

Contextual bandit algorithms have become widely used for recommendation in online systems (e.g. marketplaces, music streaming, news), where they now wield substantial influence on which items get exposed to the users. This raises questions of fairness to the items -- and to the sellers, artists, and writers that benefit from this exposure. We argue that the conventional bandit formulation can lead to an undesirable and unfair winner-takes-all allocation of exposure. To remedy this problem, we propose a new bandit objective that guarantees merit-based fairness of exposure to the items while optimizing utility to the users. We formulate fairness regret and reward regret in this setting, and present algorithms for both stochastic multi-armed bandits and stochastic linear bandits. We prove that the algorithms achieve sub-linear fairness regret and reward regret. Beyond the theoretical analysis, we also provide empirical evidence that these algorithms can fairly allocate exposure to different arms effectively.
翻訳日:2021-03-05 14:47:11 公開日:2021-03-03
# モノのインターネットのための分散機械学習技術の評価と最適化

Evaluation and Optimization of Distributed Machine Learning Techniques for Internet of Things ( http://arxiv.org/abs/2103.02762v1 )

ライセンス: Link先を確認
Yansong Gao, Minki Kim, Chandra Thapa, Sharif Abuadbba, Zhi Zhang, Seyit A. Camtepe, Hyoungshick Kim, Surya Nepal(参考訳) フェデレーションラーニング(FL)とスプリットラーニング(SL)は、クライアントまたはエンドデバイス上の生データにアクセスすることなく機械学習トレーニングを可能にする最先端の分散機械学習技術です。 しかし、実世界のリソース制限されたIoT(Internet of Things, モノのインターネット)デバイス設定(Raspberry Piなど)における彼らの「emph{比較トレーニングパフォーマンス」は、まだほとんど研究されていない。 この研究は、(i)不均一なデータ分散による学習性能と(ii)デバイス上での実行オーバーヘッドに関する実世界のIoT設定におけるFLとSLの実証的な比較を提供する。 本研究では,不均衡なデータ分布ではSLの学習性能はFLより優れているが,非IIDデータ分布ではFLより劣っていることを示す。 近年、FLとSLは、それぞれの利点(例えば、FLの並列トレーニングとSLの軽量オンデバイス計算要求)を活用するために、分割学習(SFL)を形成している。 この作業では、FL、SL、SFLを考慮し、Raspberry Piデバイスにマウントして、トレーニング時間、通信オーバーヘッド、消費電力、メモリ使用量などのパフォーマンスを評価します。 評価の他に2つの最適化を適用する。 まず,サーバ側でのハイブリッド型モデルトレーニングの可能性を検討することで,SFLを一般化する。 一般化されたSFLは、モデルトレーニングのシーケンシャル(独立)と並列(独立)のプロセスをマージし、大規模IoTデバイス、特にサーバサイド操作のシステムにとって有益である。 第2に,SLと(一般化)SFLの通信オーバーヘッドを最大4倍に削減する実用的手法を提案する。

Federated learning (FL) and split learning (SL) are state-of-the-art distributed machine learning techniques to enable machine learning training without accessing raw data on clients or end devices. However, their \emph{comparative training performance} under real-world resource-restricted Internet of Things (IoT) device settings, e.g., Raspberry Pi, remains barely studied, which, to our knowledge, have not yet been evaluated and compared, rendering inconvenient reference for practitioners. This work firstly provides empirical comparisons of FL and SL in real-world IoT settings regarding (i) learning performance with heterogeneous data distributions and (ii) on-device execution overhead. Our analyses in this work demonstrate that the learning performance of SL is better than FL under an imbalanced data distribution but worse than FL under an extreme non-IID data distribution. Recently, FL and SL are combined to form splitfed learning (SFL) to leverage each of their benefits (e.g., parallel training of FL and lightweight on-device computation requirement of SL). This work then considers FL, SL, and SFL, and mount them on Raspberry Pi devices to evaluate their performance, including training time, communication overhead, power consumption, and memory usage. Besides evaluations, we apply two optimizations. Firstly, we generalize SFL by carefully examining the possibility of a hybrid type of model training at the server-side. The generalized SFL merges sequential (dependent) and parallel (independent) processes of model training and is thus beneficial for a system with large-scaled IoT devices, specifically at the server-side operations. Secondly, we propose pragmatic techniques to substantially reduce the communication overhead by up to four times for the SL and (generalized) SFL.
翻訳日:2021-03-05 14:43:06 公開日:2021-03-03
# Stata/Pythonを用いた機械学習

Machine Learning using Stata/Python ( http://arxiv.org/abs/2103.03122v1 )

ライセンス: Link先を確認
Giovanni Cerulli(参考訳) 本稿では、回帰と分類の両方で一般的な機械学習(ML)手法を適合させるために、関連する2つの Stata モジュール r_ml_stata と c_ml_stata を提案する。 stata 16 の stata/python 統合プラットフォーム (sfi) を使用して、これらのコマンドは greed search を用いた k-fold cross-validation によるハイパーパラメータの最適なチューニングを提供する。 具体的には、Python Scikit-learn APIを使用して、クロスバリデーションと結果/ラベル予測の両方を実行する。

We present two related Stata modules, r_ml_stata and c_ml_stata, for fitting popular Machine Learning (ML) methods both in regression and classification settings. Using the recent Stata/Python integration platform (sfi) of Stata 16, these commands provide hyper-parameters 7; optimal tuning via K-fold cross-validation using greed search. More specifically, they make use of the Python Scikit-learn API to carry out both cross-validation and outcome/label prediction.
翻訳日:2021-03-05 14:42:16 公開日:2021-03-03
# 実世界のポイントクラウドからのスケーラブルなシーンフロー

Scalable Scene Flow from Point Clouds in the Real World ( http://arxiv.org/abs/2103.01306v2 )

ライセンス: Link先を確認
Philipp Jund, Chris Sweeney, Nichola Abdo, Zhifeng Chen, Jonathon Shlens(参考訳) 自動運転車は、非常にダイナミックな環境で動作し、シーンのどの側面が動いているのか、どこに移動するのかを正確に評価する必要がある。 シーンフローと呼ばれる3Dモーション推定の一般的なアプローチは、連続するLiDARスキャンから3Dポイントクラウドデータを採用することであるが、そのようなアプローチは実際のLiDARデータの小さなサイズによって制限されている。 本稿では,waymo open datasetに基づくシーンフローのための新しい大規模ベンチマークを提案する。 データセットは、注釈付きフレームの数の観点から、以前の現実世界のデータセットよりも$\sim$1,000$\times$大きく、対応する追跡された3Dオブジェクトから導出される。 我々は,従来の作業が実際のLiDARデータの量に基づいてバウンドされていることを実証し,最先端の予測性能を達成するためにはより大きなデータセットが必要であることを示唆した。 さらに, 従来, ダウンサンプリングによる性能低下など, ポイントクラウド上での動作に関するヒューリスティックスが, フルポイントクラウド上でのトラクタブルな新たなモデルの動機となっていることを示す。 この問題に対処するため、フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。 最後に,この問題は,ラベルなし物体の運動を予測する手法を一般化するためのオープン問題を強調することで,半教師付き学習の手法に適応できることを実証する。 このデータセットが、現実世界のシーンフローシステムの開発と、新しい機械学習問題への動機付けに新たな機会を提供することを期待している。

Autonomous vehicles operate in highly dynamic environments necessitating an accurate assessment of which aspects of a scene are moving and where they are moving to. A popular approach to 3D motion estimation -- termed scene flow -- is to employ 3D point cloud data from consecutive LiDAR scans, although such approaches have been limited by the small size of real-world, annotated LiDAR data. In this work, we introduce a new large scale benchmark for scene flow based on the Waymo Open Dataset. The dataset is $\sim$1,000$\times$ larger than previous real-world datasets in terms of the number of annotated frames and is derived from the corresponding tracked 3D objects. We demonstrate how previous works were bounded based on the amount of real LiDAR data available, suggesting that larger datasets are required to achieve state-of-the-art predictive performance. Furthermore, we show how previous heuristics for operating on point clouds such as artificial down-sampling heavily degrade performance, motivating a new class of models that are tractable on the full point cloud. To address this issue, we introduce the model architecture FastFlow3D that provides real time inference on the full point cloud. Finally, we demonstrate that this problem is amenable to techniques from semi-supervised learning by highlighting open problems for generalizing methods for predicting motion on unlabeled objects. We hope that this dataset may provide new opportunities for developing real world scene flow systems and motivate a new class of machine learning problems.
翻訳日:2021-03-05 13:04:51 公開日:2021-03-03
# 分散トレーニングシステムにおける勾配圧縮の有用性について

On the Utility of Gradient Compression in Distributed Training Systems ( http://arxiv.org/abs/2103.00543v2 )

ライセンス: Link先を確認
Saurabh Agarwal, Hongyi Wang, Shivaram Venkataraman, Dimitris Papailiopoulos(参考訳) データセットの急速な成長とニューラルネットワークアーキテクチャのスケールは、分散トレーニングを必要としている。 事前作業の豊富なボディは、同期データ並列トレーニングにおける通信ボトルネックの存在を強調している。 これらのボトルネックを軽減するため、機械学習コミュニティでは、勾配とモデル圧縮手法の開発に重点を置いている。 並行して、システムコミュニティは分散トレーニングをスピードアップするためにいくつかのハイパフォーマンスコンピューティング(hpc)技術を採用した。 本研究では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。 意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。 我々は,この現象の根本原因を特定するために広範囲な調査を行い,様々なシステム構成に対する勾配圧縮の利点を特定するために使用できる性能モデルを提供する。 解析に基づいて, 勾配圧縮法が満足すべき望ましい特性のリストを提案し, それらが有意義なエンドツーエンドの高速化を実現する。

Rapid growth in data sets and the scale of neural network architectures have rendered distributed training a necessity. A rich body of prior work has highlighted the existence of communication bottlenecks in synchronous data-parallel training. To alleviate these bottlenecks, the machine learning community has largely focused on developing gradient and model compression methods. In parallel, the systems community has adopted several High Performance Computing (HPC)techniques to speed up distributed training. In this work, we evaluate the efficacy of gradient compression methods and compare their scalability with optimized implementations of synchronous data-parallel SGD. Surprisingly, we observe that due to computation overheads introduced by gradient compression, the net speedup over vanilla data-parallel training is marginal, if not negative. We conduct an extensive investigation to identify the root causes of this phenomenon, and offer a performance model that can be used to identify the benefits of gradient compression for a variety of system setups. Based on our analysis, we propose a list of desirable properties that gradient compression methods should satisfy, in order for them to provide a meaningful end-to-end speedup
翻訳日:2021-03-05 13:00:53 公開日:2021-03-03
# 動的ガウス混合型深部生成モデルによる疎多変量時系列のロバスト予測

Dynamic Gaussian Mixture based Deep Generative Model For Robust Forecasting on Sparse Multivariate Time Series ( http://arxiv.org/abs/2103.02164v1 )

ライセンス: Link先を確認
Yinjun Wu, Jingchao Ni, Wei Cheng, Bo Zong, Dongjin Song, Zhengzhang Chen, Yanchi Liu, Xuchao Zhang, Haifeng Chen, Susan Davidson(参考訳) スパース多変量時系列 (sparse multivariate time series, mts) の予測は、不完全な過去をたどる時系列の将来の値の予測因子をモデル化することを目的としている。 しかし、既存のほとんどの手法はMSSを個別に処理し、MSSの基盤となる動的分布を利用せず、スパーシティが高い場合には準最適結果をもたらす。 この課題に対処するため,我々は,孤立した特徴表現の代わりに潜在クラスタの遷移を追跡し,ロバストなモデリングを実現する新しい生成モデルを提案する。 新たに設計された動的ガウス混合分布は、クラスタリング構造のダイナミクスを捉え、時系列を発生させるのに用いられる。 生成モデルはニューラルネットワークによってパラメータ化される。 帰納的解析を可能にするために構造化推論ネットワークも設計されている。 さらにゲーティング機構を導入し、ガウス混合分布を動的にチューニングする。 各種実生活データセットに関する広範な実験結果が,本手法の有効性を実証した。

Forecasting on sparse multivariate time series (MTS) aims to model the predictors of future values of time series given their incomplete past, which is important for many emerging applications. However, most existing methods process MTS's individually, and do not leverage the dynamic distributions underlying the MTS's, leading to sub-optimal results when the sparsity is high. To address this challenge, we propose a novel generative model, which tracks the transition of latent clusters, instead of isolated feature representations, to achieve robust modeling. It is characterized by a newly designed dynamic Gaussian mixture distribution, which captures the dynamics of clustering structures, and is used for emitting timeseries. The generative model is parameterized by neural networks. A structured inference network is also designed for enabling inductive analysis. A gating mechanism is further introduced to dynamically tune the Gaussian mixture distributions. Extensive experimental results on a variety of real-life datasets demonstrate the effectiveness of our method.
翻訳日:2021-03-04 15:14:00 公開日:2021-03-03
# RelateとPredict: 共同最適化ニューラルDAGによる構造認識予測

Relate and Predict: Structure-Aware Prediction with Jointly Optimized Neural DAG ( http://arxiv.org/abs/2103.02405v1 )

ライセンス: Link先を確認
Arshdeep Sekhon, Zhe Wang, Yanjun Qi(参考訳) 機能変数間の関係を理解することは、人間が意思決定に使う重要な方法の1つです。 しかし、最先端のディープラーニング研究は、タスクに依存しない統計的依存関係学習にフォーカスするか、予測中に明示的な機能依存性をモデル化しない。 ニューラルネットワークフレームワークdGAPを提案し、ニューラルネットワーク依存性グラフを学習し、構造認識ターゲット予測を同時に最適化する。 dGAPは構造物の自己超越損失と目標予測損失を共同で訓練する。 このメソッドは、スパースな機能関係を解き放つことができる解釈可能なモデルにつながり、関連する依存関係がターゲットタスクにどのように影響するかをユーザーに知らせます。 複数のシミュレーションデータセットと実データセットでdGAPを実証的に評価する。 dGAPはより正確であるだけでなく、正確な依存構造を復元することもできる。

Understanding relationships between feature variables is one important way humans use to make decisions. However, state-of-the-art deep learning studies either focus on task-agnostic statistical dependency learning or do not model explicit feature dependencies during prediction. We propose a deep neural network framework, dGAP, to learn neural dependency Graph and optimize structure-Aware target Prediction simultaneously. dGAP trains towards a structure self-supervision loss and a target prediction loss jointly. Our method leads to an interpretable model that can disentangle sparse feature relationships, informing the user how relevant dependencies impact the target task. We empirically evaluate dGAP on multiple simulated and real datasets. dGAP is not only more accurate, but can also recover correct dependency structure.
翻訳日:2021-03-04 15:13:45 公開日:2021-03-03
# deep adaptive design: amortizing sequential bayesian experimental design

Deep Adaptive Design: Amortizing Sequential Bayesian Experimental Design ( http://arxiv.org/abs/2103.02438v1 )

ライセンス: Link先を確認
Adam Foster, Desi R. Ivanova, Ilyas Malik, Tom Rainforth(参考訳) ベイズ最適実験設計(BOED)の枠組みを用いて連続適応実験を行うコストを償却するための一般的な方法であるDeep Adaptive Design(DAD)を紹介します。 従来のシーケンシャルBOEDアプローチは実験の各段階でかなりの計算時間を必要とする。 これにより、ほとんどの現実世界のアプリケーションには適さないが、意思決定は通常、素早く行う必要がある。 DADはこの制限に対処するため、前もって償却設計ネットワークを学習し、デプロイ時に(複数)適応的な実験を迅速に実行する。 このネットワークは、前のステップからデータを入力して、1つのフォワードパスを使用して次の設計を出力します。これらの設計決定は、ライブ実験中にミリ秒で行うことができます。 ネットワークを訓練するために,シーケンシャルな設定に適した目的であるコントラスト情報境界を導入し,鍵対称性を利用するカスタマイズされたネットワークアーキテクチャを提案する。 DADが実験設計のプロセスに成功したことを実証し、いくつかの問題に対する代替戦略を上回ります。

We introduce Deep Adaptive Design (DAD), a general method for amortizing the cost of performing sequential adaptive experiments using the framework of Bayesian optimal experimental design (BOED). Traditional sequential BOED approaches require substantial computational time at each stage of the experiment. This makes them unsuitable for most real-world applications, where decisions must typically be made quickly. DAD addresses this restriction by learning an amortized design network upfront and then using this to rapidly run (multiple) adaptive experiments at deployment time. This network takes as input the data from previous steps, and outputs the next design using a single forward pass; these design decisions can be made in milliseconds during the live experiment. To train the network, we introduce contrastive information bounds that are suitable objectives for the sequential setting, and propose a customized network architecture that exploits key symmetries. We demonstrate that DAD successfully amortizes the process of experimental design, outperforming alternative strategies on a number of problems.
翻訳日:2021-03-04 15:13:32 公開日:2021-03-03
# 説明可能なメラノーマ診断のためのバルク生産増強

Bulk Production Augmentation Towards Explainable Melanoma Diagnosis ( http://arxiv.org/abs/2103.02198v1 )

ライセンス: Link先を確認
Kasumi Obi, Quan Huu Cap, Noriko Umegaki-Arao, Masaru Tanaka, Hitoshi Iyatomi(参考訳) メラノーマの高精度自動診断技術が報告されているが,信頼性の高いトレーニングデータを得ることが困難であるため,医療指標に基づく診断証拠を提供するシステムの実現は未解決の課題である。 本稿では,限られた数のラベル付き画像から追加訓練画像に所望の構造的悪性特徴を有する高品質で多彩な疑似スキン腫瘍画像を生成するために,バルク生産増強法を提案する。 提案したBPAは、メラノーマ診断における重要な構造である非定型顔料ネットワーク(APN)の特徴検出器の構築に有効なデータ拡張として機能する。 実験の結果,BPAが生成した画像によるトレーニングは,AUCの従来のCycleGANによる拡張よりも11.5~13.7ポイント高い受信特性曲線下において,APN検出性能を20.0ポイント向上させることがわかった。

Although highly accurate automated diagnostic techniques for melanoma have been reported, the realization of a system capable of providing diagnostic evidence based on medical indices remains an open issue because of difficulties in obtaining reliable training data. In this paper, we propose bulk production augmentation (BPA) to generate high-quality, diverse pseudo-skin tumor images with the desired structural malignant features for additional training images from a limited number of labeled images. The proposed BPA acts as an effective data augmentation in constructing the feature detector for the atypical pigment network (APN), which is a key structure in melanoma diagnosis. Experiments show that training with images generated by our BPA largely boosts the APN detection performance by 20.0 percentage points in the area under the receiver operating characteristic curve, which is 11.5 to 13.7 points higher than that of conventional CycleGAN-based augmentations in AUC.
翻訳日:2021-03-04 15:13:17 公開日:2021-03-03
# DeepFN:Deep Face Normalizationによる顔認識の一般化に向けて

DeepFN: Towards Generalizable Facial Action Unit Recognition with Deep Face Normalization ( http://arxiv.org/abs/2103.02484v1 )

ライセンス: Link先を確認
Javier Hernandez, Daniel McDuff, Ognjen (Oggi) Rudovic, Alberto Fung, Mary Czerwinski(参考訳) 顔行動単位認識は、市場研究から精神療法、画像キャプションからエンターテイメントまで、多くの応用がある。 最近の進歩にもかかわらず、これらのモデルの展開は、見えない人々や人口層への限定的な一般化のために妨げられています。 この研究は、個人(40名)、性別(男性と女性)、肌の種類(ダークとライター)、データベース(bp4dとdisfa)など、さまざまな次元のパフォーマンスを詳細に分析している。 データのばらつきを抑制するために, 自己監視型自動エンコーダの概念を用いて, 深顔正規化 (DeepFN) の手法を設計し, 異なる人の表情を共通の顔認識テンプレートに転送し, 顔認識モデルの訓練と評価を行う。 個人非依存モデルでは, 個人依存モデル (60.3%) よりも性能が有意に低く, 平均F1は55%, 精度は40名に対して60.3%, 一般化ギャップは5.3%であった。 しかし、新たに導入されたDeepFNによるデータの正規化は、個人に依存しないモデル(59.6%)の性能を大幅に向上させ、ギャップを効果的に減らした。 同様に、deepfnの使用により大幅に減少した性別(2.4%)、肌型(5.3%)、データセット(9.4%)を考慮した場合、一般化ギャップが観察された。 これらの知見は、より一般化可能な顔行動単位認識システムの構築に向けた重要なステップである。

Facial action unit recognition has many applications from market research to psychotherapy and from image captioning to entertainment. Despite its recent progress, deployment of these models has been impeded due to their limited generalization to unseen people and demographics. This work conducts an in-depth analysis of performance across several dimensions: individuals(40 subjects), genders (male and female), skin types (darker and lighter), and databases (BP4D and DISFA). To help suppress the variance in data, we use the notion of self-supervised denoising autoencoders to design a method for deep face normalization(DeepFN ) that transfers facial expressions of different people onto a common facial template which is then used to train and evaluate facial action recognition models. We show that person-independent models yield significantly lower performance (55% average F1 and accuracy across 40 subjects) than person-dependent models (60.3%), leading to a generalization gap of 5.3%. However, normalizing the data with the newly introduced DeepFN significantly increased the performance of person-independent models (59.6%), effectively reducing the gap. Similarly, we observed generalization gaps when considering gender (2.4%), skin type (5.3%), and dataset (9.4%), which were significantly reduced with the use of DeepFN. These findings represent an important step towards the creation of more generalizable facial action unit recognition systems.
翻訳日:2021-03-04 15:13:00 公開日:2021-03-03
# CogNet: 言語知識、世界知識、常識知識の橋渡し

CogNet: Bridging Linguistic Knowledge, World Knowledge and Commonsense Knowledge ( http://arxiv.org/abs/2103.02141v1 )

ライセンス: Link先を確認
Chenhao Wang, Yubo Chen, Zhipeng Xue, Yang Zhou, Jun Zhao(参考訳) 本論文では,(1) FrameNetの言語的知識,すなわち状況,オブジェクト,イベントを図式的に記述する知識の統合を目的とした知識基盤(KB)であるCogNetについて述べる。 (2)特定のインスタンスに関する明示的な知識を提供するyago、freebase、dbpedia、wikidataからの世界知識。 3) 暗黙の一般事実を記述する概念ネットからの常識知識。 異なる種類の知識を一貫してモデル化するために,3レベル統一フレームスタイル表現アーキテクチャを導入する。 自由形式のコモンセンス知識を他の構造化知識と統合するために,自動ラベリングとクラウドソースアノテーションを組み合わせた戦略を提案する。 現在CogNetは、言語KBから1,000以上のセマンティクスフレーム、世界KBから20,000,000以上のフレームインスタンス、およびコモンセンスKBから90,000以上のコモンセンスアサーションを統合しています。 これらのデータは、オンラインプラットフォーム上で簡単にクエリされ、探索でき、CC-BY-SA 4.0ライセンスの下でRDF形式で無料でダウンロードできる。 デモとデータはhttp://cognet.top/で入手できる。

In this paper, we present CogNet, a knowledge base (KB) dedicated to integrating three types of knowledge: (1) linguistic knowledge from FrameNet, which schematically describes situations, objects and events. (2) world knowledge from YAGO, Freebase, DBpedia and Wikidata, which provides explicit knowledge about specific instances. (3) commonsense knowledge from ConceptNet, which describes implicit general facts. To model these different types of knowledge consistently, we introduce a three-level unified frame-styled representation architecture. To integrate free-form commonsense knowledge with other structured knowledge, we propose a strategy that combines automated labeling and crowdsourced annotation. At present, CogNet integrates 1,000+ semantic frames from linguistic KBs, 20,000,000+ frame instances from world KBs, as well as 90,000+ commonsense assertions from commonsense KBs. All these data can be easily queried and explored on our online platform, and free to download in RDF format for utilization under a CC-BY-SA 4.0 license. The demo and data are available at http://cognet.top/.
翻訳日:2021-03-04 15:12:34 公開日:2021-03-03
# コードスイッチ検出のための注意に基づくニューラルネットワーク - English & Roman Urdu

An Attention Based Neural Network for Code Switching Detection: English & Roman Urdu ( http://arxiv.org/abs/2103.02252v1 )

ライセンス: Link先を確認
Aizaz Hussain, Muhammad Umair Arshad(参考訳) コードスイッチングは、様々な言語背景を持つ人々の間で共通の現象であり、通信目的でインターネットで広く使われている。 本稿では,コードスイッチデータにおける言語識別のための注意モデルと低リソースのロマ・ウルドゥを組み合わせた繰り返しニューラルネットワークを提案する。 注意モデルは、アーキテクチャが言語の重要な特徴を学ぶことを可能にするため、コード交換データを分類します。 結果と美術モデルの状況を比較することで,そのアプローチを実証した。 隠れマルコフモデル, 条件ランダム場および双方向LSTM 混乱行列メトリクスを用いたモデル評価の結果,注意機構は他のモデルと比較して精度と精度が向上した。

Code-switching is a common phenomenon among people with diverse lingual background and is widely used on the internet for communication purposes. In this paper, we present a Recurrent Neural Network combined with the Attention Model for Language Identification in Code-Switched Data in English and low resource Roman Urdu. The attention model enables the architecture to learn the important features of the languages hence classifying the code switched data. We demonstrated our approach by comparing the results with state of the art models i.e. Hidden Markov Models, Conditional Random Field and Bidirectional LSTM. The models evaluation, using confusion matrix metrics, showed that the attention mechanism provides improved the precision and accuracy as compared to the other models.
翻訳日:2021-03-04 15:12:15 公開日:2021-03-03
# グループ的阻害に基づくロバスト分類の特徴正規化

Group-wise Inhibition based Feature Regularization for Robust Classification ( http://arxiv.org/abs/2103.02152v1 )

ライセンス: Link先を確認
Haozhe Liu, Haoqian Wu, Weicheng Xie, Feng Liu and Linlin Shen(参考訳) バニラ畳み込みニューラルネットワーク(CNN)は、小さなバリエーション(例えば)の画像に対して脆弱である。 腐敗し 敵対的なサンプル) 考えられる理由の1つは、CNNが最も差別的な地域にもっと注意を払っていますが、補助機能を無視し、機能の多様性の欠如につながります。 本手法では,バニラCNNの有効活性化値をグループ的抑制によって動的に抑制するが,トレーニング時に修正やランダムに扱わない。 そして、特徴の独立性により、アクティベーション分布が異なる特徴マップを別々に処理する。 Vanilla CNNは最終的に、提案された正規化に従って堅牢な分類のために、よりリッチな識別機能を階層的に学ぶように導かれる。 提案手法は,最先端技術と比較して15%以上のロバスト性を実現することができる。 また, 本提案手法は, 対人訓練など他の防御パラダイムを補完し, 堅牢性の向上を図っている。

The vanilla convolutional neural network (CNN) is vulnerable to images with small variations (e.g. corrupted and adversarial samples). One of the possible reasons is that CNN pays more attention to the most discriminative regions, but ignores the auxiliary features, leading to the lack of feature diversity. In our method , we propose to dynamically suppress significant activation values of vanilla CNN by group-wise inhibition, but not fix or randomly handle them when training. Then, the feature maps with different activation distribution are processed separately due to the independence of features. Vanilla CNN is finally guided to learn more rich discriminative features hierarchically for robust classification according to proposed regularization. The proposed method is able to achieve a significant gain of robustness over 15% comparing with the state-of-the-art. We also show that the proposed regularization method complements other defense paradigms, such as adversarial training, to further improve the robustness.
翻訳日:2021-03-04 15:11:33 公開日:2021-03-03
# 3次元ガバーテンプレートとブロック特徴化に基づくタッチレスパームプリント認識

Touchless Palmprint Recognition based on 3D Gabor Template and Block Feature Refinement ( http://arxiv.org/abs/2103.02167v1 )

ライセンス: Link先を確認
Zhaoqun Li, Xu Liang, Dandan Fan, Jinxing Li, Wei Jia, David Zhang(参考訳) 手の衛生や使いやすさの需要が高まる中、手の触れない手のひら文字認識は近年大きな発展を遂げ、個人識別に有効なソリューションとなった。 この領域に多くの努力が注がれているが、接触のないヤシプリントの識別能力、特に大規模データセットについてはまだ不明である。 そこで本論文では,1167名から2334名のパームを含む大規模タッチレスパームプリントデータセットを構築した。 私達の最良の知識に、それは個人および手のひらの数に関して集められる最も大きい接触のない手のひらのイメージのベンチマークです。 さらに,3Dコンボリューションを利用した3DCPN(3D Convolution Palmprint Recognition Network)という,タッチレスパームプリント認識のための新しいディープラーニングフレームワークを提案する。 3DCPNでは、曲線特徴抽出の強化のために、Gaborフィルタの新たな変種を第1層に埋め込む。 うまく設計されたアンサンブル方式により、低レベルな3d機能を畳み込み、高レベルな特徴を抽出する。 最後に,グローバルディスクリプタとローカルディスクリプタの両方の識別能力を強化するために,リージョンベースの損失関数を設定した。 提案手法の優位性を示すため,我々のデータセットやTongJi,IITDなどの人気データベース上で大規模な実験を行い,提案した3DCPNが最先端または同等の性能を達成することを示す。

With the growing demand for hand hygiene and convenience of use, palmprint recognition with touchless manner made a great development recently, providing an effective solution for person identification. Despite many efforts that have been devoted to this area, it is still uncertain about the discriminative ability of the contactless palmprint, especially for large-scale datasets. To tackle the problem, in this paper, we build a large-scale touchless palmprint dataset containing 2334 palms from 1167 individuals. To our best knowledge, it is the largest contactless palmprint image benchmark ever collected with regard to the number of individuals and palms. Besides, we propose a novel deep learning framework for touchless palmprint recognition named 3DCPN (3D Convolution Palmprint recognition Network) which leverages 3D convolution to dynamically integrate multiple Gabor features. In 3DCPN, a novel variant of Gabor filter is embedded into the first layer for enhancement of curve feature extraction. With a well-designed ensemble scheme,low-level 3D features are then convolved to extract high-level features. Finally on the top, we set a region-based loss function to strengthen the discriminative ability of both global and local descriptors. To demonstrate the superiority of our method, extensive experiments are conducted on our dataset and other popular databases TongJi and IITD, where the results show the proposed 3DCPN achieves state-of-the-art or comparable performances.
翻訳日:2021-03-04 15:11:17 公開日:2021-03-03
# 特徴辞書を用いた自己監督型メトリクス学習による無人車両再同定

Unsupervised Vehicle Re-Identification via Self-supervised Metric Learning using Feature Dictionary ( http://arxiv.org/abs/2103.02250v1 )

ライセンス: Link先を確認
Jongmin Yu, Hyeontaek Oh(参考訳) 教師なし車両再識別(re-id)の重要な課題は、ラベルなし車両画像からの識別特徴の学習である。 ドメイン適応を使用する多くのメソッドは優れた性能を達成しているが、これらのメソッドは依然としてソースドメインとしてラベル付きデータセットを必要とする。 本論文では,特徴辞書に基づく自己監視型メトリクス学習(SSML)を用いて,ラベル付きデータセットの型を必要とせず,教師なし車両Re-ID方式を提案する。 本手法は,まず車載画像から特徴を抽出し,辞書に格納する。 その後,提案手法は辞書に基づく正のラベルマイニング(DPLM)を行い,正のラベルを検索する。 与えられたプローブ画像の同一車両に属する可能性のある画像は、ペアワイズ類似性、相対ランク整合性、および隣接特徴分布類似性と共同で見なされる。 DPLMの結果は辞書ベースの三重項損失(DTL)に適用され、学習特徴の識別性を向上し、DPLMの結果の質を徐々に改善する。 DPLMとDTLの反復処理により、教師なし車両のRe-IDの性能が向上する。 提案手法の有効性を実験結果で実証し,事前ラベルデータセットを使わずに有望な車両Re-ID性能を実現した。 本論文のソースコードは `https://github.com/a ndreYoo/VeRI_SSML_FD .git' で公開されている。

The key challenge of unsupervised vehicle re-identification (Re-ID) is learning discriminative features from unlabelled vehicle images. Numerous methods using domain adaptation have achieved outstanding performance, but those methods still need a labelled dataset as a source domain. This paper addresses an unsupervised vehicle Re-ID method, which no need any types of a labelled dataset, through a Self-supervised Metric Learning (SSML) based on a feature dictionary. Our method initially extracts features from vehicle images and stores them in a dictionary. Thereafter, based on the dictionary, the proposed method conducts dictionary-based positive label mining (DPLM) to search for positive labels. Pair-wise similarity, relative-rank consistency, and adjacent feature distribution similarity are jointly considered to find images that may belong to the same vehicle of a given probe image. The results of DPLM are applied to dictionary-based triplet loss (DTL) to improve the discriminativeness of learnt features and to refine the quality of the results of DPLM progressively. The iterative process with DPLM and DTL boosts the performance of unsupervised vehicle Re-ID. Experimental results demonstrate the effectiveness of the proposed method by producing promising vehicle Re-ID performance without a pre-labelled dataset. The source code for this paper is publicly available on `https://github.com/a ndreYoo/VeRI_SSML_FD .git'.
翻訳日:2021-03-04 15:10:53 公開日:2021-03-03
# 解釈説明の公平性とロバスト性

Fairness and Robustness of Contrasting Explanations ( http://arxiv.org/abs/2103.02354v1 )

ライセンス: Link先を確認
Andr\'e Artelt and Barbara Hammer(参考訳) 公平性と説明性は、意思決定システムの重要かつ密接に関連する2つの要件である。 公平性と意思決定マスキングシステムの説明可能性の確保と評価は独立して研究されているが、説明の公平さを独自に研究する試みは少ない。 その説明は公平であるべきだ。 本研究では,対比的な説明の個人的公平性と堅牢性を公式かつ実証的に研究する。特に反実的な説明は対比的な説明の顕著な例であると考える。 さらに,最も近い反実ではなく実用的反実体を用いて,個々の実用的説明の公平性を改善することを提案する。

Fairness and explainability are two important and closely related requirements of decision making systems. While ensuring and evaluating fairness as well as explainability of decision masking systems has been extensively studied independently, only little effort has been investigated into studying fairness of explanations on their own - i.e. the explanations it self should be fair. In this work we formally and empirically study individual fairness and robustness of contrasting explanations - in particular we consider counterfactual explanations as a prominent instance of contrasting explanations. Furthermore, we propose to use plausible counterfactuals instead of closest counterfactuals for improving the individual fairness of counterfactual explanations.
翻訳日:2021-03-04 15:10:31 公開日:2021-03-03
# 意味情報を活用したマルチタスク学習

Multi-task Learning by Leveraging the Semantic Information ( http://arxiv.org/abs/2103.02546v1 )

ライセンス: Link先を確認
Fan Zhou, Brahim Chaib-draa, Boyu Wang(参考訳) マルチタスク学習の重要な目的の1つは、タスク間の分散を調整し、それらの間の情報を転送し共有することである。 しかし、既存のアプローチは、学習性能を妨げる可能性のある意味情報を無視しながら、限界特徴分布のマッチングにのみ焦点を当てている。 そこで我々は,タスク間の意味的条件関係を探索し,マルチタスク学習におけるラベル情報の利用を提案する。 まず,マルチタスク学習におけるラベル情報の価値に関する新たな洞察を提供するjensen-shannon divergenceの概念に基づいて,マルチタスク学習の一般化境界を理論的に解析した。 また,分析結果から,意味分布と協調してラベル分布の発散を制御する具体的アルゴリズムが導かれる。 提案手法の有効性を確認するため,本アルゴリズムをいくつかのベンチマークで複数のベースラインと比較し,ラベル空間シフト条件下でアルゴリズムをテストした。 実証実験の結果,提案手法がほとんどのベースラインを上回り,特にラベルシフト条件下でのメリットを示す最新性能を達成できることが示された。

One crucial objective of multi-task learning is to align distributions across tasks so that the information between them can be transferred and shared. However, existing approaches only focused on matching the marginal feature distribution while ignoring the semantic information, which may hinder the learning performance. To address this issue, we propose to leverage the label information in multi-task learning by exploring the semantic conditional relations among tasks. We first theoretically analyze the generalization bound of multi-task learning based on the notion of Jensen-Shannon divergence, which provides new insights into the value of label information in multi-task learning. Our analysis also leads to a concrete algorithm that jointly matches the semantic distribution and controls label distribution divergence. To confirm the effectiveness of the proposed method, we first compare the algorithm with several baselines on some benchmarks and then test the algorithms under label space shift conditions. Empirical results demonstrate that the proposed method could outperform most baselines and achieve state-of-the-art performance, particularly showing the benefits under the label shift conditions.
翻訳日:2021-03-04 15:10:18 公開日:2021-03-03
# 医療データのインプテーションと拡張のためのハミルトンモンテカルロモデル

A Hamiltonian Monte Carlo Model for Imputation and Augmentation of Healthcare Data ( http://arxiv.org/abs/2103.02349v1 )

ライセンス: Link先を確認
Narges Pourshahrokhi, Samaneh Kouchaki, Kord M. Kober, Christine Miaskowski, Payam Barnaghi(参考訳) 変数や質問のデータが収集されないか利用できないため、ほとんどすべての臨床研究に不足する値が存在します。 不足値の不十分な処理は、バイアス結果と分析における統計力の喪失につながる可能性があります。 既存のモデルは通常、プライバシの懸念を考慮せず、複数の機能にまたがる固有の相関を利用していない。 ヘルスケアアプリケーションでは、通常、より効果的な増強またはインプット技術を必要とする高次元および時々小さなサンプルサイズのデータセットに直面しています。 さらに、インプテーションと拡張プロセスは伝統的に個別に行われる。 しかし、値の欠落とデータの強化は、一般化を著しく改善し、機械学習モデルのバイアスを避けることができる。 本研究では, 欠落値のインプットと高次元医療データへの付加的サンプル生成に対するベイズ的アプローチを提案する。 本研究では, ランダムウォークとハミルトン力学を適用して, 後方分布に適応し, 大規模サンプルを生成することにより, ベイズ推定を用いた折り畳みハミルトニアンモンテカルロ(F-HMC)を提案する。 提案手法は, 癌症状評価データセットに適用し, 正確性, 正確性, 記憶率, f1スコア, 傾向指標などのデータ品質を高める。

Missing values exist in nearly all clinical studies because data for a variable or question are not collected or not available. Inadequate handling of missing values can lead to biased results and loss of statistical power in analysis. Existing models usually do not consider privacy concerns or do not utilise the inherent correlations across multiple features to impute the missing values. In healthcare applications, we are usually confronted with high dimensional and sometimes small sample size datasets that need more effective augmentation or imputation techniques. Besides, imputation and augmentation processes are traditionally conducted individually. However, imputing missing values and augmenting data can significantly improve generalisation and avoid bias in machine learning models. A Bayesian approach to impute missing values and creating augmented samples in high dimensional healthcare data is proposed in this work. We propose folded Hamiltonian Monte Carlo (F-HMC) with Bayesian inference as a more practical approach to process the cross-dimensional relations by applying a random walk and Hamiltonian dynamics to adapt posterior distribution and generate large-scale samples. The proposed method is applied to a cancer symptom assessment dataset and confirmed to enrich the quality of data in precision, accuracy, recall, F1 score, and propensity metric.
翻訳日:2021-03-04 15:09:39 公開日:2021-03-03
# 因果不変性への正規化:プロキシを持つ線形モデル

Regularizing towards Causal Invariance: Linear Models with Proxies ( http://arxiv.org/abs/2103.02477v1 )

ライセンス: Link先を確認
Michael Oberst, Nikolaj Thams, Jonas Peters, David Sontag(参考訳) 本論文では,これらの変数のノイズの多いプロキシが利用可能である場合に,予測性能が観測不能変数の因果介入に対して堅牢である線形モデルの学習方法を提案する。 当社のアプローチは、分散パフォーマンスと介入に対する堅牢性の間をトレードオフする正規化用語の形式を取っています。 線形構造因果モデルの仮定の下では, 境界強度の介入により最適となる推定値を生成するために, 1つのプロキシを使用できることを示す。 この強度はプロキシ内の測定ノイズの大きさに依存するが、一般には識別できない。 2つのプロキシ変数の場合、既知の強度の介入の下で最適に予測できる修正された推定器を提案する。 さらに、トレーニング中に「テスト時間」の介入に関する追加情報が利用可能であるシナリオにこれらの見積もりを拡張する方法も示します。 また,中国各都市における1時間あたりの汚染レベルの実データを用いて,合成実験における理論的知見を評価した。

We propose a method for learning linear models whose predictive performance is robust to causal interventions on unobserved variables, when noisy proxies of those variables are available. Our approach takes the form of a regularization term that trades off between in-distribution performance and robustness to interventions. Under the assumption of a linear structural causal model, we show that a single proxy can be used to create estimators that are prediction optimal under interventions of bounded strength. This strength depends on the magnitude of the measurement noise in the proxy, which is, in general, not identifiable. In the case of two proxy variables, we propose a modified estimator that is prediction optimal under interventions up to a known strength. We further show how to extend these estimators to scenarios where additional information about the "test time" intervention is available during training. We evaluate our theoretical findings in synthetic experiments and using real data of hourly pollution levels across several cities in China.
翻訳日:2021-03-04 15:09:18 公開日:2021-03-03
# ゼロショット学習のためのタスクアライメント生成メタラーニング

Task Aligned Generative Meta-learning for Zero-shot Learning ( http://arxiv.org/abs/2103.02185v1 )

ライセンス: Link先を確認
Zhe Liu, Yun Li, Lina Yao, Xianzhi Wang, Guodong Long(参考訳) ゼロショット学習 (zero-shot learning, zsl) とは、学習セット (seen) に存在しない新しいクラス (unseen) からインスタンスを分類する学習の問題である。 ほとんどのZSLメソッドは視覚的特徴と属性の相関を推測し、未確認クラスの分類器を訓練する。 しかし、そのようなモデルは、トレーニング中に見られるクラスに対して強い偏見を持つ可能性がある。 基礎を緩和するためにメタラーニングが導入されたが、トレーニングに使用されるタスクが多様な分布からサンプリングされる場合、メタZSLメソッドは適用できない。 本稿では,ゼロショット学習(TGMZ)のためのタスク整列型メタ学習モデルを提案する。 TGMZはバイアスのあるトレーニングを緩和し、メタZSLが多様な分布を含む現実世界のデータセットに対応できるようにする。 TGMZには属性条件付きタスク単位の分散アライメントネットワークが組み込まれており、タスクを統一された分散に投影し、バイアスのないモデルを提供する。 TGMZがAWA1, AWA2, CUB, aPYデータセットでそれぞれ達成した2.1%, 3.0%, 2.5%, 7.6%の改善を示した。 TGMZは、一般のゼロショット学習(GZSL)設定で3.6%、提案したフュージョンZSL設定で7.9%、競合より優れている。

Zero-shot learning (ZSL) refers to the problem of learning to classify instances from the novel classes (unseen) that are absent in the training set (seen). Most ZSL methods infer the correlation between visual features and attributes to train the classifier for unseen classes. However, such models may have a strong bias towards seen classes during training. Meta-learning has been introduced to mitigate the basis, but meta-ZSL methods are inapplicable when tasks used for training are sampled from diverse distributions. In this regard, we propose a novel Task-aligned Generative Meta-learning model for Zero-shot learning (TGMZ). TGMZ mitigates the potentially biased training and enables meta-ZSL to accommodate real-world datasets containing diverse distributions. TGMZ incorporates an attribute-conditione d task-wise distribution alignment network that projects tasks into a unified distribution to deliver an unbiased model. Our comparisons with state-of-the-art algorithms show the improvements of 2.1%, 3.0%, 2.5%, and 7.6% achieved by TGMZ on AWA1, AWA2, CUB, and aPY datasets, respectively. TGMZ also outperforms competitors by 3.6% in generalized zero-shot learning (GZSL) setting and 7.9% in our proposed fusion-ZSL setting.
翻訳日:2021-03-04 15:08:41 公開日:2021-03-03
# 半教師付き転送学習のための適応整合性正規化

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning ( http://arxiv.org/abs/2103.02193v1 )

ライセンス: Link先を確認
Abulikemu Abuduweili, Xingjian Li, Humphrey Shi, Cheng-Zhong Xu, Dejing Dou(参考訳) 半教師付き学習に関する最近の研究はラベル付きデータとラベルなしデータの両方を活用するという顕著な進歩を示しているが、そのほとんどは、モデルの基本設定がランダムに初期化されていると仮定している。 本研究では、半教師付き学習とトランスファー学習を共同で検討し、ソースドメインの強力な事前学習モデルとターゲットドメインのラベル付き/ラベルなしデータの両方を利用できる、より実用的かつ競争力のあるパラダイムを実現する。 事前学習した重みと未ラベルの目標例の両方の価値をよりよく活用するために,2つの相補的成分からなる適応的整合性整合性(Adaptive Knowledge Consistency, AKC)とラベル付き例とラベルなし例のターゲットモデルにおける適応的表現整合性(ARC)を導入する。 整合正則化に関わる例は、目標タスクへの潜在的な貢献に応じて適応的に選択される。 我々は、CUB-200-2011、MIT Indoor-67、muraなどの人気のあるベンチマークに対して、ImageNet事前訓練されたResNet-50モデルを微調整して広範な実験を行った。 その結果,提案する適応的一貫性規則化は,擬似ラベル,平均教師,ミックスマッチなど,最先端の半教師学習技術よりも優れていることがわかった。 さらに,本アルゴリズムは既存の手法と直交するので,mixmatch と fixmatch にさらに改良を加えることができる。 私たちのコードはhttps://github.com/S HI-Labs/Semi-Supervi sed-Transfer-Learnin gで入手できます。

While recent studies on semi-supervised learning have shown remarkable progress in leveraging both labeled and unlabeled data, most of them presume a basic setting of the model is randomly initialized. In this work, we consider semi-supervised learning and transfer learning jointly, leading to a more practical and competitive paradigm that can utilize both powerful pre-trained models from source domain as well as labeled/unlabeled data in the target domain. To better exploit the value of both pre-trained weights and unlabeled target examples, we introduce adaptive consistency regularization that consists of two complementary components: Adaptive Knowledge Consistency (AKC) on the examples between the source and target model, and Adaptive Representation Consistency (ARC) on the target model between labeled and unlabeled examples. Examples involved in the consistency regularization are adaptively selected according to their potential contributions to the target task. We conduct extensive experiments on several popular benchmarks including CUB-200-2011, MIT Indoor-67, MURA, by fine-tuning the ImageNet pre-trained ResNet-50 model. Results show that our proposed adaptive consistency regularization outperforms state-of-the-art semi-supervised learning techniques such as Pseudo Label, Mean Teacher, and MixMatch. Moreover, our algorithm is orthogonal to existing methods and thus able to gain additional improvements on top of MixMatch and FixMatch. Our code is available at https://github.com/S HI-Labs/Semi-Supervi sed-Transfer-Learnin g.
翻訳日:2021-03-04 15:08:16 公開日:2021-03-03
# イベントベース合成開口イメージング

Event-based Synthetic Aperture Imaging ( http://arxiv.org/abs/2103.02376v1 )

ライセンス: Link先を確認
Xiang Zhang, Liao Wei, Lei Yu, Wen Yang and Gui-Song Xia(参考訳) 合成開口画像(SAI)は、オフフォーカス前景の閉塞をぼかし、マルチビュー画像からフォーカス内隠蔽対象を再構成することにより、その効果を生かすことができる。 しかし、非常に密集した閉塞と極端な照明条件は、従来のフレームベースのカメラに基づくSAIに大きな障害をもたらし、性能劣化を引き起こす可能性がある。 そこで本研究では,低レイテンシかつ高ダイナミックレンジの非同期イベントを生成可能なイベントカメラに基づく新しいSAIシステムを提案する。 これにより、ほぼ連続的な視点で測定することで密閉体の干渉を排除でき、同時に露光問題に対処することができる。 閉鎖対象を再構築するために、スパイキングニューラルネットワーク(SNN)と畳み込みニューラルネットワーク(CNN)からなるハイブリッドエンコーダデコーダネットワークを提案する。 ハイブリッドネットワークでは、収集されたイベントの時空間情報が最初にsnn層によってエンコードされ、その後、スタイル転送cnnデコーダによってオクルードされたターゲットの視覚画像に変換される。 実験により,非常に密集したオクルージョンと極端な照明条件に対処し,純イベントデータを用いて高品質な視覚画像を再構成できることを示す。

Synthetic aperture imaging (SAI) is able to achieve the see through effect by blurring out the off-focus foreground occlusions and reconstructing the in-focus occluded targets from multi-view images. However, very dense occlusions and extreme lighting conditions may bring significant disturbances to SAI based on conventional frame-based cameras, leading to performance degeneration. To address these problems, we propose a novel SAI system based on the event camera which can produce asynchronous events with extremely low latency and high dynamic range. Thus, it can eliminate the interference of dense occlusions by measuring with almost continuous views, and simultaneously tackle the over/under exposure problems. To reconstruct the occluded targets, we propose a hybrid encoder-decoder network composed of spiking neural networks (SNNs) and convolutional neural networks (CNNs). In the hybrid network, the spatio-temporal information of the collected events is first encoded by SNN layers, and then transformed to the visual image of the occluded targets by a style-transfer CNN decoder. Through experiments, the proposed method shows remarkable performance in dealing with very dense occlusions and extreme lighting conditions, and high quality visual images can be reconstructed using pure event data.
翻訳日:2021-03-04 15:07:51 公開日:2021-03-03
# 季節時系列予測のための2段階フレームワーク

Two-Stage Framework for Seasonal Time Series Forecasting ( http://arxiv.org/abs/2103.02144v1 )

ライセンス: Link先を確認
Qingyang Xu, Qingsong Wen, Liang Sun(参考訳) 季節の時系列予測は、季節性からの長期依存のために挑戦的な問題のままです。 本稿では,季節的時系列予測のための2段階の枠組みを提案する。 第1段階は、予測地平線を越えて、タイムウィンドウ内の長距離時系列構造を明示的に学習する。 学習した長距離構造を組み込むことで、第2段階は予測水平線の予測精度を高めることができる。 いずれの段階でも,自己回帰モデルとニューラルネットワークを統合し,時系列の線形特性と非線形特性を捉える。 当社のフレームワークは、M4 Competition Hourlyデータセットで最新のパフォーマンスを実現します。 特に,第1段階で生成した中間結果を既存の予測モデルに組み込むことで,予測性能を効果的に向上できることを示す。

Seasonal time series Forecasting remains a challenging problem due to the long-term dependency from seasonality. In this paper, we propose a two-stage framework to forecast univariate seasonal time series. The first stage explicitly learns the long-range time series structure in a time window beyond the forecast horizon. By incorporating the learned long-range structure, the second stage can enhance the prediction accuracy in the forecast horizon. In both stages, we integrate the auto-regressive model with neural networks to capture both linear and non-linear characteristics in time series. Our framework achieves state-of-the-art performance on M4 Competition Hourly datasets. In particular, we show that incorporating the intermediate results generated in the first stage to existing forecast models can effectively enhance their prediction performance.
翻訳日:2021-03-04 15:07:02 公開日:2021-03-03
# ニューラルネットワークを用いたPDE近似のためのパラメトリック複雑境界

Parametric Complexity Bounds for Approximating PDEs with Neural Networks ( http://arxiv.org/abs/2103.02138v1 )

ライセンス: Link先を確認
Tanya Marwah, Zachary C. Lipton, Andrej Risteski(参考訳) 最近の実証結果から、深層ネットワークは高次元PDEに対する解を近似し、次元の呪いから逃れることができることが示された。 しかし、そのような近似の理論的基礎に関する多くのオープンな質問は、必要なパラメータの数を含む。 本稿では,ディリクレ境界条件を用いた線形楕円型PDEの近似解に対するニューラルネットワークの表現力について検討する。 pdeの係数が小さなニューラルネットワークで表現可能である場合、その解のスケールを入力次元$d$で多項式的に近似するために必要なパラメータが係数ニューラルネットワークのパラメータ数に比例していることが証明される。 我々の証明は、PDEの解に収束する適切なヒルベルト空間における勾配降下をシミュレートするニューラルネットワークの構築に基づいている。 さらに、各繰り返しを表すために必要となるニューラルネットワークのサイズを、前回の反復を表すニューラルネットワークで制限し、結果としてパラメータが$d$に多項式的に依存し、ドメインの体積に依存しない最終的なネットワークとなる。

Recent empirical results show that deep networks can approximate solutions to high dimensional PDEs, seemingly escaping the curse of dimensionality. However many open questions remain regarding the theoretical basis for such approximations, including the number of parameters required. In this paper, we investigate the representational power of neural networks for approximating solutions to linear elliptic PDEs with Dirichlet Boundary conditions. We prove that when a PDE's coefficients are representable by small neural networks, the parameters required to approximate its solution scale polynomially with the input dimension $d$ and are proportional to the parameter counts of the coefficient neural networks. Our proof is based on constructing a neural network which simulates gradient descent in an appropriate Hilbert space which converges to the solution of the PDE. Moreover, we bound the size of the neural network needed to represent each iterate in terms of the neural network representing the previous iterate, resulting in a final network whose parameters depend polynomially on $d$ and does not depend on the volume of the domain.
翻訳日:2021-03-04 15:06:52 公開日:2021-03-03
# 擬似推論

Parsimonious Inference ( http://arxiv.org/abs/2103.02165v1 )

ライセンス: Link先を確認
Jed A. Duersch and Thomas A. Catanach(参考訳) ベイズ推論は予測の不確実性の原則化された正当化を得るための独特で厳格なアプローチを提供するが、計算アーキテクチャが結果を改善しようとする実践者によって頻繁に修正される純粋な抽象化である機械学習の文脈において、適度に一般的な先行的信念を明示することは困難である。 parsimonious inferenceはoccamのrazorを形式化する任意のアーキテクチャ上の推論の情報理論的な定式化である。 我々の普遍的ハイパープライアは、プログラム長、コルモゴロフ複雑性、ソロモノフのアルゴリズム的確率のコア関係を拡大することにより、シンボルの列として符号化された事前記述に妥当性を割り当てる。 そして、アーキテクチャが特定され、トレーニングデータが観測され、モデルパラメータが推測されるときの信念の複合的変化よりも、情報最小化として学習をキャストします。 モデル複雑性を予測情報と区別することにより,記憶現象を定量化する。 私たちの理論は一般的ですが、データセットが制限されている場合、例えば、最も重要です。 小さいかねじれた。 このようなデータに適した多項式回帰とランダムな森林に対する新しいアルゴリズムを実験で実証した。 提案手法は,効率の良い符号化と慎重なサンプリング戦略を組み合わせることで,相互評価を伴わない予測アンサンブルを構築することで,データから予測を効率的に得るための根本的な課題を解決する。

Bayesian inference provides a uniquely rigorous approach to obtain principled justification for uncertainty in predictions, yet it is difficult to articulate suitably general prior belief in the machine learning context, where computational architectures are pure abstractions subject to frequent modifications by practitioners attempting to improve results. Parsimonious inference is an information-theoreti c formulation of inference over arbitrary architectures that formalizes Occam's Razor; we prefer simple and sufficient explanations. Our universal hyperprior assigns plausibility to prior descriptions, encoded as sequences of symbols, by expanding on the core relationships between program length, Kolmogorov complexity, and Solomonoff's algorithmic probability. We then cast learning as information minimization over our composite change in belief when an architecture is specified, training data are observed, and model parameters are inferred. By distinguishing model complexity from prediction information, our framework also quantifies the phenomenon of memorization. Although our theory is general, it is most critical when datasets are limited, e.g. small or skewed. We develop novel algorithms for polynomial regression and random forests that are suitable for such data, as demonstrated by our experiments. Our approaches combine efficient encodings with prudent sampling strategies to construct predictive ensembles without cross-validation, thus addressing a fundamental challenge in how to efficiently obtain predictions from data.
翻訳日:2021-03-04 15:06:33 公開日:2021-03-03
# 大規模バッチと非同期更新によるスケーラブル分散学習のクリティカルパラメータ

Critical Parameters for Scalable Distributed Learning with Large Batches and Asynchronous Updates ( http://arxiv.org/abs/2103.02351v1 )

ライセンス: Link先を確認
Sebastian U. Stich, Amirkeivan Mohtashami, Martin Jaggi(参考訳) 確率勾配(SGD)による分散トレーニングの効率性は、バッチサイズと--非同期実装において--勾配定常性に決定的に依存することが実験的に観察されている。 特に、速度アップは特定のバッチサイズや遅延が大きくなると飽和してしまうことが観測されている。 これら2つの設定のスピードアップ飽和を説明するデータ依存パラメータを同定する。 強凸,凸,非凸といった包括的理論解析では,これら2つの側面のうちの1つにのみ焦点をあてる先行作業方向を統一し,一般化した。 特に,提案手法により,頻繁に考慮される疎性仮定の下での高速化結果の導出が可能となる。 私たちの洞察は、実際に学習率を調整できる理論に基づくガイドラインを生み出します。 結果がタイトであることを示し、数値実験で重要な結果を示しています。

It has been experimentally observed that the efficiency of distributed training with stochastic gradient (SGD) depends decisively on the batch size and -- in asynchronous implementations -- on the gradient staleness. Especially, it has been observed that the speedup saturates beyond a certain batch size and/or when the delays grow too large. We identify a data-dependent parameter that explains the speedup saturation in both these settings. Our comprehensive theoretical analysis, for strongly convex, convex and non-convex settings, unifies and generalized prior work directions that often focused on only one of these two aspects. In particular, our approach allows us to derive improved speedup results under frequently considered sparsity assumptions. Our insights give rise to theoretically based guidelines on how the learning rates can be adjusted in practice. We show that our results are tight and illustrate key findings in numerical experiments.
翻訳日:2021-03-04 15:06:08 公開日:2021-03-03
# 社会的公正クラスタリングのための近似アルゴリズム

Approximation Algorithms for Socially Fair Clustering ( http://arxiv.org/abs/2103.02512v1 )

ライセンス: Link先を確認
Yury Makarychev and Ali Vakilian(参考訳) 本稿では, $(e^{O(p)} \frac{\log \ell}{\log\log\ell})$-approximation algorithm for socially Fair Clustering with the $\ell_p$-objectiveを提案する。 この問題では、計量空間における点の集合が与えられる。 各点は$\ell$群の1つ(または複数の)に属する。 目標は、$k$-medians、$k$-means、またはより一般的には、すべてのグループに同時に良い$\ell_p$-clusteringを見つけることである。 より正確には、$k$ の中心 $C$ の集合を見つける必要があるので、すべての群 $j$ of $\sum_{u \text{ in group }j} d(u,C)^p$ 上の最大値を最小限に抑える。 社会的に公平なクラスタリング問題は、abbasi, bhaskara, venkatasubramanian [2021] と ghadiri, samadi, vempala [2021] によって独立に提案された。 本アルゴリズムは,この問題に対する$O(\ell)$-approximat ionアルゴリズムの改良と一般化を行う。 この問題に対する自然なLP緩和は、積分性ギャップが$\Omega(\ell)$である。 この結果を得るために,強化されたLPリラクゼーションを導入し,固定$p$に対して$\Theta(\frac{\log \ell}{\log\log\ell})$の積分ギャップがあることを示した。 さらに,abbasi et alのbicriteria近似を一般化したbicriteria近似アルゴリズムを提案する。 [2021].

We present an $(e^{O(p)} \frac{\log \ell}{\log\log\ell})$-approximation algorithm for socially fair clustering with the $\ell_p$-objective. In this problem, we are given a set of points in a metric space. Each point belongs to one (or several) of $\ell$ groups. The goal is to find a $k$-medians, $k$-means, or, more generally, $\ell_p$-clustering that is simultaneously good for all of the groups. More precisely, we need to find a set of $k$ centers $C$ so as to minimize the maximum over all groups $j$ of $\sum_{u \text{ in group }j} d(u,C)^p$. The socially fair clustering problem was independently proposed by Abbasi, Bhaskara, and Venkatasubramanian [2021] and Ghadiri, Samadi, and Vempala [2021]. Our algorithm improves and generalizes their $O(\ell)$-approximat ion algorithms for the problem. The natural LP relaxation for the problem has an integrality gap of $\Omega(\ell)$. In order to obtain our result, we introduce a strengthened LP relaxation and show that it has an integrality gap of $\Theta(\frac{\log \ell}{\log\log\ell})$ for a fixed $p$. Additionally, we present a bicriteria approximation algorithm, which generalizes the bicriteria approximation of Abbasi et al. [2021].
翻訳日:2021-03-04 15:05:53 公開日:2021-03-03
# 最小歪み埋め込み

Minimum-Distortion Embedding ( http://arxiv.org/abs/2103.02559v1 )

ライセンス: Link先を確認
Akshay Agrawal, Alnur Ali, Stephen Boyd(参考訳) ベクトル埋め込み問題を検討する。 有限個の項目が与えられ、ある制約の下で代表ベクトルを各ベクトルに割り当てること(例えば、標準となるベクトルの集合、すなわち平均と単位の共変性)を目標としている。 我々は、いくつかのペアのアイテムが類似していることを示すデータを与えられています。 類似した項目のペアに対しては、対応するベクトルを互いに近接させ、異なるペアに対しては、対応するベクトルをユークリッド距離で測定して、互いに近接しないことを望みます。 いくつかの項目に対して定義された歪み関数を導入することでこれを定式化する。 私たちの目標は、制約に応じて、総歪みを最小限に抑える埋め込みを選択することです。 これを最小歪み埋め込み(MDE)問題と呼びます。 MDEフレームワークは単純だが一般的である。 これには、スペクトル埋め込み、主成分分析、多次元スケーリング、(IsomapやUMAPのような)次元削減方法、力によるレイアウトなど、幅広い種類の埋め込み方法が含まれる。 また、新しい埋め込みも含み、歴史的および新しい埋め込みを同様に検証する原則的な方法を提供します。 提案手法は,MDE問題と大規模データセットへのスケールを概略的に解決する準ニュートン法である。 この手法をオープンソースのPythonパッケージであるPyMDEに実装する。 pymdeでは、歪み関数と制約のライブラリから選択したり、カスタム関数を指定することで、異なる埋め込みを簡単に試すことができる。 私たちのソフトウェアは、数百万のアイテムと何千万の歪み関数を持つデータセットにスケールします。 本研究では,画像,学術共著者ネットワーク,米国郡人口統計データ,単一細胞mRNAトランスクリプトームなどの実世界のデータセットの埋め込みを計算する。

We consider the vector embedding problem. We are given a finite set of items, with the goal of assigning a representative vector to each one, possibly under some constraints (such as the collection of vectors being standardized, i.e., have zero mean and unit covariance). We are given data indicating that some pairs of items are similar, and optionally, some other pairs are dissimilar. For pairs of similar items, we want the corresponding vectors to be near each other, and for dissimilar pairs, we want the corresponding vectors to not be near each other, measured in Euclidean distance. We formalize this by introducing distortion functions, defined for some pairs of the items. Our goal is to choose an embedding that minimizes the total distortion, subject to the constraints. We call this the minimum-distortion embedding (MDE) problem. The MDE framework is simple but general. It includes a wide variety of embedding methods, such as spectral embedding, principal component analysis, multidimensional scaling, dimensionality reduction methods (like Isomap and UMAP), force-directed layout, and others. It also includes new embeddings, and provides principled ways of validating historical and new embeddings alike. We develop a projected quasi-Newton method that approximately solves MDE problems and scales to large data sets. We implement this method in PyMDE, an open-source Python package. In PyMDE, users can select from a library of distortion functions and constraints or specify custom ones, making it easy to rapidly experiment with different embeddings. Our software scales to data sets with millions of items and tens of millions of distortion functions. To demonstrate our method, we compute embeddings for several real-world data sets, including images, an academic co-author network, US county demographic data, and single-cell mRNA transcriptomes.
翻訳日:2021-03-04 15:05:26 公開日:2021-03-03
# ダグは好きか? 構造学習と因果的発見に関する調査

D'ya like DAGs? A Survey on Structure Learning and Causal Discovery ( http://arxiv.org/abs/2103.02582v1 )

ライセンス: Link先を確認
Matthew J. Vowels, Necati Cihan Camgoz, and Richard Bowden(参考訳) 因果推論は科学と人間の知性の重要な部分です。 データから因果関係を発見するためには構造探索法が必要である。 本稿では、背景理論のレビューと構造発見手法の調査を行う。 私たちは主にモダンで継続的な最適化手法にフォーカスし、ベンチマークデータセットやソフトウェアパッケージといったさらなるリソースへの参照を提供します。 最後に,構造から因果関係へ導くために必要な跳躍について論じる。

Causal reasoning is a crucial part of science and human intelligence. In order to discover causal relationships from data, we need structure discovery methods. We provide a review of background theory and a survey of methods for structure discovery. We primarily focus on modern, continuous optimization methods, and provide reference to further resources such as benchmark datasets and software packages. Finally, we discuss the assumptive leap required to take us from structure to causality.
翻訳日:2021-03-04 15:05:00 公開日:2021-03-03
# 単眼自己監督深さ推定のためのマルチモーダルスケール一貫性と認識

Multimodal Scale Consistency and Awareness for Monocular Self-Supervised Depth Estimation ( http://arxiv.org/abs/2103.02451v1 )

ライセンス: Link先を確認
Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz(参考訳) 深度推定は、自律運転におけるシーン理解に不可欠である。 しかし,最近の単眼ビデオに対する自己教師ありアプローチは,長いシーケンスにわたるスケール不整合に苦しむ。 ユビキタスに共存するグローバル測位システム (gps) のデータを利用して, 出現による損失を補うために, 動的重み付けgps-to-scale (g2s) 損失を提案する。 我々は、GPSはマルチモーダルトレーニングでのみ必要であり、推論では必要ではないことを強調する。 GPSで捉えたフレーム間の相対距離は、カメラの設定やシーンの分布に依存しないスケール信号を提供し、結果としてより豊かな特徴表現をもたらす。 複数のデータセットの広範な評価により、推論中のスケール一貫性と認識深さの推定を実証し、低周波GPSデータでトレーニングしてもパフォーマンスが向上します。

Dense depth estimation is essential to scene-understanding for autonomous driving. However, recent self-supervised approaches on monocular videos suffer from scale-inconsistency across long sequences. Utilizing data from the ubiquitously copresent global positioning systems (GPS), we tackle this challenge by proposing a dynamically-weighted GPS-to-Scale (g2s) loss to complement the appearance-based losses. We emphasize that the GPS is needed only during the multimodal training, and not at inference. The relative distance between frames captured through the GPS provides a scale signal that is independent of the camera setup and scene distribution, resulting in richer learned feature representations. Through extensive evaluation on multiple datasets, we demonstrate scale-consistent and -aware depth estimation during inference, improving the performance even when training with low-frequency GPS data.
翻訳日:2021-03-04 15:04:02 公開日:2021-03-03
# 低リソース領域適応のための粒度微調整

Gradual Fine-Tuning for Low-Resource Domain Adaptation ( http://arxiv.org/abs/2103.02205v1 )

ライセンス: Link先を確認
Haoran Xu, Seth Ebner, Mahsa Yarmohammadi, Aaron Steven White, Benjamin Van Durme and Kenton Murray(参考訳) 微調整はNLPモデルを改善するために知られており、より豊富で少ないドメインの例で訓練された初期モデルをターゲットドメインのデータに適応させることによって知られている。 このようなドメイン適応は通常、微調整の1段階を使って行われる。 多段階のプロセスにおける段階的な微調整は、さらなる利益をもたらし、モデルや学習目標を変更することなく適用できることを実証する。

Fine-tuning is known to improve NLP models by adapting an initial model trained on more plentiful but less domain-salient examples to data in a target domain. Such domain adaptation is typically done using one stage of fine-tuning. We demonstrate that gradually fine-tuning in a multi-stage process can yield substantial further gains and can be applied without modifying the model or learning objective.
翻訳日:2021-03-04 15:03:47 公開日:2021-03-03
# 文脈埋め込み変換によるゼロショットクロス言語依存性解析

Zero-Shot Cross-Lingual Dependency Parsing through Contextual Embedding Transformation ( http://arxiv.org/abs/2103.02212v1 )

ライセンス: Link先を確認
Haoran Xu and Philipp Koehn(参考訳) 線形埋め込み変換はゼロショット言語間伝達タスクに有効であることが示されており、驚くほど有望な結果が得られる。 しかし、言語間の埋め込み空間マッピングは通常静的な単語レベルの埋め込みで研究され、そこでは辞書から参照される翻訳対の表現を整列させることで空間変換が導かれる。 このラインからさらに進み、感覚レベルと辞書なしのコンテキスト埋め込みアライメントアプローチを調査します。 マッピングの品質を高めるために、我々はまた、コンテキスト埋め込み、すなわち異方性問題とその解のプロパティの深いビューを提供します。 組み込み変換によって構築された概念共有空間によるゼロショット依存性解析の実験は、多言語埋め込みを使用して最先端の方法を大幅に上回る。

Linear embedding transformation has been shown to be effective for zero-shot cross-lingual transfer tasks and achieve surprisingly promising results. However, cross-lingual embedding space mapping is usually studied in static word-level embeddings, where a space transformation is derived by aligning representations of translation pairs that are referred from dictionaries. We move further from this line and investigate a contextual embedding alignment approach which is sense-level and dictionary-free. To enhance the quality of the mapping, we also provide a deep view of properties of contextual embeddings, i.e., anisotropy problem and its solution. Experiments on zero-shot dependency parsing through the concept-shared space built by our embedding transformation substantially outperform state-of-the-art methods using multilingual embeddings.
翻訳日:2021-03-04 15:03:40 公開日:2021-03-03
# 複合PCFGの実証的研究

An Empirical Study of Compound PCFGs ( http://arxiv.org/abs/2103.02298v1 )

ライセンス: Link先を確認
Yanpeng Zhao, Ivan Titov(参考訳) 複合確率的文脈自由文法(C-PCFGs)は,最近,句構造文法誘導のための新しい手法を確立した。 しかし,チャートに基づく表現と推論の時間的複雑度が高いため,それらを総合的に検討することは困難である。 本研究では,C-PCFGを高速に実装して,~\citet{kim-etal-2019-compou nd} と相補的な評価を行う。 1)C-PCFGはデータ効率が高い,(2)C-PCFGはグローバル文レベルの情報を最大限に活用する,(3)英語におけるC-PCFGの最適な構成は,常に形態豊かな言語に一般化されるとは限らない。

Compound probabilistic context-free grammars (C-PCFGs) have recently established a new state of the art for phrase-structure grammar induction. However, due to the high time-complexity of chart-based representation and inference, it is difficult to investigate them comprehensively. In this work, we rely on a fast implementation of C-PCFGs to conduct evaluation complementary to that of~\citet{kim-etal-2019-compou nd}. We highlight three key findings: (1) C-PCFGs are data-efficient, (2) C-PCFGs make the best use of global sentence-level information in preterminal rule probabilities, and (3) the best configurations of C-PCFGs on English do not always generalize to morphology-rich languages.
翻訳日:2021-03-04 15:03:25 公開日:2021-03-03
# NeurIPS 2020 NLC2CMDコンペティション:自然言語をBashコマンドに変換する

NeurIPS 2020 NLC2CMD Competition: Translating Natural Language to Bash Commands ( http://arxiv.org/abs/2103.02523v1 )

ライセンス: Link先を確認
Mayank Agarwal, Tathagata Chakraborti, Quchen Fu, David Gros, Xi Victoria Lin, Jaron Maene, Kartik Talamadupula, Zhongwei Teng, Jules White(参考訳) NeurIPS 2020で開催されたNLC2CMDコンペティションは、自然言語処理の力をコマンドラインにもたらすことを目的としています。 参加者は、英語でのコマンドラインタスクの説明をBash構文に変換できるモデルの構築を任されました。 これは、タスク、メトリクス、データ、試行されたソリューション、学んだ教訓の詳細を含む競争に関するレポートです。

The NLC2CMD Competition hosted at NeurIPS 2020 aimed to bring the power of natural language processing to the command line. Participants were tasked with building models that can transform descriptions of command line tasks in English to their Bash syntax. This is a report on the competition with details of the task, metrics, data, attempted solutions, and lessons learned.
翻訳日:2021-03-04 15:03:09 公開日:2021-03-03
# NaturalConv: マルチターントピック駆動会話に向けた中国の対話データセット

NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation ( http://arxiv.org/abs/2103.02548v1 )

ライセンス: Link先を確認
Xiaoyang Wang, Chen Li, Jianqiao Zhao, Dong Yu(参考訳) 本稿では,トピックの要素が言及され,トピックシフトがスムーズである限り,参加者が望むものを何でもチャットできる,中国のマルチターンのトピック駆動型会話データセットであるnaturalconvを提案する。 コーパスには6つのドメインから19.9kの会話があり、平均ターン数20.1の400kの発話がある。 これらの会話には、関連するトピックに関する詳細な議論、または複数のトピック間の広く自然な移行が含まれます。 どちらの方法も人間の会話には普通だと信じています。 このコーパスの研究を容易にするために、いくつかのベンチマークモデルの結果を提供する。 比較の結果,本データセットでは,背景知識やトピックを導入することで,現在のモデルでは大幅な改善が得られていないことがわかった。 したがって,提案するデータセットは,マルチターン会話システムの妥当性と自然性を評価するためのさらなる研究に適したベンチマークであるべきである。 データセットはhttps://ai.tencent.c om/ailab/nlp/dialogu e/#datasetsで入手できます。

In this paper, we propose a Chinese multi-turn topic-driven conversation dataset, NaturalConv, which allows the participants to chat anything they want as long as any element from the topic is mentioned and the topic shift is smooth. Our corpus contains 19.9K conversations from six domains, and 400K utterances with an average turn number of 20.1. These conversations contain in-depth discussions on related topics or widely natural transition between multiple topics. We believe either way is normal for human conversation. To facilitate the research on this corpus, we provide results of several benchmark models. Comparative results show that for this dataset, our current models are not able to provide significant improvement by introducing background knowledge/topic. Therefore, the proposed dataset should be a good benchmark for further research to evaluate the validity and naturalness of multi-turn conversation systems. Our dataset is available at https://ai.tencent.c om/ailab/nlp/dialogu e/#datasets.
翻訳日:2021-03-04 15:03:02 公開日:2021-03-03
# bimodal information-augmente d multi-head attentionを用いたビデオ感情分析

Video Sentiment Analysis with Bimodal Information-augmente d Multi-Head Attention ( http://arxiv.org/abs/2103.02362v1 )

ライセンス: Link先を確認
Ting Wu, Junjie Peng, Wenqiang Zhang, Huiran Zhang, Chuanshuai Ma and Yansong Huang(参考訳) 感覚分析は知的人間とコンピュータの相互作用の基礎である。 人工知能のフロンティア研究の方向性の1つとして、コンピュータが人間の意図や感情状態を識別し、よりパーソナライズされたサービスを提供するのに役立つ。 しかし, 音声, ジェスチャー, 表情など, テキスト, 音声, ビデオなど, 多様な形式のデータを含む人間の感情が表れているため, 本研究には多くの課題が生じる。 単一感情分析の限界のために、最近の研究は、複数のモダリティの時系列データを含むビデオの感情分析に焦点を当てています。 マルチモーダルデータでビデオを分析する場合、重要な問題は、これらの異種データを融合する方法です。 それぞれのモダリティの寄与が異なることを考慮し、現在の融合法は融合の前に単一のモダリティの重要な情報を抽出する傾向にあり、バイモーダル相互作用の一貫性と相補性を無視し、最終的な決定に影響を及ぼす。 この問題を解決するために,バイモーダル情報拡張によるマルチヘッドアテンションを用いた映像感情分析手法を提案する。 バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。 このように、異なる特徴表現は、効果的なマルチモーダル融合のために適応的に対応する注意を割り当てられる。 中国語と英語の公開データセットで広範な実験が行われた。 その結果,本手法は既存の手法よりも優れており,3つのモード間のバイモーダル相互作用の寄与について考察できることがわかった。

Sentiment analysis is the basis of intelligent human-computer interaction. As one of the frontier research directions of artificial intelligence, it can help computers better identify human intentions and emotional states so that provide more personalized services. However, as human present sentiments by spoken words, gestures, facial expressions and others which involve variable forms of data including text, audio, video, etc., it poses many challenges to this study. Due to the limitations of unimodal sentiment analysis, recent research has focused on the sentiment analysis of videos containing time series data of multiple modalities. When analyzing videos with multimodal data, the key problem is how to fuse these heterogeneous data. In consideration that the contribution of each modality is different, current fusion methods tend to extract the important information of single modality prior to fusion, which ignores the consistency and complementarity of bimodal interaction and has influences on the final decision. To solve this problem, a video sentiment analysis method using multi-head attention with bimodal information augmented is proposed. Based on bimodal interaction, more important bimodal features are assigned larger weights. In this way, different feature representations are adaptively assigned corresponding attention for effective multimodal fusion. Extensive experiments were conducted on both Chinese and English public datasets. The results show that our approach outperforms the existing methods and can give an insight into the contributions of bimodal interaction among three modalities.
翻訳日:2021-03-04 15:02:48 公開日:2021-03-03
# 論理ニューラルネットワークを用いた外部知識による強化学習

Reinforcement Learning with External Knowledge by using Logical Neural Networks ( http://arxiv.org/abs/2103.02363v1 )

ライセンス: Link先を確認
Daiki Kimura, Subhajit Chaudhury, Akifumi Wachi, Ryosuke Kohita, Asim Munawar, Michiaki Tatsubori, Alexander Gray(参考訳) 従来の深層強化学習法はサンプル非効率であり、収束する前に多くの訓練試験が必要となる。 このようなメソッドは制約のないアクションセットで動作するため、無駄なアクションにつながる可能性がある。 論理ニューラルネットワーク(LNN)と呼ばれる最近のニューラルシンボリックフレームワークは、ニューラルネットワークとシンボリックロジックの両方のキープロパティを同時に提供することができる。 LNNは、解釈可能なルールを学ぶための新しい矛盾損失を最小限に抑えるエンドツーエンドの差別化可能なネットワークとして機能します。 本稿では,LNNを用いて AND や NOT といった基本的な論理演算を用いて推論グラフを定義し,強化学習の収束を高速化する。 具体的には、アクションシールドやガイドなどのLNNsベースの論理制約フレームワークで、外部の知識ソースからモデルフリーで強化学習を可能にする統合手法を提案する。 その結果,このような論理的制約を持たないモデルレス強化学習法と比較して,本手法が高速に収束することが実証された。

Conventional deep reinforcement learning methods are sample-inefficient and usually require a large number of training trials before convergence. Since such methods operate on an unconstrained action set, they can lead to useless actions. A recent neuro-symbolic framework called the Logical Neural Networks (LNNs) can simultaneously provide key-properties of both neural networks and symbolic logic. The LNNs functions as an end-to-end differentiable network that minimizes a novel contradiction loss to learn interpretable rules. In this paper, we utilize LNNs to define an inference graph using basic logical operations, such as AND and NOT, for faster convergence in reinforcement learning. Specifically, we propose an integrated method that enables model-free reinforcement learning from external knowledge sources in an LNNs-based logical constrained framework such as action shielding and guide. Our results empirically demonstrate that our method converges faster compared to a model-free reinforcement learning method that doesn't have such logical constraints.
翻訳日:2021-03-04 15:02:25 公開日:2021-03-03
# EaZy Learning: 指紋のライブネス検出のためのアンサンブル学習の適応的バリアント

EaZy Learning: An Adaptive Variant of Ensemble Learning for Fingerprint Liveness Detection ( http://arxiv.org/abs/2103.02207v1 )

ライセンス: Link先を確認
Shivang Agarwal, C. Ravindranath Chowdary and Vivek Sourabh(参考訳) 生体認証の分野では、指紋認識システムは人工的に生成されたspoof指紋によるプレゼンテーション攻撃に対して脆弱である。 したがって、認証する前に指紋の活力検出を行うことが不可欠である。 指紋のライブネス検出メカニズムは、データセット内の環境下でうまく機能しますが、(新しいセンサーによって取得された指紋でテストされた場合)クロスセンサーおよび(あるデータセットでトレーニングされ、別のデータセットでテストされた場合)クロスデータセット設定下で誤って失敗します。 指紋スプーフ検出器の一般化能力、堅牢性、相互運用性を高めるために、学習モデルはデータに適応する必要がある。 本稿では,熱心学習と遅延学習の中間に適応できる汎用モデルであるEaZy学習を提案する。 クロスセンサおよびクロスデータセット環境下でのこの適応性の有用性を示す。 EaZy Learningは、仮説のプールを生成しながらデータセットに固有の特性を調べる。 eazy learningは、ベース分類器のアンサンブルを生成し、それらを統合して予測を行うアンサンブル学習に似ている。 それでも、ベース分類子の生成方法が異なります。 EaZy学習は、基礎となるアンサンブルの多様性に有益な影響を与える完全に非結合な基底分類器のアンサンブルを開発します。 また、検証データに対する性能に基づいて、これらのベース分類器による予測を統合する。 標準高次元データセットであるlivdet 2011, livdet 2013, livdet 2015の実験により、クロスデータセットおよびクロスセンサー環境におけるモデルの有効性が証明された。

In the field of biometrics, fingerprint recognition systems are vulnerable to presentation attacks made by artificially generated spoof fingerprints. Therefore, it is essential to perform liveness detection of a fingerprint before authenticating it. Fingerprint liveness detection mechanisms perform well under the within-dataset environment but fail miserably under cross-sensor (when tested on a fingerprint acquired by a new sensor) and cross-dataset (when trained on one dataset and tested on another) settings. To enhance the generalization abilities, robustness and the interoperability of the fingerprint spoof detectors, the learning models need to be adaptive towards the data. We propose a generic model, EaZy learning which can be considered as an adaptive midway between eager and lazy learning. We show the usefulness of this adaptivity under cross-sensor and cross-dataset environments. EaZy learning examines the properties intrinsic to the dataset while generating a pool of hypotheses. EaZy learning is similar to ensemble learning as it generates an ensemble of base classifiers and integrates them to make a prediction. Still, it differs in the way it generates the base classifiers. EaZy learning develops an ensemble of entirely disjoint base classifiers which has a beneficial influence on the diversity of the underlying ensemble. Also, it integrates the predictions made by these base classifiers based on their performance on the validation data. Experiments conducted on the standard high dimensional datasets LivDet 2011, LivDet 2013 and LivDet 2015 prove the efficacy of the model under cross-dataset and cross-sensor environments.
翻訳日:2021-03-04 15:01:21 公開日:2021-03-03
# 時間記憶アライメントを用いたLiDARに基づく繰り返し3次元セマンティックセグメンテーション

LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory Alignment ( http://arxiv.org/abs/2103.02263v1 )

ライセンス: Link先を確認
Fabian Duerr, Mario Pfaller, Hendrik Weigel, Juergen Beyerer(参考訳) 3D環境の理解と解釈は、自動運転車にとって重要な課題です。 3dポイントクラウドのセマンティックセグメンテーションは3d情報とセマンティックスを組み合わせることで、このタスクに貴重な貢献を提供する。 多くの現実世界のアプリケーションでは、点雲はライダーセンサーによって連続的に生成される。 単一および独立したフレームの代わりに時系列を扱うことで、時系列情報の活用が可能になります。 そこで我々は,単一の画像フレームを入力とし,再帰的に集約された時間情報を利用する再帰的セグメンテーションアーキテクチャ(rnn)を提案する。 私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。 メモリ更新のためにResidual NetworkとConvGRUを調査した。 2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。 提案手法はsemantickitti multi scanベンチマークで第1位にランクインし,single scanベンチマークで最先端のパフォーマンスを実現する。 また,時間情報の利用は,単一のフレームアプローチに比べてセグメント化結果が有意に向上することを示す。

Understanding and interpreting a 3d environment is a key challenge for autonomous vehicles. Semantic segmentation of 3d point clouds combines 3d information with semantics and thereby provides a valuable contribution to this task. In many real-world applications, point clouds are generated by lidar sensors in a consecutive fashion. Working with a time series instead of single and independent frames enables the exploitation of temporal information. We therefore propose a recurrent segmentation architecture (RNN), which takes a single range image frame as input and exploits recursively aggregated temporal information. An alignment strategy, which we call Temporal Memory Alignment, uses ego motion to temporally align the memory between consecutive frames in feature space. A Residual Network and ConvGRU are investigated for the memory update. We demonstrate the benefits of the presented approach on two large-scale datasets and compare it to several stateof-the-art methods. Our approach ranks first on the SemanticKITTI multiple scan benchmark and achieves state-of-the-art performance on the single scan benchmark. In addition, the evaluation shows that the exploitation of temporal information significantly improves segmentation results compared to a single frame approach.
翻訳日:2021-03-04 15:00:57 公開日:2021-03-03
# スパースレーダデータを用いた歩行者の動作分類と身長推定

Motion Classification and Height Estimation of Pedestrians Using Sparse Radar Data ( http://arxiv.org/abs/2103.02278v1 )

ライセンス: Link先を確認
Markus Horn, Ole Schumann, Markus Hahn, J\"urgen Dickmann, Klaus Dietmayer(参考訳) 運転支援システムや高度に自律的な運転には周辺車両環境の完全な概要が重要である。 カメラ、レーダー、ライダーなどの複数のセンサーの融合は、ロバスト性を高めるために不可欠である。 車、自転車、歩行者などの物体の検出と分類は、これまで多くのセンサータイプで分析されてきた。 さらに、これらのクラスを洗練させ、例えば異なる歩行者タイプや活動の区別にも役立ちます。 このタスクは通常、カメラデータで実行されるが、最近の開発はレーダースペクトログラムに基づいている。 しかし、ほとんどの自動車用レーダーシステムでは、オリジナルのスペクトログラムの代わりにレーダーターゲットを得ることしかできない。 本研究は,2次元レーダー目標を用いて歩行歩行者の体長を推定できることを実証する。 さらに、歩行者の動作の種類を分類する。

A complete overview of the surrounding vehicle environment is important for driver assistance systems and highly autonomous driving. Fusing results of multiple sensor types like camera, radar and lidar is crucial for increasing the robustness. The detection and classification of objects like cars, bicycles or pedestrians has been analyzed in the past for many sensor types. Beyond that, it is also helpful to refine these classes and distinguish for example between different pedestrian types or activities. This task is usually performed on camera data, though recent developments are based on radar spectrograms. However, for most automotive radar systems, it is only possible to obtain radar targets instead of the original spectrograms. This work demonstrates that it is possible to estimate the body height of walking pedestrians using 2D radar targets. Furthermore, different pedestrian motion types are classified.
翻訳日:2021-03-04 15:00:36 公開日:2021-03-03
# 物体検出のための一般例蒸留

General Instance Distillation for Object Detection ( http://arxiv.org/abs/2103.02340v1 )

ライセンス: Link先を確認
Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou(参考訳) 近年、知識蒸留はモデル圧縮の効果的なソリューションであることが証明されています。 このアプローチにより、軽量な生徒モデルが面倒な教師モデルから抽出された知識を獲得できます。 しかし, 従来の蒸留法では, 異なる検出手法の一般化が弱く, 地底真理(GT)に強く依存しており, インスタンス間の価値ある関係情報を無視している。 そこで本研究では,一般インスタンス蒸留(GID)と呼ばれるGTによって区別される正または負の区別を考慮せずに,識別インスタンスに基づくタスク検出のための新しい蒸留法を提案する。 提案手法は, 汎用インスタンス選択モジュール (GISM) を用いて, 蒸留における特徴ベース, 関係ベース, 応答ベース知識をフル活用する。 広範な結果から,生徒モデルがap改善を達成し,各種検出フレームワークにおいて教師よりも優れていた。 具体的には、RetinaNet with ResNet-50は、COCOデータセット上のGIDでmAPの39.1%を達成し、ベースライン36.2%を2.9%上回り、さらに38.1%APのResNet-101ベースの教師モデルよりも優れています。

In recent years, knowledge distillation has been proved to be an effective solution for model compression. This approach can make lightweight student models acquire the knowledge extracted from cumbersome teacher models. However, previous distillation methods of detection have weak generalization for different detection frameworks and rely heavily on ground truth (GT), ignoring the valuable relation information between instances. Thus, we propose a novel distillation method for detection tasks based on discriminative instances without considering the positive or negative distinguished by GT, which is called general instance distillation (GID). Our approach contains a general instance selection module (GISM) to make full use of feature-based, relation-based and response-based knowledge for distillation. Extensive results demonstrate that the student model achieves significant AP improvement and even outperforms the teacher in various detection frameworks. Specifically, RetinaNet with ResNet-50 achieves 39.1% in mAP with GID on COCO dataset, which surpasses the baseline 36.2% by 2.9%, and even better than the ResNet-101 based teacher model with 38.1% AP.
翻訳日:2021-03-04 15:00:25 公開日:2021-03-03
# FSDR: 周波数空間領域ランダム化による領域一般化

FSDR: Frequency Space Domain Randomization for Domain Generalization ( http://arxiv.org/abs/2103.02370v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu(参考訳) ドメイン一般化は、さまざまな未知のターゲットドメインの既知のソースドメインから一般化可能なモデルを学ぶことを目的とする。 領域に依存しない特徴を学習するための空間空間空間の異なるスタイルにソースイメージを転送する領域ランダム化によって広く研究されている。 しかし、ほとんどの既存のランダム化は、しばしば制御が欠如し、望ましくないイメージのセマンティック構造も変更するGANを使用している。 空間像を多重周波数成分(FC)に変換するJPEGのアイデアに触発されて、領域不変のFC(DIF)を維持し、ドメイン不変のFC(DVF)のみをランダム化する周波数空間領域ランダム化(FSDR)を提案する。 FSDRには2つの特徴がある: 1) イメージをDIFとDVFに分解し、明示的なアクセスと操作を可能にし、より制御可能なランダム化を可能にする。 FCの領域分散と不変性を統計的に検討し、反復学習によりDIFとDVFを動的に識別・融合できるネットワークを設計した。 複数のドメイン一般化可能なセグメンテーションタスクに対する広範な実験は、FSDRが優れたセグメンテーションを達成し、トレーニング中のターゲットデータにアクセスするドメイン適応方法と同等のパフォーマンスを示す。

Domain generalization aims to learn a generalizable model from a known source domain for various unknown target domains. It has been studied widely by domain randomization that transfers source images to different styles in spatial space for learning domain-agnostic features. However, most existing randomization uses GANs that often lack of controls and even alter semantic structures of images undesirably. Inspired by the idea of JPEG that converts spatial images into multiple frequency components (FCs), we propose Frequency Space Domain Randomization (FSDR) that randomizes images in frequency space by keeping domain-invariant FCs (DIFs) and randomizing domain-variant FCs (DVFs) only. FSDR has two unique features: 1) it decomposes images into DIFs and DVFs which allows explicit access and manipulation of them and more controllable randomization; 2) it has minimal effects on semantic structures of images and domain-invariant features. We examined domain variance and invariance property of FCs statistically and designed a network that can identify and fuse DIFs and DVFs dynamically through iterative learning. Extensive experiments over multiple domain generalizable segmentation tasks show that FSDR achieves superior segmentation and its performance is even on par with domain adaptation methods that access target data in training.
翻訳日:2021-03-04 15:00:04 公開日:2021-03-03
# S^3$: ガイド深度推定のための学習可能なスパース信号超密度

$S^3$: Learnable Sparse Signal Superdensity for Guided Depth Estimation ( http://arxiv.org/abs/2103.02396v1 )

ライセンス: Link先を確認
Yu-Kai Huang, Yueh-Cheng Liu, Tsung-Han Wu, Hung-Ting Su, Yu-Cheng Chang, Tsung-Lin Tsou, Yu-An Wang, and Winston H. Hsu(参考訳) Dense Depthの推定は、ロボット工学、3D再構成、拡張現実といった複数のアプリケーションにおいて重要な役割を果たす。 LiDAR や Radar などのスパース信号は高密度深度推定のガイダンスとして利用されているが、密度が低く、分布が不均衡なため改善が制限されている。 スパースソースから有効性を最大化するために,拡張領域の信頼性を推定しながらスパースキューから深さ値を拡張する,$S^3$手法を提案する。 提案した$S^3$は、様々な誘導深度推定手法や、入力、コストボリューム、出力を含む様々な段階で訓練されたエンドツーエンドに適用できる。 広範な実験はLiDARおよびレーダー信号の$S^3$の技術の有効性、堅牢性および柔軟性を示す。

Dense Depth estimation plays a key role in multiple applications such as robotics, 3D reconstruction, and augmented reality. While sparse signal, e.g., LiDAR and Radar, has been leveraged as guidance for enhancing dense depth estimation, the improvement is limited due to its low density and imbalanced distribution. To maximize the utility from the sparse source, we propose $S^3$ technique, which expands the depth value from sparse cues while estimating the confidence of expanded region. The proposed $S^3$ can be applied to various guided depth estimation approaches and trained end-to-end at different stages, including input, cost volume and output. Extensive experiments demonstrate the effectiveness, robustness, and flexibility of the $S^3$ technique on LiDAR and Radar signal.
翻訳日:2021-03-04 14:59:39 公開日:2021-03-03
# マルチアテンショナルディープフェイク検出

Multi-attentional Deepfake Detection ( http://arxiv.org/abs/2103.02406v1 )

ライセンス: Link先を確認
Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Tianyi Wei, Weiming Zhang, Nenghai Yu(参考訳) ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。 近年,このような偽コンテンツの検出方法がホットな研究テーマとなり,多くのディープフェイク検出手法が提案されている。 その多くは、ディープフェイク検出をバニラバイナリ分類問題としてモデル化している。すなわち、まずバックボーンネットワークを使用してグローバル特徴を抽出し、次にバイナリ分類器(real/fake)に送信する。 しかし、このタスクにおける実画像と偽画像の違いは、しばしば微妙で局所的であるため、このバニラソリューションは最適ではないと主張する。 本論文では, ディープフェイク検出を細かい分類問題として定式化し, 新しいマルチアテンショナルディープフェイク検出ネットワークを提案する。 具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。 さらに,このネットワークの学習の難しさに対処するために,新たな地域独立の喪失と注意喚起型データ強化戦略を導入する。 異なるデータセットに関する広範囲な実験を通じて,バニラバイナリ分類器よりも優れた手法を示し,最先端の性能を実現する。

Face forgery by deepfake is widely spread over the internet and has raised severe societal concerns. Recently, how to detect such forgery contents has become a hot research topic and many deepfake detection methods have been proposed. Most of them model deepfake detection as a vanilla binary classification problem, i.e, first use a backbone network to extract a global feature and then feed it into a binary classifier (real/fake). But since the difference between the real and fake images in this task is often subtle and local, we argue this vanilla solution is not optimal. In this paper, we instead formulate deepfake detection as a fine-grained classification problem and propose a new multi-attentional deepfake detection network. Specifically, it consists of three key components: 1) multiple spatial attention heads to make the network attend to different local parts; 2) textural feature enhancement block to zoom in the subtle artifacts in shallow features; 3) aggregate the low-level textural feature and high-level semantic features guided by the attention maps. Moreover, to address the learning difficulty of this network, we further introduce a new regional independence loss and an attention guided data augmentation strategy. Through extensive experiments on different datasets, we demonstrate the superiority of our method over the vanilla binary classifier counterparts, and achieve state-of-the-art performance.
翻訳日:2021-03-04 14:59:26 公開日:2021-03-03
# OpenPifPaf:セマンティックキーポイント検出とテンポラルアソシエーションのための複合フィールド

OpenPifPaf: Composite Fields for Semantic Keypoint Detection and Spatio-Temporal Association ( http://arxiv.org/abs/2103.02440v1 )

ライセンス: Link先を確認
Sven Kreiss, Lorenzo Bertoni, Alexandre Alahi(参考訳) 多くの画像ベースの知覚タスクは、人間のポーズ推定やトラッキングなど、セマンティックキーポイントの検出、関連付け、追跡として定式化することができる。 本研究では, 時空間的キーポイント関係を単一段で検出・形成する汎用フレームワークを提案し, これが最初のリアルタイムポーズ検出・追跡アルゴリズムとなった。 本稿では、複合フィールドを用いて、ノードが複数のフレームのセマンティックキーポイント(例えば、人の体関節)である単一の連結グラフである時空間ポーズを検出し、構築する汎用ニューラルネットワークアーキテクチャを提案する。 時間的関連性については,従来より拡張されたネットワークアーキテクチャとトレーニング手法を必要とするTCAF(Temporal Composite Association Field)を導入する。 実験では、COCO、CrowdPose、PoseTrack 2017、2018データセットなど、複数の公開データセットで、桁違いに高速な競合精度を示しました。 また,本手法は,自動車や動物部品などのセマンティックキーポイントを一般化し,自動運転車や配送ロボットなどの都市移動に適した全体認識フレームワークを提供することを示した。

Many image-based perception tasks can be formulated as detecting, associating and tracking semantic keypoints, e.g., human body pose estimation and tracking. In this work, we present a general framework that jointly detects and forms spatio-temporal keypoint associations in a single stage, making this the first real-time pose detection and tracking algorithm. We present a generic neural network architecture that uses Composite Fields to detect and construct a spatio-temporal pose which is a single, connected graph whose nodes are the semantic keypoints (e.g., a person's body joints) in multiple frames. For the temporal associations, we introduce the Temporal Composite Association Field (TCAF) which requires an extended network architecture and training method beyond previous Composite Fields. Our experiments show competitive accuracy while being an order of magnitude faster on multiple publicly available datasets such as COCO, CrowdPose and the PoseTrack 2017 and 2018 datasets. We also show that our method generalizes to any class of semantic keypoints such as car and animal parts to provide a holistic perception framework that is well suited for urban mobility such as self-driving cars and delivery robots.
翻訳日:2021-03-04 14:58:59 公開日:2021-03-03
# 単画像降雨除去のための非局所チャネル集約ネットワーク

Non-local Channel Aggregation Network for Single Image Rain Removal ( http://arxiv.org/abs/2103.02488v1 )

ライセンス: Link先を確認
Zhipeng Su, Yixiong Zhang, Xiao-Ping Zhang, Feng Qi(参考訳) 画像やビデオに現れる雨のストリークは、コンピュータビジョンアプリケーションの性能を著しく低下させる。 したがって、雨害を取り除き、視覚システムを促進することが極めて重要である。 最近の畳み込みニューラルネットワークに基づく手法では、単一画像雨除去(SIRR)の有望な結果が示されているが、長距離位置依存性や集約畳み込みチャネル情報を同時に捕捉することはできなかった。 しかし、SIRRは非常に病的な問題であるため、これらの空間およびチャネル情報はSIRRを解決するための非常に重要な手がかりです。 まず、空間情報は、画像中に隠された長距離依存位置情報を収集することで、画像コンテキストを理解するのに役立ちます。 第2に、集約チャネルは、雨天ではなく、画像背景に関連するチャネルに集中するのに役立ちます。 本稿では,SIRR問題に対処するための非局所チャネル集約ネットワーク(NCANet)を提案する。 NCANETは、垂直方向、横方向、チャネル方向の3方向のベクトルのシーケンスとして2D雨像をモデル化する。 3つの方向から情報を集約することで、チャネルと空間の両方における長距離依存性を捉えることができます。 重雨と軽雨の両方の画像データセットに関する広範な実験は、提案されたNCANetモデルの有効性を示す。

Rain streaks showing in images or videos would severely degrade the performance of computer vision applications. Thus, it is of vital importance to remove rain streaks and facilitate our vision systems. While recent convolutinal neural network based methods have shown promising results in single image rain removal (SIRR), they fail to effectively capture long-range location dependencies or aggregate convolutional channel information simultaneously. However, as SIRR is a highly illposed problem, these spatial and channel information are very important clues to solve SIRR. First, spatial information could help our model to understand the image context by gathering long-range dependency location information hidden in the image. Second, aggregating channels could help our model to concentrate on channels more related to image background instead of rain streaks. In this paper, we propose a non-local channel aggregation network (NCANet) to address the SIRR problem. NCANet models 2D rainy images as sequences of vectors in three directions, namely vertical direction, transverse direction and channel direction. Recurrently aggregating information from all three directions enables our model to capture the long-range dependencies in both channels and spaitials locations. Extensive experiments on both heavy and light rain image data sets demonstrate the effectiveness of the proposed NCANet model.
翻訳日:2021-03-04 14:58:37 公開日:2021-03-03
# EllipsoidNet:ポイントクラウド分類とセグメンテーションのためのEllipsoid表現

EllipsoidNet: Ellipsoid Representation for Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2103.02517v1 )

ライセンス: Link先を確認
Yecheng Lyu, Xinming Huang, Ziming Zhang(参考訳) ポイントクラウドパターンは、無秩序なポイント間の暗黙のローカルな幾何学的特徴のため、学ぶのが難しい。 近年、2d空間における点雲表現は、2d空間の局所幾何学的特徴を露出するため、研究の関心が高まっている。 これらの点を2次元特徴マップに投影することにより、2次元畳み込みニューラルネットワークによってさらに抽出される画素間の文脈で点間の関係を継承する。 しかし、既存の2d表現法は精度が限られているか時間を要する。 本論文では、局所パターンが楕円面および点面によく露出する楕円面空間に点群を投影する新しい2次元表現法を提案する。 さらに,これらの特徴をポイントクラウド分類やセグメンテーションアプリケーションに適用するために,ellipsoidnetという新しい畳み込みニューラルネットワークが提案されている。 提案手法は ModelNet40 と ShapeNet のベンチマークで評価され,既存の 2D 表現法に対する利点が明らかに示された。

Point cloud patterns are hard to learn because of the implicit local geometry features among the orderless points. In recent years, point cloud representation in 2D space has attracted increasing research interest since it exposes the local geometry features in a 2D space. By projecting those points to a 2D feature map, the relationship between points is inherited in the context between pixels, which are further extracted by a 2D convolutional neural network. However, existing 2D representing methods are either accuracy limited or time-consuming. In this paper, we propose a novel 2D representation method that projects a point cloud onto an ellipsoid surface space, where local patterns are well exposed in ellipsoid-level and point-level. Additionally, a novel convolutional neural network named EllipsoidNet is proposed to utilize those features for point cloud classification and segmentation applications. The proposed methods are evaluated in ModelNet40 and ShapeNet benchmarks, where the advantages are clearly shown over existing 2D representation methods.
翻訳日:2021-03-04 14:58:16 公開日:2021-03-03
# 3次元ポーズ推定における深度予測の役割について

On the role of depth predictions for 3D human pose estimation ( http://arxiv.org/abs/2103.02521v1 )

ライセンス: Link先を確認
Alec Diaz-Arias, Mitchell Messmore, Dmitriy Shin, and Stephen Baek(参考訳) 深層畳み込みニューラルネットワークの2次元人間のポーズ推定への応用の成功に続いて、次に解決すべき論理問題は、単眼画像からの3次元人間のポーズ推定である。 これまでのソリューションはある程度成功したが、2d入力からの奥行き情報を十分に活用していない。 この奥行き曖昧性に対処するために,推定深度値とともに2次元関節位置を入力とし,その3次元位置をカメラ座標で予測するシステムを構築する。 単眼画像から深度マップを推定することによる固有ノイズと不正確さを考慮すると、このノイズを考慮に入れれば、カメラ座標の3番目の座標と予測深度値の間に統計的に有意な相関関係があることが分かる。 さらに、H3.6M検証セットで達成した最先端の結果が、さらなる深度入力によるものであることを説明します。 特に、我々の結果は低次元入力を受け入れてリアルタイムシステムに統合されるニューラルネットワーク上で生成される。 さらに,本システムは市販の2dポーズ検出器と深度マップ予測器と組み合わせて野生での3dポーズ推定を行うことができる。

Following the successful application of deep convolutional neural networks to 2d human pose estimation, the next logical problem to solve is 3d human pose estimation from monocular images. While previous solutions have shown some success, they do not fully utilize the depth information from the 2d inputs. With the goal of addressing this depth ambiguity, we build a system that takes 2d joint locations as input along with their estimated depth value and predicts their 3d positions in camera coordinates. Given the inherent noise and inaccuracy from estimating depth maps from monocular images, we perform an extensive statistical analysis showing that given this noise there is still a statistically significant correlation between the predicted depth values and the third coordinate of camera coordinates. We further explain how the state-of-the-art results we achieve on the H3.6M validation set are due to the additional input of depth. Notably, our results are produced on neural network that accepts a low dimensional input and be integrated into a real-time system. Furthermore, our system can be combined with an off-the-shelf 2d pose detector and a depth map predictor to perform 3d pose estimation in the wild.
翻訳日:2021-03-04 14:58:00 公開日:2021-03-03
# ポイントクラウド補完のための逆レンダリングを伴うスタイルベースポイントジェネレータ

Style-based Point Generator with Adversarial Rendering for Point Cloud Completion ( http://arxiv.org/abs/2103.02535v1 )

ライセンス: Link先を確認
Chulin Xie, Chuxin Wang, Bo Zhang, Hao Yang, Dong Chen, Fang Wen(参考訳) 本稿では,ポイントクラウドを補完する逆レンダリング(SpareNet)を備えた新しいスタイルベースのポイントジェネレータを提案する。 まず, 局所構造を活用し, 点特徴のグローバル形状を活用すべく, チャネル指向エッジconvを提案する。 第二に,バニラの折り畳みによって用いられる結合性は,複雑で忠実な形状を生み出す可能性を制限することが観察された。 styleganの成功に啓発され、形状特徴を折り畳み時の正規化層を変調するスタイルコードとみなし、その能力を大幅に向上させる。 第三に、既存の点監督(例えば、Chamfer Distance や Earth Mover's Distance)は、再建された点の知覚的品質を忠実に反映できない。 そこで本研究では,異なる視点で認識現実主義を提唱するために,識別可能なレンダラを用いた深度マップに完成点を投影し,対角訓練を適用することを提案する。 ShapeNet と KITTI に関する総合的な実験により,より優れた視覚的品質を提供しながら,最先端の定量的性能を実現する手法の有効性が証明された。

In this paper, we proposed a novel Style-based Point Generator with Adversarial Rendering (SpareNet) for point cloud completion. Firstly, we present the channel-attentive EdgeConv to fully exploit the local structures as well as the global shape in point features. Secondly, we observe that the concatenation manner used by vanilla foldings limits its potential of generating a complex and faithful shape. Enlightened by the success of StyleGAN, we regard the shape feature as style code that modulates the normalization layers during the folding, which considerably enhances its capability. Thirdly, we realize that existing point supervisions, e.g., Chamfer Distance or Earth Mover's Distance, cannot faithfully reflect the perceptual quality of the reconstructed points. To address this, we propose to project the completed points to depth maps with a differentiable renderer and apply adversarial training to advocate the perceptual realism under different viewpoints. Comprehensive experiments on ShapeNet and KITTI prove the effectiveness of our method, which achieves state-of-the-art quantitative performance while offering superior visual quality.
翻訳日:2021-03-04 14:57:41 公開日:2021-03-03
# House-GAN++: 汎用的なレイアウトリファインメントネットワーク

House-GAN++: Generative Adversarial Layout Refinement Networks ( http://arxiv.org/abs/2103.02574v1 )

ライセンス: Link先を確認
Nelson Nauata, Sepidehsadat Hosseini, Kai-Hung Chang, Hang Chu, Chin-Yi Cheng, Yasutaka Furukawa(参考訳) 本稿では,自動フロアプラン生成のための新しい生成逆配置改善ネットワークを提案する。 私たちのアーキテクチャは、グラフ制約付きリレーショナルGANと条件付きGANの統合であり、以前に生成されたレイアウトが次の入力制約となり、反復的な洗練を可能にします。 我々の研究の驚くべき発見は、コンポーネントワイドGTコンディショニングと呼ばれる単純な非イテレーティブトレーニングプロセスが、そのようなジェネレータの学習に有効であることである。 イテレーティブジェネレータはまた、イテレーティブレイアウトのリファインメント中にどの入力制約をパスするかを制御し、メタ最適化技術によって選択のメトリクスをさらに改善する新たな機会を生み出している。 3つの基準に基づく定性評価と定量的評価により、提案システムは、プロの建築家が設計した地上階計画に匹敵する、現在の最先端のものよりも大幅に改善されることを示しています。

This paper proposes a novel generative adversarial layout refinement network for automated floorplan generation. Our architecture is an integration of a graph-constrained relational GAN and a conditional GAN, where a previously generated layout becomes the next input constraint, enabling iterative refinement. A surprising discovery of our research is that a simple non-iterative training process, dubbed component-wise GT-conditioning, is effective in learning such a generator. The iterative generator also creates a new opportunity in further improving a metric of choice via meta-optimization techniques by controlling when to pass which input constraints during iterative layout refinement. Our qualitative and quantitative evaluation based on the three standard metrics demonstrate that the proposed system makes significant improvements over the current state-of-the-art, even competitive against the ground-truth floorplans, designed by professional architects.
翻訳日:2021-03-04 14:57:20 公開日:2021-03-03
# 時空間心エコー深層学習による事象予測のシミュレーション

Simulating time to event prediction with spatiotemporal echocardiography deep learning ( http://arxiv.org/abs/2103.02583v1 )

ライセンス: Link先を確認
Rohan Shad, Nicolas Quach, Robyn Fong, Patpilai Kasinpila, Cayley Bowles, Kate M. Callon, Michelle C. Li, Jeffrey Teuteberg, John P. Cunningham, Curtis P. Langlotz, William Hiesinger(参考訳) 生存率の正確な推定には観察期間内の個体の検閲を考慮しなければならないため、時刻から事象への予測と診断画像のモダリティを統合する方法は非常に興味深い。 ニューラルネットワークを用いてcox-proportional hazardsモデルを拡張することにより、時間対イベント予測の新しい手法を開発した。 本稿では,1万以上の心エコー図を有するスタンフォード・エコーネット・ダイナミックデータセットを用いて,心エコー画像を用いた深層学習におけるこれらの手法の適用可能性について検討し,専門家の注釈付き射出分数読みに基づくシミュレーションサバイバルデータセットを作成する。 シミュレーションによる生存結果のみを訓練することにより,時空間畳み込みニューラルネットワークが正確な生存推定を得られることを示す。

Integrating methods for time-to-event prediction with diagnostic imaging modalities is of considerable interest, as accurate estimates of survival requires accounting for censoring of individuals within the observation period. New methods for time-to-event prediction have been developed by extending the cox-proportional hazards model with neural networks. In this paper, to explore the feasibility of these methods when applied to deep learning with echocardiography videos, we utilize the Stanford EchoNet-Dynamic dataset with over 10,000 echocardiograms, and generate simulated survival datasets based on the expert annotated ejection fraction readings. By training on just the simulated survival outcomes, we show that spatiotemporal convolutional neural networks yield accurate survival estimates.
翻訳日:2021-03-04 14:57:03 公開日:2021-03-03
# ドメイン適応型パノプティブセグメンテーションのためのクロスビュー規則化

Cross-View Regularization for Domain Adaptive Panoptic Segmentation ( http://arxiv.org/abs/2103.02584v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu(参考訳) panoptic segmentationは、近年注目を集めているセマンティックセグメンテーションとインスタンスセグメンテーションを統合する。 しかし、既存の研究のほとんどは教師付き学習のセットアップの下で行われ、異なるタスクやアプリケーションで重要な非教師付きドメイン適応パンオプティクスセグメンテーションはほとんど無視されます。 ドメイン適応型パノプティックセグメンテーションネットワークを設計し、最適領域適応型パノプティックセグメンテーションのためのスタイル間の整合性とタスク間正規化を利用する。 スタイル間の整合性は、異なるスタイルの同じイメージの幾何学的不変性を利用して、特定の自己スーパービジョンを作成し、ネットワークにドメイン不変の特徴を学習させる。 タスク間の正規化は、インスタンスセグメンテーションとセマンティクスセグメンテーションの相補的な性質を生かして、ドメイン間の機能アライメントを改善するための制約として利用します。 複数の領域適応型パノプティックセグメンテーションタスク(例えば、合成-実-実-実-実-実-)に対する大規模な実験により、提案ネットワークは最先端技術と比較して優れたセグメンテーション性能を達成できることを示す。

Panoptic segmentation unifies semantic segmentation and instance segmentation which has been attracting increasing attention in recent years. However, most existing research was conducted under a supervised learning setup whereas unsupervised domain adaptive panoptic segmentation which is critical in different tasks and applications is largely neglected. We design a domain adaptive panoptic segmentation network that exploits inter-style consistency and inter-task regularization for optimal domain adaptive panoptic segmentation. The inter-style consistency leverages geometric invariance across the same image of the different styles which fabricates certain self-supervisions to guide the network to learn domain-invariant features. The inter-task regularization exploits the complementary nature of instance segmentation and semantic segmentation and uses it as a constraint for better feature alignment across domains. Extensive experiments over multiple domain adaptive panoptic segmentation tasks (e.g., synthetic-to-real and real-to-real) show that our proposed network achieves superior segmentation performance as compared with the state-of-the-art.
翻訳日:2021-03-04 14:56:49 公開日:2021-03-03
# ir_datasetsを用いた簡易データラング

Simplified Data Wrangling with ir_datasets ( http://arxiv.org/abs/2103.02280v1 )

ライセンス: Link先を確認
Sean MacAvaney, Andrew Yates, Sergey Feldman, Doug Downey, Arman Cohan, Nazli Goharian(参考訳) 情報検索(IR)実験のためのデータ管理は困難である。 データセットのドキュメンテーションはインターネットに散らばっていて、一度データのコピーを取得すれば、処理すべきデータ形式はたくさんあります。 基本的なフォーマットでさえ、適切な使用のために考慮する必要がある微妙なデータセット固有のニュアンスを持つことができる。 これらの課題を軽減するために、IRで使用されるデータセット上の典型的な操作を取得、管理、実行するための新しい堅牢で軽量なツール(ir_datases)を導入しました。 主にアドホック検索に使用されるテキストデータセットに注目します。 このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。 私たちの知る限り、これはその種の最も広範なツールです。 人気のIRインデクシングと実験ツールキットとの統合は、ツールのユーティリティを示しています。 また、ir_datasetsカタログを通じてこれらのデータセットのドキュメンテーションも提供します。 このカタログは、IRで使用されるデータセットに関する情報のハブとして機能し、各ベンチマークが提供するデータと、より詳細な情報へのリンクに関するコア情報を提供する。 私たちはコミュニティの貢献を歓迎し、このツールの維持と成長を続けます。

Managing the data for Information Retrieval (IR) experiments can be challenging. Dataset documentation is scattered across the Internet and once one obtains a copy of the data, there are numerous different data formats to work with. Even basic formats can have subtle dataset-specific nuances that need to be considered for proper use. To help mitigate these challenges, we introduce a new robust and lightweight tool (ir_datases) for acquiring, managing, and performing typical operations over datasets used in IR. We primarily focus on textual datasets used for ad-hoc search. This tool provides both a python and command line interface to numerous IR datasets and benchmarks. To our knowledge, this is the most extensive tool of its kind. Integrations with popular IR indexing and experimentation toolkits demonstrate the tool's utility. We also provide documentation of these datasets through the ir_datasets catalog: https://ir-datasets. com/. The catalog acts as a hub for information on datasets used in IR, providing core information about what data each benchmark provides as well as links to more detailed information. We welcome community contributions and intend to continue to maintain and grow this tool.
翻訳日:2021-03-04 14:56:28 公開日:2021-03-03
# 決定木(prindt)における予測と解釈を組み合わせた言語例

Combining Prediction and Interpretation in Decision Trees (PrInDT) -- a Linguistic Example ( http://arxiv.org/abs/2103.02336v1 )

ライセンス: Link先を確認
Claus Weihs and Sarah Buschfeld(参考訳) 本稿では,条件付き推論木とアンサンブルが言語変動のモデル化に適していることを示す。 しかし、初期の言語応用に対して、予測と解釈を組み合わせると、それらの適合性が強く向上すると主張する。 そこで本論文では,PrInDT (Prediction and Interpretation with Decision Trees) の統計的手法について紹介し,議論する。

In this paper, we show that conditional inference trees and ensembles are suitable methods for modeling linguistic variation. As against earlier linguistic applications, however, we claim that their suitability is strongly increased if we combine prediction and interpretation. To that end, we have developed a statistical method, PrInDT (Prediction and Interpretation with Decision Trees), which we introduce and discuss in the present paper.
翻訳日:2021-03-04 14:56:13 公開日:2021-03-03
# Weakly-supvised Open-Retrieval Conversational Questioning

Weakly-Supervised Open-Retrieval Conversational Question Answering ( http://arxiv.org/abs/2103.02537v1 )

ライセンス: Link先を確認
Chen Qu, Liu Yang, Cen Chen, W. Bruce Croft, Kalpesh Krishna and Mohit Iyyer(参考訳) 質問回答(QA)と会話QA(ConvQA)に関する最近の研究では、検索の役割を強調している。 このオープン検索可能なConvQA設定は、通常、各質問が特定の文節(スパン回答)内の1つのテキストで答えられると仮定する。 したがって、監視信号は、システムが検索された通路からこの接地正解の正確な一致を回復できるかどうかから導かれる。 この方法はスパンマッチ弱い監督と呼ばれる。 しかし、長い答え、特にフリーフォームの答えは必ずしも通路の狭いスパンではないため、このスパンマッチング法では情報検索会話は困難である。 そこで本研究では,既知の回答のパラフレーズスパンをパスで特定できる弱監督手法を提案する。 QuAC と CoQA データセットを用いた実験により,スパンマッチの弱いスーパーバイザはスパン応答でのみ会話を処理でき,人によって生成されるフリーフォーム回答に対する満足度の低い結果が得られることがわかった。 解答と解答の両方を扱えるので,本手法はより柔軟である。 さらに,スパンマッチ法と組み合わせることで,スパンマッチ法と相補的であることを示す場合,本手法はより強力である。 また,オープンレトリーバルのConvQAに関するより深い知見を,監督の弱い環境下でより深く分析する。

Recent studies on Question Answering (QA) and Conversational QA (ConvQA) emphasize the role of retrieval: a system first retrieves evidence from a large collection and then extracts answers. This open-retrieval ConvQA setting typically assumes that each question is answerable by a single span of text within a particular passage (a span answer). The supervision signal is thus derived from whether or not the system can recover an exact match of this ground-truth answer span from the retrieved passages. This method is referred to as span-match weak supervision. However, information-seeking conversations are challenging for this span-match method since long answers, especially freeform answers, are not necessarily strict spans of any passage. Therefore, we introduce a learned weak supervision approach that can identify a paraphrased span of the known answer in a passage. Our experiments on QuAC and CoQA datasets show that the span-match weak supervisor can only handle conversations with span answers, and has less satisfactory results for freeform answers generated by people. Our method is more flexible as it can handle both span answers and freeform answers. Moreover, our method can be more powerful when combined with the span-match method which shows it is complementary to the span-match method. We also conduct in-depth analyses to show more insights on open-retrieval ConvQA under a weak supervision setting.
翻訳日:2021-03-04 14:56:04 公開日:2021-03-03
# 重み摂動に対するニューラルネットワークの一般化とロバスト性

Formalizing Generalization and Robustness of Neural Networks to Weight Perturbations ( http://arxiv.org/abs/2103.02200v1 )

ライセンス: Link先を確認
Yu-Lin Tsai, Chia-Yi Hsu, Chia-Mu Yu, Pin-Yu Chen(参考訳) ニューラルネットワークにおける重量摂動の感度と、一般化や堅牢性を含むモデルパフォーマンスへの影響についての研究は、モデル圧縮、一般化ギャップアセスメント、敵対的攻撃など、幅広い機械学習タスクに影響を及ぼすため、活発な研究テーマである。 本稿では,非負のモノトン活性化関数を持つフィードフォワードニューラルネットワークに対して,ペアワイズクラスマージン関数のロバスト性と一般化のためのラデマッハ複雑性の観点から,最初の形式的解析を行う。 さらに、重み摂動に対して一般化可能で堅牢なニューラルネットワークをトレーニングするための理論駆動型損失関数を設計する。 実験は理論解析を検証するために行われる。 その結果、ニューラルネットワークの重量変動に対する一般化と堅牢性を特徴付けるための基本的な洞察を提供します。

Studying the sensitivity of weight perturbation in neural networks and its impacts on model performance, including generalization and robustness, is an active research topic due to its implications on a wide range of machine learning tasks such as model compression, generalization gap assessment, and adversarial attacks. In this paper, we provide the first formal analysis for feed-forward neural networks with non-negative monotone activation functions against norm-bounded weight perturbations, in terms of the robustness in pairwise class margin functions and the Rademacher complexity for generalization. We further design a new theory-driven loss function for training generalizable and robust neural networks against weight perturbations. Empirical experiments are conducted to validate our theoretical analysis. Our results offer fundamental insights for characterizing the generalization and robustness of neural networks against weight perturbations.
翻訳日:2021-03-04 14:55:19 公開日:2021-03-03
# 予測と評価:潜在未来予測による価値推定の分解

Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction ( http://arxiv.org/abs/2103.02225v1 )

ライセンス: Link先を確認
Hongyao Tang, Jianye Hao, Guangyong Chen, Pengfei Chen, Chen Chen, Yaodong Yang, Luo Zhang, Wulong Liu, Zhaopeng Meng(参考訳) 価値関数は強化学習(RL)の中心的な概念である。 特に関数近似では、環境ダイナミクスの確率性や、場合によっては狭く遅延する可能性のある報酬信号を含むため、価値推定は困難である。 典型的なモデルフリーRLアルゴリズムは、通常、報酬から直接テンポラル差分(TD)またはモンテカルロ(MC)アルゴリズムによってポリシーの値を推定し、ダイナミクスを明示的に考慮しない。 本稿では,バリュー・デコンポジションと未来予測(VDFP)を提案し,バリュー・見積もりのプロセスについて,(1)先行きの将来を予見する,2) の2段階の明確な理解と評価を行う。 価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。 さらに、過去の経験からコンパクトな軌道表現を学習する畳み込みモデルと、潜在的な将来のダイナミクスを予測する条件変動自動エンコーダと、軌道表現を評価する凸戻りモデルからなる実用的な深部RLアルゴリズムを導出する。 実験では、いくつかのOpenAIジムの継続的制御タスクにおけるオフポリシーとオンポリシーRLの両方に対するアプローチの有効性を実証的に実証します。

Value function is the central notion of Reinforcement Learning (RL). Value estimation, especially with function approximation, can be challenging since it involves the stochasticity of environmental dynamics and reward signals that can be sparse and delayed in some cases. A typical model-free RL algorithm usually estimates the values of a policy by Temporal Difference (TD) or Monte Carlo (MC) algorithms directly from rewards, without explicitly taking dynamics into consideration. In this paper, we propose Value Decomposition with Future Prediction (VDFP), providing an explicit two-step understanding of the value estimation process: 1) first foresee the latent future, 2) and then evaluate it. We analytically decompose the value function into a latent future dynamics part and a policy-independent trajectory return part, inducing a way to model latent dynamics and returns separately in value estimation. Further, we derive a practical deep RL algorithm, consisting of a convolutional model to learn compact trajectory representation from past experiences, a conditional variational auto-encoder to predict the latent future dynamics and a convex return model that evaluates trajectory representation. In experiments, we empirically demonstrate the effectiveness of our approach for both off-policy and on-policy RL in several OpenAI Gym continuous control tasks as well as a few challenging variants with delayed reward.
翻訳日:2021-03-04 14:55:01 公開日:2021-03-03
# 学習政策慣性による行動振動の対応

Addressing Action Oscillations through Learning Policy Inertia ( http://arxiv.org/abs/2103.02287v1 )

ライセンス: Link先を確認
Chen Chen, Hongyao Tang, Jianye Hao, Wulong Liu, Zhaopeng Meng(参考訳) 深層強化学習(DRL)アルゴリズムは、さまざまな挑戦的な意思決定と制御タスクで有効であることが実証されています。 しかし、これらの方法は通常、特に離散的なアクション設定では重度のアクション振動に苦しむため、エージェントはわずかに異なる状態であっても連続したステップ内で異なるアクションを選択することを意味します。 この問題は、通常は累積報酬のみによって評価されるため、しばしば無視される。 アクションの発振はユーザーエクスペリエンスに強く影響を与え、特に自律運転のような安全性を主な懸念する現実世界のドメインで深刻なセキュリティの脅威を引き起こす可能性がある。 そこで本研究では,市販drlアルゴリズムの汎用プラグインフレームワークとして機能するポリシ慣性制御(pic)を導入することで,学習方針の最適性と円滑性との相乗的トレードオフを形式的に実現する。 軽度条件下での単調な非減少更新を保証するPIC強化ポリシーの一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。 さらに,Nested Soft Actor-Criticという実用的なDRLアルゴリズムを導出する。 自律運転タスクのコレクションといくつかのatariゲームに関する実験から,本手法は性能劣化のほとんどない一般的なベースラインと比べ,相当な振動低減を示すことが示唆された。

Deep reinforcement learning (DRL) algorithms have been demonstrated to be effective in a wide range of challenging decision making and control tasks. However, these methods typically suffer from severe action oscillations in particular in discrete action setting, which means that agents select different actions within consecutive steps even though states only slightly differ. This issue is often neglected since the policy is usually evaluated by its cumulative rewards only. Action oscillation strongly affects the user experience and can even cause serious potential security menace especially in real-world domains with the main concern of safety, such as autonomous driving. To this end, we introduce Policy Inertia Controller (PIC) which serves as a generic plug-in framework to off-the-shelf DRL algorithms, to enables adaptive trade-off between the optimality and smoothness of the learned policy in a formal way. We propose Nested Policy Iteration as a general training algorithm for PIC-augmented policy which ensures monotonically non-decreasing updates under some mild conditions. Further, we derive a practical DRL algorithm, namely Nested Soft Actor-Critic. Experiments on a collection of autonomous driving tasks and several Atari games suggest that our approach demonstrates substantial oscillation reduction in comparison to a range of commonly adopted baselines with almost no performance degradation.
翻訳日:2021-03-04 14:54:35 公開日:2021-03-03
# ウイルス拡散予測のためのディープラーニング: 簡単な調査

Deep Learning for Virus-Spreading Forecasting: a Brief Survey ( http://arxiv.org/abs/2103.02346v1 )

ライセンス: Link先を確認
Federico Baldo, Lorenzo Dall'Olio, Mattia Ceccarelli, Riccardo Scheda, Michele Lombardi, Andrea Borghesi, Stefano Diciotti, Michela Milano(参考訳) 新型コロナウイルスのパンデミックの出現は、特に意思決定プロセスの強化と支援のために、ウイルスの拡散を予測できる予測モデルへの関心を呼び起こしています。 本稿では,病気の空間的および時間的拡散を予測することを目的とした,Deep Learningのアプローチについて概説する。 その目的は、この領域の研究の新興トレンドを示し、この問題にアプローチするための可能な戦略に関する一般的な視点を提供することです。 そのためには主に,古典的ディープラーニングアプローチとハイブリッドモデルという,2つのマクロカテゴリに注目します。 最後に、異なるモデルの主な利点と欠点について議論し、これらのアプローチを改善するための最も有望な開発方向を強調します。

The advent of the coronavirus pandemic has sparked the interest in predictive models capable of forecasting virus-spreading, especially for boosting and supporting decision-making processes. In this paper, we will outline the main Deep Learning approaches aimed at predicting the spreading of a disease in space and time. The aim is to show the emerging trends in this area of research and provide a general perspective on the possible strategies to approach this problem. In doing so, we will mainly focus on two macro-categories: classical Deep Learning approaches and Hybrid models. Finally, we will discuss the main advantages and disadvantages of different models, and underline the most promising development directions to improve these approaches.
翻訳日:2021-03-04 14:54:13 公開日:2021-03-03
# 短期交通予測のための構造的繰り返しニューラルネットワークによるスケーラブル学習

Scalable Learning With a Structural Recurrent Neural Network for Short-Term Traffic Prediction ( http://arxiv.org/abs/2103.02578v1 )

ライセンス: Link先を確認
Youngjoo Kim, Peng Wang, Lyudmila Mihaylova(参考訳) 本稿では,車両道路網における交通履歴データに基づく短期交通予測のためのスケーラブルな深層学習手法を提案する。 ビッグデータの時空間的関係を捉えるには,特定の種類の道路網を目指して,膨大な計算負担やアドホックな設計が必要となることが多い。 この問題に対処するために、道路ネットワークグラフとリカレントニューラルネットワーク(RNN)を組み合わせて、構造的RNN(SRNN)を構築する。 SRNNは、隣接する道路セグメント間の相互作用と時系列データの時系列ダイナミクスを推定するために時空間グラフを使用する。 モデルは2つの重要な側面のおかげでスケーラブルです。 まず,全セグメントの時空間的動的相互作用のセマンティックな類似性を利用してSRNNアーキテクチャを構築する。 第二に、グラフトポロジによらず、固定長テンソルを扱うアーキテクチャを設計する。 サンタンデール市で計測された実際の交通速度データを用いて、提案されたSRNNは、根平均二乗誤差(RMSE)の観点から、カプセルネットワーク(CapsNet)と畳み込みニューラルネットワーク(CNN)を用いて、画像ベースアプローチを14.1%、画像ベースアプローチ(CNN)を5.87%上回った。 さらに,提案モデルがスケーラブルであることを示す。 道路ネットワークのデータで訓練されたSRNNモデルは、訓練するパラメータの固定数で、異なる道路ネットワークのトラフィック速度を予測することができます。

This paper presents a scalable deep learning approach for short-term traffic prediction based on historical traffic data in a vehicular road network. Capturing the spatio-temporal relationship of the big data often requires a significant amount of computational burden or an ad-hoc design aiming for a specific type of road network. To tackle the problem, we combine a road network graph with recurrent neural networks (RNNs) to construct a structural RNN (SRNN). The SRNN employs a spatio-temporal graph to infer the interaction between adjacent road segments as well as the temporal dynamics of the time series data. The model is scalable thanks to two key aspects. First, the proposed SRNN architecture is built by using the semantic similarity of the spatio-temporal dynamic interactions of all segments. Second, we design the architecture to deal with fixed-length tensors regardless of the graph topology. With the real traffic speed data measured in the city of Santander, we demonstrate the proposed SRNN outperforms the image-based approaches using the capsule network (CapsNet) by 14.1% and the convolutional neural network (CNN) by 5.87%, respectively, in terms of root mean squared error (RMSE). Moreover, we show that the proposed model is scalable. The SRNN model trained with data of a road network is able to predict traffic speed of different road networks, with the fixed number of parameters to train.
翻訳日:2021-03-04 14:54:02 公開日:2021-03-03
# 推論に基づくマルチエージェント通信のための決定論的メッセージング

Inference-Based Deterministic Messaging For Multi-Agent Communication ( http://arxiv.org/abs/2103.02150v1 )

ライセンス: Link先を確認
Varun Bhatt, Michael Buro(参考訳) コミュニケーションは人間と動物の協調に不可欠である。 そのため、インテリジェントエージェントが世界に導入されると、エージェント対エージェントとエージェント対ヒューマンコミュニケーションが必要となる。 本稿では,行列に基づくシグナリングゲームにおける学習を初めて研究し,分散手法が最適以下の方針に収束できることを実証的に示す。 次に、送信者が送信者の観察を推測するのを助ける最良のメッセージを決定的に選択するメッセージポリシーの修正を提案します。 この修正を用いることで、経験上、エージェントがほぼすべての実行で最適なポリシーに収束することがわかる。 次に,この手法を2つのエージェントの協調を必要とする部分観測可能なグリッドワールド環境に適用し,提案する送信者修正により,より複雑な領域に対する既存の分散トレーニング手法も強化できることを示す。

Communication is essential for coordination among humans and animals. Therefore, with the introduction of intelligent agents into the world, agent-to-agent and agent-to-human communication becomes necessary. In this paper, we first study learning in matrix-based signaling games to empirically show that decentralized methods can converge to a suboptimal policy. We then propose a modification to the messaging policy, in which the sender deterministically chooses the best message that helps the receiver to infer the sender's observation. Using this modification, we see, empirically, that the agents converge to the optimal policy in nearly all the runs. We then apply this method to a partially observable gridworld environment which requires cooperation between two agents and show that, with appropriate approximation methods, the proposed sender modification can enhance existing decentralized training methods for more complex domains as well.
翻訳日:2021-03-04 14:53:33 公開日:2021-03-03
# 共振環境におけるアンサンブル畳み込みニューラルネットワークに基づく耳EEG信号からの事象関連電位の復号

Decoding Event-related Potential from Ear-EEG Signals based on Ensemble Convolutional Neural Networks in Ambulatory Environment ( http://arxiv.org/abs/2103.02197v1 )

ライセンス: Link先を確認
Young-Eun Lee, Seong-Whan Lee(参考訳) 近年,実用的な脳-コンピュータインタフェースが,特に遊走環境において活発に行われている。 しかし、脳波(EEG)信号は、移動中の運動人工物や筋電図信号によって歪められ、人間の意図を認識することは困難である。 さらに、ハードウェアの問題も困難なため、実践的な脳-コンピュータインタフェースのための耳-EEGが開発され、広く利用されている。 本論文では,アンサンブルに基づく脳内畳み込みニューラルネットワークを提案し,頭皮および耳脳における視覚イベント関連電位応答を統計解析と脳-コンピュータインタフェース性能の観点から解析した。 脳-コンピュータインタフェースの性能は1.6m/sで速く歩くと3-14%低下した。 提案手法は曲線下の面積の平均0.728であった。 提案手法は観測環境や不均衡データにも頑健であることを示す。

Recently, practical brain-computer interface is actively carried out, especially, in an ambulatory environment. However, the electroencephalograp hy (EEG) signals are distorted by movement artifacts and electromyography signals when users are moving, which make hard to recognize human intention. In addition, as hardware issues are also challenging, ear-EEG has been developed for practical brain-computer interface and has been widely used. In this paper, we proposed ensemble-based convolutional neural networks in ambulatory environment and analyzed the visual event-related potential responses in scalp- and ear-EEG in terms of statistical analysis and brain-computer interface performance. The brain-computer interface performance deteriorated as 3-14% when walking fast at 1.6 m/s. The proposed methods showed 0.728 in average of the area under the curve. The proposed method shows robust to the ambulatory environment and imbalanced data as well.
翻訳日:2021-03-04 14:53:16 公開日:2021-03-03
# より微細な意味分析に基づくソフトウェア要件間の衝突の自動検出

Automatically detecting the conflicts between software requirements based on finer semantic analysis ( http://arxiv.org/abs/2103.02255v1 )

ライセンス: Link先を確認
Weize Guo, Li Zhang, Xiaoli Lian(参考訳) コンテキスト: ソフトウェア要件間の紛争は、製品開発に不確実性をもたらす。 これらの対立を特定するための優れたアプローチがいくつか提案されている。 しかし、通常、特定のテンプレートで表現されたソフトウェア要件や、実際には多くのプロジェクトで構築するのが困難である他の外部ソースに依存する必要があります。 目的: 本研究の目的は, 与えられた自然言語機能要件間の競合を自動的に検出し, より微細なセマンティックな構成を解析する, ファイナ・セマンティック・アナリティクス・コンフリクト・コンフリクト・インタクタ (FSARC) を提案することである。 方法: 8タプルの形式で機能要件の調和したセマンティックメタモデルを構築します。 次に,要求の言語的特徴を自動的に分析し,意味モデル構築のための意味要素に注釈を付けるアルゴリズムを提案する。 そして,テキストパターンと意味的依存関係に基づいて,ヒューリスティックなルールを検出する限り,7種類の競合を定義する。 最後に,競合検出のためのアルゴリズムの設計と実装を行う。 結果: 4つの要求データセットによる実験は、FSARCのリコールが100%近く、平均精度が83.88%であることを示している。 結論: 最終要件セットの品質を改善するために,自然言語機能要件間の矛盾を検出する有用なツールを提供する。 さらに、私たちのアプローチは、自然言語の機能要件を8つのセマンティックタプルに変換することができます。これは、要件間の競合の検出だけでなく、要件間の関連を構築するなどの他のタスクにも役立ちます。

Context: Conflicts between software requirements bring uncertainties to product development. Some great approaches have been proposed to identify these conflicts. However, they usually require the software requirements represented with specific templates and/or depend on other external source which is often uneasy to build for lots of projects in practice. Objective: We aim to propose an approach Finer Semantic Analysis-based Requirements Conflict Detector (FSARC) to automatically detecting the conflicts between the given natural language functional requirements by analyzing their finer semantic compositions. Method: We build a harmonized semantic meta-model of functional requirements with the form of eight-tuple. Then we propose algorithms to automatically analyze the linguistic features of requirements and to annotate the semantic elements for their semantic model construction. And we define seven types of conflicts as long as their heuristic detecting rules on the ground of their text pattern and semantical dependency. Finally, we design and implement the algorithm for conflicts detection. Results: The experiment with four requirement datasets illustrates that the recall of FSARC is nearly 100% and the average precision is 83.88% on conflicts detection. Conclusion: We provide a useful tool for detecting the conflicts between natural language functional requirements to improve the quality of the final requirements set. Besides, our approach is capable of transforming the natural language functional requirements into eight semantic tuples, which is useful not only the detection of the conflicts between requirements but also some other tasks such as constructing the association between requirements and so on.
翻訳日:2021-03-04 14:53:02 公開日:2021-03-03
# 満足度としてのコスト最適計画

Cost Optimal Planning as Satisfiability ( http://arxiv.org/abs/2103.02355v1 )

ライセンス: Link先を確認
Mohammad Abdulaziz(参考訳) 0コストアクションの問題に有効なコスト最適プランの長さに関する上限を調査します。 これらの上界を地平線として、SATベースのコストで計画をエンコーディングします。 最適計画のコストに初期上限が与えられると、このSATベースのアプローチはより良いコストで計画を計算することができ、多くの場合、最適コストと一致することが実験的に示される。 また、複数のケースにおいて、あるコストが最適な計画コストであることを証明する手法が成功している。

We investigate upper bounds on the length of cost optimal plans that are valid for problems with 0-cost actions. We employ these upper bounds as horizons for a SAT-based encoding of planning with costs. Given an initial upper bound on the cost of the optimal plan, we experimentally show that this SAT-based approach is able to compute plans with better costs, and in many cases it can match the optimal cost. Also, in multiple instances, the approach is successful in proving that a certain cost is the optimal plan cost.
翻訳日:2021-03-04 14:52:39 公開日:2021-03-03
# バグレポートに基づくルート原因予測

Root cause prediction based on bug reports ( http://arxiv.org/abs/2103.02372v1 )

ライセンス: Link先を確認
Thomas Hirsch, Birgit Hofer(参考訳) 本稿では,あるバグ報告の根本原因を予測するための教師付き機械学習手法を提案する。 バグの根本原因を知ることは、デバッグタスクの適切なツールサポートを選択することによって、デバッグプロセスの開発者に直接的または間接的に役立ちます。 私たちは103のgithubプロジェクトのイシュートラッカから54755のクローズドバグレポートを発掘し、10459のレポートからなるベンチマークを作成するために一連のヒューリスティックを適用しました。 サブセットは、バグの根本原因に基づいた3つのグループ(セマンティック、メモリ、並行性)に手動で分類された。 根本原因の型は等しく分布しないため,キーワード検索とランダム選択の組み合わせが適用された。 機械学習アプローチのデータセットは369のバグレポート(並行処理122、メモリ121、セマンティックバグ126)で構成されています。 バグレポートは自然言語処理アルゴリズムの入力として使用される。 バグ報告の根本原因を予測するために,いくつかの分類器の性能を評価した。 リニアサポートベクトルマシンは最高平均精度 (0.74) とリコールスコア (0.72) を達成した。 作成されたバグデータセットと分類が公開されている。

This paper proposes a supervised machine learning approach for predicting the root cause of a given bug report. Knowing the root cause of a bug can help developers in the debugging process - either directly or indirectly by choosing proper tool support for the debugging task. We mined 54755 closed bug reports from the issue trackers of 103 GitHub projects and applied a set of heuristics to create a benchmark consisting of 10459 reports. A subset was manually classified into three groups (semantic, memory, and concurrency) based on the bugs' root causes. Since the types of root cause are not equally distributed, a combination of keyword search and random selection was applied. Our data set for the machine learning approach consists of 369 bug reports (122 concurrency, 121 memory, and 126 semantic bugs). The bug reports are used as input to a natural language processing algorithm. We evaluated the performance of several classifiers for predicting the root causes for the given bug reports. Linear Support Vector machines achieved the highest mean precision (0.74) and recall (0.72) scores. The created bug data set and classification are publicly available.
翻訳日:2021-03-04 14:52:31 公開日:2021-03-03
# AIアルゴリズムアドバイスの意思決定者処理:自動化バイアスと選択的適応

Decision-makers Processing of AI Algorithmic Advice: Automation Bias versus Selective Adherence ( http://arxiv.org/abs/2103.02381v1 )

ライセンス: Link先を確認
Saar Alon-Barkat and Madalina Busuioc(参考訳) 人工知能アルゴリズムは、人間の意思決定者の偏見を克服する約束として、公共組織による意思決定補助としてますます採用されている。 同時に、アルゴリズムの使用は、人間とアルゴリズムの相互作用に新たなバイアスをもたらす可能性がある。 心理学の研究では、警告信号や他の情報源からの矛盾する情報(自動バイアス)に対してさえ、人間のアルゴリズム的アドバイスへの過度な依存が懸念されている。 第2の懸念は、意思決定者が既存の信念やステレオタイプ(選択的執着)に合致するアルゴリズム的アドバイスを選択的に採用する傾向があることである。 現在まで、公共セクターの状況におけるこれらのバイアスの有病率に関する厳格な実証的証拠が欠けています。 オランダにおける学校教師の就業に関する意思決定におけるアルゴリズム的アドバイスの使用を模擬した,2つの事前登録実験(N=1,509。 研究1では,教師のパフォーマンス予測に対する参加者のこだわりを探究し,それと相反する2種類の予測(アルゴリズムと人間-専門家)を比較して,自動化バイアスをテストした。 自動化バイアスの証拠は見つかりません。 研究2では,これらの知見を再現し,教師の民族的背景を操作することで,選択的付着性をテストする。 アルゴリズム的助言と人間的アドバイスの間に有意な違いはなく, ネガティブなステレオタイプを持つ少数民族の教師の低いパフォーマンスを予測した場合, 順守の正当性を見いだすことができる。 全体として、選択的、偏りのある付着の発見は、公共セクターでアルゴリズムの使用を推進した中立性の約束を達成します。

Artificial intelligence algorithms are increasingly adopted as decisional aides by public organisations, with the promise of overcoming biases of human decision-makers. At the same time, the use of algorithms may introduce new biases in the human-algorithm interaction. A key concern emerging from psychology studies regards human overreliance on algorithmic advice even in the face of warning signals and contradictory information from other sources (automation bias). A second concern regards decision-makers inclination to selectively adopt algorithmic advice when it matches their pre-existing beliefs and stereotypes (selective adherence). To date, we lack rigorous empirical evidence about the prevalence of these biases in a public sector context. We assess these via two pre-registered experimental studies (N=1,509), simulating the use of algorithmic advice in decisions pertaining to the employment of school teachers in the Netherlands. In study 1, we test automation bias by exploring participants adherence to a prediction of teachers performance, which contradicts additional evidence, while comparing between two types of predictions: algorithmic v. human-expert. We do not find evidence for automation bias. In study 2, we replicate these findings, and we also test selective adherence by manipulating the teachers ethnic background. We find a propensity for adherence when the advice predicts low performance for a teacher of a negatively stereotyped ethnic minority, with no significant differences between algorithmic and human advice. Overall, our findings of selective, biased adherence belie the promise of neutrality that has propelled algorithm use in the public sector.
翻訳日:2021-03-04 14:52:14 公開日:2021-03-03
# バグトラッキングデータを利用したフォールトローカリゼーションとデバッグサポートフレームワーク

A Fault Localization and Debugging Support Framework driven by Bug Tracking Data ( http://arxiv.org/abs/2103.02386v1 )

ライセンス: Link先を確認
Thomas Hirsch(参考訳) 欠陥のローカリゼーションは、ソフトウェア開発ライフサイクルにおける主要なリソースファクタとして決定されている。 学術的なフォールトローカライズ技術はほとんどが未知であり、専門的な環境では使われていない。 手動デバッグのアプローチはバグタイプ(例)によって大きく異なる場合がある。 メモリバグやセマンティクスバグ) これらの違いは、既存のフォールトローカライゼーションツールには反映されていない。 フォールトローカライゼーションプロセスを最適化するために、バグタイプの自動識別に関する研究はほとんど行われていない。 さらに, 既存の断層位置決め技術は, 不審度ランキングの増大にのみ, 過去のデータを活用する。 この論文は,さまざまなソースからのデータを組み合わせて,フォールトローカライズプロセスの開発者を支援する,フォールトローカライズフレームワークを提供することを目的としている。 これを実現するために,バグ分類スキーマを導入し,ベンチマークを作成し,履歴データに基づく新しいフォールトローカライズ手法を提案する。

Fault localization has been determined as a major resource factor in the software development life cycle. Academic fault localization techniques are mostly unknown and unused in professional environments. Although manual debugging approaches can vary significantly depending on bug type (e.g. memory bugs or semantic bugs), these differences are not reflected in most existing fault localization tools. Little research has gone into automated identification of bug types to optimize the fault localization process. Further, existing fault localization techniques leverage on historical data only for augmentation of suspiciousness rankings. This thesis aims to provide a fault localization framework by combining data from various sources to help developers in the fault localization process. To achieve this, a bug classification schema is introduced, benchmarks are created, and a novel fault localization method based on historical data is proposed.
翻訳日:2021-03-04 14:51:48 公開日:2021-03-03
# RGB 問題: 単眼 RGBD イメージ上の 7-DoF Grasp Poses を学習します。

RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD Images ( http://arxiv.org/abs/2103.02184v1 )

ライセンス: Link先を確認
Minghao Gou, Hao-Shu Fang, Zhanda Zhu, Sheng Xu, Chenxi Wang, Cewu Lu(参考訳) 一般的な対象把握はロボティクスの分野では重要だが未解決の問題である。 現在の手法のほとんどは、成功の把握の大部分をカバーできない少数のDoFでグリップポーズを生成するか、不安定な深度画像や点雲のみを入力とし、場合によっては結果の低さにつながる可能性がある。 本稿では,7自由度把握検出をrgbと深度情報を別々に処理する2つのサブタスクに分離し,この問題を解決するパイプラインであるrgbd-graspを提案する。 最初の段階では、畳み込みニューラルネットワークAngle-View Net(AVN)のようなエンコーダデコーダを提案し、画像のすべての位置におけるグリップのSO(3)方向を予測する。 これにより、Fast Analytic Searching(FAS)モジュールは、グリップのグリップポイントへの開口幅と距離を算出する。 把握検出問題を分離し,安定なrgbモダリティを導入することで,高品質な深度画像の要求を緩和し,深さセンサノイズに頑健なパイプラインを実現する。 複数のベースラインと比較して、GraspNet-1Billionデータセットの最新の結果を達成します。 Intel RealsenseカメラとRobotiqの2本指グリップを備えたUR5ロボットのリアルロボット実験は、単一のオブジェクトシーンと散らかったシーンの両方で高い成功率を示している。 私たちのコードとトレーニングされたモデルは公開されます。

General object grasping is an important yet unsolved problem in the field of robotics. Most of the current methods either generate grasp poses with few DoF that fail to cover most of the success grasps, or only take the unstable depth image or point cloud as input which may lead to poor results in some cases. In this paper, we propose RGBD-Grasp, a pipeline that solves this problem by decoupling 7-DoF grasp detection into two sub-tasks where RGB and depth information are processed separately. In the first stage, an encoder-decoder like convolutional neural network Angle-View Net(AVN) is proposed to predict the SO(3) orientation of the gripper at every location of the image. Consequently, a Fast Analytic Searching(FAS) module calculates the opening width and the distance of the gripper to the grasp point. By decoupling the grasp detection problem and introducing the stable RGB modality, our pipeline alleviates the requirement for the high-quality depth image and is robust to depth sensor noise. We achieve state-of-the-art results on GraspNet-1Billion dataset compared with several baselines. Real robot experiments on a UR5 robot with an Intel Realsense camera and a Robotiq two-finger gripper show high success rates for both single object scenes and cluttered scenes. Our code and trained model will be made publicly available.
翻訳日:2021-03-04 14:51:36 公開日:2021-03-03
# FFB6D:6次元姿勢推定のためのフルフロー双方向核融合ネットワーク

FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation ( http://arxiv.org/abs/2103.02242v1 )

ライセンス: Link先を確認
Yisheng He and Haibin Huang and Haoqiang Fan and Qifeng Chen and Jian Sun(参考訳) 本研究では,1枚のRGBD画像から6次元ポーズ推定が可能なフルフロー双方向融合ネットワークFFB6Dを提案する。 私たちの重要な洞察力は、RGB画像の外観情報と深度画像からのジオメトリ情報は2つの補完的なデータソースであり、それらを完全に活用する方法はまだ不明です。 そこで本研究では,表現学習と出力表現選択のための外観情報と幾何学情報を組み合わせたFFB6Dを提案する。 具体的には、表現学習段階では、2つのネットワークのフルフローに双方向融合モジュールを構築し、各符号化および復号層に融合を適用します。 このように、2つのネットワークは、他のネットワークからのローカルおよびグローバル補完情報を利用して、より良い表現を得ることができます。 さらに,出力表現段階では,物体のテクスチャや形状情報を考慮した簡易かつ効果的な3次元キーポイント選択アルゴリズムを考案し,正確なポーズ推定のためのキーポイント位置推定を簡略化した。 実験結果から,本手法はいくつかのベンチマークにおいて,最先端の手法よりも高い性能を示した。 コードとビデオは \url{https://github.com/e thnhe/FFB6D.git} で入手できる。

In this work, we present FFB6D, a Full Flow Bidirectional fusion network designed for 6D pose estimation from a single RGBD image. Our key insight is that appearance information in the RGB image and geometry information from the depth image are two complementary data sources, and it still remains unknown how to fully leverage them. Towards this end, we propose FFB6D, which learns to combine appearance and geometry information for representation learning as well as output representation selection. Specifically, at the representation learning stage, we build bidirectional fusion modules in the full flow of the two networks, where fusion is applied to each encoding and decoding layer. In this way, the two networks can leverage local and global complementary information from the other one to obtain better representations. Moreover, at the output representation stage, we designed a simple but effective 3D keypoints selection algorithm considering the texture and geometry information of objects, which simplifies keypoint localization for precise pose estimation. Experimental results show that our method outperforms the state-of-the-art by large margins on several benchmarks. Code and video are available at \url{https://github.com/e thnhe/FFB6D.git}.
翻訳日:2021-03-04 14:51:11 公開日:2021-03-03
# 動的核融合モジュールによる乾燥領域と道路異常検出:ベンチマークとアルゴリズム

Dynamic Fusion Module Evolves Drivable Area and Road Anomaly Detection: A Benchmark and Algorithms ( http://arxiv.org/abs/2103.02433v1 )

ライセンス: Link先を確認
Hengli Wang, Rui Fan, Yuxiang Sun, Ming Liu(参考訳) 移動ロボットにとって,乾燥領域と道路異常の同時検出は非常に重要である。 近年,畳み込みニューラルネットワーク(CNN)に基づく多くのセマンティックセグメンテーション手法が,画素ワイドな領域と道路異常検出のために提案されている。 さらに、KITTIやCityscapesなどのベンチマークデータセットが広く使用されている。 しかし、既存のベンチマークは主に自動運転車向けに設計されている。 ロボット車椅子などの地上移動ロボットのベンチマークが欠けています。 そこで本論文では,まず地上移動ロボットの走行可能領域と道路異常検出ベンチマークを構築し,視覚的特徴の6つのモダリティを用いて,既存の最先端の単一モーダルおよびデータ融合セマンティックセグメンテーションCNNを評価する。 さらに,動的融合モジュール(DFM)と呼ばれる新しいモジュールを提案し,既存のデータ融合ネットワークに容易に展開し,異なるタイプの視覚的特徴を効果的かつ効率的に融合させることができる。 実験の結果,変換された不均質画像が最も有意義な視覚的特徴であり,提案したDFM-RTFNetは最先端技術よりも優れていた。 さらに,我々のDFM-RTFNetは,KITTIロードベンチマーク上での競合性能を実現している。 私たちのベンチマークはhttps://sites.google .com/view/gmrbで公開されています。

Joint detection of drivable areas and road anomalies is very important for mobile robots. Recently, many semantic segmentation approaches based on convolutional neural networks (CNNs) have been proposed for pixel-wise drivable area and road anomaly detection. In addition, some benchmark datasets, such as KITTI and Cityscapes, have been widely used. However, the existing benchmarks are mostly designed for self-driving cars. There lacks a benchmark for ground mobile robots, such as robotic wheelchairs. Therefore, in this paper, we first build a drivable area and road anomaly detection benchmark for ground mobile robots, evaluating the existing state-of-the-art single-modal and data-fusion semantic segmentation CNNs using six modalities of visual features. Furthermore, we propose a novel module, referred to as the dynamic fusion module (DFM), which can be easily deployed in existing data-fusion networks to fuse different types of visual features effectively and efficiently. The experimental results show that the transformed disparity image is the most informative visual feature and the proposed DFM-RTFNet outperforms the state-of-the-arts. Additionally, our DFM-RTFNet achieves competitive performance on the KITTI road benchmark. Our benchmark is publicly available at https://sites.google .com/view/gmrb.
翻訳日:2021-03-04 14:50:51 公開日:2021-03-03
# ganのsparsity aware正規化

Sparsity Aware Normalization for GANs ( http://arxiv.org/abs/2103.02458v1 )

ライセンス: Link先を確認
Idan Kligvasser, Tomer Michaeli(参考訳) GAN(Generative adversarial Network)は、トレーニング中の批判的(差別的)ネットワークの正規化または正規化の恩恵を受けることが知られている。 本稿では,一般のスペクトル正規化スキームを分析し,有意な欠点を見つけ,GANトレーニングの安定化のための新たなアプローチであるスパーシャリティ認識正規化(SAN)を導入する。 他の正規化手法とは対照的に,提案手法はReLUアクティベーションを伴う畳み込みネットワークにおける特徴写像のスパースの性質を明示的に説明する。 多様なネットワークアーキテクチャを用いた広範な実験により,本手法の有効性を実証する。 画像から画像への翻訳設定で使われる批評家では、sparsityが特に優勢だ。 これらの場合、我々のアプローチは既存の手法を改良し、訓練エポックを減らし、キャパシティネットワークを小さくし、計算オーバーヘッドを実質的に必要としない。

Generative adversarial networks (GANs) are known to benefit from regularization or normalization of their critic (discriminator) network during training. In this paper, we analyze the popular spectral normalization scheme, find a significant drawback and introduce sparsity aware normalization (SAN), a new alternative approach for stabilizing GAN training. As opposed to other normalization methods, our approach explicitly accounts for the sparse nature of the feature maps in convolutional networks with ReLU activations. We illustrate the effectiveness of our method through extensive experiments with a variety of network architectures. As we show, sparsity is particularly dominant in critics used for image-to-image translation settings. In these cases our approach improves upon existing methods, in less training epochs and with smaller capacity networks, while requiring practically no computational overhead.
翻訳日:2021-03-04 14:50:32 公開日:2021-03-03
# dyadic robot interactionにおける機関感覚の制御--アクティブ推論によるアプローチ

Controlling the Sense of Agency in Dyadic Robot Interaction: An Active Inference Approach ( http://arxiv.org/abs/2103.02137v1 )

ライセンス: Link先を確認
Nadine Wirkuttis and Jun Tani(参考訳) 本研究では,ロボットエージェント間の社会的相互作用が個々のエージェントの感覚によって動的に変化するかを検討した。 シミュレーション研究のセットでは、変化型繰り返しニューラルネットワークモデルを用いてロボットのダイアディック模倣相互作用を検討する。 このモデルは、相互作用するロボットがループの中で自分自身を見つける自由エネルギー原理に基づいており、アクティブ推論を使用してお互いの行動を予測および推論しようとします。 学習中の自由エネルギーを最小化するための複雑性項の調整がネットワークの動的特性を決定づけ、dyadicの模倣的相互作用に影響を与えるかを検討した。 シミュレーションの結果,よりソフトな制御により,より強力なエージェントを持つロボットが,より厳格な制御によって,より弱いエージェントによって発達し,支配することが示された。 2つのロボットが同様にソフトな規制で訓練されると、どちらも個々の意図した行動パターンを生成し、お互いを無視します。 主観的対客観性はダイアディックロボティクスの相互作用において発達する。

This study investigated how social interaction among robotic agents changes dynamically depending on individual sense of agency. In a set of simulation studies, we examine dyadic imitative interactions of robots using a variational recurrent neural network model. The model is based on the free energy principle such that interacting robots find themselves in a loop, attempting to predict and infer each other's actions using active inference. We examined how regulating the complexity term to minimize free energy during training determines the dynamic characteristics of networks and affects dyadic imitative interactions. Our simulation results show that through softer regulation of the complexity term, a robot with stronger agency develops and dominates its counterpart developed with weaker agency through tighter regulation. When two robots are trained with equally soft regulation, both generate individual intended behavior patterns, ignoring each other. We argue that primary intersubjectivity does develop in dyadic robotic interactions.
翻訳日:2021-03-04 14:50:19 公開日:2021-03-03
# 畳み込み繰り返しニューラルネットワークを用いた脳波からの聴覚注意復号

Auditory Attention Decoding from EEG using Convolutional Recurrent Neural Network ( http://arxiv.org/abs/2103.02183v1 )

ライセンス: Link先を確認
Zhen Fu, Bo Wang, Xihong Wu, Jing Chen(参考訳) 脳波(EEG)データを解析し, マルチスピーカシナリオにおける話者のアイデンティティを決定するために, 聴覚注意解読法 (AAD) アプローチが提案された。 AADでは線形モデルに基づく手法が広く用いられてきたが、線形仮定は単純化され、より短い復号ウィンドウでは復号精度は低かった。 近年,この問題を解決するためにディープニューラルネットワーク(DNN)に基づく非線形モデルが提案されている。 しかし、これらのモデルは脳波の空間的および時間的特徴を十分に利用せず、DNNモデルの解釈可能性はほとんど調査されなかった。 本稿では、新しい畳み込みリカレントニューラルネットワーク(CRNN)に基づく回帰モデルと分類モデルを提案し、それらを線形モデルと最先端DNNモデルの両方と比較した。 その結果,提案するcrnnに基づく分類モデルは,より短い復号ウィンドウ (2 s と 5 s では約90%) では他を上回っていた。 分類モデルよりも悪いが,提案したCRNN回帰モデルの復号精度は他の回帰モデルよりも約5%高かった。 DNNモデルの解釈可能性についても, 層重の可視化により検討した。

The auditory attention decoding (AAD) approach was proposed to determine the identity of the attended talker in a multi-talker scenario by analyzing electroencephalograp hy (EEG) data. Although the linear model-based method has been widely used in AAD, the linear assumption was considered oversimplified and the decoding accuracy remained lower for shorter decoding windows. Recently, nonlinear models based on deep neural networks (DNN) have been proposed to solve this problem. However, these models did not fully utilize both the spatial and temporal features of EEG, and the interpretability of DNN models was rarely investigated. In this paper, we proposed novel convolutional recurrent neural network (CRNN) based regression model and classification model, and compared them with both the linear model and the state-of-the-art DNN models. Results showed that, our proposed CRNN-based classification model outperformed others for shorter decoding windows (around 90% for 2 s and 5 s). Although worse than classification models, the decoding accuracy of the proposed CRNN-based regression model was about 5% greater than other regression models. The interpretability of DNN models was also investigated by visualizing layers' weight.
翻訳日:2021-03-04 14:50:04 公開日:2021-03-03
# 不確実性下における計画の整合性保証付きフィルタに基づく抽象

Filter-Based Abstractions with Correctness Guarantees for Planning under Uncertainty ( http://arxiv.org/abs/2103.02398v1 )

ライセンス: Link先を確認
Thom S. Badings, Nils Jansen, Hasan A. Poonawala, Marielle Stoelinga(参考訳) 測定およびプロセスノイズに起因する不確実性を有する連続制御システムの計画問題について検討する。 目標は、システムが有限時間以内に望ましいゴール状態に達することを保証する最適な計画を見つけることである。 測定ノイズはシステム状態の可観測性が制限され、プロセスノイズは特定の計画の結果に不確実性を引き起こす。 これらの要因により、問題は一般に決定不能となる。 我々の重要な貢献は、マルコフ決定過程(MDP)として形式化された有限状態モデルを得るための状態推定器としてカルマンフィルタを用いる新しい抽象スキームである。 このMDPでは,ゴール状態に到達する確率を最大化するプランを効率的に計算するために,最先端のモデル検査技術を採用している。 さらに,より頑健なモデルとして,mdpを確率間隔で拡張することで,抽象度を計算する際の数値的不正確性も考慮する。 抽象化の正確性を示し、計画の質とアプローチのスケーラビリティのバランスを狙ったいくつかの最適化を提供します。 本手法は、数千の状態と数百万の遷移を持つMDPを生じるシステムを扱うことができることを実証する。

We study planning problems for continuous control systems with uncertainty caused by measurement and process noise. The goal is to find an optimal plan that guarantees that the system reaches a desired goal state within finite time. Measurement noise causes limited observability of system states, and process noise causes uncertainty in the outcome of a given plan. These factors render the problem undecidable in general. Our key contribution is a novel abstraction scheme that employs Kalman filtering as a state estimator to obtain a finite-state model, which we formalize as a Markov decision process (MDP). For this MDP, we employ state-of-the-art model checking techniques to efficiently compute plans that maximize the probability of reaching goal states. Moreover, we account for numerical imprecision in computing the abstraction by extending the MDP with intervals of probabilities as a more robust model. We show the correctness of the abstraction and provide several optimizations that aim to balance the quality of the plan and the scalability of the approach. We demonstrate that our method can handle systems that result in MDPs with thousands of states and millions of transitions.
翻訳日:2021-03-04 14:49:48 公開日:2021-03-03
# 個人の生産性と幸福--2021年の新しい仕事の未来レポート第2章

Personal Productivity and Well-being -- Chapter 2 of the 2021 New Future of Work Report ( http://arxiv.org/abs/2103.02524v1 )

ライセンス: Link先を確認
Jenna Butler, Mary Czerwinski, Shamsi Iqbal, Sonia Jaffe, Kate Nowak, Emily Peloquin, Longqi Yang(参考訳) 現在私たちは、covid-19が個人の生産性や情報労働者の幸福に与えた影響を、リモートワークの影響から理解しています。 この章では、人々の生産性、満足度、作業パターンを概説し、リモートワークの課題とメリットが密接に関連していることを示します。 今後、作業を取り巻くインフラストラクチャは、人々がリモートおよびハイブリッド作業の課題に適応できるように進化する必要があります。

We now turn to understanding the impact that COVID-19 had on the personal productivity and well-being of information workers as their work practices were impacted by remote work. This chapter overviews people's productivity, satisfaction, and work patterns, and shows that the challenges and benefits of remote work are closely linked. Looking forward, the infrastructure surrounding work will need to evolve to help people adapt to the challenges of remote and hybrid work.
翻訳日:2021-03-04 14:49:32 公開日:2021-03-03
# 飛べる学習--多エージェントクワッドコプター制御の強化学習のためのパイブルレット物理を用いた体育環境

Learning to Fly -- a Gym Environment with PyBullet Physics for Reinforcement Learning of Multi-agent Quadcopter Control ( http://arxiv.org/abs/2103.02142v1 )

ライセンス: Link先を確認
Jacopo Panerati (1 and 2), Hehui Zheng (3), SiQi Zhou (1 and 2), James Xu (1), Amanda Prorok (3), Angela P. Schoellig (1 and 2) ((1) University of Toronto Institute for Aerospace Studies, (2) Vector Institute for Artificial Intelligence, (3) University of Cambridge)(参考訳) ロボットシミュレータは、学術研究と教育、および安全クリティカルなアプリケーションの開発に不可欠です。 強化学習環境 -- 報酬関数の形で問題仕様と結合した単純なシミュレーション -- もまた、学習アルゴリズムの開発(およびベンチマーク)を標準化する上で重要である。 しかし、フルスケールのシミュレータは移植性と並列性に欠ける。 逆に、多くの強化学習環境は、おもちゃのような問題における高いサンプルスループットのためのトレードオフリアリズムである。 パブリックデータセットはディープラーニングとコンピュータビジョンに大きく貢献していますが、制御理論と強化学習アプローチを同時に開発し、比較するソフトウェアツールはまだありません。 本稿では,Bullet物理エンジンに基づく複数クワッドコプターのためのオープンソースのOpenAI Gymライクな環境を提案する。 マルチエージェントおよびビジョンベースの強化学習インターフェース、および現実的な衝突と空力効果のサポートは、私たちの知識の最高に、その種の最初のものにします。 我々は、制御(pid制御による軌道追跡、ダウンウォッシュによるマルチロボット飛行など)の例を通して、その使用例を実証する。 または強化学習(単一および複数エージェント安定化タスク)、制御理論と機械学習を組み合わせた将来の研究を刺激することを望んでいます。

Robotic simulators are crucial for academic research and education as well as the development of safety-critical applications. Reinforcement learning environments -- simple simulations coupled with a problem specification in the form of a reward function -- are also important to standardize the development (and benchmarking) of learning algorithms. Yet, full-scale simulators typically lack portability and parallelizability. Vice versa, many reinforcement learning environments trade-off realism for high sample throughputs in toy-like problems. While public data sets have greatly benefited deep learning and computer vision, we still lack the software tools to simultaneously develop -- and fairly compare -- control theory and reinforcement learning approaches. In this paper, we propose an open-source OpenAI Gym-like environment for multiple quadcopters based on the Bullet physics engine. Its multi-agent and vision based reinforcement learning interfaces, as well as the support of realistic collisions and aerodynamic effects, make it, to the best of our knowledge, a first of its kind. We demonstrate its use through several examples, either for control (trajectory tracking with PID control, multi-robot flight with downwash, etc.) or reinforcement learning (single and multi-agent stabilization tasks), hoping to inspire future research that combines control theory and machine learning.
翻訳日:2021-03-04 14:48:39 公開日:2021-03-03
# アモルファス材料を操作するための学習

Learning to Manipulate Amorphous Materials ( http://arxiv.org/abs/2103.02533v1 )

ライセンス: Link先を確認
Yunbo Zhang, Wenhao Yu, C. Karen Liu, Charles C. Kemp, Greg Turk(参考訳) 本稿では,調理によく用いられるアモルファス材料の文字操作を訓練する方法を提案する。 アモルファス材料としては、粒状材料(塩、未調理米)、流体(ホニー)、粘性プラスチック材料(粘米、軟化バター)などがある。 典型的なタスクは、スクレイパーやナイフといった道具を使って平らな面に特定の材料を広げることである。 強化学習を使ってコントローラを訓練し、さまざまな方法で材料を操作する。 トレーニングは、粒子の位置に基づく動力学を用いて操作対象の材料をシミュレートする物理シミュレータで行われる。 ニューラルネットワーク制御ポリシーは、材料(例えば)の観察が与えられる。 低解像度密度マップ)とポリシーはナイフの回転や翻訳などのアクションを出力します。 拡散、収集、および反転:我々は、次のタスクを実行するために正常に訓練されたポリシーを実証します。 我々は、逆キネマティクスを用いてキャラクターの腕をガイドし、手を使ってナイフやフライパンなどの操作ツールの動きに合わせて最終アニメーションを作成する。

We present a method of training character manipulation of amorphous materials such as those often used in cooking. Common examples of amorphous materials include granular materials (salt, uncooked rice), fluids (honey), and visco-plastic materials (sticky rice, softened butter). A typical task is to spread a given material out across a flat surface using a tool such as a scraper or knife. We use reinforcement learning to train our controllers to manipulate materials in various ways. The training is performed in a physics simulator that uses position-based dynamics of particles to simulate the materials to be manipulated. The neural network control policy is given observations of the material (e.g. a low-resolution density map), and the policy outputs actions such as rotating and translating the knife. We demonstrate policies that have been successfully trained to carry out the following tasks: spreading, gathering, and flipping. We produce a final animation by using inverse kinematics to guide a character's arm and hand to match the motion of the manipulation tool such as a knife or a frying pan.
翻訳日:2021-03-04 14:48:19 公開日:2021-03-03
# 群同値非拡大作用素の空間の幾何学的およびリーマン的構造について

On the geometric and Riemannian structure of the spaces of group equivariant non-expansive operators ( http://arxiv.org/abs/2103.02543v1 )

ライセンス: Link先を確認
Pasquale Cascarano, Patrizio Frosini, Nicola Quercioli and Amir Saki(参考訳) トポロジカルデータ解析とディープラーニングの基本的なコンポーネントとして、グループ等変性非拡張演算子が最近提案されている。 本稿では、群同変作用素の空間の幾何的性質について検討し、群同変非拡大作用素の空間$\mathcal{F}$がリーマン多様体の構造によってどのように与えられるかを示すので、$\mathcal{F}$上のコスト関数の最小化に勾配降下法が利用できる。 このアプローチの応用として、検討多様体内の代表群同変非拡大作用素の有限集合を選択する手順も記述する。

Group equivariant non-expansive operators have been recently proposed as basic components in topological data analysis and deep learning. In this paper we study some geometric properties of the spaces of group equivariant operators and show how a space $\mathcal{F}$ of group equivariant non-expansive operators can be endowed with the structure of a Riemannian manifold, so making available the use of gradient descent methods for the minimization of cost functions on $\mathcal{F}$. As an application of this approach, we also describe a procedure to select a finite set of representative group equivariant non-expansive operators in the considered manifold.
翻訳日:2021-03-04 14:48:00 公開日:2021-03-03
# 潜時空間地図を用いた物体操作のための視覚行動計画法

Enabling Visual Action Planning for Object Manipulation through Latent Space Roadmap ( http://arxiv.org/abs/2103.02554v1 )

ライセンス: Link先を確認
Martina Lippi, Petra Poklukar, Michael C. Welle, Anastasiia Varava, Hang Yin, Alessandro Marino, Danica Kragic(参考訳) 本稿では,変形可能な物体の操作に焦点をあてた高次元状態空間を用いた複雑な操作タスクの視覚的行動計画の枠組みを提案する。 低次元潜時空間におけるシステムダイナミクスを世界規模で捉えたグラフベースの構造であるタスク計画のためのLatent Space Roadmap(LSR)を提案する。 Our framework consists of three parts: (1) a Mapping Module (MM) that maps observations, given in the form of images, into a structured latent space extracting the respective states, that generates observations from the latent states, (2) the LSR which builds and connects clusters containing similar states in order to find the latent plans between start and goal states extracted by MM, and (3) the Action Proposal Module that complements the latent plan found by the LSR with the corresponding actions. 実ロボットで実行された2つの模擬ボックス積み重ねタスクと折り畳みタスクについて,本フレームワークの徹底的な検討を行う。

We present a framework for visual action planning of complex manipulation tasks with high-dimensional state spaces, focusing on manipulation of deformable objects. We propose a Latent Space Roadmap (LSR) for task planning, a graph-based structure capturing globally the system dynamics in a low-dimensional latent space. Our framework consists of three parts: (1) a Mapping Module (MM) that maps observations, given in the form of images, into a structured latent space extracting the respective states, that generates observations from the latent states, (2) the LSR which builds and connects clusters containing similar states in order to find the latent plans between start and goal states extracted by MM, and (3) the Action Proposal Module that complements the latent plan found by the LSR with the corresponding actions. We present a thorough investigation of our framework on two simulated box stacking tasks and a folding task executed on a real robot.
翻訳日:2021-03-04 14:47:47 公開日:2021-03-03
# 油田開発のためのハイブリッド・自動機械学習アプローチ:北海火山地帯を事例として

Hybrid and Automated Machine Learning Approaches for Oil Fields Development: the Case Study of Volve Field, North Sea ( http://arxiv.org/abs/2103.02598v1 )

ライセンス: Link先を確認
Nikolay O. Nikitin, Ilia Revin, Alexander Hvatov, Pavel Vychuzhanin, Anna V. Kalyuzhnaya(参考訳) 本稿では,意思決定プロセスを支援する分野開発タスクにおけるインテリジェントなアプローチの利用について述べる。 油田立地最適化の問題と2つの課題に焦点をあて, 石油生産量の推定精度の向上と, 適切な油田配置・パラメトリゼーションのための貯留層特性の推定について, 機械学習手法を用いて検討した。 石油生産推定では,物理モデル,純データ駆動モデル,ハイブリッドモデルを用いて,予測モデルの品質を検証した。 CRMIPモデルは物理に基づくアプローチとして選択された。 我々は,石油生産予測タスクの枠組みにおいて,機械学習とハイブリッド手法を比較した。 井戸位置選定のための貯留層特性調査において,畳み込みニューラルネットワークの進化的同定を用いた地震解析の自動化を行った。 volve oil field datasetは、実験を行うためのケーススタディとして使用された。 実装されたアプローチは、異なる油田を解析したり、同様の物理問題に適応することができる。

The paper describes the usage of intelligent approaches for field development tasks that may assist a decision-making process. We focused on the problem of wells location optimization and two tasks within it: improving the quality of oil production estimation and estimation of reservoir characteristics for appropriate wells allocation and parametrization, using machine learning methods. For oil production estimation, we implemented and investigated the quality of forecasting models: physics-based, pure data-driven, and hybrid one. The CRMIP model was chosen as a physics-based approach. We compare it with the machine learning and hybrid methods in a frame of oil production forecasting task. In the investigation of reservoir characteristics for wells location choice, we automated the seismic analysis using evolutionary identification of convolutional neural network for the reservoir detection. The Volve oil field dataset was used as a case study to conduct the experiments. The implemented approaches can be used to analyze different oil fields or adapted to similar physics-related problems.
翻訳日:2021-03-04 14:47:34 公開日:2021-03-03
# 深部ニューラルネットワークを用いたHEOGとネックEMGによる視線推定

Eye-gaze Estimation with HEOG and Neck EMG using Deep Neural Networks ( http://arxiv.org/abs/2103.02186v1 )

ライセンス: Link先を確認
Zhen Fu, Bo Wang, Fei Chen, Xihong Wu, Jing Chen(参考訳) 聴覚障害のあるリスナーは通常、補聴器(has)でさえ、マルチトーカーシーンでターゲット・トーカーに参加するのに苦労する。 この問題は、リスナーがターゲットを目視する必要があるアイゲイズステアリングHAで解決することができます。 頭部が回転する状況では、眼球運動はササードと頭部の回転の両方の挙動を受ける。 しかし,既存の視線推定法は眼球運動に対するリスナーの戦略が異なり,2つの行動が適切に組み合わせられていないため,確実には機能しなかった。 また、既存の手法は手作りの機能に基づいており、重要な情報を見落としていた。 本論文では,ヘッド固定とヘッドフリーの実験を行った。 水平筋電図 (HEOG) と頸部筋電図 (NEMG) を用い, 眼球運動と頭回転を別々に測定した。 従来の分類器と手作業の機能に加えて、DNN(Deep Neural Network)が導入され、不整形波形から特徴を自動的に抽出する。 評価の結果,慣性測定装置を用いたHEOGでは,提案したDNN分類器の最高性能は93.3%であり,HEOGとNEMGを併用した場合の精度は72.6%に達し,HEOG(約71.0%)やNEMG(約35.7%)よりも高かった。 これらの結果から,HEOGとNEMGで視線を推定できる可能性が示唆された。

Hearing-impaired listeners usually have troubles attending target talker in multi-talker scenes, even with hearing aids (HAs). The problem can be solved with eye-gaze steering HAs, which requires listeners eye-gazing on the target. In a situation where head rotates, eye-gaze is subject to both behaviors of saccade and head rotation. However, existing methods of eye-gaze estimation did not work reliably, since the listener's strategy of eye-gaze varies and measurements of the two behaviors were not properly combined. Besides, existing methods were based on hand-craft features, which could overlook some important information. In this paper, a head-fixed and a head-free experiments were conducted. We used horizontal electrooculography (HEOG) and neck electromyography (NEMG), which separately measured saccade and head rotation to commonly estimate eye-gaze. Besides traditional classifier and hand-craft features, deep neural networks (DNN) were introduced to automatically extract features from intact waveforms. Evaluation results showed that when the input was HEOG with inertial measurement unit, the best performance of our proposed DNN classifiers achieved 93.3%; and when HEOG was with NEMG together, the accuracy reached 72.6%, higher than that with HEOG (about 71.0%) or NEMG (about 35.7%) alone. These results indicated the feasibility to estimate eye-gaze with HEOG and NEMG.
翻訳日:2021-03-04 14:47:20 公開日:2021-03-03
# 強化学習によるスターグリフ集合の形状駆動コーディネート順序付け

Shape-driven Coordinate Ordering for Star Glyph Sets via Reinforcement Learning ( http://arxiv.org/abs/2103.02380v1 )

ライセンス: Link先を確認
Ruizhen Hu, Bin Chen, Juzhan Xu, Oliver van Kaick, Oliver Deussen, Hui Huang(参考訳) 本稿では,スターグリフの座標順序問題を解くために強化学習を訓練したニューラル最適化モデルを提案する。 複数のクラスラベルに関連付けられたスターグリフの集合が与えられると、形状文脈記述子を用いてグリフのペア間の知覚距離を測定し、導出シルエット係数を用いて集合全体のクラス分離性の知覚を測定する。 与えられた集合の最適な座標順序を求めるために、強化学習を用いてニューラルネットワークを訓練し、高いシルエット係数を持つ順序を報奨する。 ネットワークは、注意機構を備えたエンコーダとデコーダで構成される。 エンコーダは入力形状とクラス情報をエンコードするためにリカレントニューラルネットワーク(RNN)を使用し、デコーダは注意機構とともに別のRNNを使用して新しい座標順序のシーケンスを出力する。 さらに,形状文脈記述子間の類似性を効率的に推定するニューラルネットワークを導入し,シルエット係数の計算を高速化し,軸順序付けネットワークのトレーニングを行う。 2つのユーザスタディにより,クラス分離を知覚する上で,本手法による注文が望ましいことが示された。 さまざまな設定でモデルをテストして、その堅牢性と一般化能力を示し、知覚できないデータサイズ、データ次元、あるいはクラス数で入力セットを注文できることを実証しました。 また、提案された形状認識シルエット係数を対応する品質メトリックに置き換えてネットワークトレーニングを導くことにより、RadVizなどの他のタイプのプロットの整列に適応できることも実証しています。

We present a neural optimization model trained with reinforcement learning to solve the coordinate ordering problem for sets of star glyphs. Given a set of star glyphs associated to multiple class labels, we propose to use shape context descriptors to measure the perceptual distance between pairs of glyphs, and use the derived silhouette coefficient to measure the perception of class separability within the entire set. To find the optimal coordinate order for the given set, we train a neural network using reinforcement learning to reward orderings with high silhouette coefficients. The network consists of an encoder and a decoder with an attention mechanism. The encoder employs a recurrent neural network (RNN) to encode input shape and class information, while the decoder together with the attention mechanism employs another RNN to output a sequence with the new coordinate order. In addition, we introduce a neural network to efficiently estimate the similarity between shape context descriptors, which allows to speed up the computation of silhouette coefficients and thus the training of the axis ordering network. Two user studies demonstrate that the orders provided by our method are preferred by users for perceiving class separation. We tested our model on different settings to show its robustness and generalization abilities and demonstrate that it allows to order input sets with unseen data size, data dimension, or number of classes. We also demonstrate that our model can be adapted to coordinate ordering of other types of plots such as RadViz by replacing the proposed shape-aware silhouette coefficient with the corresponding quality metric to guide network training.
翻訳日:2021-03-04 14:46:52 公開日:2021-03-03
# 深層学習を用いた鏡視下マルチスペクトラルシーンセグメンテーション

Arthroscopic Multi-Spectral Scene Segmentation Using Deep Learning ( http://arxiv.org/abs/2103.02465v1 )

ライセンス: Link先を確認
Shahnewaz Ali, Dr. Yaqub Jonmohamadi, Yu Takeda, Jonathan Roberts, Ross Crawford, Cameron Brown, Dr. Ajay K. Pandey(参考訳) 膝関節鏡検査は、膝関節の病気を治療するために行われる最小限の侵襲手術(MIS)手順です。 小型カメラから得られた手術部位の視覚情報の欠如は、この手術手順をより複雑にします。 膝腔は非常に狭い空間であるため、手術シーンは近接して撮影される。 その結果、意図しない組織損傷がしばしば発生し、新しい外科医を訓練するための長い学習曲線が示される。 手術部位のラベル付けによる自動コンテキスト認識は、これらの欠点を軽減するための代替手段である。 しかし, 前報より, 外科的部位には, テクスチャや特徴などの識別的文脈情報の欠如など, 視覚的タスクを著しく制限するいくつかの制限があることが確認された。 さらに、撮像条件の低さと正確な地中ラベルの欠如も精度を制限している。 そこで本研究では, 膝関節鏡の限界を緩和するために, 複数構造のセグメント化に成功したシーンセグメンテーション法を提案する。

Knee arthroscopy is a minimally invasive surgical (MIS) procedure which is performed to treat knee-joint ailment. Lack of visual information of the surgical site obtained from miniaturized cameras make this surgical procedure more complex. Knee cavity is a very confined space; therefore, surgical scenes are captured at close proximity. Insignificant context of knee atlas often makes them unrecognizable as a consequence unintentional tissue damage often occurred and shows a long learning curve to train new surgeons. Automatic context awareness through labeling of the surgical site can be an alternative to mitigate these drawbacks. However, from the previous studies, it is confirmed that the surgical site exhibits several limitations, among others, lack of discriminative contextual information such as texture and features which drastically limits this vision task. Additionally, poor imaging conditions and lack of accurate ground-truth labels are also limiting the accuracy. To mitigate these limitations of knee arthroscopy, in this work we proposed a scene segmentation method that successfully segments multi structures.
翻訳日:2021-03-04 14:46:26 公開日:2021-03-03
# エンドツーエンド畳み込みニューラルネットワークを用いた混合音声トラックのリバーブ変換

Reverb Conversion of Mixed Vocal Tracks Using an End-to-end Convolutional Deep Neural Network ( http://arxiv.org/abs/2103.02147v1 )

ライセンス: Link先を確認
Junghyun Koo, Seungryeol Paik, Kyogu Lee(参考訳) リバーブは音楽制作において重要な役割を果たし、リスナーに音楽の空間的実現、音色、質感を提供します。 しかし,熟練した技術者でも参照楽曲の楽曲残響を再現することは困難である。 そこで本研究では,2つの異なる混声トラックの音楽的残響係数を切り替えることができるエンドツーエンドシステムを提案する。 本手法は,その効果が望まれるソーストラックに対して,参照トラックの残響を適用できるようにする。 さらに,本モデルでは,基準トラックをドライボーカルソースとして使用する場合,残響除去を行うことができる。 提案モデルは,高分解能オーディオサンプルの処理を可能にする敵目的と組み合わせて訓練される。 知覚評価により,提案モデルが64.8%の好率で残響因子を変換できることを確認した。 私たちの知る限りでは、これはディープニューラルネットワークをボーカルトラックの音楽残響変換に適用する最初の試みです。

Reverb plays a critical role in music production, where it provides listeners with spatial realization, timbre, and texture of the music. Yet, it is challenging to reproduce the musical reverb of a reference music track even by skilled engineers. In response, we propose an end-to-end system capable of switching the musical reverb factor of two different mixed vocal tracks. This method enables us to apply the reverb of the reference track to the source track to which the effect is desired. Further, our model can perform de-reverberation when the reference track is used as a dry vocal source. The proposed model is trained in combination with an adversarial objective, which makes it possible to handle high-resolution audio samples. The perceptual evaluation confirmed that the proposed model can convert the reverb factor with the preferred rate of 64.8%. To the best of our knowledge, this is the first attempt to apply deep neural networks to converting music reverb of vocal tracks.
翻訳日:2021-03-04 14:45:20 公開日:2021-03-03
# リコメンダシステムにおける計算資源配分ソリューション

Computation Resource Allocation Solution in Recommender Systems ( http://arxiv.org/abs/2103.02259v1 )

ライセンス: Link先を確認
Xun Yang, Yunli Wang, Cheng Chen, Qing Tan, Chuan Yu, Jian Xu, Xiaoqiang Zhu(参考訳) Recommenderシステムは、ビジネス目標を改善するために計算リソースを増やすことに大きく依存します。 計算集約型モデルとアルゴリズムを配置することで、これらのシステムはユーザーの興味を推論し、候補から特定の広告や商品を提示し、彼らのビジネス目標を最大化することができる。 しかし、これらのシステムは目標を達成する上で2つの課題に直面している。 一方、大規模なオンライン要求に直面した計算集約型モデルとアルゴリズムは、計算リソースを限界まで押し上げている。 一方、これらのシステムの応答時間は、例えば、短い期間に厳密に制限されている。 現実のシステムでは300ミリ秒、複雑なモデルやアルゴリズムによっても枯渇しています。 本稿では,限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案する。 この問題を包括的に説明し、複数の制約を持つ最適化問題として、独立したサブプロブレムに分解できるような問題を定式化する。 サブプロブレムを解決するため,理論解析を容易にするための収益関数を提案し,最適な計算資源配分戦略を得る。 適用可能性問題に対処するため,我々は,オンライン環境の変化に常に適応するためのフィードバック制御システムを考案した。 本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。 また、Alibabaのディスプレイ広告システムにも導入しています。 オンラインの結果,計算資源割当ソリューションは,計算コストの増分を必要とせず,事業目標の大幅な改善を実現し,本手法の有効性を実証した。

Recommender systems rely heavily on increasing computation resources to improve their business goal. By deploying computation-intensiv e models and algorithms, these systems are able to inference user interests and exhibit certain ads or commodities from the candidate set to maximize their business goals. However, such systems are facing two challenges in achieving their goals. On the one hand, facing massive online requests, computation-intensiv e models and algorithms are pushing their computation resources to the limit. On the other hand, the response time of these systems is strictly limited to a short period, e.g. 300 milliseconds in our real system, which is also being exhausted by the increasingly complex models and algorithms. In this paper, we propose the computation resource allocation solution (CRAS) that maximizes the business goal with limited computation resources and response time. We comprehensively illustrate the problem and formulate such a problem as an optimization problem with multiple constraints, which could be broken down into independent sub-problems. To solve the sub-problems, we propose the revenue function to facilitate the theoretical analysis, and obtain the optimal computation resource allocation strategy. To address the applicability issues, we devise the feedback control system to help our strategy constantly adapt to the changing online environment. The effectiveness of our method is verified by extensive experiments based on the real dataset from Taobao.com. We also deploy our method in the display advertising system of Alibaba. The online results show that our computation resource allocation solution achieves significant business goal improvement without any increment of computation cost, which demonstrates the efficacy of our method in real industrial practice.
翻訳日:2021-03-04 14:45:03 公開日:2021-03-03
# Deep Recurrent Encoder:脳信号をモデル化するスケーラブルなエンドツーエンドネットワーク

Deep Recurrent Encoder: A scalable end-to-end network to model brain signals ( http://arxiv.org/abs/2103.02339v1 )

ライセンス: Link先を確認
Omar Chehab, Alexandre Defossez, Jean-Christophe Loiseau, Alexandre Gramfort, Jean-Remi King(参考訳) 脳の記録は部分的、雑音的、高次元的であり、セッションや被験者によって異なり、高度に非線形なダイナミクスを捉える。 これらの課題により、コミュニティは、これらの問題の1つに取り組むために設計されたさまざまな前処理および分析(ほぼ独占的に線形)方法を開発することができました。 その代わりに、我々は、複数の被験者の脳の応答を一度に予測するように訓練された特定のエンドツーエンドのディープラーニングアーキテクチャを通じて、これらの課題に対処することを提案します。 1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。 我々のDeep Recurrent Encoding (DRE)アーキテクチャは、古典的線形手法よりも3倍改善された単語に対するMEG応答を確実に予測する。 深層学習の解釈可能性という悪名高い問題を克服するために,簡単な変数重要度分析について述べる。 DREに適用すると、このメソッドは、単語の長さと単語頻度に対する期待された誘発応答を回復する。 現在のディープラーニングアプローチの定量的改善は、大規模なデータセットから脳活動の非線形ダイナミクスをよりよく理解する手段となる。

Understanding how the brain responds to sensory inputs is challenging: brain recordings are partial, noisy, and high dimensional; they vary across sessions and subjects and they capture highly nonlinear dynamics. These challenges have led the community to develop a variety of preprocessing and analytical (almost exclusively linear) methods, each designed to tackle one of these issues. Instead, we propose to address these challenges through a specific end-to-end deep learning architecture, trained to predict the brain responses of multiple subjects at once. We successfully test this approach on a large cohort of magnetoencephalograp hy (MEG) recordings acquired during a one-hour reading task. Our Deep Recurrent Encoding (DRE) architecture reliably predicts MEG responses to words with a three-fold improvement over classic linear methods. To overcome the notorious issue of interpretability of deep learning, we describe a simple variable importance analysis. When applied to DRE, this method recovers the expected evoked responses to word length and word frequency. The quantitative improvement of the present deep learning approach paves the way to better understand the nonlinear dynamics of brain activity from large datasets.
翻訳日:2021-03-04 14:44:40 公開日:2021-03-03
# gruニューラルネットワークによるオフセットフリートラッキングのための非線形mpc

Nonlinear MPC for Offset-Free Tracking of systems learned by GRU Neural Networks ( http://arxiv.org/abs/2103.02383v1 )

ライセンス: Link先を確認
Fabio Bonassi, Caio Fabio Oliveira da Silva, Riccardo Scattolini(参考訳) システム識別におけるリカレントニューラルネットワーク(RNN)の利用は、ブラックボックスモデリング機能によって近年注目され、多くのアプリケーションで実効的に採用されているが、制御目的での使用を正当化する厳密な理論的基礎を提供する研究はごくわずかである。 本稿では,特定のrnnアーキテクチャであるstable gated recurrent unit (grus)を非線形mpcフレームワークでトレーニングし,クローズドループ安定性を保証した定数参照のオフセットフリートラッキングを行う方法について述べる。 提案手法はpH中性化プロセスベンチマークでテストされ,顕著な性能を示した。

The use of Recurrent Neural Networks (RNNs) for system identification has recently gathered increasing attention, thanks to their black-box modeling capabilities.Albeit RNNs have been fruitfully adopted in many applications, only few works are devoted to provide rigorous theoretical foundations that justify their use for control purposes. The aim of this paper is to describe how stable Gated Recurrent Units (GRUs), a particular RNN architecture, can be trained and employed in a Nonlinear MPC framework to perform offset-free tracking of constant references with guaranteed closed-loop stability. The proposed approach is tested on a pH neutralization process benchmark, showing remarkable performances.
翻訳日:2021-03-04 14:44:22 公開日:2021-03-03
# 教師なしネットワークコミュニティ検出のためのグラフニューラルネットワークの繰り返しアルゴリズム

Recurrent Graph Neural Network Algorithm for Unsupervised Network Community Detection ( http://arxiv.org/abs/2103.02520v1 )

ライセンス: Link先を確認
Stanislav Sobolevsky(参考訳) ネットワークコミュニティの検出は、モジュール化のようなパーティション品質機能の最適化にしばしば依存する。 この最適化は、伝統的に離散ヒューリスティックに依存する複雑な問題である。 問題は連続的な最適化として再構成されるかもしれないが、標準的な最適化方法の直接適用は多数のローカルエクストレマを克服する効率を制限している。 しかし、ディープラーニングの台頭とそのグラフへの応用は新しい機会をもたらす。 グラフニューラルネットワークはネットワーク上の教師付き学習や教師なし学習に使用されているが、モジュラリティ最適化への応用はまだ検討されていない。 本稿では,モジュール性最適化による非教師付きネットワークコミュニティ検出のための再帰グラフニューラルネットワークアルゴリズムの新しい変種を提案する。 新しいアルゴリズムのパフォーマンスは、人気があり高速なLouvain法と、最近著者が提案したより効率的だが遅いComboアルゴリズムと比較される。 このアプローチはまた、教師なしネットワーク最適化へのリカレントグラフニューラルネットワークの広範な適用に対する概念実証としても機能する。

Network community detection often relies on optimizing partition quality functions, like modularity. This optimization appears to be a complex problem traditionally relying on discrete heuristics. And although the problem could be reformulated as continuous optimization, direct application of the standard optimization methods has limited efficiency in overcoming the numerous local extrema. However, the rise of deep learning and its applications to graphs offers new opportunities. And while graph neural networks have been used for supervised and unsupervised learning on networks, their application to modularity optimization has not been explored yet. This paper proposes a new variant of the recurrent graph neural network algorithm for unsupervised network community detection through modularity optimization. The new algorithm's performance is compared against a popular and fast Louvain method and a more efficient but slower Combo algorithm recently proposed by the author. The approach also serves as a proof-of-concept for the broader application of recurrent graph neural networks to unsupervised network optimization.
翻訳日:2021-03-04 14:44:10 公開日:2021-03-03
# Wasserstein GANsは失敗した(Wasserstein距離を近似するため)

Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance) ( http://arxiv.org/abs/2103.01678v2 )

ライセンス: Link先を確認
Jan Stanczuk, Christian Etmann, Lisa Maria Kreusser, Carola-Bibiane Schonlieb(参考訳) wasserstein gans は実分布と生成分布の間の wasserstein 距離を最小化するアイデアに基づいている。 理論的なセットアップとWasserstein GANのトレーニングの現実の違いの詳細な数学的分析を提供します。 本研究では、WGAN損失がWasserstein距離の有意義な近似ではないという理論的および実証的な証拠を収集する。 さらに、wasserstein距離は深い生成モデルにとって望ましい損失関数ではないと論じ、wasserstein gansの成功は、実際にはwasserstein距離を近似しなかったことに起因していると結論づける。

Wasserstein GANs are based on the idea of minimising the Wasserstein distance between a real and a generated distribution. We provide an in-depth mathematical analysis of differences between the theoretical setup and the reality of training Wasserstein GANs. In this work, we gather both theoretical and empirical evidence that the WGAN loss is not a meaningful approximation of the Wasserstein distance. Moreover, we argue that the Wasserstein distance is not even a desirable loss function for deep generative models, and conclude that the success of Wasserstein GANs can in truth be attributed to a failure to approximate the Wasserstein distance.
翻訳日:2021-03-04 12:29:20 公開日:2021-03-03
# WIT:マルチモーダル多言語機械学習のためのウィキペディアベースの画像テキストデータセット

WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning ( http://arxiv.org/abs/2103.01913v2 )

ライセンス: Link先を確認
Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork(参考訳) 深層表現学習と事前学習技術によるマイルストーンの改善は、下流のNLP、IR、ビジョンタスク間で大きなパフォーマンス向上をもたらした。 マルチモーダルモデリング技術は、補完的な情報(画像とテキストのモダリティ)を学習するための大規模な高品質の視覚言語データセットを活用することを目指している。 本稿では,ウィキペディアベースの画像テキスト(WIT)データセット(https://github.com/ google-research-data sets/wit)を紹介する。 witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。 そのサイズは、画像テキスト検索などの下流タスクに適用した場合に示すように、WITをマルチモーダルモデルの事前トレーニングデータセットとして使用することができる。 WITには4つの利点がある。 まず、WITは(執筆時点で)3倍の画像-テキストのサンプル数によって最大のマルチモーダルデータセットです。 第二に、WITは100以上の言語(それぞれが少なくとも12Kの例を持っている)をカバーし、多くの画像に多言語テキストを提供しています。 第三に、WITは、以前のデータセットがカバーするものと比較して、より多様な概念と現実世界のエンティティのセットを表します。 最後に、WITは、画像テキスト検索タスクを例に、実世界の非常に困難なテストセットを提供する。

The milestone improvements brought about by deep representation learning and pre-training techniques have led to large performance gains across downstream NLP, IR and Vision tasks. Multimodal modeling techniques aim to leverage large high-quality visio-linguistic datasets for learning complementary information (across image and text modalities). In this paper, we introduce the Wikipedia-based Image Text (WIT) Dataset (https://github.com/ google-research-data sets/wit) to better facilitate multimodal, multilingual learning. WIT is composed of a curated set of 37.6 million entity rich image-text examples with 11.5 million unique images across 108 Wikipedia languages. Its size enables WIT to be used as a pretraining dataset for multimodal models, as we show when applied to downstream tasks such as image-text retrieval. WIT has four main and unique advantages. First, WIT is the largest multimodal dataset by the number of image-text examples by 3x (at the time of writing). Second, WIT is massively multilingual (first of its kind) with coverage over 100+ languages (each of which has at least 12K examples) and provides cross-lingual texts for many images. Third, WIT represents a more diverse set of concepts and real world entities relative to what previous datasets cover. Lastly, WIT provides a very challenging real-world test set, as we empirically illustrate using an image-text retrieval task as an example.
翻訳日:2021-03-04 12:29:06 公開日:2021-03-03
# サンプリング下における推奨評価指標の推定

On Estimating Recommendation Evaluation Metrics under Sampling ( http://arxiv.org/abs/2103.01474v2 )

ライセンス: Link先を確認
Ruoming Jin and Dong Li and Benjamin Mudrak and Jing Gao and Zhi Liu(参考訳) Krichene と Rendle による最近の研究 (Krichene と Rendle 2020) 以来、推奨のためのサンプリングベースのトップk評価指標について、サンプルを使用してレコメンデーションアルゴリズムを評価することの有効性について多くの議論がなされてきた。 彼らの仕事と最近の研究(Li et al.2020)は、サンプリングベースのメトリクスをアイテム全体のセットをランク付けするグローバルなメトリクスにマッピングするためのいくつかの基本的なアプローチを提案していますが、サンプリングを推奨評価に使用する方法についての理解と合意がまだありません。 提案されたアプローチは、比較的非形式的(サンプリングとメトリック評価を結びつける)か、リコール/精度(krichene and rendle 2020; li et al)のような単純なメトリクスでのみ動作する。 2020). 本稿では,経験的ランク分布の学習に関する新しい研究課題と,推定ランク分布に基づく新しいアプローチを導入し,トップkの指標を推定する。 この質問は、推奨のためのサンプリングの基盤となるメカニズムと密接に関連しているため、サンプリングのパワーをよりよく理解し、推奨を評価するためにサンプリングを使うべきか、どのように使うべきかという疑問を解決するのに役立ちます。 我々は、MLE(MaximalLikelihoo d Estimation)とその重み付き変種と、ME(Maximal Entropy)プリンシパルを用いて、経験的ランク分布を復元し、それらをメトリクス推定に利用する2つのアプローチを提案する。 実験結果から,トップkメトリクスに基づく推薦アルゴリズムの評価に新たなアプローチを用いることの利点が示された。

Since the recent study (Krichene and Rendle 2020) done by Krichene and Rendle on the sampling-based top-k evaluation metric for recommendation, there has been a lot of debates on the validity of using sampling to evaluate recommendation algorithms. Though their work and the recent work (Li et al.2020) have proposed some basic approaches for mapping the sampling-based metrics to their global counterparts which rank the entire set of items, there is still a lack of understanding and consensus on how sampling should be used for recommendation evaluation. The proposed approaches either are rather uninformative (linking sampling to metric evaluation) or can only work on simple metrics, such as Recall/Precision (Krichene and Rendle 2020; Li et al. 2020). In this paper, we introduce a new research problem on learning the empirical rank distribution, and a new approach based on the estimated rank distribution, to estimate the top-k metrics. Since this question is closely related to the underlying mechanism of sampling for recommendation, tackling it can help better understand the power of sampling and can help resolve the questions of if and how should we use sampling for evaluating recommendation. We introduce two approaches based on MLE (MaximalLikelihood Estimation) and its weighted variants, and ME(Maximal Entropy) principals to recover the empirical rank distribution, and then utilize them for metrics estimation. The experimental results show the advantages of using the new approaches for evaluating recommendation algorithms based on top-k metrics.
翻訳日:2021-03-04 12:28:41 公開日:2021-03-03
# Inference Combinatorによる確率的プログラムの学習提案

Learning Proposals for Probabilistic Programs with Inference Combinators ( http://arxiv.org/abs/2103.00668v2 )

ライセンス: Link先を確認
Sam Stites, Heiko Zimmermann, Hao Wu, Eli Sennesh, Jan-Willem van de Meent(参考訳) 推論コンビネーター(inference combinator)と呼ばれる確率的プログラムにおける提案の構築のためのオペレータを開発しています。 推論コンビネータは、遷移核の適用や重要再サンプリングといったプリミティブ演算を構成する重要スペーサよりも文法を定義する。 これらのサンプラーの提案はニューラルネットワークを使ってパラメータ化することができ、変動目標を最適化することでトレーニングすることができる。 その結果、ユーザプログラマブルな変分法のためのフレームワークが構築によって修正され、特定のモデルに合わせることができる。 Amortized Gibbsサンプリングとアニーリングに基づく高度な変分法を実装することにより、このフレームワークの柔軟性を実証する。

We develop operators for construction of proposals in probabilistic programs, which we refer to as inference combinators. Inference combinators define a grammar over importance samplers that compose primitive operations such as application of a transition kernel and importance resampling. Proposals in these samplers can be parameterized using neural networks, which in turn can be trained by optimizing variational objectives. The result is a framework for user-programmable variational methods that are correct by construction and can be tailored to specific models. We demonstrate the flexibility of this framework by implementing advanced variational methods based on amortized Gibbs sampling and annealing.
翻訳日:2021-03-04 12:27:45 公開日:2021-03-03
# 最大格差競争によるセマンティックセグメンテーション障害の暴露

Exposing Semantic Segmentation Failures via Maximum Discrepancy Competition ( http://arxiv.org/abs/2103.00259v2 )

ライセンス: Link先を確認
Jiebin Yan, Yu Zhong, Yuming Fang, Zhangyang Wang, Kede Ma(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて広く研究されており、毎年多くの方法が提案されている。 セマンティックセグメンテーションにおけるディープラーニングの出現により、既存のベンチマークのパフォーマンスは飽和に近い。 閉じた(そして頻繁に再使用される)テストの優れたパフォーマンスは、制約のないバリエーションを持つオープンな視覚世界に転送するのですか? 本論文では,非常に限られた人的ラベリングの制約の下で,オープンな視覚世界での既存のセマンティックセグメンテーション手法の失敗を露呈することによって,その質問に答える措置を講じる。 モデル改ざんに関するこれまでの研究に触発され、任意に大きい画像セットから始まり、2つのセグメンテーション方法間の差分法(MAD)をMAximizingすることによって、小さな画像セットを自動的にサンプリングします。 選択された画像は、2つの方法のいずれか(または両方)を偽造する最大の可能性を持っている。 また、異なる根本原因に対応する暴露された障害を多様化するために、いくつかの条件を明示的に実施する。 また,MADコンペティションにおいて,障害の露呈が困難であるセグメンテーション法について検討した。 10個のPASCAL VOCセマンティックセグメンテーションアルゴリズムの徹底したMAD診断を行います。 実験結果の詳細な分析により,競合するアルゴリズムの強みと弱みを指摘し,セマンティックセグメンテーションのさらなる発展に向けた潜在的な研究方向を示す。 コードは \url{https://github.com/Q TJiebin/MAD_Segmenta tion} で公開されている。

Semantic segmentation is an extensively studied task in computer vision, with numerous methods proposed every year. Thanks to the advent of deep learning in semantic segmentation, the performance on existing benchmarks is close to saturation. A natural question then arises: Does the superior performance on the closed (and frequently re-used) test sets transfer to the open visual world with unconstrained variations? In this paper, we take steps toward answering the question by exposing failures of existing semantic segmentation methods in the open visual world under the constraint of very limited human labeling effort. Inspired by previous research on model falsification, we start from an arbitrarily large image set, and automatically sample a small image set by MAximizing the Discrepancy (MAD) between two segmentation methods. The selected images have the greatest potential in falsifying either (or both) of the two methods. We also explicitly enforce several conditions to diversify the exposed failures, corresponding to different underlying root causes. A segmentation method, whose failures are more difficult to be exposed in the MAD competition, is considered better. We conduct a thorough MAD diagnosis of ten PASCAL VOC semantic segmentation algorithms. With detailed analysis of experimental results, we point out strengths and weaknesses of the competing algorithms, as well as potential research directions for further advancement in semantic segmentation. The codes are publicly available at \url{https://github.com/Q TJiebin/MAD_Segmenta tion}.
翻訳日:2021-03-04 12:27:34 公開日:2021-03-03
# OMNet: 部分から部分へのポイントクラウド登録のためのオーバーラップマスクの学習

OMNet: Learning Overlapping Mask for Partial-to-Partial Point Cloud Registration ( http://arxiv.org/abs/2103.00937v3 )

ライセンス: Link先を確認
Hao Xu, Shuaicheng Liu, Guangfu Wang, Guanghui Liu, Bing Zeng(参考訳) ポイントクラウド登録は、多くの計算分野で重要なタスクです。 以前の対応マッチングに基づく手法では、点雲は、点のスパース特徴マッチングに従って3次元の剛性変換に適合する特徴的な幾何学的構造を持つ必要がある。 しかし、変換の精度は抽出された特徴の品質に大きく依存しており、入力の偏りやノイズに関してエラーが発生しやすい。 また、すべての領域の幾何学的知識を活用できない。 一方で、以前のグローバル機能ベースのディープラーニングアプローチでは、登録にポイントクラウド全体を活用することが可能だが、グローバル機能をポイント単位の機能から集約する場合、重複しないポイントの悪影響を無視する。 本稿では、部分から部分へのポイントクラウド登録のためのグローバル機能ベースの反復ネットワークOMNetについて述べる。 マスクを粗雑に学習し,重複しない領域を拒絶し,部分から部分への登録を同一形状の登録に変換する。 さらに、以前の作業で使用されたデータは、各オブジェクトのcadモデルから一度だけサンプリングされ、ソースと参照の同じポイントクラウドになる。 ソースと参照点のクラウドに対してCADモデルを2回サンプリングし、従来は存在していたオーバーフィッティングの問題を回避する、より実用的なデータ生成方法を提案する。 実験結果から,従来の学習法や深層学習法に比べ,最先端のパフォーマンスを実現した。

Point cloud registration is a key task in many computational fields. Previous correspondence matching based methods require the point clouds to have distinctive geometric structures to fit a 3D rigid transformation according to point-wise sparse feature matches. However, the accuracy of transformation heavily relies on the quality of extracted features, which are prone to errors with respect partiality and noise of the inputs. In addition, they can not utilize the geometric knowledge of all regions. On the other hand, previous global feature based deep learning approaches can utilize the entire point cloud for the registration, however they ignore the negative effect of non-overlapping points when aggregating global feature from point-wise features. In this paper, we present OMNet, a global feature based iterative network for partial-to-partial point cloud registration. We learn masks in a coarse-to-fine manner to reject non-overlapping regions, which converting the partial-to-partial registration to the registration of the same shapes. Moreover, the data used in previous works are only sampled once from CAD models for each object, resulting the same point cloud for the source and the reference. We propose a more practical manner for data generation, where a CAD model is sampled twice for the source and the reference point clouds, avoiding over-fitting issues that commonly exist previously. Experimental results show that our approach achieves state-of-the-art performance compared to traditional and deep learning methods.
翻訳日:2021-03-04 12:27:11 公開日:2021-03-03
# 年齢不変顔認識が顔年齢合成に会うとき:マルチタスク学習フレームワーク

When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework ( http://arxiv.org/abs/2103.01520v2 )

ライセンス: Link先を確認
Zhizhong Huang, Junping Zhang, Hongming Shan(参考訳) To minimize the effects of age variation in face recognition, previous work either extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features, called age-invariant face recognition (AIFR), or removes age variation by transforming the faces of different age groups into the same age group, called face age synthesis (FAS); however, the former lacks visual results for model interpretation while the latter suffers from artifacts compromising downstream recognition. そこで本稿では,MTLFaceと呼ばれる2つのタスクを協調的に処理する統合型マルチタスクフレームワークを提案する。 具体的には、顔の特徴を2つの非相関なコンポーネント(アイデンティティと年齢関連機能)に注意メカニズムで分解し、マルチタスクトレーニングと継続的ドメインアダプションを使用してこれらの2つのコンポーネントをデコレーションします。 グループレベルのfasを実現する従来のone-hotエンコーディングとは対照的に, 合成顔の年齢平滑性を改善するための重み共有戦略を用いて, アイデンティティレベルfasを実現する新しいアイデンティティ条件モジュールを提案する。 さらに、AIFRとFASの開発を進めるために、年齢と性別のアノテーションを備えた大規模なクロスエイジフェイスデータセットを収集し、リリースします。 5つのベンチマーククロスエイジデータセットに関する広範な実験は、既存のaifrとfasの最先端メソッドよりも優れたmtlfaceの性能を示している。 さらに、MTLFaceを2つの一般的な顔認識データセット上で検証し、野生における顔認識の競合性能を示す。 ソースコードとデータセットは~\url{https://github.com/H zzone/MTLFace}で入手できる。

To minimize the effects of age variation in face recognition, previous work either extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features, called age-invariant face recognition (AIFR), or removes age variation by transforming the faces of different age groups into the same age group, called face age synthesis (FAS); however, the former lacks visual results for model interpretation while the latter suffers from artifacts compromising downstream recognition. Therefore, this paper proposes a unified, multi-task framework to jointly handle these two tasks, termed MTLFace, which can learn age-invariant identity-related representation while achieving pleasing face synthesis. Specifically, we first decompose the mixed face feature into two uncorrelated components -- identity- and age-related feature -- through an attention mechanism, and then decorrelate these two components using multi-task training and continuous domain adaption. In contrast to the conventional one-hot encoding that achieves group-level FAS, we propose a novel identity conditional module to achieve identity-level FAS, with a weight-sharing strategy to improve the age smoothness of synthesized faces. In addition, we collect and release a large cross-age face dataset with age and gender annotations to advance the development of the AIFR and FAS. Extensive experiments on five benchmark cross-age datasets demonstrate the superior performance of our proposed MTLFace over existing state-of-the-art methods for AIFR and FAS. We further validate MTLFace on two popular general face recognition datasets, showing competitive performance for face recognition in the wild. The source code and dataset are available at~\url{https://github.com/H zzone/MTLFace}.
翻訳日:2021-03-04 12:26:48 公開日:2021-03-03
# クリーンラベル攻撃によるロバスト学習

Robust learning under clean-label attack ( http://arxiv.org/abs/2103.00671v2 )

ライセンス: Link先を確認
Avrim Blum, Steve Hanneke, Jian Qian, Han Shao(参考訳) 本研究では,テスト時に特定のテストインスタンスに誤りを犯すアルゴリズムを騙すためのトレーニングセットに,攻撃者が(任意の)正しくラベル付けされたサンプルを注入する,クリーンラベルデータポゾン攻撃下でのロバスト学習の問題について検討する。 学習目標は、最適なPAC学習よりも難しい攻撃可能な速度(攻撃可能なテストインスタンスの確率質量)を最小化することである。 攻撃可能なレートを減少させるロバストなアルゴリズムは、pacサンプルの複雑さ、すなわち$o(1/\epsilon)$における$\epsilon$への最適依存を実現できる。 一方、線形分類器のSVMなど、一部の最適なPAC学習者でも攻撃可能な速度は大きいかもしれません。 さらに,データ分布がゼロマージンの場合,線形仮説のクラスはロバストに学習できず,正マージンの場合ロバストに学習可能であるが,その次元に指数関数的なサンプル複雑性を必要とすることを示した。 VC次元の境界を持つ一般的な仮説クラスの場合、攻撃者が最大$t>0$の毒の例を追加することを制限されている場合、最適な堅牢な学習サンプルの複雑さは$t$でほぼ直線的に成長する。

We study the problem of robust learning under clean-label data-poisoning attacks, where the attacker injects (an arbitrary set of) correctly-labeled examples to the training set to fool the algorithm into making mistakes on specific test instances at test time. The learning goal is to minimize the attackable rate (the probability mass of attackable test instances), which is more difficult than optimal PAC learning. As we show, any robust algorithm with diminishing attackable rate can achieve the optimal dependence on $\epsilon$ in its PAC sample complexity, i.e., $O(1/\epsilon)$. On the other hand, the attackable rate might be large even for some optimal PAC learners, e.g., SVM for linear classifiers. Furthermore, we show that the class of linear hypotheses is not robustly learnable when the data distribution has zero margin and is robustly learnable in the case of positive margin but requires sample complexity exponential in the dimension. For a general hypothesis class with bounded VC dimension, if the attacker is limited to add at most $t>0$ poison examples, the optimal robust learning sample complexity grows almost linearly with $t$.
翻訳日:2021-03-04 12:26:23 公開日:2021-03-03
# SWIS -- 効率的なニューラルネットワーク高速化のための共有重みbItスポーサリティ

SWIS -- Shared Weight bIt Sparsity for Efficient Neural Network Acceleration ( http://arxiv.org/abs/2103.01308v2 )

ライセンス: Link先を確認
Shurui Li, Wojciech Romaszkan, Alexander Graening, Puneet Gupta(参考訳) 量子化は、コモディティハードウェアへの道を開くニューラルネットワークコンピューティングシステムの性能と効率の向上を先導している。 本論文では,オフラインの重み分解およびスケジューリングアルゴリズムを用いて,性能とストレージ圧縮の改善を実現する,効率的なニューラルネットワーク推論アクセラレーションのための量子化フレームワークであるSWIS - Shared Weight bIt Sparsityを提案する。 swisは、mobilenet-v2から4ビットのトレーニング後の(再トレーニングによる)ビットを定量化する場合の重量減少と比較して、最大54.3% (19.8%) の点精度向上を達成できる。 SWISアクセラレータは6倍のスピードアップと1.9倍のエネルギー向上を実現している。

Quantization is spearheading the increase in performance and efficiency of neural network computing systems making headway into commodity hardware. We present SWIS - Shared Weight bIt Sparsity, a quantization framework for efficient neural network inference acceleration delivering improved performance and storage compression through an offline weight decomposition and scheduling algorithm. SWIS can achieve up to 54.3% (19.8%) point accuracy improvement compared to weight truncation when quantizing MobileNet-v2 to 4 (2) bits post-training (with retraining) showing the strength of leveraging shared bit-sparsity in weights. SWIS accelerator gives up to 6x speedup and 1.9x energy improvement overstate of the art bit-serial architectures.
翻訳日:2021-03-04 12:26:00 公開日:2021-03-03
# 適応共振理論に基づくクラスタリングによるマルチラベル分類

Multi-label Classification via Adaptive Resonance Theory-based Clustering ( http://arxiv.org/abs/2103.01511v2 )

ライセンス: Link先を確認
Naoki Masuyama, Yusuke Nojima, Chu Kiong Loo, Hisao Ishibuchi(参考訳) 本稿では,適応共振理論(art)に基づくクラスタリングアルゴリズムとラベル確率計算のためのベイズ法を適用し,連続学習が可能なマルチラベル分類アルゴリズムを提案する。 artベースのクラスタリングアルゴリズムは、所定のデータに対応するプロトタイプノードを適応的かつ継続的に生成し、生成されたノードを分類器として使用する。 ラベル確率計算は、クラスごとにラベルの出現回数を独立にカウントし、ベイズ確率を計算する。 したがって、ラベル確率計算は、ラベルの数の増加に対処することができる。 合成および実世界のマルチラベルデータセットによる実験結果から,提案アルゴリズムは連続学習を実現しつつ,他のよく知られたアルゴリズムと競合する分類性能を有することが示された。

This paper proposes a multi-label classification algorithm capable of continual learning by applying an Adaptive Resonance Theory (ART)-based clustering algorithm and the Bayesian approach for label probability computation. The ART-based clustering algorithm adaptively and continually generates prototype nodes corresponding to given data, and the generated nodes are used as classifiers. The label probability computation independently counts the number of label appearances for each class and calculates the Bayesian probabilities. Thus, the label probability computation can cope with an increase in the number of labels. Experimental results with synthetic and real-world multi-label datasets show that the proposed algorithm has competitive classification performance to other well-known algorithms while realizing continual learning.
翻訳日:2021-03-04 12:25:49 公開日:2021-03-03
# 3d文字の二次動作のための深いエミュレータ

A Deep Emulator for Secondary Motion of 3D Characters ( http://arxiv.org/abs/2103.01261v2 )

ライセンス: Link先を確認
Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic(参考訳) 3Dキャラクタをアニメーションする高速で軽量な手法は、コンピュータゲームなどの様々なアプリケーションで好まれる。 本稿では,3次元キャラクタのスキンアニメーションを鮮明な二次動作効果で強化する学習的アプローチを提案する。 エッジが隣接する頂点間の内部力を暗黙的にエンコードするキャラクタシミュレーションメッシュの各局所パッチを符号化するニューラルネットワークを設計する。 ネットワークはキャラクタダイナミクスの通常の微分方程式をエミュレートし、現在の加速度、速度、位置から新しい頂点位置を予測する。 ローカルな方法であるため、ネットワークはメッシュトポロジーから独立しており、テスト時に任意に形状の3D文字メッシュに一般化します。 さらに、頂点あたりの制約や剛性などの材料特性を表現し、メッシュの異なる部分のダイナミクスを容易に調整できるようにします。 本手法を各種の文字メッシュと複雑な動作シーケンスで評価する。 提案手法は, 地上構造に基づく物理シミュレーションの30倍以上の効率で, 高速近似を行う代替解よりも優れる。

Fast and light-weight methods for animating 3D characters are desirable in various applications such as computer games. We present a learning-based approach to enhance skinning-based animations of 3D characters with vivid secondary motion effects. We design a neural network that encodes each local patch of a character simulation mesh where the edges implicitly encode the internal forces between the neighboring vertices. The network emulates the ordinary differential equations of the character dynamics, predicting new vertex positions from the current accelerations, velocities and positions. Being a local method, our network is independent of the mesh topology and generalizes to arbitrarily shaped 3D character meshes at test time. We further represent per-vertex constraints and material properties such as stiffness, enabling us to easily adjust the dynamics in different parts of the mesh. We evaluate our method on various character meshes and complex motion sequences. Our method can be over 30 times more efficient than ground-truth physically based simulation, and outperforms alternative solutions that provide fast approximations.
翻訳日:2021-03-04 12:25:36 公開日:2021-03-03
# PairRank:オンラインペアワイズ学習を分割してランク付けする

PairRank: Online Pairwise Learning to Rank by Divide-and-Conquer ( http://arxiv.org/abs/2103.00368v2 )

ライセンス: Link先を確認
Yiling Jia, Huazheng Wang, Stephen Guo, Hongning Wang(参考訳) online learning to rank (ol2r)は、ユーザとのインタラクションからランク付けを直接最適化することで、明示的な関連アノテーションの必要性をなくす。 しかし、必要な探索は、オフライン学習の成功した実践からランク付けへと追いやられ、OL2Rの実証的なパフォーマンスと実用性が制限されます。 本研究は,オンラインモデルランキングのペアワイズ学習を推定することを提案する。 各ラウンドでは、候補文書は推定される一対のランク順に対するモデルの信頼に従って分割されランク付けされ、探索は不確定な文書、すなわち \emph{divide-and-conquer} に対してのみ行われる。 オンラインソリューションの理論的収束と期待されたランキングパフォーマンスを結びつける、誤った順序付けされたペアの数で直接定義された後悔が証明される。 ベンチマークデータセットをランク付けする2つの公開学習におけるOL2Rベースラインの広範なリストと比較すると,提案手法の有効性が示されている。

Online Learning to Rank (OL2R) eliminates the need of explicit relevance annotation by directly optimizing the rankers from their interactions with users. However, the required exploration drives it away from successful practices in offline learning to rank, which limits OL2R's empirical performance and practical applicability. In this work, we propose to estimate a pairwise learning to rank model online. In each round, candidate documents are partitioned and ranked according to the model's confidence on the estimated pairwise rank order, and exploration is only performed on the uncertain pairs of documents, i.e., \emph{divide-and-conquer}. Regret directly defined on the number of mis-ordered pairs is proven, which connects the online solution's theoretical convergence with its expected ranking performance. Comparisons against an extensive list of OL2R baselines on two public learning to rank benchmark datasets demonstrate the effectiveness of the proposed solution.
翻訳日:2021-03-04 12:25:21 公開日:2021-03-03
# 戦略的学習における情報格差

Information Discrepancy in Strategic Learning ( http://arxiv.org/abs/2103.01028v2 )

ライセンス: Link先を確認
Yahav Bechavod, Chara Podimata, Zhiwei Steven Wu, and Juba Ziani(参考訳) 本研究では,主席が得点規則を策定し,エージェントが得点を改善するために戦略的投資を行う意思決定モデルについて検討する。 戦略学習文学における既存の研究とは異なり、主席のスコアリングルールがエージェントに完全に知られているとは仮定せず、エージェントはそれぞれの情報ソースに基づいてスコアリングルールの異なる見積もりを形成する可能性がある。 私たちは、モデルにおける情報格差に起因する結果の相違に注目します。 そのために、異なるサブグループに属するエージェントの集団について検討し、デプロイされたスコアリングルールに関する知識を決定する。 各サブグループ内のエージェントは、仲間が受け取った過去のスコアを観察し、デプロイされたスコアリングルールの見積もりを構築し、それに従ってその努力を投資することができる。 首長は、エージェントの行動を考慮して、人口全体の社会的福祉を最大化するスコアリングルールを展開している。 さまざまなサブグループにわたる戦略的努力投資に対する福祉最大化スコアリングルールの影響を特徴づける理論的結果のコレクションを提供します。 特に、配置されたスコアリングルールがすべてのグループに最適の戦略投資を奨励し、異なる最適性の概念を得るために必要な十分な条件を特定します。 最後に,台湾信用データと成人データを用いた実験結果を用いて,理論解析を補完し検証する。

We study a decision-making model where a principal deploys a scoring rule and the agents strategically invest effort to improve their scores. Unlike existing work in the strategic learning literature, we do not assume that the principal's scoring rule is fully known to the agents, and agents may form different estimates of the scoring rule based on their own sources of information. We focus on disparities in outcomes that stem from information discrepancies in our model. To do so, we consider a population of agents who belong to different subgroups, which determine their knowledge about the deployed scoring rule. Agents within each subgroup observe the past scores received by their peers, which allow them to construct an estimate of the deployed scoring rule and to invest their efforts accordingly. The principal, taking into account the agents' behaviors, deploys a scoring rule that maximizes the social welfare of the whole population. We provide a collection of theoretical results that characterize the impact of the welfare-maximizing scoring rules on the strategic effort investments across different subgroups. In particular, we identify sufficient and necessary conditions for when the deployed scoring rule incentivizes optimal strategic investment across all groups for different notions of optimality. Finally, we complement and validate our theoretical analysis with experimental results on the real-world datasets Taiwan-Credit and Adult.
翻訳日:2021-03-04 12:25:04 公開日:2021-03-03