このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210105となっている論文です。

PDF登録状況(公開日: 20210105)

TitleAuthorsAbstract論文公表日・翻訳日
# 不規則サンプリング時系列からの学習の原理, モデル, 方法に関する調査

A Survey on Principles, Models and Methods for Learning from Irregularly Sampled Time Series ( http://arxiv.org/abs/2012.00168v2 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) 不規則にサンプリングされた時系列データは、生物学、生態学、気候科学、天文学、健康など多くの応用領域で自然に発生する。 このようなデータは、観測の間に一様でない間隔が存在するため、機械学習や統計学から多くの古典モデルの基本的な課題である。 しかしながら、機械学習コミュニティでは、不規則にサンプリングされた単変量および多変量時系列データから学ぶための特別なモデルとアーキテクチャの開発において、過去10年間で大きな進歩があった。 本稿では、まず、不規則にサンプリングされた時系列から学習するためのアプローチが、どのデータ表現に基づいているか、どのモデリングプリミティブを使って不規則なサンプリングの根本的な問題に対処するか、どの推論タスクを実行するか、などについて説明する。 次に、モデリングプリミティブの軸に沿って整理された最近の文献を調査します。 本稿では,時間的離散化,補間,繰り返し,注意,構造的不変性に基づくアプローチについて述べる。 アプローチの類似点と相違点を議論し,主な強みと弱みを強調する。

Irregularly sampled time series data arise naturally in many application domains including biology, ecology, climate science, astronomy, and health. Such data represent fundamental challenges to many classical models from machine learning and statistics due to the presence of non-uniform intervals between observations. However, there has been significant progress within the machine learning community over the last decade on developing specialized models and architectures for learning from irregularly sampled univariate and multivariate time series data. In this survey, we first describe several axes along which approaches to learning from irregularly sampled time series differ including what data representations they are based on, what modeling primitives they leverage to deal with the fundamental problem of irregular sampling, and what inference tasks they are designed to perform. We then survey the recent literature organized primarily along the axis of modeling primitives. We describe approaches based on temporal discretization, interpolation, recurrence, attention and structural invariance. We discuss similarities and differences between approaches and highlight primary strengths and weaknesses.
翻訳日:2021-06-06 14:59:29 公開日:2021-01-05
# 水道網における音響漏れ検出

Acoustic Leak Detection in Water Networks ( http://arxiv.org/abs/2012.06280v2 )

ライセンス: Link先を確認
Robert M\"uller, Steffen Illium, Fabian Ritz, Tobias Schr\"oder, Christian Platschek, J\"org Ochs, Claudia Linnhoff-Popien(参考訳) 本研究では,エネルギー効率や展開容易性などの実世界の制約を満たす水網における音響漏れ検出の一般的な手順を提案する。 都市近郊の水供給網に装着した7つの接触型マイクロホンの記録に基づき,いくつかの浅層および深部異常検出モデルを訓練した。 人間の専門家が電子サウンドスティックを使ってリークを検知する方法に触発されて、これらのモデルを使って事前定義された決定の地平線を越えてリークを繰り返し聞く。 この方法では、システムの定常的な監視を避けます。 ほぼすべてのモデルにおいて、近接して漏れを検出することは自明な作業であることがわかったが、ニューラルネットワークに基づくアプローチは、遠方の漏れを検出することでより良い結果が得られる。

In this work, we present a general procedure for acoustic leak detection in water networks that satisfies multiple real-world constraints such as energy efficiency and ease of deployment. Based on recordings from seven contact microphones attached to the water supply network of a municipal suburb, we trained several shallow and deep anomaly detection models. Inspired by how human experts detect leaks using electronic sounding-sticks, we use these models to repeatedly listen for leaks over a predefined decision horizon. This way we avoid constant monitoring of the system. While we found the detection of leaks in close proximity to be a trivial task for almost all models, neural network based approaches achieve better results at the detection of distant leaks.
翻訳日:2021-05-11 02:47:50 公開日:2021-01-05
# MVFNet:効率的なビデオ認識のための多視点融合ネットワーク

MVFNet: Multi-View Fusion Network for Efficient Video Recognition ( http://arxiv.org/abs/2012.06977v2 )

ライセンス: Link先を確認
Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding(参考訳) 伝統的に、時空間モデリングネットワークとその複雑さは、ビデオアクション認識における2つの最も集中した研究テーマである。 既存の最先端手法は, 効率の良い時空間モデリングソリューションが性能においてわずかに劣っているのに対して, 複雑さに関わらず, 優れた精度を実現している。 本稿では,効率と効率を同時に獲得することを試みる。 まず,従来のH x W x Tビデオフレームを時空信号として扱うことに加えて,他の2面のハイトタイムとワイドタイムの映像をモデル化し,映像のダイナミクスを徹底的に捉えることを提案する。 第二に、我々のモデルは2D CNNのバックボーンに基づいて設計されており、モデル複雑性は設計によってよく意識されている。 具体的には,分離可能な畳み込みを用いたビデオダイナミックスを効率良く活用するための,新しいマルチビュー融合(mvf)モジュールを提案する。 これはプラグイン・アンド・プレイモジュールであり、市販の2D CNNに挿入してMVFNetと呼ばれるシンプルなモデルを作ることができる。 さらにMVFNetは、一般的なビデオモデリングフレームワークとみなすことができ、C2D、SlowOnly、TSMといった既存のメソッドを異なる設定で専門化することができる。 一般的なベンチマーク(例えば、Something V1 & V2, Kinetics, UCF-101, HMDB-51)では、その優位性を示す大規模な実験が行われている。 提案したMVFNetは2D CNNの複雑さで最先端のパフォーマンスを実現することができる。

Conventionally, spatiotemporal modeling network and its complexity are the two most concentrated research topics in video action recognition. Existing state-of-the-art methods have achieved excellent accuracy regardless of the complexity meanwhile efficient spatiotemporal modeling solutions are slightly inferior in performance. In this paper, we attempt to acquire both efficiency and effectiveness simultaneously. First of all, besides traditionally treating H x W x T video frames as space-time signal (viewing from the Height-Width spatial plane), we propose to also model video from the other two Height-Time and Width-Time planes, to capture the dynamics of video thoroughly. Secondly, our model is designed based on 2D CNN backbones and model complexity is well kept in mind by design. Specifically, we introduce a novel multi-view fusion (MVF) module to exploit video dynamics using separable convolution for efficiency. It is a plug-and-play module and can be inserted into off-the-shelf 2D CNNs to form a simple yet effective model called MVFNet. Moreover, MVFNet can be thought of as a generalized video modeling framework and it can specialize to be existing methods such as C2D, SlowOnly, and TSM under different settings. Extensive experiments are conducted on popular benchmarks (i.e., Something-Something V1 & V2, Kinetics, UCF-101, and HMDB-51) to show its superiority. The proposed MVFNet can achieve state-of-the-art performance with 2D CNN's complexity.
翻訳日:2021-05-09 12:50:42 公開日:2021-01-05
# 解釈による深層ニューラルネットワークの非神秘化:調査

Demystifying Deep Neural Networks Through Interpretation: A Survey ( http://arxiv.org/abs/2012.07119v2 )

ライセンス: Link先を確認
Giang Dao and Minwoo Lee(参考訳) 現代のディープラーニングアルゴリズムは、トレーニングデータセットにおけるクロスエントロピー損失を最小限に抑えるなど、客観的なメトリックを最適化する傾向にある。 問題は、単一の計量が現実世界のタスクの不完全な記述であることだ。 単一の計量はアルゴリズムがなぜ学習するかを説明できない。 誤った場合、解釈可能性の欠如は、エラーの理解と修正が困難になる。 近年、ニューラルネットワークの振る舞いや思考プロセスに関する洞察を提供するために、解釈可能性の問題に取り組む作業が行われている。 この研究は潜在的なバイアスを特定し、アルゴリズムの公平性と期待する性能を確保するために重要である。

Modern deep learning algorithms tend to optimize an objective metric, such as minimize a cross entropy loss on a training dataset, to be able to learn. The problem is that the single metric is an incomplete description of the real world tasks. The single metric cannot explain why the algorithm learn. When an erroneous happens, the lack of interpretability causes a hardness of understanding and fixing the error. Recently, there are works done to tackle the problem of interpretability to provide insights into neural networks behavior and thought process. The works are important to identify potential bias and to ensure algorithm fairness as well as expected performance.
翻訳日:2021-05-09 12:50:08 公開日:2021-01-05
# (参考訳) 気象・気候における機械学習エミュレータのためのcopulaに基づく合成データ生成:簡易放射モデルへの応用 [全文訳有]

Copula-based synthetic data generation for machine learning emulators in weather and climate: application to a simple radiation model ( http://arxiv.org/abs/2012.09037v2 )

ライセンス: CC BY 4.0
David Meyer, Thomas Nagler, Robin J. Hogan(参考訳) 合成データによる機械学習(ml)エミュレータの改善は可能か? MLモデルをトレーニングするための実際のデータの使用は、しばしば大きな制限の原因である。 例えば、実データは(a)状況と領域のサブセットのみを表し、(b)ソースに高価であり、(c)ライセンスの制限により特定の個人に限定されている。 コンピュータビジョンでは合成データの利用がますます普及しているが、天候や気候におけるmlエミュレータのトレーニングは、まだ実際のデータデータセットの使用に依存している。 本稿では,コプラをベースとした合成合成データセットを用いることで,下降する長波放射を推定するためのMLエミュレータの予測が向上するかどうかを検討する。 その結果、バルク誤差は平均バイアス誤差(0.08から-0.02Wm$^{-2}$)で最大75%、平均絶対誤差(0.17から0.44Wm$^{-2}$)で最大62%削減され、将来のMLエミュレータの一般化の可能性が示された。

Can we improve machine learning (ML) emulators with synthetic data? The use of real data for training ML models is often the cause of major limitations. For example, real data may be (a) only representative of a subset of situations and domains, (b) expensive to source, (c) limited to specific individuals due to licensing restrictions. Although the use of synthetic data is becoming increasingly popular in computer vision, the training of ML emulators in weather and climate still relies on the use of real data datasets. Here we investigate whether the use of copula-based synthetically-augmen ted datasets improves the prediction of ML emulators for estimating the downwelling longwave radiation. Results show that bulk errors are cut by up to 75 % for the mean bias error (from 0.08 to -0.02 W m$^{-2}$) and by up to 62 % (from 1.17 to 0.44 W m$^{-2}$) for the mean absolute error, thus showing potential for improving the generalization of future ML emulators.
翻訳日:2021-05-03 10:51:36 公開日:2021-01-05
# (参考訳) 絡み合いの測定: メトリクスのレビュー [全文訳有]

Measuring Disentanglement: A Review of Metrics ( http://arxiv.org/abs/2012.09276v2 )

ライセンス: CC BY 4.0
Julian Zaidi, Jonathan Boilard, Ghyslain Gagnon, Marc-Andr\'e Carbonneau(参考訳) データのばらつきの要因を分離して表現する学習は、aiの重要な問題である。 これらの表現を学ぶために多くの進歩がなされているが、不連続を定量化する方法はまだ不明である。 いくつかの指標が存在するが、その暗黙の仮定、真の測定値とその限界についてはほとんど知られていない。 その結果、異なる表現を比較する場合、結果を解釈することは困難である。 本研究では, 乱れの指標を調査し, 徹底的に分析する。 我々は,すべての指標を介入型,予測型,情報型という3つの家系に分類する新しい分類法を提案する。 幅広い実験を行い、表現特性を分離し、様々な側面におけるすべてのメトリクスを比較する。 実験結果と解析結果から,不整合表現特性の関係について考察する。 最後に,ゆがみを測定し,その結果を報告するためのガイドラインを提供する。

Learning to disentangle and represent factors of variation in data is an important problem in AI. While many advances are made to learn these representations, it is still unclear how to quantify disentanglement. Several metrics exist, however little is known on their implicit assumptions, what they truly measure and their limits. As a result, it is difficult to interpret results when comparing different representations. In this work, we survey supervised disentanglement metrics and thoroughly analyze them. We propose a new taxonomy in which all metrics fall into one of three families: intervention-based, predictor-based and information-based. We conduct extensive experiments, where we isolate representation properties to compare all metrics on many aspects. From experiment results and analysis, we provide insights on relations between disentangled representation properties. Finally, we provide guidelines on how to measure disentanglement and report the results.
翻訳日:2021-05-03 06:00:29 公開日:2021-01-05
# 主題別bciと主題非依存bciに対する分類アルゴリズムの比較

Comparison of Classification Algorithms Towards Subject-Specific and Subject-Independent BCI ( http://arxiv.org/abs/2012.12473v2 )

ライセンス: Link先を確認
Parisa Ghane, Narges Zarnaghi Naghsh, Ulisses Braga-Neto(参考訳) 運動画像脳インタフェースの設計は、対象データ収集とキャリブレーションの制限とシステム適応要件の要求により困難であると考えられている。 近年,事前のキャリブレーションや厳密なシステム適応を伴わず,複数のユーザに適用可能なSI設計が注目されている。 siの設計は困難であり、文献では精度が低い。 システム性能の2つの主要な要因は、分類アルゴリズムと利用可能なデータの品質である。 本稿では,SSパラダイムとSIパラダイムの分類性能の比較検討を行う。 その結果,SSモデルの分類アルゴリズムは性能に大きなばらつきを示すことがわかった。 したがって、対象ごとに異なる分類アルゴリズムが必要となる。 SIモデルは、性能のばらつきが低いが、比較的大きなサンプルサイズが利用できる場合にのみ使用されるべきである。 SIモデルでは, LDAとCARTは, サンプルサイズが小さい場合, サンプルサイズが小さい場合, SVMは他の分類器よりも優れていると仮定した。 さらに、ユーザーを考慮してデザインアプローチを選択するべきです。 SS設計は特定の主題に対してより有望に聞こえるが、SIアプローチは精神的、身体的課題のあるユーザにとってより便利である。

Motor imagery brain computer interface designs are considered difficult due to limitations in subject-specific data collection and calibration, as well as demanding system adaptation requirements. Recently, subject-independent (SI) designs received attention because of their possible applicability to multiple users without prior calibration and rigorous system adaptation. SI designs are challenging and have shown low accuracy in the literature. Two major factors in system performance are the classification algorithm and the quality of available data. This paper presents a comparative study of classification performance for both SS and SI paradigms. Our results show that classification algorithms for SS models display large variance in performance. Therefore, distinct classification algorithms per subject may be required. SI models display lower variance in performance but should only be used if a relatively large sample size is available. For SI models, LDA and CART had the highest accuracy for small and moderate sample size, respectively, whereas we hypothesize that SVM would be superior to the other classifiers if large training sample-size was available. Additionally, one should choose the design approach considering the users. While the SS design sound more promising for a specific subject, an SI approach can be more convenient for mentally or physically challenged users.
翻訳日:2021-04-25 18:15:21 公開日:2021-01-05
# Kaleidoscope: 構造化されたリニアマップの効率よく学習可能な表現

Kaleidoscope: An Efficient, Learnable Representation For All Structured Linear Maps ( http://arxiv.org/abs/2012.14966v2 )

ライセンス: Link先を確認
Tri Dao, Nimit S. Sohoni, Albert Gu, Matthew Eichhorn, Amit Blonder, Megan Leszczynski, Atri Rudra, Christopher R\'e(参考訳) 現代のニューラルネットワークアーキテクチャでは、低ランク行列、スパース行列、置換、フーリエ変換などの構造化線形変換を使用して、推論速度を改善し、一般的な線形写像と比較してメモリ使用量を削減する。 しかしながら、無数の構造化変換(およびそのパラメータ化)の選択は、速度、空間、正確さのトレードオフを必要とする面倒な作業である。 我々は,準最適空間 (パラメータ) と時間 (アリトメティック操作) の複雑性を持つ任意の構造化行列を確実にキャプチャする,kaleidoscope matrices (k-matrices) と呼ばれる行列群を導入する。 モデル品質を改善するために手作りの手順を置き換えるために,K-行列がエンドツーエンドのパイプライン内で自動的に学習可能であることを実証的に検証する。 例えば、ShuffleNetのチャネルシャッフルを置き換えることで、ImageNetの分類精度が最大5%向上する。 音声データ前処理におけるフィルタバンクの特徴計算を学習可能なカレイダスコープ層に置き換えることで,TIMIT音声認識タスクの精度がわずか0.4%低下する。 さらに、k行列はモデルの潜在構造を捉えることができる: 困難な置換画像分類タスクのために、k行列に基づく置換の表現は正しい潜在構造を学習することができ、下流の畳み込みモデルの精度を9%以上向上させる。 本手法を効果的に実装し,トランスフォーマーネットワークにおけるk行列を用いて,言語翻訳タスクにおけるエンドツーエンド推論速度を36%高速化する。

Modern neural network architectures use structured linear transformations, such as low-rank matrices, sparse matrices, permutations, and the Fourier transform, to improve inference speed and reduce memory usage compared to general linear maps. However, choosing which of the myriad structured transformations to use (and its associated parameterization) is a laborious task that requires trading off speed, space, and accuracy. We consider a different approach: we introduce a family of matrices called kaleidoscope matrices (K-matrices) that provably capture any structured matrix with near-optimal space (parameter) and time (arithmetic operation) complexity. We empirically validate that K-matrices can be automatically learned within end-to-end pipelines to replace hand-crafted procedures, in order to improve model quality. For example, replacing channel shuffles in ShuffleNet improves classification accuracy on ImageNet by up to 5%. K-matrices can also simplify hand-engineered pipelines -- we replace filter bank feature computation in speech data preprocessing with a learnable kaleidoscope layer, resulting in only 0.4% loss in accuracy on the TIMIT speech recognition task. In addition, K-matrices can capture latent structure in models: for a challenging permuted image classification task, a K-matrix based representation of permutations is able to learn the right latent structure and improves accuracy of a downstream convolutional model by over 9%. We provide a practically efficient implementation of our approach, and use K-matrices in a Transformer network to attain 36% faster end-to-end inference speed on a language translation task.
翻訳日:2021-04-18 20:45:00 公開日:2021-01-05
# 多方向時空間ネットワークに基づく共同空気質と天気予報

Joint Air Quality and Weather Prediction Based on Multi-Adversarial Spatiotemporal Networks ( http://arxiv.org/abs/2012.15037v2 )

ライセンス: Link先を確認
Jindong Han, Hao Liu, Hengshu Zhu, Hui Xiong, Dejing Dou(参考訳) 正確な空気質と天気予報は、都市の統治と人間の生活にとって非常に重要である。 空気の質や天気予報には多くの努力がなされているが、ほとんどは単に機能入力として互いに使用しており、2つの予測タスク間の内部接続を無視している。 一方、あるタスクの正確な予測は、別のタスクのパフォーマンスを改善するのに役立つ。 一方、地理的に分布する大気質と気象観測局は、都市全体の時空間依存モデリングのヒントを提供する。 本稿では,この2つの知見に触発されて,共同空気質と天気予報のための多変数時空間連続グラフニューラルネットワーク(MasterGNN)を提案する。 具体的には,大気品質と気象観測局間の時空間自己相関をモデル化する不均質なリカレントグラフニューラルネットワークを提案する。 そこで我々は,時空間モデルによる観測雑音の伝搬に対する多変数グラフ学習フレームワークを開発した。 さらに,マルチタスク学習をマルチタスク学習問題として定式化し,適応的学習戦略を提案する。 最後に、2つの実世界のデータセットに関する広範な実験により、MasterGNNは大気質と天気予報のタスクの7つのベースラインと比較して、最高のパフォーマンスを達成することが示された。

Accurate and timely air quality and weather predictions are of great importance to urban governance and human livelihood. Though many efforts have been made for air quality or weather prediction, most of them simply employ one another as feature input, which ignores the inner-connection between two predictive tasks. On the one hand, the accurate prediction of one task can help improve another task's performance. On the other hand, geospatially distributed air quality and weather monitoring stations provide additional hints for city-wide spatiotemporal dependency modeling. Inspired by the above two insights, in this paper, we propose the Multi-adversarial spatiotemporal recurrent Graph Neural Networks (MasterGNN) for joint air quality and weather predictions. Specifically, we first propose a heterogeneous recurrent graph neural network to model the spatiotemporal autocorrelation among air quality and weather monitoring stations. Then, we develop a multi-adversarial graph learning framework to against observation noise propagation introduced by spatiotemporal modeling. Moreover, we present an adaptive training strategy by formulating multi-adversarial learning as a multi-task learning problem. Finally, extensive experiments on two real-world datasets show that MasterGNN achieves the best performance compared with seven baselines on both air quality and weather prediction tasks.
翻訳日:2021-04-18 06:05:15 公開日:2021-01-05
# 配車システムにおけるマルチタスク学習エキスパートの時空間混合のゲーテッドアンサンブル

Gated Ensemble of Spatio-temporal Mixture of Experts for Multi-task Learning in Ride-hailing System ( http://arxiv.org/abs/2012.15408v2 )

ライセンス: Link先を確認
M. H. Rahman, S. M. Rifaat, S. N. Sadeek, M. Abrar, D. Wang(参考訳) 時空間予測モデルの設計は、業務的にも都市的にも個別に行うことが、拡大する交通ネットワーク企業にとって重荷となる。 そこで本研究では,各都市における時空間タスクを同時に予測するための,専門家ネットワーク(GESME-Net)と畳み込みリカレントニューラルネットワーク(CRNN),畳み込みニューラルネット(CNN),およびリカレントニューラルネットワーク(RNN)を併用した,時空間混在のゲートアンサンブルを開発することにより,マルチタスク学習アーキテクチャを提案する。 さらに、入力非依存特徴重み付け層をマルチタスク学習における共同表現学習アーキテクチャに統合し、予測に使用する入力特徴の寄与を明らかにする。 i)北京の需要と需給ギャップを同時に予測し、(ii)成都と西安の需要を同時に予測する。 どちらのシナリオにおいても、提案するアーキテクチャのモデルは、シングルタスクとマルチタスクのディープラーニングベンチマークとアンサンブルベースの機械学習アルゴリズムよりも優れています。

Designing spatio-temporal forecasting models separately in a task-wise and city-wise manner pose a burden for the expanding transportation network companies. Therefore, a multi-task learning architecture is proposed in this study by developing gated ensemble of spatio-temporal mixture of experts network (GESME-Net) with convolutional recurrent neural network (CRNN), convolutional neural network (CNN), and recurrent neural network (RNN) for simultaneously forecasting spatio-temporal tasks in a city as well as across different cities. Furthermore, an input agnostic feature weighting layer is integrated with the architecture for learning joint representation in multi-task learning and revealing the contribution of the input features utilized in prediction. The proposed architecture is tested with data from Didi Chuxing for: (i) simultaneously forecasting demand and supply-demand gap in Beijing, and (ii) simultaneously forecasting demand across Chengdu and Xian. In both scenarios, models from our proposed architecture outperformed the single-task and multi-task deep learning benchmarks and ensemble-based machine learning algorithms.
翻訳日:2021-04-17 17:05:02 公開日:2021-01-05
# ニューラルネットワークによる非視線イメージング

Non-line-of-Sight Imaging via Neural Transient Fields ( http://arxiv.org/abs/2101.00373v2 )

ライセンス: Link先を確認
Siyuan Shen, Zi Wang, Ping Liu, Zhengqing Pan, Ruiqian Li, Tian Gao, Shiying Li, and Jingyi Yu(参考訳) 我々はNon-Line-of-Sight(NL OS)イメージングのためのニューラルネットワークフレームワークを提案する。 以前のソリューションは、隠れたシーンの3d幾何学(例えば、点雲)またはボクセル密度(例えば、予め定義されたボリューム内)を明示的に復元することを模索していた。 対照的に,近年のneural radiance field (nerf) アプローチに触発されて,多層パーセプトロン (mlp) を用いて神経過渡場(netf)を表現した。 しかし、NeTFは線に沿った放射よりも球面上の過渡度を測定する。 そこで我々は, 共焦点と非共焦点の両方に適用可能な球形NeTF再構成パイプラインを定式化した。 NeRFと比較すると、NeTFはよりスペーサーな視点(走査スポット)をサンプリングし、サンプリングは極めて不均一である。 そこで我々は,再建におけるロバスト性を改善するため,モンテカルロ法を導入する。 合成データセットと実データセットに関する総合的な実験は、NeTFがより高い品質の再構築を提供し、最先端技術に欠けている細部を保存していることを示している。

We present a neural modeling framework for Non-Line-of-Sight (NLOS) imaging. Previous solutions have sought to explicitly recover the 3D geometry (e.g., as point clouds) or voxel density (e.g., within a pre-defined volume) of the hidden scene. In contrast, inspired by the recent Neural Radiance Field (NeRF) approach, we use a multi-layer perceptron (MLP) to represent the neural transient field or NeTF. However, NeTF measures the transient over spherical wavefronts rather than the radiance along lines. We therefore formulate a spherical volume NeTF reconstruction pipeline, applicable to both confocal and non-confocal setups. Compared with NeRF, NeTF samples a much sparser set of viewpoints (scanning spots) and the sampling is highly uneven. We thus introduce a Monte Carlo technique to improve the robustness in the reconstruction. Comprehensive experiments on synthetic and real datasets demonstrate NeTF provides higher quality reconstruction and preserves fine details largely missing in the state-of-the-art.
翻訳日:2021-04-13 07:14:37 公開日:2021-01-05
# (参考訳) 知識とテキストの変換による知識強化コモンセンス質問応答のベンチマーク [全文訳有]

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation ( http://arxiv.org/abs/2101.00760v2 )

ライセンス: CC BY 4.0
Ning Bian, Xianpei Han, Bo Chen, Le Sun(参考訳) 人間の基本的な能力は、言語理解と質問応答において常識知識を活用することである。 近年,cqa(knowledge-enhan ced commonsense question answering)アプローチが数多く提案されている。 しかし、(1)CQAの外部知識をどの程度活用できるかは、まだ不明である。 2)現在のCQAモデルではどの程度の知識が活用されているか。 (3)今後のCQAにとって最も有望な方向は何か。 これらの疑問に答えるために、我々は、シンプルで効果的な知識からテキストへの変換フレームワークを用いて、複数の標準CQAデータセットに対して広範な実験を行うことにより、知識に富んだCQAをベンチマークする。 Experiments show that: (1) Our knowledge-to-text framework is effective and achieves state-of-the-art performance on CommonsenseQA dataset, providing a simple and strong knowledge-enhanced baseline for CQA; (2) The potential of knowledge is still far from being fully exploited in CQA -- there is a significant performance gap from current models to our models with golden knowledge; and (3) Context-sensitive knowledge selection, heterogeneous knowledge exploitation, and commonsense-rich language models are promising CQA directions.

A fundamental ability of humans is to utilize commonsense knowledge in language understanding and question answering. In recent years, many knowledge-enhanced Commonsense Question Answering (CQA) approaches have been proposed. However, it remains unclear: (1) How far can we get by exploiting external knowledge for CQA? (2) How much potential of knowledge has been exploited in current CQA models? (3) Which are the most promising directions for future CQA? To answer these questions, we benchmark knowledge-enhanced CQA by conducting extensive experiments on multiple standard CQA datasets using a simple and effective knowledge-to-text transformation framework. Experiments show that: (1) Our knowledge-to-text framework is effective and achieves state-of-the-art performance on CommonsenseQA dataset, providing a simple and strong knowledge-enhanced baseline for CQA; (2) The potential of knowledge is still far from being fully exploited in CQA -- there is a significant performance gap from current models to our models with golden knowledge; and (3) Context-sensitive knowledge selection, heterogeneous knowledge exploitation, and commonsense-rich language models are promising CQA directions.
翻訳日:2021-04-12 07:32:04 公開日:2021-01-05
# (参考訳) ビデオライブストリーミングにおける無関係顔追跡とピクセル化による個人プライバシー保護 [全文訳有]

Personal Privacy Protection via Irrelevant Faces Tracking and Pixelation in Video Live Streaming ( http://arxiv.org/abs/2101.01060v2 )

ライセンス: CC BY 4.0
Jizhe Zhou, Chi-Man Pun(参考訳) 現在まで、プライバシー保護が意図するピクセル化タスクは労働集約的であり、まだ研究されていない。 ビデオのライブストリーミングが普及すると、ストリーミング中にオンラインの顔のピクセル化機構を確立するのは緊急だ。 本稿では,FPVLS (Face Pixelation in Video Live Streaming) と呼ばれる新しい手法を開発し,制約のないストリーミング中に自動的に個人プライバシーフィルタを生成する。 単にマルチフェイストラッカーを適用するだけで、ターゲットドリフト、計算効率、ピクセルオーバーといった問題が発生します。 したがって、無関係な人の顔の高速かつ正確なピクセル化のために、FPVLSは2つのコアステージのフレーム・ツー・ビデオ構造で構成される。 個々のフレーム上では、FPVLSは画像ベースの顔検出と埋め込みネットワークを使用して顔ベクトルを生成する。 生軌跡生成段階において,提案する位置決め親和性伝播(piap)クラスタリングアルゴリズムは,顔ベクトルと位置決め情報を利用して,同一人物の顔をフレーム間で迅速に関連付ける。 このようなフレーム単位で蓄積された生の軌道は、間欠的であり、ビデオレベルでは信頼できない。 そこで本研究では,提案ネットワークと2つのサンプルテストとを融合した軌道修正段階を,経験的確率比(elr)統計に基づいて紹介する。 最終画素に対して精製された軌跡上にガウスフィルタを配置する。 収集したビデオライブストリーミングデータセットにおいて、FPVLSは満足度の高い精度、リアルタイム効率を取得し、オーバーピクセル問題を含む。

To date, the privacy-protection intended pixelation tasks are still labor-intensive and yet to be studied. With the prevailing of video live streaming, establishing an online face pixelation mechanism during streaming is an urgency. In this paper, we develop a new method called Face Pixelation in Video Live Streaming (FPVLS) to generate automatic personal privacy filtering during unconstrained streaming activities. Simply applying multi-face trackers will encounter problems in target drifting, computing efficiency, and over-pixelation. Therefore, for fast and accurate pixelation of irrelevant people's faces, FPVLS is organized in a frame-to-video structure of two core stages. On individual frames, FPVLS utilizes image-based face detection and embedding networks to yield face vectors. In the raw trajectories generation stage, the proposed Positioned Incremental Affinity Propagation (PIAP) clustering algorithm leverages face vectors and positioned information to quickly associate the same person's faces across frames. Such frame-wise accumulated raw trajectories are likely to be intermittent and unreliable on video level. Hence, we further introduce the trajectory refinement stage that merges a proposal network with the two-sample test based on the Empirical Likelihood Ratio (ELR) statistic to refine the raw trajectories. A Gaussian filter is laid on the refined trajectories for final pixelation. On the video live streaming dataset we collected, FPVLS obtains satisfying accuracy, real-time efficiency, and contains the over-pixelation problems.
翻訳日:2021-04-12 04:15:20 公開日:2021-01-05
# googlenetと転送学習を用いた高速スケーラブルbnn推論のためのフレームワーク

A Framework for Fast Scalable BNN Inference using Googlenet and Transfer Learning ( http://arxiv.org/abs/2101.00793v2 )

ライセンス: Link先を確認
Karthik E(参考訳) 映像・画像解析における効率よく正確な物体検出は、深層学習の助けを借りたコンピュータビジョンシステムの進歩の大きな恩恵の1つである。 ディープラーニングの助けを借りて、より強力なツールが進化し、高いレベルと深い機能を学ぶことができ、オブジェクト検出アルゴリズムの従来のアーキテクチャにおける既存の問題を克服することができる。 本論文の目的は,オブジェクト検出における高精度なリアルタイム性能の実現である。 コンピュータビジョンの分野では、既存のアルゴリズムを改善することで、視覚情報の検出と処理の分野で多くの研究が進められている。 バイナライズされたニューラルネットワークは、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの様々なビジョンタスクで高いパフォーマンスを示している。 MNIST(Modified National Institute of Standards and Technology database)、CIFAR(Canadian Institute for Advanced Research)、SVHN(Street View House Numbers)データセットは、22層の深さを持つ事前訓練された畳み込みニューラルネットワーク(CNN)を用いて実装されている。 教師付き学習は、特定のデータセットをモデルの適切な構造に分類する作業で使用される。 静止画像では精度を向上させるために、Googlenetが使用される。 Googlenetの最終レイヤは転送学習に置き換えられ、Googlenetの精度が向上する。 同時に、移動画像の精度を転送学習技術により維持することができる。 ハードウェアは、多くのデータセットでより高速な結果を得るために、あらゆるモデルの主要なバックボーンである。 ここで、Nvidia Jetson Nanoはグラフィクス処理ユニット(GPU)であり、オブジェクト検出の過程で大量の計算を処理することができる。 その結果,移動学習法により検出された物体の精度は,既存手法と比較して高いことがわかった。

Efficient and accurate object detection in video and image analysis is one of the major beneficiaries of the advancement in computer vision systems with the help of deep learning. With the aid of deep learning, more powerful tools evolved, which are capable to learn high-level and deeper features and thus can overcome the existing problems in traditional architectures of object detection algorithms. The work in this thesis aims to achieve high accuracy in object detection with good real-time performance. In the area of computer vision, a lot of research is going into the area of detection and processing of visual information, by improving the existing algorithms. The binarized neural network has shown high performance in various vision tasks such as image classification, object detection, and semantic segmentation. The Modified National Institute of Standards and Technology database (MNIST), Canadian Institute for Advanced Research (CIFAR), and Street View House Numbers (SVHN) datasets are used which is implemented using a pre-trained convolutional neural network (CNN) that is 22 layers deep. Supervised learning is used in the work, which classifies the particular dataset with the proper structure of the model. In still images, to improve accuracy, Googlenet is used. The final layer of the Googlenet is replaced with the transfer learning to improve the accuracy of the Googlenet. At the same time, the accuracy in moving images can be maintained by transfer learning techniques. Hardware is the main backbone for any model to obtain faster results with a large number of datasets. Here, Nvidia Jetson Nano is used which is a graphics processing unit (GPU), that can handle a large number of computations in the process of object detection. Results show that the accuracy of objects detected by the transfer learning method is more when compared to the existing methods.
翻訳日:2021-04-11 23:05:33 公開日:2021-01-05
# Gauss-Legendreによるガウス過程の回帰

Gauss-Legendre Features for Gaussian Process Regression ( http://arxiv.org/abs/2101.01137v2 )

ライセンス: Link先を確認
Paz Fink Shustin, Haim Avron(参考訳) ガウス過程は強力な確率的カーネル学習フレームワークを提供し、ガウス過程回帰のような手法で高品質な非パラメトリック回帰モデルを学ぶことができる。 それでも、ガウス過程回帰の学習フェーズでは、大規模なデータセットでは現実的ではない大量の計算が必要である。 本稿では,カーネル行列の低階近似を用いてガウス過程の回帰をスケールアップするためのガウス・ルゲンドル二次法を提案する。 我々は,低階近似の構造を利用して,効果的なハイパーパラメータ学習,トレーニング,予測を行う。 本手法は,数値積分による低ランク近似も構築する,よく知られたランダムフーリエ特徴量アプローチに強く影響されている。 しかし,本手法では,訓練点数において多対数である特徴量を用いて,カーネルに対する高品質な近似を生成できるが,同様の保証にはランダムなフーリエ特徴量の場合,訓練点数において少なくとも線形な量が必要となる。 さらに,この手法が構築する低ランク近似の構造は,ランダムフーリエ特徴によって生成されたものとは微妙に異なるため,より効率的なハイパーパラメータ学習が可能となる。 低次元データセットを用いた学習法の有用性を数値実験により検証した。

Gaussian processes provide a powerful probabilistic kernel learning framework, which allows learning high quality nonparametric regression models via methods such as Gaussian process regression. Nevertheless, the learning phase of Gaussian process regression requires massive computations which are not realistic for large datasets. In this paper, we present a Gauss-Legendre quadrature based approach for scaling up Gaussian process regression via a low rank approximation of the kernel matrix. We utilize the structure of the low rank approximation to achieve effective hyperparameter learning, training and prediction. Our method is very much inspired by the well-known random Fourier features approach, which also builds low-rank approximations via numerical integration. However, our method is capable of generating high quality approximation to the kernel using an amount of features which is poly-logarithmic in the number of training points, while similar guarantees will require an amount that is at the very least linear in the number of training points when random Fourier features. Furthermore, the structure of the low-rank approximation that our method builds is subtly different from the one generated by random Fourier features, and this enables much more efficient hyperparameter learning. The utility of our method for learning with low-dimensional datasets is demonstrated using numerical experiments.
翻訳日:2021-04-11 22:47:18 公開日:2021-01-05
# (参考訳) One vs Previous and similar Classes Learning -- 比較研究 [全文訳有]

One vs Previous and Similar Classes Learning -- A Comparative Study ( http://arxiv.org/abs/2101.01294v1 )

ライセンス: CC BY 4.0
Daniel Cauchi, Adrian Muscat(参考訳) 多クラス分類問題を扱う場合、分類器の作り方と組み合わせて個々の分類を区別する学習パラダイムを用いて、一連のバイナリ分類器からなるモデルを構築するのが一般的である。 新しいデータがシステムに入り、モデルが更新する必要がある場合、これらのモデルはスクラッチから再トレーニングされる必要がある。 この研究は、トレーニングされたモデルをスクラッチから再トレーニングすることなく更新できる3つの学習パラダイムを提案する。 比較分析を行い、ベースラインに対して評価する。 提案したパラダイムは更新時にベースラインよりも高速で、うち2つはスクラッチからのトレーニングも高速で、特に大規模なデータセットでは同等の分類性能を維持している。

When dealing with multi-class classification problems, it is common practice to build a model consisting of a series of binary classifiers using a learning paradigm which dictates how the classifiers are built and combined to discriminate between the individual classes. As new data enters the system and the model needs updating, these models would often need to be retrained from scratch. This work proposes three learning paradigms which allow trained models to be updated without the need of retraining from scratch. A comparative analysis is performed to evaluate them against a baseline. Results show that the proposed paradigms are faster than the baseline at updating, with two of them being faster at training from scratch as well, especially on larger datasets, while retaining a comparable classification performance.
翻訳日:2021-04-11 21:58:14 公開日:2021-01-05
# (参考訳) 一般非線形リワード機能を有する対数組合せ帯域 [全文訳有]

Adversarial Combinatorial Bandits with General Non-linear Reward Functions ( http://arxiv.org/abs/2101.01301v1 )

ライセンス: CC BY 4.0
Xi Chen and Yanjun Han and Yining Wang(参考訳) 本稿では,非線形報酬関数を持つ逆組合せバンディットについて検討し,逆線形組合せバンディットに関する既存の研究を拡張した。 一般の非線形報酬を伴う相反的組合せ的バンディットは、バンディット文学において重要なオープン問題であり、線形報酬、確率的バンディット、半バンディットフィードバックの場合には大きなギャップがあるかどうかはまだ不明である。 例えば、$N$のアームと$K$のアームのサブセットが$T$のタイムに選択されている場合、ミニマックス最適後悔は$\widetilde\Theta_{d}(\sqrt{N^d T})$ もし報酬関数が$d$次多項式で$d<K$と$\Theta_K(\sqrt{N^K T})$ならば、報酬関数は低次多項式ではない。 {Both bounds is significantly different from the bound $O(\sqrt{\mathrm{poly}(N,K)T})$ for the linear case, which suggests that is a fundamental gap between the linear and non-linear reward structure。 また,オンラインレコメンデーションにおける逆ソート最適化問題に対する応用も見いだした。 逆数分解問題の最悪の場合、最適なアルゴリズムは個々の$\binom{N}{K}$アソートを独立に扱う必要がある。

In this paper we study the adversarial combinatorial bandit with a known non-linear reward function, extending existing work on adversarial linear combinatorial bandit. {The adversarial combinatorial bandit with general non-linear reward is an important open problem in bandit literature, and it is still unclear whether there is a significant gap from the case of linear reward, stochastic bandit, or semi-bandit feedback.} We show that, with $N$ arms and subsets of $K$ arms being chosen at each of $T$ time periods, the minimax optimal regret is $\widetilde\Theta_{d}(\sqrt{N^d T})$ if the reward function is a $d$-degree polynomial with $d< K$, and $\Theta_K(\sqrt{N^K T})$ if the reward function is not a low-degree polynomial. {Both bounds are significantly different from the bound $O(\sqrt{\mathrm{poly}(N,K)T})$ for the linear case, which suggests that there is a fundamental gap between the linear and non-linear reward structures.} Our result also finds applications to adversarial assortment optimization problem in online recommendation. We show that in the worst-case of adversarial assortment problem, the optimal algorithm must treat each individual $\binom{N}{K}$ assortment as independent.
翻訳日:2021-04-11 21:45:52 公開日:2021-01-05
# (参考訳) Flip Consistencyを用いた自己監督型ビジュアルLiDARオドメトリー [全文訳有]

Self-supervised Visual-LiDAR Odometry with Flip Consistency ( http://arxiv.org/abs/2101.01322v1 )

ライセンス: CC BY 4.0
Bin Li and Mu Hu and Shuling Wang and Lianghao Wang and Xiaojin Gong(参考訳) 学習に基づくほとんどの手法は、劇的な照明のバリエーションやテクスチャのないシナリオに苦しむ視覚センサを用いてエゴモーションを推定する。 本稿では,ライダーから得られた疎度で正確な深度測定を取り入れ,視覚的手法の限界を克服する。 そこで我々は,自己教師型視覚ライダー・オドメトリー(Self-VLO)フレームワークを設計する。 3次元ライダーポイントから投影された単眼画像とスパース深度マップの両方を入力として、基底の真理ラベルを使わずに、エンドツーエンドの学習方法でポーズと深度推定を生成する。 2つのモードを効果的に融合するために,視覚および奥行き画像から特徴を抽出し,その特徴を複数のスケールでデコーダに融合する2経路エンコーダを設計した。 また,適応的に重み付けされたフリップ一貫性損失を設計することで,VLOの自己教師型学習を容易にする。 kitti odometryベンチマークの実験では、提案手法が全ての自己教師付き視覚またはライダーオドメトリーよりも優れていることが示されている。 また、完全に監督されたvosよりもパフォーマンスが良く、核融合の威力を示す。

Most learning-based methods estimate ego-motion by utilizing visual sensors, which suffer from dramatic lighting variations and textureless scenarios. In this paper, we incorporate sparse but accurate depth measurements obtained from lidars to overcome the limitation of visual methods. To this end, we design a self-supervised visual-lidar odometry (Self-VLO) framework. It takes both monocular images and sparse depth maps projected from 3D lidar points as input, and produces pose and depth estimations in an end-to-end learning manner, without using any ground truth labels. To effectively fuse two modalities, we design a two-pathway encoder to extract features from visual and depth images and fuse the encoded features with those in decoders at multiple scales by our fusion module. We also adopt a siamese architecture and design an adaptively weighted flip consistency loss to facilitate the self-supervised learning of our VLO. Experiments on the KITTI odometry benchmark show that the proposed approach outperforms all self-supervised visual or lidar odometries. It also performs better than fully supervised VOs, demonstrating the power of fusion.
翻訳日:2021-04-11 21:24:12 公開日:2021-01-05
# (参考訳) カスタマーサービスにおける共感型チャットボットの評価 [全文訳有]

Evaluating Empathetic Chatbots in Customer Service Settings ( http://arxiv.org/abs/2101.01334v1 )

ライセンス: CC BY 4.0
Akshay Agarwal, Shashank Maiya, Sonu Aggarwal(参考訳) カスタマーサービスは、生きた人間のエージェントの反応に共感を求める設定である。 近年の進歩は、オープンドメインのチャットボットが、生きた人間の発話に対する共感を示すためにどのように訓練されるかを示している。 顧客からの質問に応答する混合スキルチャットボットモデルは、そのような訓練を受けていないモデルよりも、感情を認識し、適切な共感を示すように訓練された場合、実際の人間エージェント応答によく似ている。 分析では、有名ブランド20社のカスタマーサービスコンテキストにおける数百万の顧客<->エージェントダイアログの例を含む、Twitterのカスタマーサービスデータセットを活用する。

Customer service is a setting that calls for empathy in live human agent responses. Recent advances have demonstrated how open-domain chatbots can be trained to demonstrate empathy when responding to live human utterances. We show that a blended skills chatbot model that responds to customer queries is more likely to resemble actual human agent response if it is trained to recognize emotion and exhibit appropriate empathy, than a model without such training. For our analysis, we leverage a Twitter customer service dataset containing several million customer<->agent dialog examples in customer service contexts from 20 well-known brands.
翻訳日:2021-04-11 21:12:04 公開日:2021-01-05
# (参考訳) 部分観測可能なマルコフ決定過程のフィルタリングによるトレーニング結果の改善 [全文訳有]

Improving Training Result of Partially Observable Markov Decision Process by Filtering Beliefs ( http://arxiv.org/abs/2101.02178v1 )

ライセンス: CC BY 4.0
Oscar LiJen Hsu(参考訳) 本研究では,自律型ロボットや制御方針に関する多くの領域で広く用いられている,部分観測可能なマルコフ決定プロセス(POMDP)の性能向上のためのフィルタリング信念手法を提案する。 私の方法では 類似の信念のペアを 検索して比較します 同様の信念は制御政策に無意味な影響を与えるため、訓練時間を短縮するためにその信念は濾過される。 実験結果から,提案手法は,学習結果の質や手法の効率の点で,ポイントベース近似POMDPよりも優れていることが示された。

In this study I proposed a filtering beliefs method for improving performance of Partially Observable Markov Decision Processes(POMDPs), which is a method wildly used in autonomous robot and many other domains concerning control policy. My method search and compare every similar belief pair. Because a similar belief have insignificant influence on control policy, the belief is filtered out for reducing training time. The empirical results show that the proposed method outperforms the point-based approximate POMDPs in terms of the quality of training results as well as the efficiency of the method.
翻訳日:2021-04-11 21:05:02 公開日:2021-01-05
# (参考訳) 多言語音声感情認識における最小ショット分類のための固定maml [全文訳有]

Fixed-MAML for Few Shot Classification in Multilingual Speech Emotion Recognition ( http://arxiv.org/abs/2101.01356v1 )

ライセンス: CC BY 4.0
Anugunj Naman, Liliana Mancini(参考訳) 本稿では,音声感情認識タスク(SER)に少数ショット学習を適用する可能性について分析する。 現在の音声感情認識モデルは、非常にうまく機能するが、入力が多言語であれば失敗する。 さらに、そのようなモデルをトレーニングする場合、トレーニングコーパスが広い場合にのみモデルの性能が適する。 大きなトレーニングコーパスが利用できることは、あまり人気がない言語やあいまいでない言語を選択する場合の重要な問題である。 我々は,この課題を数発学習問題にすることで,多言語主義と利用可能なデータの欠如という課題を解決しようとする。 N-ウェイK-ショット問題におけるすべてのNクラスが新しく、NとFがそれぞれ感情クラスの数と予め定義された固定クラスであるようなN+F経路問題を定義するという仮定を緩和することを提案する。 本稿では,モデル非依存メタラーニング(MAML)アルゴリズムを改良し,この問題を解き,新しいモデルF-MAMLと呼ぶ。 この修正は、オリジナルのMAMLよりもパフォーマンスが良く、EmoFilmデータセットよりも優れている。

In this paper, we analyze the feasibility of applying few-shot learning to speech emotion recognition task (SER). The current speech emotion recognition models work exceptionally well but fail when then input is multilingual. Moreover, when training such models, the models' performance is suitable only when the training corpus is vast. This availability of a big training corpus is a significant problem when choosing a language that is not much popular or obscure. We attempt to solve this challenge of multilingualism and lack of available data by turning this problem into a few-shot learning problem. We suggest relaxing the assumption that all N classes in an N-way K-shot problem be new and define an N+F way problem where N and F are the number of emotion classes and predefined fixed classes, respectively. We propose this modification to the Model-Agnostic MetaLearning (MAML) algorithm to solve the problem and call this new model F-MAML. This modification performs better than the original MAML and outperforms on EmoFilm dataset.
翻訳日:2021-04-11 20:59:32 公開日:2021-01-05
# (参考訳) 遅延を伴う確率制御問題に対する繰り返しニューラルネットワーク [全文訳有]

Recurrent Neural Networks for Stochastic Control Problems with Delay ( http://arxiv.org/abs/2101.01385v1 )

ライセンス: CC BY 4.0
Jiequn Han, Ruimeng Hu(参考訳) 遅延を伴う確率的制御問題は、系の経路依存的特徴と固有高次元のため困難である。 本稿では,遅延特性を持つ確率的制御問題を解くために,ディープニューラルネットワークに基づくアルゴリズムを提案し,体系的に研究する。 具体的には、シーケンスモデリングにニューラルネットワークを用いる(\emph{e.g。 ポリシーをパラメータ化し、目的関数を最適化するために、長い短期記憶のようなリカレントニューラルネットワークを使用する。 提案アルゴリズムは,線形二乗問題,有限遅延の最適消費,完全メモリのポートフォリオ最適化の3つのベンチマーク例で検証した。 特に、再帰的ニューラルネットワークのアーキテクチャは、自然に経路依存機能を柔軟に捉え、フィードフォワードネットワークよりも効率的で安定したネットワークトレーニングでより良いパフォーマンスをもたらすことに気付きます。 完全なメモリを備えたポートフォリオ最適化では、無限の遅延が特徴である。

Stochastic control problems with delay are challenging due to the path-dependent feature of the system and thus its intrinsic high dimensions. In this paper, we propose and systematically study deep neural networks-based algorithms to solve stochastic control problems with delay features. Specifically, we employ neural networks for sequence modeling (\emph{e.g.}, recurrent neural networks such as long short-term memory) to parameterize the policy and optimize the objective function. The proposed algorithms are tested on three benchmark examples: a linear-quadratic problem, optimal consumption with fixed finite delay, and portfolio optimization with complete memory. Particularly, we notice that the architecture of recurrent neural networks naturally captures the path-dependent feature with much flexibility and yields better performance with more efficient and stable training of the network compared to feedforward networks. The superiority is even evident in the case of portfolio optimization with complete memory, which features infinite delay.
翻訳日:2021-04-11 20:38:50 公開日:2021-01-05
# (参考訳) to do or not: cost-sensitive causal decision-making [全文訳有]

To do or not to do: cost-sensitive causal decision-making ( http://arxiv.org/abs/2101.01407v1 )

ライセンス: CC BY 4.0
Diego Olaya, Wouter Verbeke, Jente Van Belle, Marie-Anne Guerry(参考訳) 因果分類モデルは、プロセスインスタンスの特性に応じて、関心のカテゴリー的ビジネス成果に対する処理の効果を予測するために、さまざまな運用ビジネスプロセスに適用される。 これにより、運用上の意思決定を最適化し、ポジティブな結果率を最大化するために、特定のインスタンスに適用される最適な処理を選択することができる。 因果分類モデルを学ぶための文献には様々な強力なアプローチが提示されているが、様々な治療の費用と潜在的な結果の利益を考えると、推定された個々の治療効果に基づく最適な意思決定のための形式的な枠組みは定まっていない。 そこで本稿では,予測値フレームワークを拡張し,推定された個別処理効果の線形関数である二重二元因果分類のコスト依存性決定境界,積算結果の確率,問題設定のコストと利益パラメータを正式に導入する。 この境界は、コスト感受性の因果分類の目的として、期待される因果利益を最大化するために、正および負の処理クラスにおける因果分類のインスタンスを許容する。 本稿では,因果分類の対象となる条件ごとに,期待因果利益を最大化するためのインスタンスをランク付けする期待因果利益ランキングを,個々の処理効果に基づいて従来のランキングアプローチと異なるものに紹介する。 提案手法は,合成およびマーケティングキャンペーンデータセットを用いて実験的に評価する。 その結果,提案手法は費用不感なランキング手法を効果的に上回り,収益性を高めることができることがわかった。

Causal classification models are adopted across a variety of operational business processes to predict the effect of a treatment on a categorical business outcome of interest depending on the process instance characteristics. This allows optimizing operational decision-making and selecting the optimal treatment to apply in each specific instance, with the aim of maximizing the positive outcome rate. While various powerful approaches have been presented in the literature for learning causal classification models, no formal framework has been elaborated for optimal decision-making based on the estimated individual treatment effects, given the cost of the various treatments and the benefit of the potential outcomes. In this article, we therefore extend upon the expected value framework and formally introduce a cost-sensitive decision boundary for double binary causal classification, which is a linear function of the estimated individual treatment effect, the positive outcome probability and the cost and benefit parameters of the problem setting. The boundary allows causally classifying instances in the positive and negative treatment class to maximize the expected causal profit, which is introduced as the objective at hand in cost-sensitive causal classification. We introduce the expected causal profit ranker which ranks instances for maximizing the expected causal profit at each possible threshold for causally classifying instances and differs from the conventional ranking approach based on the individual treatment effect. The proposed ranking approach is experimentally evaluated on synthetic and marketing campaign data sets. The results indicate that the presented ranking method effectively outperforms the cost-insensitive ranking approach and allows boosting profitability.
翻訳日:2021-04-11 20:20:22 公開日:2021-01-05
# (参考訳) 新型コロナウイルス : ラベル付きデータを用いずに治療・ワクチン関連記事の識別方法の比較分析 [全文訳有]

COVID-19: Comparative Analysis of Methods for Identifying Articles Related to Therapeutics and Vaccines without Using Labeled Data ( http://arxiv.org/abs/2101.02017v1 )

ライセンス: CC BY 4.0
Mihir Parmar, Ashwin Karthik Ambalavanan, Hong Guan, Rishab Banerjee, Jitesh Pabla and Murthy Devarakonda(参考訳) 本稿では,テキスト中のタスク固有の用語(およびその同義語)の有無に基づいて,テキスト分類手法を分析する手法を提案する。 本研究は,6種類のトランスファーラーニングおよび非教師なし手法を用いて,新型コロナウイルスワクチンおよび治療関連項目のスクリーニングを行った。 分析の結果、検索エンジンの結果に基づいて訓練されたbertモデルは一般的にうまく機能するが、タスク固有の用語を含まない関連する抽象をミス分類した。 私たちはこの洞察を使って、より効果的な教師なしアンサンブルを作りました。

Here we proposed an approach to analyze text classification methods based on the presence or absence of task-specific terms (and their synonyms) in the text. We applied this approach to study six different transfer-learning and unsupervised methods for screening articles relevant to COVID-19 vaccines and therapeutics. The analysis revealed that while a BERT model trained on search-engine results generally performed well, it miss-classified relevant abstracts that did not contain task-specific terms. We used this insight to create a more effective unsupervised ensemble.
翻訳日:2021-04-11 19:53:46 公開日:2021-01-05
# (参考訳) モバイル食品グレーディングシステムにおけるサポートベクトルマシンとYOLO [全文訳有]

Support Vector Machine and YOLO for a Mobile Food Grading System ( http://arxiv.org/abs/2101.01418v1 )

ライセンス: CC BY 4.0
Lili Zhu, Petros Spachos(参考訳) 食品の品質と安全性は、人間の健康だけでなく、社会開発や安定にも必須の保証であるため、社会にとって大きな関心事である。 食品の品質と安全性の確保は複雑なプロセスである。 全ての食品加工段階は、栽培、収穫、貯蔵から準備と消費まで考慮すべきである。 グレーディングは食品の品質を制御するための重要なプロセスの1つである。 本稿では,食品の品位評価を行うモバイル視覚システムを提案する。 具体的には,移動コンベア上でバナナの画像を取得する。 バナナの分類には機械学習に基づく2層画像処理システムを用い,これら2層をエッジデバイスとクラウドサーバにそれぞれ割り当てる。 Support Vector Machine (SVM)は、色とテクスチャの特徴からなる抽出された特徴ベクトルに基づいてバナナを分類する最初の層である。 次に、You Only Look Once (YOLO) v3 モデルにより、皮の欠陥領域を更に特定し、入力が中熟または熟成クラスに属するかどうかを決定する。 実験結果によると、第1層の性能は98.5%、第2層の精度は85.7%、全体の精度は96.4%であった。

Food quality and safety are of great concern to society since it is an essential guarantee not only for human health but also for social development, and stability. Ensuring food quality and safety is a complex process. All food processing stages should be considered, from cultivating, harvesting and storage to preparation and consumption. Grading is one of the essential processes to control food quality. This paper proposed a mobile visual-based system to evaluate food grading. Specifically, the proposed system acquires images of bananas when they are on moving conveyors. A two-layer image processing system based on machine learning is used to grade bananas, and these two layers are allocated on edge devices and cloud servers, respectively. Support Vector Machine (SVM) is the first layer to classify bananas based on an extracted feature vector composed of color and texture features. Then, the a You Only Look Once (YOLO) v3 model further locating the peel's defected area and determining if the inputs belong to the mid-ripened or well-ripened class. According to experimental results, the first layer's performance achieved an accuracy of 98.5% while the accuracy of the second layer is 85.7%, and the overall accuracy is 96.4%.
翻訳日:2021-04-11 19:46:50 公開日:2021-01-05
# (参考訳) 説明可能なAIとアルゴリズムアドバイザの採用:実験的検討 [全文訳有]

Explainable AI and Adoption of Algorithmic Advisors: an Experimental Study ( http://arxiv.org/abs/2101.02555v1 )

ライセンス: CC BY 4.0
Daniel Ben David, Yehezkel S. Resheff, Talia Tron(参考訳) 機械学習は、技術経験の共通部分になりつつある。 規制やユーザビリティを考慮した場合、説明可能なAI(XAI)の概念は、一貫性のある説明で意思決定を支援する能力を必要とする場合に魅力的である。 多くの研究機関がXAIのアルゴリズム的手法に取り組んできたが、人間の協力と自動システムの導入に最適な方法を決定する方法はまだ分かっていない。 本稿では,参加者が web ベースのゲームをプレイする実験手法を開発し,その中に人間あるいはアルゴリズムのアドバイザリからアドバイスを受け,実験条件によって異なる説明文を提示する。 我々は、基準に依存した意思決定フレームワークを使用して、時間とともにゲーム結果を評価し、様々な重要な状況において、異なるタイプの説明が採用する準備、支払いの意思、金融AIコンサルタントの信頼に影響を及ぼすかどうかを判断する。 初対面時の導入を促進する説明の種類は,失敗後,あるいはコストが掛かる場合に最も成功したものとは異なることがわかった。 さらに参加者は、説明を含むAIアドバイザの料金を喜んで支払う。 これらの結果は、アルゴリズムの採用と信頼のためのXAIの重要性に関する文献に重きを置いている。

Machine learning is becoming a commonplace part of our technological experience. The notion of explainable AI (XAI) is attractive when regulatory or usability considerations necessitate the ability to back decisions with a coherent explanation. A large body of research has addressed algorithmic methods of XAI, but it is still unclear how to determine what is best suited to create human cooperation and adoption of automatic systems. Here we develop an experimental methodology where participants play a web-based game, during which they receive advice from either a human or algorithmic advisor, accompanied with explanations that vary in nature between experimental conditions. We use a reference-dependent decision-making framework, evaluate the game results over time, and in various key situations, to determine whether the different types of explanations affect the readiness to adopt, willingness to pay and trust a financial AI consultant. We find that the types of explanations that promotes adoption during first encounter differ from those that are most successful following failure or when cost is involved. Furthermore, participants are willing to pay more for AI-advice that includes explanations. These results add to the literature on the importance of XAI for algorithmic adoption and trust.
翻訳日:2021-04-11 19:24:42 公開日:2021-01-05
# (参考訳) 大規模高次元データに対するデータ品質測定と効率的な評価アルゴリズム [全文訳有]

Data Quality Measures and Efficient Evaluation Algorithms for Large-Scale High-Dimensional Data ( http://arxiv.org/abs/2101.01441v1 )

ライセンス: CC BY 4.0
Hyeongmin Cho, Sangkyun Lee(参考訳) 機械学習は、モバイルシステムにおけるオブジェクトや音声認識など、さまざまな応用分野で有効であることが証明されている。 機械学習の成功の鍵は、大規模なトレーニングデータの可用性にあるため、多くのデータセットが公開され、公開されている。 データコンシューマやマネージャの観点から見れば、データ品質の測定は学習プロセスにおける重要な第一歩です。 どのデータセットを使用するか、更新し、メンテナンスするかを判断する必要があります。 しかし、特に画像やビデオなどの大規模高次元データに関して、データ品質を測定するための実践的な方法は多くはない。 本稿では,データ品質の2つの重要な側面であるクラス分離性とクラス内可変性を計算可能な2つのデータ品質尺度を提案する。 従来のデータ品質指標はクラス分離性にのみ焦点をあてる傾向があるが、クラス内変動性も重要なデータ品質要因であることが示唆される。 ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点による品質測定を効率的に行うアルゴリズムを提案する。 実験では,我々の測度は小型データに対する古典的測度と互換性があり,大規模高次元データセット上でより効率的に計算できることを示す。

Machine learning has been proven to be effective in various application areas, such as object and speech recognition on mobile systems. Since a critical key to machine learning success is the availability of large training data, many datasets are being disclosed and published online. From a data consumer or manager point of view, measuring data quality is an important first step in the learning process. We need to determine which datasets to use, update, and maintain. However, not many practical ways to measure data quality are available today, especially when it comes to large-scale high-dimensional data, such as images and videos. This paper proposes two data quality measures that can compute class separability and in-class variability, the two important aspects of data quality, for a given dataset. Classical data quality measures tend to focus only on class separability; however, we suggest that in-class variability is another important data quality factor. We provide efficient algorithms to compute our quality measures based on random projections and bootstrapping with statistical benefits on large-scale high-dimensional data. In experiments, we show that our measures are compatible with classical measures on small-scale data and can be computed much more efficiently on large-scale high-dimensional datasets.
翻訳日:2021-04-11 19:11:49 公開日:2021-01-05
# (参考訳) 符号制約付きサポートベクターマシンの学習 [全文訳有]

Learning Sign-Constrained Support Vector Machines ( http://arxiv.org/abs/2101.01473v1 )

ライセンス: CC BY 4.0
Kenya Tajima, Takahiko Henmi, Kohei Tsuchida, Esmeraldo Ronnie R. Zara, and Tsuyoshi Kato(参考訳) ドメイン知識は学習機械の一般化性能を向上させるのに有用である。 サイン制約は、ドメイン知識と学習マシンを組み合わせるための便利な表現です。 本稿では,線形支持ベクトルマシンの学習において,重み係数の符号を制約し,符号制約下で経験的リスクを最小化するための2つの最適化アルゴリズムを考案する。 2つのアルゴリズムのうちの1つは、投影勾配法に基づいており、投影勾配法の各イテレーションは計算コストがo(nd)$であり、目的誤差のサブリニア収束が保証される。 第二のアルゴリズムはフランク=ウルフ法に基づいており、サブ線形に収束し、明確な終端基準を持つ。 Frank-Wolfeの各イテレーションは、$O(nd)$コストも必要である。 さらに、目的関数の曲率を分析することにより、最小の反復数に対する明示的な表現を導出し、$\epsilon$-accurate の解を保証する。 最後に,訓練例との類似性が特徴ベクトルを構成する場合,符号制約が有望な手法であることを実証的に示す。

Domain knowledge is useful to improve the generalization performance of learning machines. Sign constraints are a handy representation to combine domain knowledge with learning machine. In this paper, we consider constraining the signs of the weight coefficients in learning the linear support vector machine, and develop two optimization algorithms for minimizing the empirical risk under the sign constraints. One of the two algorithms is based on the projected gradient method, in which each iteration of the projected gradient method takes $O(nd)$ computational cost and the sublinear convergence of the objective error is guaranteed. The second algorithm is based on the Frank-Wolfe method that also converges sublinearly and possesses a clear termination criterion. We show that each iteration of the Frank-Wolfe also requires $O(nd)$ cost. Furthermore, we derive the explicit expression for the minimal iteration number to ensure an $\epsilon$-accurate solution by analyzing the curvature of the objective function. Finally, we empirically demonstrate that the sign constraints are a promising technique when similarities to the training examples compose the feature vector.
翻訳日:2021-04-11 18:39:37 公開日:2021-01-05
# (参考訳) ファウショット学習のための局所的伝播 [全文訳有]

Local Propagation for Few-Shot Learning ( http://arxiv.org/abs/2101.01480v1 )

ライセンス: CC BY 4.0
Yann Lifchitz, Yannis Avrithis, Sylvaine Picard(参考訳) 少数ショット学習の課題は、利用可能なデータが基盤となるディストリビューションをキャプチャするには不十分であることだ。 これを軽減するために、(a) 局所的な画像表現を用いて、基本的に定数係数でデータの量を乗算し、(b) よりラベルのないデータを用いて、例えば、トランスダクティブ推論によって、複数のクエリを共同で行う。 本研究では,これら2つのアイデアをまとめて,emph{local propagation}を導入する。 ローカルな画像の特徴を独立した例として扱い、それらの上にグラフを構築し、その特徴自体と、未知のラベルの両方を伝播させる。 興味深いことに、画像ごとに多数の機能があるため、単一のクエリでさえトランスダクティブ推論を引き起こす。 その結果、ノントランスダクティブ設定とトランスダクティブ設定の両方において、最小ショット推論に対する普遍的に安全な選択が得られ、対応する手法よりも精度が向上する。 これは、利用可能なデータ量に応じてメソッドを選択する必要がある既存のソリューションとは対照的である。

The challenge in few-shot learning is that available data is not enough to capture the underlying distribution. To mitigate this, two emerging directions are (a) using local image representations, essentially multiplying the amount of data by a constant factor, and (b) using more unlabeled data, for instance by transductive inference, jointly on a number of queries. In this work, we bring these two ideas together, introducing \emph{local propagation}. We treat local image features as independent examples, we build a graph on them and we use it to propagate both the features themselves and the labels, known and unknown. Interestingly, since there is a number of features per image, even a single query gives rise to transductive inference. As a result, we provide a universally safe choice for few-shot inference under both non-transductive and transductive settings, improving accuracy over corresponding methods. This is in contrast to existing solutions, where one needs to choose the method depending on the quantity of available data.
翻訳日:2021-04-11 18:03:15 公開日:2021-01-05
# (参考訳) マルチモーダル・アンペア画像分割のためのDeep Class-Specific Affinity-Guided Convolutional Network [全文訳有]

Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal Unpaired Image Segmentation ( http://arxiv.org/abs/2101.01513v1 )

ライセンス: CC BY 4.0
Jingkun Chen, Wenqi Li, Hongwei Li, Jianguo Zhang(参考訳) マルチモーダル医用画像分割は臨床診断において重要な役割を果たす。 入力モダリティはしばしば空間的に整列していないため、依然として困難である。 既存の学習ベースの手法では、トレーニング可能なレイヤをモダリティ間で共有し、視覚的特徴の相違を最小限に抑えることを主に検討している。 この問題は、しばしば共同教師付き特徴学習として定式化されるが、マルチスケール特徴とクラス固有の表現はまだ検討されていない。 本稿では,マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。 効果的な表現を学ぶために、階層的特徴推論の知識をエンコードするためにクラス固有の親和性行列を共有畳み込み層と共に設計し、相互モダリティの一般化を確実にする。 我々の親和性行列は視覚的特徴の空間的アライメントに依存しないので、不対向なマルチモーダル入力でトレーニングすることができる。 提案手法は,公開マルチモーダルベンチマークデータセットと最先端手法に比較して広範囲に評価した。

Multi-modal medical image segmentation plays an essential role in clinical diagnosis. It remains challenging as the input modalities are often not well-aligned spatially. Existing learning-based methods mainly consider sharing trainable layers across modalities and minimizing visual feature discrepancies. While the problem is often formulated as joint supervised feature learning, multiple-scale features and class-specific representation have not yet been explored. In this paper, we propose an affinity-guided fully convolutional network for multimodal image segmentation. To learn effective representations, we design class-specific affinity matrices to encode the knowledge of hierarchical feature reasoning, together with the shared convolutional layers to ensure the cross-modality generalization. Our affinity matrix does not depend on spatial alignments of the visual features and thus allows us to train with unpaired, multimodal inputs. We extensively evaluated our method on two public multimodal benchmark datasets and outperform state-of-the-art methods.
翻訳日:2021-04-11 16:08:39 公開日:2021-01-05
# (参考訳) ニューラルネットワークにおける雑音感度に基づくエネルギー効率とロバスト逆検出 [全文訳有]

Noise Sensitivity-Based Energy Efficient and Robust Adversary Detection in Neural Networks ( http://arxiv.org/abs/2101.01543v1 )

ライセンス: CC BY 4.0
Rachel Sterneck, Abhishek Moitra, Priyadarshini Panda(参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を達成したが、敵の例には弱い。 逆の例は、愚かな分類器ネットワークに注意深く浸透した入力であり、人間には変わらない。 本稿では,従来の敵検出手法に基づいて,検出サブネットワークを用いたディープニューラルネットワーク(DNN)の強化手法を提案する。 ネットワークの異なる中間層における逆勾配の寄与を測定するための新しい指標である$\textit{Adversarial Noise Sensitivity}$ (ANS) を用いる。 ANS値に基づいて、最も感度の高い層に検出器を付加する。 以前の研究では、より複雑な検出器がDNNに追加され、モデルの推論計算コストが増加した。 対照的に、DNNへの検出器の構造化と戦略的付加は、全体的なネットワークを逆向きにレジリエントにしながら、モデルの複雑さを低減します。 MNIST, CIFAR-10, CIFAR-100における包括的ホワイトボックスおよびブラックボックス実験により, 本手法は, 対向例に対する最先端検出器の堅牢性を向上することを示した。 さらに,様々なハードウェアでスケーラブルなCMOSアクセラレータプラットフォーム上でのエネルギー分析により,提案手法のエネルギー効率を検証した。 また,量子化が検出対象ネットワークに与える影響を実証する。

Neural networks have achieved remarkable performance in computer vision, however they are vulnerable to adversarial examples. Adversarial examples are inputs that have been carefully perturbed to fool classifier networks, while appearing unchanged to humans. Based on prior works on detecting adversaries, we propose a structured methodology of augmenting a deep neural network (DNN) with a detector subnetwork. We use $\textit{Adversarial Noise Sensitivity}$ (ANS), a novel metric for measuring the adversarial gradient contribution of different intermediate layers of a network. Based on the ANS value, we append a detector to the most sensitive layer. In prior works, more complex detectors were added to a DNN, increasing the inference computational cost of the model. In contrast, our structured and strategic addition of a detector to a DNN reduces the complexity of the model while making the overall network adversarially resilient. Through comprehensive white-box and black-box experiments on MNIST, CIFAR-10, and CIFAR-100, we show that our method improves state-of-the-art detector robustness against adversarial examples. Furthermore, we validate the energy efficiency of our proposed adversarial detection methodology through an extensive energy analysis on various hardware scalable CMOS accelerator platforms. We also demonstrate the effects of quantization on our detector-appended networks.
翻訳日:2021-04-11 15:56:31 公開日:2021-01-05
# (参考訳) 低光超高分解能シーケンスにおけるコンテキストカラー化とデノイジング [全文訳有]

Contextual colorization and denoising for low-light ultra high resolution sequences ( http://arxiv.org/abs/2101.01597v1 )

ライセンス: CC BY 4.0
N. Anantrasirichai and David Bull(参考訳) 低照度画像シーケンスは通常、時空間的不整合ノイズ、フリック、移動物体のぼやけに悩まされる。 これらのアーティファクトは視覚的品質を大幅に低下させ、ほとんどの場合、許容できる品質を生成するために後処理が必要である。 機械学習に基づく最先端の強化手法の多くは、真理データを必要とするが、通常は自然に捕獲された低照度シーケンスでは利用できない。 我々はこれらの問題に,同時着色と着色を提供する未経験学習手法で対処する。 我々のアプローチはCycleGANの構造の適応である。 超高解像度コンテンツに関連する過大なメモリ制限を克服するため,我々は,ローカル機能とコンテキスト機能の両方をキャプチャするマルチスケールパッチベースフレームワークを提案する。 また,フレッカリングアーティファクトを除去するために適応的な時間平滑化手法が用いられる。 実験結果から,本手法は主観的品質の観点から既存手法よりも優れており,輝度レベルや雑音の変動に頑健であることがわかった。

Low-light image sequences generally suffer from spatio-temporal incoherent noise, flicker and blurring of moving objects. These artefacts significantly reduce visual quality and, in most cases, post-processing is needed in order to generate acceptable quality. Most state-of-the-art enhancement methods based on machine learning require ground truth data but this is not usually available for naturally captured low light sequences. We tackle these problems with an unpaired-learning method that offers simultaneous colorization and denoising. Our approach is an adaptation of the CycleGAN structure. To overcome the excessive memory limitations associated with ultra high resolution content, we propose a multiscale patch-based framework, capturing both local and contextual features. Additionally, an adaptive temporal smoothing technique is employed to remove flickering artefacts. Experimental results show that our method outperforms existing approaches in terms of subjective quality and that it is robust to variations in brightness levels and noise.
翻訳日:2021-04-11 14:58:53 公開日:2021-01-05
# (参考訳) look twice: タスクと種をまたいだ帰納固定の計算モデル

Look Twice: A Computational Model of Return Fixations across Tasks and Species ( http://arxiv.org/abs/2101.01611v1 )

ライセンス: CC BY 4.0
Mengmi Zhang, Will Xiao, Olivia Rose, Katarina Bendtz, Margaret Livingstone, Carlos Ponce, Gabriel Kreiman(参考訳) サケード眼球運動により、動物は画像の異なる部分を高解像度にすることができる。 自由視聴中、リターンの抑制は、以前に訪れた場所を妨げて探検を動機付ける。 この抑制にもかかわらず、被験者は頻繁にリターン固定を行う。 サルとヒトの217,440件のうち44,328件の返却固定を静的画像や自我中心の動画で系統的に検討した。 ユビキタスリターン固定は被験者間で一貫しており、短いオフセットで発生する傾向があり、非リターン固定よりも長い期間が特徴であった。 返却固定位置は, 視覚探索作業において, 検索対象と高い精度と高い類似性を示す画像領域に対応していた。 本稿では,物体認識のための深層畳み込みニューラルネットワークを活用し,固定のシーケンスを予測する,生物学的にインスパイアされた計算モデルを提案する。 入力画像が与えられると、モデルは次のサッケードの位置を制約する4つのマップを計算します:サッケードマップ、ターゲットの類似度マップ、サッケードサイズマップ、メモリマップ。 このモデルは頻繁にリターンフィクスメントを示し、タスクや種間でリターンフィクスレーションの特性を近似する。 このモデルでは,情報的画像位置の活用とシーン視聴時の新たな画像位置の探索のトレードオフを把握するための最初のステップを提供する。

Saccadic eye movements allow animals to bring different parts of an image into high-resolution. During free viewing, inhibition of return incentivizes exploration by discouraging previously visited locations. Despite this inhibition, here we show that subjects make frequent return fixations. We systematically studied a total of 44,328 return fixations out of 217,440 fixations across different tasks, in monkeys and humans, and in static images or egocentric videos. The ubiquitous return fixations were consistent across subjects, tended to occur within short offsets, and were characterized by longer duration than non-return fixations. The locations of return fixations corresponded to image areas of higher saliency and higher similarity to the sought target during visual search tasks. We propose a biologically-inspire d computational model that capitalizes on a deep convolutional neural network for object recognition to predict a sequence of fixations. Given an input image, the model computes four maps that constrain the location of the next saccade: a saliency map, a target similarity map, a saccade size map, and a memory map. The model exhibits frequent return fixations and approximates the properties of return fixations across tasks and species. The model provides initial steps towards capturing the trade-off between exploitation of informative image locations combined with exploration of novel image locations during scene viewing.
翻訳日:2021-04-11 14:48:02 公開日:2021-01-05
# (参考訳) 自己エンコーディング分子コンフォメーション [全文訳有]

Auto-Encoding Molecular Conformations ( http://arxiv.org/abs/2101.01618v1 )

ライセンス: CC BY 4.0
Robin Winter, Frank No\'e, Djork-Arn\'e Clevert(参考訳) 本稿では,分子コンフォメーションのためのオートエンコーダを提案する。 提案モデルでは,分子グラフ(コンフォーメーション)内の原子の離散的な空間配置を連続的な固定サイズの潜在表現に変換する。 この潜在表現では、類似のコンフォメーションがクラスタ化され、異なるコンフォメーションが分割される。 さらに、分子配座の大きなデータセット上で確率モデルをトレーニングすることにより、我々のモデルが与えられた分子に対して様々なエネルギー的に好適な配座を生成する方法を示す。 最後に, 連続表現により, 最適な空間的性質に適合した分子を見つけるための最適化手法が有効であることを示す。

In this work we introduce an Autoencoder for molecular conformations. Our proposed model converts the discrete spatial arrangements of atoms in a given molecular graph (conformation) into and from a continuous fixed-sized latent representation. We demonstrate that in this latent representation, similar conformations cluster together while distinct conformations split apart. Moreover, by training a probabilistic model on a large dataset of molecular conformations, we demonstrate how our model can be used to generate diverse sets of energetically favorable conformations for a given molecule. Finally, we show that the continuous representation allows us to utilize optimization methods to find molecules that have conformations with favourable spatial properties.
翻訳日:2021-04-11 14:46:57 公開日:2021-01-05
# (参考訳) 見出し型転送における自動評価とタスクフレーミングの相互作用について [全文訳有]

On the interaction of automatic evaluation and task framing in headline style transfer ( http://arxiv.org/abs/2101.01634v1 )

ライセンス: CC BY 4.0
Lorenzo De Mattei, Michele Cafagna, Huiyuan Lai, Felice Dell'Orletta, Malvina Nissim, Albert Gatt(参考訳) NLGコミュニティで進行中の議論は、コーパスベースの指標と比較して、人的評価が最も信頼性の高い方法であるとして、システムを評価する最良の方法に関するものである。 しかし、スタイル転送などの微妙なテキストの差異を伴うタスクは、人間が実行するのが難しい傾向がある。 本稿では,目的学習型分類器に基づく評価手法を提案し,BLEUやROUGEといった従来の指標よりもシステム差を反映した手法を提案する。

An ongoing debate in the NLG community concerns the best way to evaluate systems, with human evaluation often being considered the most reliable method, compared to corpus-based metrics. However, tasks involving subtle textual differences, such as style transfer, tend to be hard for humans to perform. In this paper, we propose an evaluation method for this task based on purposely-trained classifiers, showing that it better reflects system differences than traditional metrics such as BLEU and ROUGE.
翻訳日:2021-04-11 14:23:24 公開日:2021-01-05
# (参考訳) 行動予測強化のための理論に基づく習慣モデル [全文訳有]

Theory-based Habit Modeling for Enhancing Behavior Prediction ( http://arxiv.org/abs/2101.01637v1 )

ライセンス: CC BY 4.0
Chao Zhang, Joaquin Vanschoren, Arlette van Wissen, Daniel Lakens, Boris de Ruyter, and Wijnand A. IJsselsteijn(参考訳) 習慣の心理学的理論は、強い習慣が行動の反復によって形成されるとき、同じ環境で自動的に行動を起こすと仮定する。 習慣と行動の相互関係を考えると、ライフスタイルの変化(例えば歯ブラシ)は、主に古い習慣を破り、新しい健康な習慣を創造するタスクである。 このように、ユーザの習慣の強さを表すことは、行動変化支援システム(BCSS)にとって非常に有用であり、例えば、行動予測や介入が意図した効果に達するかどうかの決定に役立ちます。 しかし、習慣の強さは直接観察できず、既存の自己申告措置はユーザに課税されている。 本稿では,最近の習慣形成の計算モデルに基づいて,知的システムが観察可能な行動に基づいて習慣強度を計算する方法を提案する。 2つの介入研究から得られたデータを用いて,1日2回歯を磨くことを3週間訓練し,加速度計を用いて行動監視を行った。 階層的クロスバリデーションにより, 将来のブラッシング行動を予測する作業において, 計算された習慣強度は, 自己申告された習慣強さよりも明らかに優れており, 過去の行動頻度に基づくモデルよりも優れていることがわかった。 本研究は,ユーザの習慣をモデル化する理論に基づくアプローチを最初に支援し,個人化された適応的な介入を実現するための習慣計算の利用を促す。

Psychological theories of habit posit that when a strong habit is formed through behavioral repetition, it can trigger behavior automatically in the same environment. Given the reciprocal relationship between habit and behavior, changing lifestyle behaviors (e.g., toothbrushing) is largely a task of breaking old habits and creating new and healthy ones. Thus, representing users' habit strengths can be very useful for behavior change support systems (BCSS), for example, to predict behavior or to decide when an intervention reaches its intended effect. However, habit strength is not directly observable and existing self-report measures are taxing for users. In this paper, built on recent computational models of habit formation, we propose a method to enable intelligent systems to compute habit strength based on observable behavior. The hypothesized advantage of using computed habit strength for behavior prediction was tested using data from two intervention studies, where we trained participants to brush their teeth twice a day for three weeks and monitored their behaviors using accelerometers. Through hierarchical cross-validation, we found that for the task of predicting future brushing behavior, computed habit strength clearly outperformed self-reported habit strength (in both studies) and was also superior to models based on past behavior frequency (in the larger second study). Our findings provide initial support for our theory-based approach of modeling user habits and encourages the use of habit computation to deliver personalized and adaptive interventions.
翻訳日:2021-04-11 14:15:21 公開日:2021-01-05
# (参考訳) ソフト振動センサの単眼深度推定 [全文訳有]

Monocular Depth Estimation for Soft Visuotactile Sensors ( http://arxiv.org/abs/2101.01677v1 )

ライセンス: CC BY 4.0
Rares Ambrus, Vitor Guizilini, Naveen Kuppuswamy, Andrew Beaulieu, Adrien Gaidon, Alex Alspach(参考訳) ソフトバブルのような流体充填型ソフトビゾタクティルセンサーは、接触形状や力に対する高精度な感覚フィードバックを得る能力とともに、信頼性の高い把握を可能にするため、堅牢な操作において重要な課題を軽減する。 構造は単純だが、表面の変形を直接測定するカスタムIR/深度イメージングセンサーによって生じる大きさの制約により、実用性は制限されている。 この限界を緩和するために, 内部の小型赤外線イメージングセンサから直接内部(触覚)の深度マップを推定するために, 最先端の単眼深度推定法を適用した。 実世界実験により, 深層ネットワークは, ほとんどがテクスチャレス変形可能な流体充填センサ内のより短い範囲 (1-100mm) で精度の高い予測を行うために効果的に訓練できることを示した。 そこで本研究では,10秒未満のランダムポーズを必要とする物体認識ネットワークを,少量の多様な物体(マグ,ワイングラス,ボックス,指)に対して簡単な教師付き学習プロセスを提案する。 私たちのアプローチはサンプル効率が高く、精度が高く、トレーニング時に認識できないさまざまなオブジェクトやセンサ構成を一般化する。 最後に, ソフト振動センサとグリッパーの設計における我々のアプローチの意義について考察する。

Fluid-filled soft visuotactile sensors such as the Soft-bubbles alleviate key challenges for robust manipulation, as they enable reliable grasps along with the ability to obtain high-resolution sensory feedback on contact geometry and forces. Although they are simple in construction, their utility has been limited due to size constraints introduced by enclosed custom IR/depth imaging sensors to directly measure surface deformations. Towards mitigating this limitation, we investigate the application of state-of-the-art monocular depth estimation to infer dense internal (tactile) depth maps directly from the internal single small IR imaging sensor. Through real-world experiments, we show that deep networks typically used for long-range depth estimation (1-100m) can be effectively trained for precise predictions at a much shorter range (1-100mm) inside a mostly textureless deformable fluid-filled sensor. We propose a simple supervised learning process to train an object-agnostic network requiring less than 10 random poses in contact for less than 10 seconds for a small set of diverse objects (mug, wine glass, box, and fingers in our experiments). We show that our approach is sample-efficient, accurate, and generalizes across different objects and sensor configurations unseen at training time. Finally, we discuss the implications of our approach for the design of soft visuotactile sensors and grippers.
翻訳日:2021-04-11 13:46:54 公開日:2021-01-05
# (参考訳) 金融異常検出のための時間的知識蒸留によるラベル増強 [全文訳有]

Label Augmentation via Time-based Knowledge Distillation for Financial Anomaly Detection ( http://arxiv.org/abs/2101.01689v1 )

ライセンス: CC BY 4.0
Hongda Shen, Eren Kursun(参考訳) 金融サービス業界では異常検出がますます重要になっている。 異常な出来事は詐欺、身元盗難、ネットワーク侵入、アカウントの乗っ取り、マネーロンダリングなどの違法行為を示すことが多い。 金融異常検出のユースケースは、特に不正戦術を常に変化させるような敵環境において、基礎となるパターンの動的な性質によって深刻な課題に直面している。 新しいパターンでモデルを再トレーニングすることは極めて重要です。迅速な変更に遅れず、古いパターンからモデルを取り除いたり、トレーニングデータのサイズを継続的に拡大するなど、他の課題も伴います。 結果として生じるデータ成長は管理が難しく、最新の攻撃に対するモデルの反応のアジリティを低下させる。 データサイズが制限され、最新のパターンを追跡する必要が生じたため、古い期間が実際に減少することが多く、結果として脆弱性が生じる。 本研究では,古いモデルからの学習を最新のモデルに活用するためのラベル拡張手法を提案する。 実験の結果,提案手法は学習時間を大幅に削減でき,性能改善の可能性も示唆された。

Detecting anomalies has become increasingly critical to the financial service industry. Anomalous events are often indicative of illegal activities such as fraud, identity theft, network intrusion, account takeover, and money laundering. Financial anomaly detection use cases face serious challenges due to the dynamic nature of the underlying patterns especially in adversarial environments such as constantly changing fraud tactics. While retraining the models with the new patterns is absolutely essential; keeping up with the rapid changes introduces other challenges as it moves the model away from older patterns or continuously grows the size of the training data. The resulting data growth is hard to manage and it reduces the agility of the models' response to the latest attacks. Due to the data size limitations and the need to track the latest patterns, older time periods are often dropped in practice, which in turn, causes vulnerabilities. In this study, we propose a label augmentation approach to utilize the learning from older models to boost the latest. Experimental results show that the proposed approach provides a significant reduction in training time, while providing potential performance improvement.
翻訳日:2021-04-11 13:34:32 公開日:2021-01-05
# (参考訳) プロデューサーの商業性予測のための映画分析 [全文訳有]

Analyzing movies to predict their commercial viability for producers ( http://arxiv.org/abs/2101.01697v1 )

ライセンス: CC BY 4.0
Devendra Swami, Yash Phogat, Aadiraj Batlaw, Ashwin Goyal(参考訳) 映画が上映されると、大きな憶測が映画の相対的な成功を懸念している。 この相対性理論は、しばしば大予算のブロックバスターが断続的な失敗で例外的な成功を収めたために、映画の当初の予算に関して特に重要である。 では、今後の映画の成功をどうやって予測するのか? 本稿では,今後のフィルムの返却を予測できるモデルを開発するために,膨大なフィルムデータについて検討した。 まず、各フィルムごとにゲノムタグとともに、共通の映画属性を持つmovielensデータセットから始めました。 ゲノムタグは、フィルムのどの特性が最も有意義であるかを洞察する。 その後、映画コンテンツ、キャスト/クリュー、オーディエンス知覚、予算、tmdb、imdb、metacritic webサイトからの収益に関する追加機能を加えました。 次に探索的データ分析を行い,利用可能な特徴の履歴情報を収集する幅広い新機能を考案した。 その後, 特異値分解(SVD)を用いて高次元特徴の次元的縮小を行った。 ゲノムタグ)。 最後に,ランダムフォレスト分類器を構築し,モデル精度を最適化するためにハイパーパラメータチューニングを行った。 本モデルの将来の応用は、映画業界で見ることができ、プロダクション企業は、想定された生産手順の概要に基づいて、期待されたプロジェクトリターンをより良い予測が可能となり、最適なリターンを達成するために計画の修正が可能となる。

Upon film premiere, a major form of speculation concerns the relative success of the film. This relativity is in particular regards to the film's original budget, as many a time have big-budget blockbusters been met with exceptional success as met with abject failure. So how does one predict the success of an upcoming film? In this paper, we explored a vast array of film data in an attempt to develop a model that could predict the expected return of an upcoming film. The approach to this development is as follows: First, we began with the MovieLens dataset having common movie attributes along with genome tags per each film. Genome tags give insight into what particular characteristics of the film are most salient. We then included additional features regarding film content, cast/crew, audience perception, budget, and earnings from TMDB, IMDB, and Metacritic websites. Next, we performed exploratory data analysis and engineered a wide range of new features capturing historical information for the available features. Thereafter, we used singular value decomposition (SVD) for dimensionality reduction of the high dimensional features (ex. genome tags). Finally, we built a Random Forest Classifier and performed hyper-parameter tuning to optimize for model accuracy. A future application of our model could be seen in the film industry, allowing production companies to better predict the expected return of their projects based on their envisioned outline for their production procedure, thereby allowing them to revise their plan in an attempt to achieve optimal returns.
翻訳日:2021-04-11 13:28:22 公開日:2021-01-05
# (参考訳) AutoDropout: 深いネットワークを規則化するドロップアウトパターンを学ぶ [全文訳有]

AutoDropout: Learning Dropout Patterns to Regularize Deep Networks ( http://arxiv.org/abs/2101.01761v1 )

ライセンス: CC BY 4.0
Hieu Pham, Quoc V. Le(参考訳) ニューラルネットワークはしばしば過度にパラメータ化され、アグレッシブな正規化の恩恵を受ける。 ドロップアウトやウェイト崩壊のような従来の正規化手法では、ネットワークの入力や隠れ状態の構造を利用できない。 結果として、これらの従来の手法は、空間ドロップアウトやドロップブロックのような、隠れた状態の特定の連続した領域の値をランダムにドロップしてゼロに設定する手法よりも効果が低い。 ドロップアウトエリアの位置はランダムだが、SpatialDropoutとDropBlockのパターンは手動で設計、固定されている。 ここでは、ドロップアウトパターンを学ぶことを提案する。 本手法では, ConvNet や Transformer などのターゲットネットワークの各チャネルおよびレイヤにおいて, コントローラがドロップアウトパターンを生成することを学習する。 その後、ターゲットネットワークをドロップアウトパターンでトレーニングし、その結果の検証性能をコントローラが学習するための信号として使用する。 本手法は,CIFAR-10 と ImageNet 上の画像認識と Penn Treebank および WikiText-2 上の言語モデリングに有効であることを示す。 学習したドロップアウトパターンは、penn treebankの言語モデルからwmt 2014のengligh- french translationまで、さまざまなタスクやデータセットに転送される。 私たちのコードは利用可能です。

Neural networks are often over-parameterized and hence benefit from aggressive regularization. Conventional regularization methods, such as Dropout or weight decay, do not leverage the structures of the network's inputs and hidden states. As a result, these conventional methods are less effective than methods that leverage the structures, such as SpatialDropout and DropBlock, which randomly drop the values at certain contiguous areas in the hidden states and setting them to zero. Although the locations of dropout areas random, the patterns of SpatialDropout and DropBlock are manually designed and fixed. Here we propose to learn the dropout patterns. In our method, a controller learns to generate a dropout pattern at every channel and layer of a target network, such as a ConvNet or a Transformer. The target network is then trained with the dropout pattern, and its resulting validation performance is used as a signal for the controller to learn from. We show that this method works well for both image recognition on CIFAR-10 and ImageNet, as well as language modeling on Penn Treebank and WikiText-2. The learned dropout patterns also transfers to different tasks and datasets, such as from language model on Penn Treebank to Engligh-French translation on WMT 2014. Our code will be available.
翻訳日:2021-04-11 13:21:41 公開日:2021-01-05
# (参考訳) ニューラルネットワーク制御器を用いた閉ループシステムの効率的な到達性解析 [全文訳有]

Efficient Reachability Analysis of Closed-Loop Systems with Neural Network Controllers ( http://arxiv.org/abs/2101.01815v1 )

ライセンス: CC BY 4.0
Michael Everett, Golnaz Habibi, Jonathan P. How(参考訳) ニューラルネットワーク(NN)は、ロボットシステムに大きな経験的パフォーマンス改善を提供するが、これらのシステムの安全性特性を公式に解析する上での課題も導入する。 特に、この研究はnnコントローラを用いたクローズドループシステムの前方到達可能集合の推定に焦点を当てている。 最近の研究は、これらの到達可能な集合の境界を提供するが、計算効率の良いアプローチは(有用性を検証するのに使用できない)過度に保守的な境界を提供する。 この研究はnnコントローラを用いた閉ループシステムの到達可能性解析のための凸最適化問題を定式化することでギャップを埋める。 解は半定値のプログラムベースの手法よりも厳密でないが、計算は極めて高速であり、利用可能な計算時間の一部は、厳密性ギャップを克服するよりも、入力集合分割によって境界を洗練するために使うことができる。 提案手法は,不確実性のある現実的なシステムに適用可能な,計測およびプロセスノイズのあるシステムについても検討する。 最後に、数値比較により、計算時間の10\times$が、最先端と比較して計算時間の$\frac{1}{2}$で減少し、様々な不確実性源を扱う能力が四重項モデル上で強調される。

Neural Networks (NNs) can provide major empirical performance improvements for robotic systems, but they also introduce challenges in formally analyzing those systems' safety properties. In particular, this work focuses on estimating the forward reachable set of closed-loop systems with NN controllers. Recent work provides bounds on these reachable sets, yet the computationally efficient approaches provide overly conservative bounds (thus cannot be used to verify useful properties), whereas tighter methods are too intensive for online computation. This work bridges the gap by formulating a convex optimization problem for reachability analysis for closed-loop systems with NN controllers. While the solutions are less tight than prior semidefinite program-based methods, they are substantially faster to compute, and some of the available computation time can be used to refine the bounds through input set partitioning, which more than overcomes the tightness gap. The proposed framework further considers systems with measurement and process noise, thus being applicable to realistic systems with uncertainty. Finally, numerical comparisons show $10\times$ reduction in conservatism in $\frac{1}{2}$ of the computation time compared to the state-of-the-art, and the ability to handle various sources of uncertainty is highlighted on a quadrotor model.
翻訳日:2021-04-11 12:38:40 公開日:2021-01-05
# (参考訳) ミニバッチ最適輸送距離の解析とその応用

Minibatch optimal transport distances; analysis and applications ( http://arxiv.org/abs/2101.01792v1 )

ライセンス: CC BY 4.0
Kilian Fatras, Younes Zine, Szymon Majewski, R\'emi Flamary, R\'emi Gribonval, Nicolas Courty(参考訳) 最適輸送距離は確率分布を比較するための古典的なツールとなり、機械学習に多くの応用を見出した。 しかし、最近のアルゴリズム開発にもかかわらず、その複雑さは大規模なデータセットでの使用を妨げている。 この課題を克服するため、一般的な回避策はミニバッチ上でこれらの距離を計算することである。 より小さな輸送問題の結果を 平均化しています 本稿では,本手法の広範な分析を行い,その効果を限定したケースで検討した。 まず,多種多様な最適輸送核を考える。 特に、ミニバッチ戦略は、偏りのない推定器、勾配、期待値の周りに有界な濃度などの魅力的な性質が伴うが、同時に制限がある:ミニバッチ OT は距離ではない。 失われた距離公理のいくつかを回復するために、debiased minibatch ot関数を導入し、その統計的および最適化特性について検討する。 また, この理論解析とともに, 勾配流, 生成的逆ネットワーク (gans) や色彩伝達に関する経験的実験を行い, この戦略の実用的関心を浮き彫りにする。

Optimal transport distances have become a classic tool to compare probability distributions and have found many applications in machine learning. Yet, despite recent algorithmic developments, their complexity prevents their direct use on large scale datasets. To overcome this challenge, a common workaround is to compute these distances on minibatches i.e. to average the outcome of several smaller optimal transport problems. We propose in this paper an extended analysis of this practice, which effects were previously studied in restricted cases. We first consider a large variety of Optimal Transport kernels. We notably argue that the minibatch strategy comes with appealing properties such as unbiased estimators, gradients and a concentration bound around the expectation, but also with limits: the minibatch OT is not a distance. To recover some of the lost distance axioms, we introduce a debiased minibatch OT function and study its statistical and optimisation properties. Along with this theoretical analysis, we also conduct empirical experiments on gradient flows, generative adversarial networks (GANs) or color transfer that highlight the practical interest of this strategy.
翻訳日:2021-04-11 11:59:52 公開日:2021-01-05
# 画像中の連結成分をカウントするディープニューラルネットワークの能力の理解

Understanding the Ability of Deep Neural Networks to Count Connected Components in Images ( http://arxiv.org/abs/2101.01386v1 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) 人間は減量によって非常に速く数えられるが、物体の数が増加するにつれて著しく遅くなる。 これまでの研究では、訓練されたディープニューラルネットワーク(DNN)検出器が、オブジェクトの数とともにゆっくりと増加する時間にオブジェクトの数をカウントできることが示されている。 このような現象は、DNNの減数化能力を示しているが、人間とは異なり、多人数でも同様に機能する。 既存の多くの研究がオブジェクトカウントにDNNをうまく応用しているが、DNNの減数化能力とその解釈に関する研究は少ない。 本稿では,DNNが一般に接続されたコンポーネントを数える能力を持っていないことを示す。 我々は,これらの実験の結果と現象を理解するために,結論と説明を支援する実験を行った。 DNNのようなMLモデルの学習可能な問題を検証するための3つのML学習可能特性を提案し、DNNが特定のカウント問題に対して機能するが、一般に接続されたコンポーネントをカウントできない理由を説明する。

Humans can count very fast by subitizing, but slow substantially as the number of objects increases. Previous studies have shown a trained deep neural network (DNN) detector can count the number of objects in an amount of time that increases slowly with the number of objects. Such a phenomenon suggests the subitizing ability of DNNs, and unlike humans, it works equally well for large numbers. Many existing studies have successfully applied DNNs to object counting, but few studies have studied the subitizing ability of DNNs and its interpretation. In this paper, we found DNNs do not have the ability to generally count connected components. We provided experiments to support our conclusions and explanations to understand the results and phenomena of these experiments. We proposed three ML-learnable characteristics to verify learnable problems for ML models, such as DNNs, and explain why DNNs work for specific counting problems but cannot generally count connected components.
翻訳日:2021-04-11 11:47:09 公開日:2021-01-05
# 視覚における注意過程の制御について

On the Control of Attentional Processes in Vision ( http://arxiv.org/abs/2101.01533v1 )

ライセンス: Link先を確認
John K. Tsotsos, Omar Abid, Iuliia Kotseruba, Markus D. Solbach(参考訳) 視覚における注意処理の研究は、長く深い歴史を持っている。 最近、脳内の複数の注意機能がどのように協調するかについての洞察に富んだ見解を提示する論文がいくつかある。 これらは実験的な観察から始まり、著者らはこれらの観察を説明する構造、プロセス、計算を提案する。 本稿では,過去の作品が実験的に基礎づけられた作品に対する補完的アプローチとして捉えた。 我々は過去の著者と同じ問題にアプローチするが、マーの計算レベルが規定する問題の性質から計算スペクトルの他の端からアプローチする。 人間が得意とする無数の空間的タスクの1つを成功させるために注意のプロセスを調整するとき、脳はどんな問題を解決する必要があるだろうか? もちろん、アプローチが最終的に一致し、完全な理論を形成することを願っているが、これはすぐにはありそうにない。 注意制御の必要性に対処し、人間の行動にみられる視覚的・注意的タスクの幅と計算上の困難を検証し、脳内での注意制御がどのように起こるかのスケッチを提案する。 本論文の重要な結論は、視覚における人間の注意機能にはエグゼクティブコントローラが必要であり、その理解には、実験観察から直接モデリングや学習に焦点を当てた以前のアプローチと相補的な「第一原理」計算アプローチが存在することである。

The study of attentional processing in vision has a long and deep history. Recently, several papers have presented insightful perspectives into how the coordination of multiple attentional functions in the brain might occur. These begin with experimental observations and the authors propose structures, processes, and computations that might explain those observations. Here, we consider a perspective that past works have not, as a complementary approach to the experimentally-groun ded ones. We approach the same problem as past authors but from the other end of the computational spectrum, from the problem nature, as Marr's Computational Level would prescribe. What problem must the brain solve when orchestrating attentional processes in order to successfully complete one of the myriad possible visuospatial tasks at which we as humans excel? The hope, of course, is for the approaches to eventually meet and thus form a complete theory, but this is likely not soon. We make the first steps towards this by addressing the necessity of attentional control, examining the breadth and computational difficulty of the visuospatial and attentional tasks seen in human behavior, and suggesting a sketch of how attentional control might arise in the brain. The key conclusions of this paper are that an executive controller is necessary for human attentional function in vision, and that there is a 'first principles' computational approach to its understanding that is complementary to the previous approaches that focus on modelling or learning from experimental observations directly.
翻訳日:2021-04-11 11:46:54 公開日:2021-01-05
# 適応的特徴を用いた強化学習に基づく集団エンティティアライメント

Reinforcement Learning based Collective Entity Alignment with Adaptive Features ( http://arxiv.org/abs/2101.01353v1 )

ライセンス: Link先を確認
Weixin Zeng, Xiang Zhao, Jiuyang Tang, Xuemin Lin and Paul Groth(参考訳) エンティティアライメント(EA)は、同じ現実世界のオブジェクトを参照しているが異なる知識グラフ(KG)にあるエンティティを識別するタスクである。 エンティティをアライメントするために、既存のEAソリューションはそれらを別々に扱い、反対側のエンティティのランキングとしてアライメント結果を生成する。 しかしながら、この意思決定パラダイムは、エンティティ間の相互依存を考慮して失敗する。 近年の取り組みでは、アライメントプロセスに1-to-1制約を課すことでこの問題を緩和しているが、基礎となる相互依存性を適切にモデル化することはできない。 このギャップを埋めるため、この作業では、意思決定プロセスのダイナミクスを調べ、エンティティをまとめるための強化学習(rl)ベースのモデルを提供します。 rlフレームワークの下では、相互依存を特徴付けるために一貫性と排他性制約を考案し、集団的アライメントを制限する。 さらに、RLフレームワークへのより正確な入力を生成するために、適応的特徴融合戦略によって統合される異種KGにおけるエンティティ間の類似性の異なる側面を捉えるために、代表的特徴を用いる。 提案手法は,言語間および単言語間のEAベンチマークで評価し,最先端のソリューションと比較した。 実験結果は,その有効性と優越性を検証する。

Entity alignment (EA) is the task of identifying the entities that refer to the same real-world object but are located in different knowledge graphs (KGs). For entities to be aligned, existing EA solutions treat them separately and generate alignment results as ranked lists of entities on the other side. Nevertheless, this decision-making paradigm fails to take into account the interdependence among entities. Although some recent efforts mitigate this issue by imposing the 1-to-1 constraint on the alignment process, they still cannot adequately model the underlying interdependence and the results tend to be sub-optimal. To fill in this gap, in this work, we delve into the dynamics of the decision-making process, and offer a reinforcement learning (RL) based model to align entities collectively. Under the RL framework, we devise the coherence and exclusiveness constraints to characterize the interdependence and restrict collective alignment. Additionally, to generate more precise inputs to the RL framework, we employ representative features to capture different aspects of the similarity between entities in heterogeneous KGs, which are integrated by an adaptive feature fusion strategy. Our proposal is evaluated on both cross-lingual and mono-lingual EA benchmarks and compared against state-of-the-art solutions. The empirical results verify its effectiveness and superiority.
翻訳日:2021-04-11 11:46:31 公開日:2021-01-05
# 属性認識単語埋め込みを用いたニュース記事の政治的非分極化

Political Depolarization of News Articles Using Attribute-aware Word Embeddings ( http://arxiv.org/abs/2101.01391v1 )

ライセンス: Link先を確認
Ruibo Liu, Lili Wang, Chenyan Jia, Soroush Vosoughi(参考訳) 米国では政治的分極が増加している。 この分極は、イデオロギーエコーチャンバーの生成に寄与することで公共の球体に悪影響を及ぼす。 本稿では,この偏光性・偏光性メディアに寄与する要因の1つに焦点をあてる。 ニュース記事の非分極化のための枠組みを提案する。 特定のイデオロギー的スラント(リベラルあるいは保守的な)のあるトピックに関する記事が与えられたとき、このフレームワークはまず記事の中の極性言語を検出し、その後極性言語を中立表現に置き換えた新しい記事を生成する。 極性単語を検出するために,360kのメディア記事のイデオロギーや話題を認識する多属性単語埋め込みモデルを訓練する。 次に,テキスト生成のための新しいアルゴリズムであるtext annealing depolarization algorithm (tada)を提案する。 TADAは、イデオロギーの極性を減少させるだけでなく、文法的正しさを維持しつつ、テキストの元の引数を保っている単語埋め込みモデルから中立表現を検索する。 11のトピックにまたがる99のストーリーに対して,本モデルの非分極出力を完全自動と半自動の2つのモードで比較することにより,我々のフレームワークを評価する。 161人のテスタからのフィードバックに基づき,本フレームワークは半自動モードで90.1%,全自動モードで78.3%を脱分極した。 さらに、被験者の81.2%は、非極性コンテンツ情報は保存状態が良く、79%は、原文と非極性テキストを比較した場合、非極性が意味的正確性に影響を与えないことに同意している。 我々の研究は、データ駆動手法が政治的極性を見つけるのに役立ち、記事の非極性化を助けることを示している。

Political polarization in the US is on the rise. This polarization negatively affects the public sphere by contributing to the creation of ideological echo chambers. In this paper, we focus on addressing one of the factors that contributes to this polarity, polarized media. We introduce a framework for depolarizing news articles. Given an article on a certain topic with a particular ideological slant (eg., liberal or conservative), the framework first detects polar language in the article and then generates a new article with the polar language replaced with neutral expressions. To detect polar words, we train a multi-attribute-awar e word embedding model that is aware of ideology and topics on 360k full-length media articles. Then, for text generation, we propose a new algorithm called Text Annealing Depolarization Algorithm (TADA). TADA retrieves neutral expressions from the word embedding model that not only decrease ideological polarity but also preserve the original argument of the text, while maintaining grammatical correctness. We evaluate our framework by comparing the depolarized output of our model in two modes, fully-automatic and semi-automatic, on 99 stories spanning 11 topics. Based on feedback from 161 human testers, our framework successfully depolarized 90.1% of paragraphs in semi-automatic mode and 78.3% of paragraphs in fully-automatic mode. Furthermore, 81.2% of the testers agree that the non-polar content information is well-preserved and 79% agree that depolarization does not harm semantic correctness when they compare the original text and the depolarized text. Our work shows that data-driven methods can help to locate political polarity and aid in the depolarization of articles.
翻訳日:2021-04-11 11:46:09 公開日:2021-01-05
# 医用知識グラフ深層学習を用いたがん診断のためのドメイン知識の統合

Integration of Domain Knowledge using Medical Knowledge Graph Deep Learning for Cancer Phenotyping ( http://arxiv.org/abs/2101.01337v1 )

ライセンス: Link先を確認
Mohammed Alawad, Shang Gao, Mayanka Chandra Shekar, S.M.Shamimul Hasan, J. Blair Christian, Xiao-Cheng Wu, Eric B. Durbin, Jennifer Doherty, Antoinette Stroup, Linda Coyle, Lynne Penberthy, Georgia Tourassi(参考訳) 自然言語処理(NLP)のためのディープラーニング(DL)の重要なコンポーネントは、単語埋め込みである。 単語の意味や文脈を効果的に捉えた単語埋め込みは、様々なNLPタスクのための下流DLモデルの性能を大幅に向上させることができる。 既存の単語埋め込み技術の多くは、文書やテキストにおける単語共起に基づく単語のコンテキストをキャプチャするが、手元にあるNLPタスクにとって重要な概念間の、より広範なドメイン固有の関係をキャプチャすることはできない。 本稿では,医学用語オントロジーからの外部知識を,単語埋め込みによって捉えた文脈に統合する手法を提案する。 具体的には、がん病理報告における臨床用語間の関係を見つけるために、UMLS(Unified Medical Language System)のような医療知識グラフを用いる。 本研究の目的は,臨床概念間の距離を最小化することである。 我々は,Multitask Convolutional Neural Network (MT-CNN) を用いて,約900Kの癌病理報告のデータセットから6つのがん特性(部位,部位,側方性,行動,組織学,学年)を抽出する手法を提案する。 その結果,ドメイン情報埋め込みを用いたMT-CNNモデルは,すべてのタスクに標準単語2vec埋め込みを用いて同一のMT-CNNより優れており,マイクロF1のスコアは4.97\%,マクロF1のスコアは22.5\%向上した。

A key component of deep learning (DL) for natural language processing (NLP) is word embeddings. Word embeddings that effectively capture the meaning and context of the word that they represent can significantly improve the performance of downstream DL models for various NLP tasks. Many existing word embeddings techniques capture the context of words based on word co-occurrence in documents and text; however, they often cannot capture broader domain-specific relationships between concepts that may be crucial for the NLP task at hand. In this paper, we propose a method to integrate external knowledge from medical terminology ontologies into the context captured by word embeddings. Specifically, we use a medical knowledge graph, such as the unified medical language system (UMLS), to find connections between clinical terms in cancer pathology reports. This approach aims to minimize the distance between connected clinical concepts. We evaluate the proposed approach using a Multitask Convolutional Neural Network (MT-CNN) to extract six cancer characteristics -- site, subsite, laterality, behavior, histology, and grade -- from a dataset of ~900K cancer pathology reports. The results show that the MT-CNN model which uses our domain informed embeddings outperforms the same MT-CNN using standard word2vec embeddings across all tasks, with an improvement in the overall micro- and macro-F1 scores by 4.97\%and 22.5\%, respectively.
翻訳日:2021-04-11 11:45:37 公開日:2021-01-05
# IFRS 16 リースによる強化学習を活用した強化監査手法

Enhanced Audit Techniques Empowered by the Reinforcement Learning Pertaining to IFRS 16 Lease ( http://arxiv.org/abs/2101.05633v1 )

ライセンス: Link先を確認
Byungryul Choi(参考訳) 会計監査の目的は、手作業による分析よりも数値分析の方が優れているとして、機械学習や強化学習によって強化される企業の財務活動を明確に理解することである。 For the purpose of assessment on the relevance, completeness and accuracy of the information produced by entity pertaining to the newly implemented International Financial Reporting Standard 16 Lease (IFRS 16) is one of such candidates as its characteristic of requiring the understanding on the nature of contracts and its complete analysis from listing up without omission, which can be enhanced by the digitalization of contracts for the purpose of creating the lists, still leaving the need of auditing cash flows of companies for the possible omission due to the potential error at the stage of data collection, especially for entities with various short or middle term business sites and related leases, such as construction entities. 強化学習とそのよく知られたコードの実装は、ドメイン知識から数値システムへのインタプリタの可能性と活用可能性を引き出すためであり、物理学におけるフロード数などの非次元数による外挿と比較できる「ゲーム化インタプリタ」や「数値化インタプリタ」とも呼ばれる。 インタプリタの研究は、ドメインおよび商業領域における人工知能の実用性を高めることができる。

The purpose of accounting audit is to have clear understanding on the financial activities of a company, which can be enhanced by machine learning or reinforcement learning as numeric analysis better than manual analysis can be made. For the purpose of assessment on the relevance, completeness and accuracy of the information produced by entity pertaining to the newly implemented International Financial Reporting Standard 16 Lease (IFRS 16) is one of such candidates as its characteristic of requiring the understanding on the nature of contracts and its complete analysis from listing up without omission, which can be enhanced by the digitalization of contracts for the purpose of creating the lists, still leaving the need of auditing cash flows of companies for the possible omission due to the potential error at the stage of data collection, especially for entities with various short or middle term business sites and related leases, such as construction entities. The implementation of the reinforcement learning and its well-known code is to be made for the purpose of drawing the possibility and utilizability of interpreters from domain knowledge to numerical system, also can be called 'gamification interpreter' or 'numericalization interpreter' which can be referred or compared to the extrapolation with nondimensional numbers, such as Froude Number, in physics, which was a source of inspiration at this study. Studies on the interpreters can be able to empower the utilizability of artificial general intelligence in domain and commercial area.
翻訳日:2021-04-11 11:44:51 公開日:2021-01-05
# 信頼性のある機械学習における対称的損失視点

A Symmetric Loss Perspective of Reliable Machine Learning ( http://arxiv.org/abs/2101.01366v1 )

ライセンス: Link先を確認
Nontawat Charoenphakdee, Jongyeong Lee, Masashi Sugiyama(参考訳) 二分分類における経験的リスクを最小化する場合、ゼロワン損失を代理損失に置き換え、学習目標を最適化可能にするのが一般的である。 二元分類におけるよく知られた代理損失の例としては、ロジスティック損失、ヒンジ損失、およびsgmoid損失がある。 代理損失の選択は、訓練された分類器の性能に大きな影響を与えることが知られており、慎重に選択すべきである。 近年,ある種の対称的条件(例えば対称的損失)を満たす代理的損失は,劣化ラベルから学習に有用であることが示されている。 本稿では,対称損失とその応用について概観する。 まず, 平衡誤差率 (BER) の最小化と受信動作特性曲線 (AUC) の最大化の下での領域において, 破損したラベルから対称損失が頑健に分類できることを示す。 そこで本研究では,関連キーワードや未ラベル文書からのみ学習したいという問題に対して,AUCの頑健な最大化手法が自然言語処理にどのように役立つかを実証する。 最後に、信頼度の高い機械学習における対称損失の潜在的な応用や、対称条件の恩恵を受ける非対称損失の設計など、今後の方向性について論じる。

When minimizing the empirical risk in binary classification, it is a common practice to replace the zero-one loss with a surrogate loss to make the learning objective feasible to optimize. Examples of well-known surrogate losses for binary classification include the logistic loss, hinge loss, and sigmoid loss. It is known that the choice of a surrogate loss can highly influence the performance of the trained classifier and therefore it should be carefully chosen. Recently, surrogate losses that satisfy a certain symmetric condition (aka., symmetric losses) have demonstrated their usefulness in learning from corrupted labels. In this article, we provide an overview of symmetric losses and their applications. First, we review how a symmetric loss can yield robust classification from corrupted labels in balanced error rate (BER) minimization and area under the receiver operating characteristic curve (AUC) maximization. Then, we demonstrate how the robust AUC maximization method can benefit natural language processing in the problem where we want to learn only from relevant keywords and unlabeled documents. Finally, we conclude this article by discussing future directions, including potential applications of symmetric losses for reliable machine learning and the design of non-symmetric losses that can benefit from the symmetric condition.
翻訳日:2021-04-11 11:44:30 公開日:2021-01-05
# 誘導波のモデル化のための構造化機械学習ツール

Structured Machine Learning Tools for Modelling Characteristics of Guided Waves ( http://arxiv.org/abs/2101.01506v1 )

ライセンス: Link先を確認
Marcus Haywood-Alexander, Nikolaos Dervilis, Keith Worden, Elizabeth J. Cross, Robin S. Mills, Timothy J. Rogers(参考訳) 非破壊的評価 (NDE) や構造的健康モニタリング (SHM) では, 材料・構造物の損傷調査に超音波誘導波を用いることが人気を博している。 このような高周波波の使用は、より小さなスケールで損傷を検出する能力から、低周波法よりも有利である。 しかしながら、構造物の損傷を評価し、NDEやSHMツールを実装するためには、材料・構造全体にわたる誘導波の挙動に関する知識が重要である(特にSHMシステムのセンサ配置を設計する場合)。 この挙動を決定することは、連続モード変換のような特異な現象が起こる繊維・マトリックス複合体のような複雑な材料では極めて希薄である。 本稿では,複合材料中の導波の特徴空間をモデル化する新しい手法を提案する。 このテクニックはデータ駆動モデルに基づいており、事前の物理的知識を使って構造化された機械学習ツールを作成することができる。 本稿では,ガウス過程をフルベイズ解析ツールとして利用し,MLツールを用いたモデリングにおいて誘導波の物理的知識をどのように活用できるかを示す。 本稿では,機械学習手法を適用する際の注意深い考察を通じて,外挿能力や物理的解釈などの利点を有するより頑健なモデルが生成できることを示す。

The use of ultrasonic guided waves to probe the materials/structures for damage continues to increase in popularity for non-destructive evaluation (NDE) and structural health monitoring (SHM). The use of high-frequency waves such as these offers an advantage over low-frequency methods from their ability to detect damage on a smaller scale. However, in order to assess damage in a structure, and implement any NDE or SHM tool, knowledge of the behaviour of a guided wave throughout the material/structure is important (especially when designing sensor placement for SHM systems). Determining this behaviour is extremely diffcult in complex materials, such as fibre-matrix composites, where unique phenomena such as continuous mode conversion takes place. This paper introduces a novel method for modelling the feature-space of guided waves in a composite material. This technique is based on a data-driven model, where prior physical knowledge can be used to create structured machine learning tools; where constraints are applied to provide said structure. The method shown makes use of Gaussian processes, a full Bayesian analysis tool, and in this paper it is shown how physical knowledge of the guided waves can be utilised in modelling using an ML tool. This paper shows that through careful consideration when applying machine learning techniques, more robust models can be generated which offer advantages such as extrapolation ability and physical interpretation.
翻訳日:2021-04-11 11:43:35 公開日:2021-01-05
# ジェネレータネットワークを用いたエンドツーエンドビデオ質問応答生成

End-to-End Video Question-Answer Generation with Generator-Pretester Network ( http://arxiv.org/abs/2101.01447v1 )

ライセンス: Link先を確認
Hung-Ting Su, Chen-Hsi Chang, Po-Wei Shen, Yu-Siang Wang, Ya-Liang Chang, Yu-Cheng Chang, Pu-Jen Cheng and Winston H. Hsu(参考訳) マルチメディアにおけるビデオ質問応答(VQA)課題に挑戦する新しい課題であるビデオ質問応答生成(VQAG)について検討する。 高価なデータアノテーションコストのため、ビデオQA、MSVD-QA、MSRVTT-QAなどの大規模ビデオQAデータセットは、ビデオ自体の代わりにキャプションを入力するCaption Question Generation(CapQG)を使用して自動的に注釈付けされる。 キャプションはビデオを完全に表現するものではないし、実際に利用できないため、VQAG(Video Question-Answer Generation)を通じてビデオに基づいて質問対を生成することが重要である。 既存のV2T(Video-to-text)アプローチは、ビデオを入力として用いながら、質問のみを生成する。 本研究では,(1)JQAG(Joint Question-Answer Generator)とJQAG(Joint Question-Answer Generator)の2つのコンポーネントに焦点をあてて,ビデオ質問の"回答"トレーニングを可能にする,新しいモデルであるGenerator-Pretester Networkを提案する。 2)Pretester(PT)は,モデルの提案した回答と根拠的真理解の両方で,先行した回答をチェックすることによって,生成した質問を検証する。 我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。 さらに、生成したQAペアをビデオQAタスクでのみ使用することにより、いくつかの教師付きベースラインを超えることができる。 生成した質問をビデオQAアプリケーションに適用し、生成した質問のみを用いて教師付きベースラインを超越する。 事前学習戦略として,半教師付き (20%) や注釈付きデータによる教師付き学習の場合には,capqg と transfer learning の両方のアプローチを上回っている。 これらの実験結果から,ビデオQAトレーニングの新たな視点が示唆された。

We study a novel task, Video Question-Answer Generation (VQAG), for challenging Video Question Answering (Video QA) task in multimedia. Due to expensive data annotation costs, many widely used, large-scale Video QA datasets such as Video-QA, MSVD-QA and MSRVTT-QA are automatically annotated using Caption Question Generation (CapQG) which inputs captions instead of the video itself. As captions neither fully represent a video, nor are they always practically available, it is crucial to generate question-answer pairs based on a video via Video Question-Answer Generation (VQAG). Existing video-to-text (V2T) approaches, despite taking a video as the input, only generate a question alone. In this work, we propose a novel model Generator-Pretester Network that focuses on two components: (1) The Joint Question-Answer Generator (JQAG) which generates a question with its corresponding answer to allow Video Question "Answering" training. (2) The Pretester (PT) verifies a generated question by trying to answer it and checks the pretested answer with both the model's proposed answer and the ground truth answer. We evaluate our system with the only two available large-scale human-annotated Video QA datasets and achieves state-of-the-art question generation performances. Furthermore, using our generated QA pairs only on the Video QA task, we can surpass some supervised baselines. We apply our generated questions to Video QA applications and surpasses some supervised baselines using generated questions only. As a pre-training strategy, we outperform both CapQG and transfer learning approaches when employing semi-supervised (20%) or fully supervised learning with annotated data. These experimental results suggest the novel perspectives for Video QA training.
翻訳日:2021-04-11 11:43:14 公開日:2021-01-05
# 半教師付き領域適応のための条件付き画像伝達

Relaxed Conditional Image Transfer for Semi-supervised Domain Adaptation ( http://arxiv.org/abs/2101.01400v1 )

ライセンス: Link先を確認
Qijun Luo, Zhili Liu, Lanqing Hong, Chongxuan Li, Kuo Yang, Liyuan Wang, Fengwei Zhou, Guilin Li, Zhenguo Li, Jun Zhu(参考訳) 完全にラベル付けされたソースドメインの助けを借りて、部分的にラベル付けされたターゲットドメインでモデルを学習することを目的とした半教師付きドメイン適応(SSDA)が近年注目を集めている。 両領域のラベル付きデータを明示的に活用するために,SSDAのセマンティクスを変更することなく画像の転送を行う条件付きGANフレームワークを自然に導入する。 しかし,このようなアプローチではラベル支配問題を特定する。 実際、ジェネレータは入力元画像を見落とし、各クラスのプロトタイプのみを記憶する傾向があるため、不満足な適応性能が得られる。 この目的のために, 単純だが効果的なRelaxed Conditional GAN (Relaxed cGAN) フレームワークを提案する。 具体的には、イメージをジェネレータにラベルを付けずに供給します。 このようにして、ジェネレータは入力データの意味情報を推測する必要がある。 我々は,その平衡が望ましいことを正式に証明し,その実用的収束と画像転送の有効性を実証的に検証する。 さらに,対象領域のラベルなしデータを利用するためのいくつかの手法を提案し,SSDA設定におけるモデルを強化する。 私たちは、Digits、DomainNet、Office-Homeといったよく認識されたデータセットでメソッドを検証する。 DomainNet、Office-Home、およびほとんどの桁のベンチマークにおいて、低リソースおよび高リソース設定で最先端のパフォーマンスを達成する。

Semi-supervised domain adaptation (SSDA), which aims to learn models in a partially labeled target domain with the assistance of the fully labeled source domain, attracts increasing attention in recent years. To explicitly leverage the labeled data in both domains, we naturally introduce a conditional GAN framework to transfer images without changing the semantics in SSDA. However, we identify a label-domination problem in such an approach. In fact, the generator tends to overlook the input source image and only memorizes prototypes of each class, which results in unsatisfactory adaptation performance. To this end, we propose a simple yet effective Relaxed conditional GAN (Relaxed cGAN) framework. Specifically, we feed the image without its label to our generator. In this way, the generator has to infer the semantic information of input data. We formally prove that its equilibrium is desirable and empirically validate its practical convergence and effectiveness in image transfer. Additionally, we propose several techniques to make use of unlabeled data in the target domain, enhancing the model in SSDA settings. We validate our method on the well-adopted datasets: Digits, DomainNet, and Office-Home. We achieve state-of-the-art performance on DomainNet, Office-Home and most digit benchmarks in low-resource and high-resource settings.
翻訳日:2021-04-11 11:42:41 公開日:2021-01-05
# WildDeepfake: ディープフェイク検出のためのリアルタイムデータセット

WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection ( http://arxiv.org/abs/2101.01456v1 )

ライセンス: Link先を確認
Bojia Zi, Minghao Chang, Jingjing Chen, Xingjun Ma, Yu-Gang Jiang(参考訳) 近年、ディープフェイク(deepfake deepfake)と呼ばれるフェイススワップ技術が悪用され、人々の関心が高まっている。 これまで多くのディープフェイクビデオ(ディープフェイクとして知られる)が制作され、インターネットにアップロードされ、効果的な対策が求められてきた。 ディープフェイク対策の1つはディープフェイク検出である。 deepfake detectionionやfaceforensics++など、deepfake検出器のトレーニングとテストをサポートするために、いくつかのdeepfakeデータセットがリリースされた。 これはディープフェイク検出を大幅に進歩させたものだが、これらのデータセットの実際のビデオのほとんどは、一部のボランティアアクターが限られたシーンで撮影されている。 これらのデータセットで開発された検出器は、インターネット上の現実世界のディープフェイクに対して効果が低下する可能性がある。 本稿では,実世界のディープフェイク検出を支援するために,インターネットから完全に収集した707個のディープフェイクビデオから抽出した7,314個の顔シーケンスからなる新しいデータセットWildDeepfakeを提案する。 WildDeepfakeは、既存のデータセットに加えて、現実世界のディープフェイクに対するディープフェイク検出の有効性の開発とテストに使用できる小さなデータセットである。 既存のデータセットとワイルドディープフェイクデータセットの両方で、一連のベースライン検出ネットワークを体系的に評価し、ワイルドディープフェイクは確かにより困難なデータセットであり、検出性能が劇的に低下することを示している。 また2つ提案する(例)。 2Dおよび3D) 注意型ディープフェイク検出ネットワーク(ADDNets)は、リアルタイム/フェイク顔のアテンションマスクを利用して検出を改善する。 ADDNetsが既存のデータセットとWildDeepfakeの両方に与える影響を実証的に検証する。 データセットは:https://github.com/ deepfakeinthewild/de epfake-in-the-wildで入手できる。

In recent years, the abuse of a face swap technique called deepfake Deepfake has raised enormous public concerns. So far, a large number of deepfake videos (known as "deepfakes") have been crafted and uploaded to the internet, calling for effective countermeasures. One promising countermeasure against deepfakes is deepfake detection. Several deepfake datasets have been released to support the training and testing of deepfake detectors, such as DeepfakeDetection and FaceForensics++. While this has greatly advanced deepfake detection, most of the real videos in these datasets are filmed with a few volunteer actors in limited scenes, and the fake videos are crafted by researchers using a few popular deepfake softwares. Detectors developed on these datasets may become less effective against real-world deepfakes on the internet. To better support detection against real-world deepfakes, in this paper, we introduce a new dataset WildDeepfake, which consists of 7,314 face sequences extracted from 707 deepfake videos collected completely from the internet. WildDeepfake is a small dataset that can be used, in addition to existing datasets, to develop and test the effectiveness of deepfake detectors against real-world deepfakes. We conduct a systematic evaluation of a set of baseline detection networks on both existing and our WildDeepfake datasets, and show that WildDeepfake is indeed a more challenging dataset, where the detection performance can decrease drastically. We also propose two (eg. 2D and 3D) Attention-based Deepfake Detection Networks (ADDNets) to leverage the attention masks on real/fake faces for improved detection. We empirically verify the effectiveness of ADDNets on both existing datasets and WildDeepfake. The dataset is available at:https://github.co m/deepfakeinthewild/ deepfake-in-the-wild .
翻訳日:2021-04-11 11:42:19 公開日:2021-01-05
# 線形制約問題に対する遅延射影法:収束速度、加速度、および応用

Delayed Projection Techniques for Linearly Constrained Problems: Convergence Rates, Acceleration, and Applications ( http://arxiv.org/abs/2101.01505v1 )

ライセンス: Link先を確認
Xiang Li, Zhihua Zhang(参考訳) 本研究では,線形制約問題 (LCP) に対して,統計学,最適化,機械学習に多用した新しいプロジェクションベースアルゴリズムについて検討する。 LCP の従来の原始勾配に基づく手法は、各(確率的な)勾配降下の後に射影を呼ぶので、要求される射影の数は勾配降下(あるいは全反復)のそれと同値である。 近年の分散最適化の進展に動機づけられ,しばらくの間投影を呼び出し,投影周波数を下げ,投影効率を向上させる遅延投影手法を提案する。 そこで,本手法では分散還元法と高速化法を併用し,lcpに対する一連の確率的手法を考案する。 理論上, 凸凸と一般凸の双方において, 投影効率の向上が可能であることを示す。 解析は単純で統一的で,遅延投影を用いて他の手法にも容易に拡張できる。 分散最適化において,新たなアルゴリズムをフェデレーション最適化,新たなフラッグド・プライバシ保存サブフィールドに適用する場合,従来のアルゴリズムよりも収束率の高い分散化フェデレーションアルゴリズムだけでなく,フェデレーション最適化に固有のデータ不均一性を扱うことができる最初の高速化手法も得られる。

In this work, we study a novel class of projection-based algorithms for linearly constrained problems (LCPs) which have a lot of applications in statistics, optimization, and machine learning. Conventional primal gradient-based methods for LCPs call a projection after each (stochastic) gradient descent, resulting in that the required number of projections equals that of gradient descents (or total iterations). Motivated by the recent progress in distributed optimization, we propose the delayed projection technique that calls a projection once for a while, lowering the projection frequency and improving the projection efficiency. Accordingly, we devise a series of stochastic methods for LCPs using the technique, including a variance reduced method and an accelerated one. We theoretically show that it is feasible to improve projection efficiency in both strongly convex and generally convex cases. Our analysis is simple and unified and can be easily extended to other methods using delayed projections. When applying our new algorithms to federated optimization, a newfangled and privacy-preserving subfield in distributed optimization, we obtain not only a variance reduced federated algorithm with convergence rates better than previous works, but also the first accelerated method able to handle data heterogeneity inherent in federated optimization.
翻訳日:2021-04-11 11:41:47 公開日:2021-01-05
# sos度低減とクラスタリングとロバストモーメント推定への応用

SoS Degree Reduction with Applications to Clustering and Robust Moment Estimation ( http://arxiv.org/abs/2101.01509v1 )

ライセンス: Link先を確認
David Steurer, Stefan Tiegel(参考訳) 我々は新しい変数を導入することで2乗証明の総和の度合いを著しく低減する一般的な枠組みを開発する。 このフレームワークのパワーを説明するために、クラスタリングとロバストモーメント推定という2つの重要な推定問題に対する2乗和に基づくアルゴリズムを高速化する。 得られたアルゴリズムは、以前の最高のアルゴリズムと同じ統計的保証を提供するが、実行時間が大幅に速い。 大まかに言えば、次元 $d$ の n$ のサンプルが与えられると、我々のアルゴリズムは、時間 $d^{o(\ell)}\cdot n^{o(1)}$ でorder-\ell$ momentsを活用できるが、単純な実装では $(d\cdot n)^{o(\ell)}$ である。 上記のアプリケーションの場合、典型的なサンプルサイズは $d^{\Theta(\ell)}$ なので、我々のフレームワークは実行時間を $d^{O(\ell^2)}$ から $d^{O(\ell)}$ に改善します。

We develop a general framework to significantly reduce the degree of sum-of-squares proofs by introducing new variables. To illustrate the power of this framework, we use it to speed up previous algorithms based on sum-of-squares for two important estimation problems, clustering and robust moment estimation. The resulting algorithms offer the same statistical guarantees as the previous best algorithms but have significantly faster running times. Roughly speaking, given a sample of $n$ points in dimension $d$, our algorithms can exploit order-$\ell$ moments in time $d^{O(\ell)}\cdot n^{O(1)}$, whereas a naive implementation requires time $(d\cdot n)^{O(\ell)}$. Since for the aforementioned applications, the typical sample size is $d^{\Theta(\ell)}$, our framework improves running times from $d^{O(\ell^2)}$ to $d^{O(\ell)}$.
翻訳日:2021-04-11 11:41:25 公開日:2021-01-05
# RKHSにおけるハードアフィンSDP形状制約の扱い

Handling Hard Affine SDP Shape Constraints in RKHSs ( http://arxiv.org/abs/2101.01519v1 )

ライセンス: Link先を確認
Pierre-Cyril Aubin-Frankowski, Zoltan Szabo(参考訳) 非ネガティビティ、単調性、凸性、超モジュラリティといった形状制約は、機械学習や統計学の様々な応用において重要な役割を果たす。 しかし、リッチ関数クラスに対して、このサイド情報を予測モデルに(例えば、間隔のすべての点で)難しい方法で組み込むことは、非常に難しい問題である。 本稿では,ベクトル値再生カーネルヒルベルト空間 (vRKHSs) に属するモデルに対して,関数導関数に対するハードアフィンSDP制約を符号化するために,二階錐の締め付け(SOC)に依存する統一的かつモジュラー凸最適化フレームワークを提案する。 提案手法のモジュラー性により,複数の形状制約を同時に処理し,無限個の制約を有限個に絞り込むことができる。 vrkhssの幾何学的性質を活かし,提案手法と適応型の一貫性を実証する。 このアプローチの効率性は、形状最適化、安全クリティカル制御、計量学の文脈で示される。

Shape constraints, such as non-negativity, monotonicity, convexity or supermodularity, play a key role in various applications of machine learning and statistics. However, incorporating this side information into predictive models in a hard way (for example at all points of an interval) for rich function classes is a notoriously challenging problem. We propose a unified and modular convex optimization framework, relying on second-order cone (SOC) tightening, to encode hard affine SDP constraints on function derivatives, for models belonging to vector-valued reproducing kernel Hilbert spaces (vRKHSs). The modular nature of the proposed approach allows to simultaneously handle multiple shape constraints, and to tighten an infinite number of constraints into finitely many. We prove the consistency of the proposed scheme and that of its adaptive variant, leveraging geometric properties of vRKHSs. The efficiency of the approach is illustrated in the context of shape optimization, safety-critical control and econometrics.
翻訳日:2021-04-11 11:41:03 公開日:2021-01-05
# ユーザ体験をパーソナライズするためのフィードバック付き順次選択バンディット

Sequential Choice Bandits with Feedback for Personalizing users' experience ( http://arxiv.org/abs/2101.01572v1 )

ライセンス: Link先を確認
Anshuka Rangi, Massimo Franceschetti and Long Tran-Thanh(参考訳) 本研究では,フィードバックを用いた逐次選択帯域について検討する。 ユーザエクスペリエンスをパーソナライズして報酬を最大化するプラットフォームのためのバンドアルゴリズムを提案する。 このアクションがユーザのしきい値より下にある場合、与えられたユーザに対して、プラットフォームには肯定的な報酬が与えられ、これはアクションの非減少機能である。 ユーザは忍耐予算を備えており、しきい値を超えるアクションは忍耐を減少させる。 すべての忍耐が失われると、ユーザはプラットフォームを放棄する。 プラットフォームは、各アクションでプラットフォームに利用可能な情報パターンを記述する2つの異なるフィードバックモデルに基づいて、報酬を最大化するために、ユーザのしきい値の学習を試みる。 プラットフォームがユーザのしきい値が一定間隔にあることを知っていれば,最も適切なアクションを決定することで,後悔の概念を定義します。 次に、2つのフィードバックモデルに対するbanditアルゴリズムを提案し、後悔の上限が$\tilde{o}(n^{2/3})$と$\tilde\omega(n^{2/3})$の順であることを示し、そこでは$n$がユーザの総数である。 最後に、パーソナライズされた体験を受け取る前のユーザの待ち時間は、$N$で均一であることを示す。

In this work, we study sequential choice bandits with feedback. We propose bandit algorithms for a platform that personalizes users' experience to maximize its rewards. For each action directed to a given user, the platform is given a positive reward, which is a non-decreasing function of the action, if this action is below the user's threshold. Users are equipped with a patience budget, and actions that are above the threshold decrease the user's patience. When all patience is lost, the user abandons the platform. The platform attempts to learn the thresholds of the users in order to maximize its rewards, based on two different feedback models describing the information pattern available to the platform at each action. We define a notion of regret by determining the best action to be taken when the platform knows that the user's threshold is in a given interval. We then propose bandit algorithms for the two feedback models and show that upper and lower bounds on the regret are of the order of $\tilde{O}(N^{2/3})$ and $\tilde\Omega(N^{2/3})$, respectively, where $N$ is the total number of users. Finally, we show that the waiting time of any user before receiving a personalized experience is uniform in $N$.
翻訳日:2021-04-11 11:40:46 公開日:2021-01-05
# ベイズリスク下におけるスレート政策の評価

Off-Policy Evaluation of Slate Policies under Bayes Risk ( http://arxiv.org/abs/2101.02553v1 )

ライセンス: Link先を確認
Nikos Vlassis, Fernando Amat Gil, Ashok Chandrashekar(参考訳) 本研究では,スレートのスロット上で伐採方針が決定される典型的な場合において,スレート帯の非政治評価の問題について検討する。 我々はベイズリスクを評価基準とすることで既存の文献から少し離れており、Swaminathan et al.\ (2017; arXiv:1605.04812) の擬似逆(PI)推定器を含む「付加的」推定器のファミリーを分析している。 制御変量法を用いて,上記の問題においてpiよりもリスクが低いことを保証した,このファミリーにおける新たな推定器を同定する。 特に、PIに対するリスク改善はスロット数とともに線形に増加し、ログとターゲットポリシーの間のスロットレベルのばらつきの集合の算術平均と調和平均とのギャップによって線形に増加することを示す。 均一なロギングポリシと決定論的ターゲットポリシの典型的な場合、各発散はスロットサイズに対応し、スロット毎の多様なアクションで問題をスレートするために最大ゲインを得ることができることを示す。

We study the problem of off-policy evaluation for slate bandits, for the typical case in which the logging policy factorizes over the slots of the slate. We slightly depart from the existing literature by taking Bayes risk as the criterion by which to evaluate estimators, and we analyze the family of 'additive' estimators that includes the pseudoinverse (PI) estimator of Swaminathan et al.\ (2017; arXiv:1605.04812). Using a control variate approach, we identify a new estimator in this family that is guaranteed to have lower risk than PI in the above class of problems. In particular, we show that the risk improvement over PI grows linearly with the number of slots, and linearly with the gap between the arithmetic and the harmonic mean of a set of slot-level divergences between the logging and the target policy. In the typical case of a uniform logging policy and a deterministic target policy, each divergence corresponds to slot size, showing that maximal gains can be obtained for slate problems with diverse numbers of actions per slot.
翻訳日:2021-04-11 11:40:22 公開日:2021-01-05
# ロバストなcur分解:理論とイメージングへの応用

Robust CUR Decomposition: Theory and Imaging Applications ( http://arxiv.org/abs/2101.05231v1 )

ライセンス: Link先を確認
HanQin Cai, Keaton Hamm, Longxiu Huang, Deanna Needell(参考訳) 本稿では,CUR分解フレームワークにおけるロバストPCAの利用とその応用について考察する。 我々の主アルゴリズムは行列のカラムロー分解のロバストバージョンである $\mathbf{D}=\mathbf{L}+\mathbf{S}$ ここで$\mathbf{L}$はローランク、$\mathbf{S}$はスパースアウトリーを含む。 これらの手法は計算コストが低い場合に解釈可能な因子分解をもたらし、従来の方法とは対照的に、外れ値の分離に頑健な新しいCUR分解を提供する。 本稿では,ロバストPCAの2つの重要な画像応用について考察する。 本稿では,ベンチマークビデオや顔データセット上でのロバストCUR分解の質的挙動について検討し,ロバストPCAと同等に動作し,より高速であることを示す。 さらに,与えられた行列のコンパクトなカー分解を生成するハイブリッドランダム化・決定論的サンプリング法を検討し,これを映像列に適用して標準フレームを生成する。

This paper considers the use of Robust PCA in a CUR decomposition framework and applications thereof. Our main algorithms produce a robust version of column-row factorizations of matrices $\mathbf{D}=\mathbf{L}+\mathbf{S}$ where $\mathbf{L}$ is low-rank and $\mathbf{S}$ contains sparse outliers. These methods yield interpretable factorizations at low computational cost, and provide new CUR decompositions that are robust to sparse outliers, in contrast to previous methods. We consider two key imaging applications of Robust PCA: video foreground-backgroun d separation and face modeling. This paper examines the qualitative behavior of our Robust CUR decompositions on the benchmark videos and face datasets, and find that our method works as well as standard Robust PCA while being significantly faster. Additionally, we consider hybrid randomized and deterministic sampling methods which produce a compact CUR decomposition of a given matrix, and apply this to video sequences to produce canonical frames thereof.
翻訳日:2021-04-11 11:39:44 公開日:2021-01-05
# 分散主成分分析のための線形収束アルゴリズム

A Linearly Convergent Algorithm for Distributed Principal Component Analysis ( http://arxiv.org/abs/2101.01300v1 )

ライセンス: Link先を確認
Arpita Gang and Waheed U. Bajwa(参考訳) 主成分分析 (PCA) は, ビッグデータ時代における次元削減のための作業用ツールである。 しばしば見過ごされるが、PCAの目的はデータ次元を減らすだけでなく、非相関な特徴を生み出すことである。 本稿では,データ共分散行列の固有ベクトルを推定する必要があるPCAのこの2つの目的,すなわち特徴の次元的減少とデコリレーションに焦点を当てる。 現代のデータ量の増加は、複数のマシンにまたがるデータサンプルの保存を必要とすることが多く、集中型PCAアルゴリズムの使用を妨げている。 近年,PCA問題に対する分散ソリューションがいくつか提案されているが,収束保証や通信オーバーヘッドが懸念されている。 本稿では,データ共分散行列の固有ベクトルを推定する分散sanger's algorithm (dsa) と呼ばれる,一時間スケールの分散pcaアルゴリズムを提案する。 さらに,提案アルゴリズムは真の解の近傍に線形に収束することを示した。 また,提案手法の有効性を示す数値実験を行った。

Principal Component Analysis (PCA) is the workhorse tool for dimensionality reduction in this era of big data. While often overlooked, the purpose of PCA is not only to reduce data dimensionality, but also to yield features that are uncorrelated. This paper focuses on this dual objective of PCA, namely, dimensionality reduction and decorrelation of features, which requires estimating the eigenvectors of a data covariance matrix, as opposed to only estimating the subspace spanned by the eigenvectors. The ever-increasing volume of data in the modern world often requires storage of data samples across multiple machines, which precludes the use of centralized PCA algorithms. Although a few distributed solutions to the PCA problem have been proposed recently, convergence guarantees and/or communications overhead of these solutions remain a concern. With an eye towards communications efficiency, this paper introduces a feedforward neural network-based one time-scale distributed PCA algorithm termed Distributed Sanger's Algorithm (DSA) that estimates the eigenvectors of a data covariance matrix when data are distributed across an undirected and arbitrarily connected network of machines. Furthermore, the proposed algorithm is shown to converge linearly to a neighborhood of the true solution. Numerical results are also shown to demonstrate the efficacy of the proposed solution.
翻訳日:2021-04-11 11:39:21 公開日:2021-01-05
# コンテキスト依存型構文解析のための動的ハイブリッドネットワーク

Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing ( http://arxiv.org/abs/2101.01686v1 )

ライセンス: Link先を確認
Binyuan Hui, Ruiying Geng, Qiyu Ren, Binhua Li, Yongbin Li, Jian Sun, Fei Huang, Luo Si, Pengfei Zhu, Xiaodan Zhu(参考訳) セマンティクス解析は自然言語処理において長い間根本的な問題であった。 近年、クロスドメインなコンテキスト依存意味解析が研究の新たな焦点となっている。 問題の中心は、対話履歴において自然言語発話とデータベーススキーマの両方の文脈情報を活用するという課題である。 本稿では,文脈的発話,トークン,データベーススキーマ,および会話の進行に伴う複雑な相互作用を効果的にモデル化できる動的グラフフレームワークを提案する。 このフレームワークは、帰納バイアスを取り入れた動的メモリ減衰機構を用いて、強化された文脈関係表現を統合する。 この記事の執筆時点では,提案するフレームワークが既存のモデルを大きなマージンで上回り,SParCとCoSQLの2つの大規模ベンチマークで最先端のパフォーマンスを新たに達成していることを示す。 具体的には、SParCでは55.8%の質問マッチと30.8%のインタラクションマッチの精度、CoSQLでは46.8%の質問マッチと17.0%のインタラクションマッチの精度を実現している。

Semantic parsing has long been a fundamental problem in natural language processing. Recently, cross-domain context-dependent semantic parsing has become a new focus of research. Central to the problem is the challenge of leveraging contextual information of both natural language utterance and database schemas in the interaction history. In this paper, we present a dynamic graph framework that is capable of effectively modelling contextual utterances, tokens, database schemas, and their complicated interaction as the conversation proceeds. The framework employs a dynamic memory decay mechanism that incorporates inductive bias to integrate enriched contextual relation representation, which is further enhanced with a powerful reranking model. At the time of writing, we demonstrate that the proposed framework outperforms all existing models by large margins, achieving new state-of-the-art performance on two large-scale benchmarks, the SParC and CoSQL datasets. Specifically, the model attains a 55.8% question-match and 30.8% interaction-match accuracy on SParC, and a 46.8% question-match and 17.0% interaction-match accuracy on CoSQL.
翻訳日:2021-04-11 11:37:56 公開日:2021-01-05
# 大規模食品知識グラフを用いた限定質問回答としての個人化食品推薦

Personalized Food Recommendation as Constrained Question Answering over a Large-scale Food Knowledge Graph ( http://arxiv.org/abs/2101.01775v1 )

ライセンス: Link先を確認
Yu Chen, Ananya Subburathinam, Ching-Hua Chen and Mohammed J. Zaki(参考訳) 食品レコメンデーションは、ユーザーが健康的な食事習慣を身につけるための重要な手段となっている。 食品推奨に関する以前の研究(i) ユーザの明示的な要求を考慮しない、(ii) 重要な健康要因(アレルギーや栄養要求など)を無視している、(iii) 健康的なレシピを推薦するために豊富な食品知識を活用しない、のいずれかである。 そこで本研究では,本課題を大規模食品知識ベース/グラフ(kbqa)上での制約付き質問応答としてモデル化し,食品推薦のための新しい問題定式化を提案する。 ユーザクエリからの要求に加えて、ユーザの食事嗜好や健康ガイドラインからのパーソナライズされた要件は、QAシステムへの追加的な制約として統一された方法で処理される。 このアイデアを検証するために,大規模食品知識グラフと健康ガイドラインに基づいて,個人化された食品推奨のためのqaスタイルのデータセットを作成する。 さらに,クエリのネゲーション処理や数値比較を行う新しい手法を備えた,kbqaベースのパーソナライズドフードレコメンデーションフレームワークを提案する。 ベンチマーク実験の結果,提案手法は非個人化レシピ(評価指標の平均59.7%の絶対的改善)を著しく上回り,より関連性が高く健康的なレシピを推奨できることがわかった。

Food recommendation has become an important means to help guide users to adopt healthy dietary habits. Previous works on food recommendation either i) fail to consider users' explicit requirements, ii) ignore crucial health factors (e.g., allergies and nutrition needs), or iii) do not utilize the rich food knowledge for recommending healthy recipes. To address these limitations, we propose a novel problem formulation for food recommendation, modeling this task as constrained question answering over a large-scale food knowledge base/graph (KBQA). Besides the requirements from the user query, personalized requirements from the user's dietary preferences and health guidelines are handled in a unified way as additional constraints to the QA system. To validate this idea, we create a QA style dataset for personalized food recommendation based on a large-scale food knowledge graph and health guidelines. Furthermore, we propose a KBQA-based personalized food recommendation framework which is equipped with novel techniques for handling negations and numerical comparisons in the queries. Experimental results on the benchmark show that our approach significantly outperforms non-personalized counterparts (average 59.7% absolute improvement across various evaluation metrics), and is able to recommend more relevant and healthier recipes.
翻訳日:2021-04-11 11:37:38 公開日:2021-01-05
# 知識ベースによる質問応答のためのグローバルセマンティクスのモデル化

Modeling Global Semantics for Question Answering over Knowledge Bases ( http://arxiv.org/abs/2101.01510v1 )

ライセンス: Link先を確認
Peiyun Wu and Yunjie Wu and Linjuan Wu and Xiaowang Zhang and Zhiyong Feng(参考訳) 意味解析は知識ベース(KBQA)に対する質問応答の重要なアプローチとして、質問を完全なクエリグラフに変換し、正しい論理的クエリを生成する。 既存の意味解析アプローチは主に、クエリグラフを選択するための質問の内部構造(例えば、質問のすべてのエンティティ間の依存関係と関係)への注意を減らした関係性に重点を置いている。 本稿では,KBQAにおける意味解析のためのリレーショナルグラフ畳み込みネットワーク(RGCN)モデルgRGCNを提案する。 gRGCNは、RGCNとリレーショナルセマンティクス(エンティティ間の関係のラベル表現)による構造セマンティクスを含む、質問とその対応するクエリグラフのグローバルセマンティクスを階層的関係注意機構を介して抽出する。 ベンチマークで評価した結果,本モデルは市販モデルよりも優れていた。

Semantic parsing, as an important approach to question answering over knowledge bases (KBQA), transforms a question into the complete query graph for further generating the correct logical query. Existing semantic parsing approaches mainly focus on relations matching with paying less attention to the underlying internal structure of questions (e.g., the dependencies and relations between all entities in a question) to select the query graph. In this paper, we present a relational graph convolutional network (RGCN)-based model gRGCN for semantic parsing in KBQA. gRGCN extracts the global semantics of questions and their corresponding query graphs, including structure semantics via RGCN and relational semantics (label representation of relations between entities) via a hierarchical relation attention mechanism. Experiments evaluated on benchmarks show that our model outperforms off-the-shelf models.
翻訳日:2021-04-11 11:36:36 公開日:2021-01-05
# ロボット故障のための説明可能なAI:障害復旧におけるユーザ支援を改善する説明生成

Explainable AI for Robot Failures: Generating Explanations that Improve User Assistance in Fault Recovery ( http://arxiv.org/abs/2101.01625v1 )

ライセンス: Link先を確認
Devleena Das, Siddhartha Banerjee, Sonia Chernova(参考訳) インテリジェントシステムの能力の増大に伴い、私たちの日常生活におけるロボットの統合が増加している。 しかし、そのような複雑な人間環境で相互作用する場合、ロボットシステムの失敗は避けられない。 説明可能なAIの分野は、複雑な決定システムをより解釈可能にすることを目指しているが、既存のほとんどの技術はドメインの専門家をターゲットにしている。 逆に、多くの障害ケースでは、ロボットは専門家でないユーザーからの回復支援を必要とする。 本稿では,エージェントの計画実行中の予期せぬ障害の原因を非専門家に説明する,新たなタイプの説明を紹介する。 エラー説明が有意義であるためには,手書き説明のセット内の情報の種類が,非専門家の失敗やソリューション識別に最も役立つかを検討することが必要である。 さらに,このような説明を自律的に生成し,既存のエンコーダ・デコーダモデルを拡張し,環境をまたいで一般化する方法について検討する。 本研究では,家庭環境において,ロボットが操作作業を行う状況において,そのような課題を考察する。 その結果,失敗の文脈と過去の行動の履歴を捉えた説明が,非専門家の失敗やソリューション識別に最も効果的であることが判明した。 さらに, 第2のユーザ評価により, モデル生成説明が非認識のオフィス環境に一般化できることを確認し, 手書き説明と同等の有効性を検証した。

With the growing capabilities of intelligent systems, the integration of robots in our everyday life is increasing. However, when interacting in such complex human environments, the occasional failure of robotic systems is inevitable. The field of explainable AI has sought to make complex-decision making systems more interpretable but most existing techniques target domain experts. On the contrary, in many failure cases, robots will require recovery assistance from non-expert users. In this work, we introduce a new type of explanation, that explains the cause of an unexpected failure during an agent's plan execution to non-experts. In order for error explanations to be meaningful, we investigate what types of information within a set of hand-scripted explanations are most helpful to non-experts for failure and solution identification. Additionally, we investigate how such explanations can be autonomously generated, extending an existing encoder-decoder model, and generalized across environments. We investigate such questions in the context of a robot performing a pick-and-place manipulation task in the home environment. Our results show that explanations capturing the context of a failure and history of past actions, are the most effective for failure and solution identification among non-experts. Furthermore, through a second user evaluation, we verify that our model-generated explanations can generalize to an unseen office environment, and are just as effective as the hand-scripted explanations.
翻訳日:2021-04-11 11:36:19 公開日:2021-01-05
# CycleSegNet: サイクルリファインメントと領域対応によるオブジェクトのコセグメンテーション

CycleSegNet: Object Co-segmentation with Cycle Refinement and Region Correspondence ( http://arxiv.org/abs/2101.01308v1 )

ライセンス: Link先を確認
Guankai Li, Chi Zhang, Guosheng Lin(参考訳) イメージコセグメンテーション(image co-segmentation)は、イメージの集合内の共通オブジェクトを分割することを目的とした、アクティブなコンピュータビジョンタスクである。 近年,協調作業に対処する学習アルゴリズムが開発されている。 このタスクの主な困難は、画像間の情報を効果的に転送し、共通のオブジェクト領域を推測する方法である。 本稿では,協調作業のための新しいフレームワークであるCycleSegNetを紹介する。 ネットワーク設計には,ローカル画像領域間で情報を交換するための基本操作である領域対応モジュールと,ConvLSTMを用いて画像埋め込みや情報交換を段階的に更新するサイクル改善モジュールの2つの重要な要素がある。 PASCAL VOCデータセット,MSRCデータセット,インターネットデータセット,iCosegデータセットの4つの一般的なベンチマークデータセットの実験結果から,提案手法が既存のネットワークを著しく上回り,新たな最先端性能を実現することを示す。

Image co-segmentation is an active computer vision task which aims to segment the common objects in a set of images. Recently, researchers design various learning-based algorithms to handle the co-segmentation task. The main difficulty in this task is how to effectively transfer information between images to infer the common object regions. In this paper, we present CycleSegNet, a novel framework for the co-segmentation task. Our network design has two key components: a region correspondence module which is the basic operation for exchanging information between local image regions, and a cycle refinement module which utilizes ConvLSTMs to progressively update image embeddings and exchange information in a cycle manner. Experiment results on four popular benchmark datasets -- PASCAL VOC dataset, MSRC dataset, Internet dataset and iCoseg dataset demonstrate that our proposed method significantly outperforms the existing networks and achieves new state-of-the-art performance.
翻訳日:2021-04-11 11:35:57 公開日:2021-01-05
# 金融券画像の高速テキスト認識手法に関する研究

Research on Fast Text Recognition Method for Financial Ticket Image ( http://arxiv.org/abs/2101.01310v1 )

ライセンス: Link先を確認
Fukang Tian, Haiyu Wu, Bo Xu(参考訳) 現在,ディープラーニング手法が広く適用されており,様々な分野の開発が進められている。 金融会計分野では、金融券の急激な増加が労働コストを劇的に増加させるため、会計の圧力を和らげるために深層学習手法が必要である。 現在,金融チケット認識に深層学習手法を適用している研究がいくつかある。 しかし、まず、彼らのアプローチは数種類のチケットしかカバーしていない。 さらに、その認識モデルの精度と速度は、実用的な財務会計システムの要件を満たすことができない。 さらに,チケットの種類や内容の詳細な分析は行われていない。 そこで本稿ではまず,482種類の金融チケットの異なる特徴を分析し,すべての金融チケットを3つのカテゴリに分け,各カテゴリの異なる認識パターンを提案する。 これらの認識パターンは、ほぼあらゆる種類のファイナンシャルチケット認識のニーズを満たすことができる。 第2に、固定形式の金融切符(全切符の68.27\%)について、より高速なrcnnに基づいて、簡易かつ効率的な金融切符高速検出ネットワーク(ftfdnet)を提案する。 さらに、ファイナンシャルチケットのテキストの特徴により、高い認識精度を得るために、損失関数、地域提案ネットワーク(RPN)、非最大抑圧(NMS)を改善して、FTFDNetをよりテキストに集中させる。 最後に,ICDAR2019請求書コンテストにおけるチケット認識モデルの比較を行った。 実験の結果, FTFDNetは処理速度を50%向上し, 類似の精度を維持した。

Currently, deep learning methods have been widely applied in and thus promoted the development of different fields. In the financial accounting field, the rapid increase in the number of financial tickets dramatically increases labor costs; hence, using a deep learning method to relieve the pressure on accounting is necessary. At present, a few works have applied deep learning methods to financial ticket recognition. However, first, their approaches only cover a few types of tickets. In addition, the precision and speed of their recognition models cannot meet the requirements of practical financial accounting systems. Moreover, none of the methods provides a detailed analysis of both the types and content of tickets. Therefore, this paper first analyzes the different features of 482 kinds of financial tickets, divides all kinds of financial tickets into three categories and proposes different recognition patterns for each category. These recognition patterns can meet almost all types of financial ticket recognition needs. Second, regarding the fixed format types of financial tickets (accounting for 68.27\% of the total types of tickets), we propose a simple yet efficient network named the Financial Ticket Faster Detection network (FTFDNet) based on a Faster RCNN. Furthermore, according to the characteristics of the financial ticket text, in order to obtain higher recognition accuracy, the loss function, Region Proposal Network (RPN), and Non-Maximum Suppression (NMS) are improved to make FTFDNet focus more on text. Finally, we perform a comparison with the best ticket recognition model from the ICDAR2019 invoice competition. The experimental results illustrate that FTFDNet increases the processing speed by 50\% while maintaining similar precision.
翻訳日:2021-04-11 11:35:41 公開日:2021-01-05
# VersatileGait: 微粒な属性と複雑なシナリオを備えた大規模合成ゲイトデータセット

VersatileGait: A Large-Scale Synthetic Gait Dataset with Fine-GrainedAttribut es and Complicated Scenarios ( http://arxiv.org/abs/2101.01394v1 )

ライセンス: Link先を確認
Huanzhang Dou, Wenhu Zhang, Pengyi Zhang, Yuhan Zhao, Songyuan Li, Zequn Qin, Fei Wu, Lin Dong, Xi Li(参考訳) 実用的な歩行認識アプリケーションの動機として,ゲームエンジンによる大規模合成歩行データセット(versatilegait)の自動作成を提案する。 限られたサンプルと単純なシナリオを持つ既存のリアルゲイトデータセットと比較して、提案されたVersatileGaitデータセットには、巨大なデータセットサイズ、高いサンプルの多様性、高品質アノテーション、マルチピッチ角、実際のデータセットとの小さなドメインギャップなど、いくつかの優れた特性がある。 さらに、データセットの有効性(事前トレーニング後のドメイン転送など)についても検討する。 次に,VersatileGaitの微粒化属性を用いて,精度と速度の両方で歩行認識を促進し,マルチピッチ角度設定で歩行認識性能を正当化する。 さらに,提案する多目的歩行の歩容認識における有用性と有用性を示す拡張実験を,関連する応用とともに実施する。 We will release both VersatileGait and its corresponding data generation Toolkit for further study。

With the motivation of practical gait recognition applications, we propose to automatically create a large-scale synthetic gait dataset (called VersatileGait) by a game engine, which consists of around one million silhouette sequences of 11,000 subjects with fine-grained attributes in various complicated scenarios. Compared with existing real gait datasets with limited samples and simple scenarios, the proposed VersatileGait dataset possesses several nice properties, including huge dataset size, high sample diversity, high-quality annotations, multi-pitch angles, small domain gap with the real one, etc. Furthermore, we investigate the effectiveness of our dataset (e.g., domain transfer after pretraining). Then, we use the fine-grained attributes from VersatileGait to promote gait recognition in both accuracy and speed, and meanwhile justify the gait recognition performance under multi-pitch angle settings. Additionally, we explore a variety of potential applications for research.Extensive experiments demonstrate the value and effective-ness of the proposed VersatileGait in gait recognition along with its associated applications. We will release both VersatileGait and its corresponding data generation toolkit for further studies.
翻訳日:2021-04-11 11:35:16 公開日:2021-01-05
# オンラインEMT補償のためのCycleGAN

CycleGAN for Interpretable Online EMT Compensation ( http://arxiv.org/abs/2101.01444v1 )

ライセンス: Link先を確認
Henry Krumb and Dhritimaan Das and Romol Chadda and Anirban Mukhopadhyay(参考訳) 目的:EMTは最小侵襲でX線誘導を部分的に置き換えることができ、ORの放射線を低減できる。 しかし、このハイブリッド環境では、EMTはX線装置による金属歪みに邪魔される。 EMTの誤差を補うことで,患者や外科医の放射線被曝を減らすためのハイブリッドナビゲーション臨床を計画する。 方法:我々のオンライン補償戦略は,サイクル一貫性のある生成対向ニューラルネットワーク(CycleGAN)を利用する。 3d位置は様々なベッドサイド環境からベンチ相当物に翻訳される。 ドメイン変換ポイントは、ベンチドメインのエラーを低減するために微調整される。 ファントム実験における補償手法の評価を行った。 結果: ドメイン翻訳手法は歪んだ点を実験室の等価点にマッピングするので, 予測は異なるCアーム環境間で一致している。 エラーはすべての評価環境でうまく低減される。 定性的ファントム実験は,我々のアプローチが目に見えないc-arm環境にうまく一般化することを示す。 結論: 敵対的かつサイクル一貫性のあるトレーニングは、オンラインエラー補償に対する説明可能で一貫性があり、解釈可能なアプローチである。 EMT誤差補償の質的評価は, 回転誤差補償法の可能性を示すものである。

Purpose: Electromagnetic Tracking (EMT) can partially replace X-ray guidance in minimally invasive procedures, reducing radiation in the OR. However, in this hybrid setting, EMT is disturbed by metallic distortion caused by the X-ray device. We plan to make hybrid navigation clinical reality to reduce radiation exposure for patients and surgeons, by compensating EMT error. Methods: Our online compensation strategy exploits cycle-consistent generative adversarial neural networks (CycleGAN). 3D positions are translated from various bedside environments to their bench equivalents. Domain-translated points are fine-tuned to reduce error in the bench domain. We evaluate our compensation approach in a phantom experiment. Results: Since the domain-translation approach maps distorted points to their lab equivalents, predictions are consistent among different C-arm environments. Error is successfully reduced in all evaluation environments. Our qualitative phantom experiment demonstrates that our approach generalizes well to an unseen C-arm environment. Conclusion: Adversarial, cycle-consistent training is an explicable, consistent and thus interpretable approach for online error compensation. Qualitative assessment of EMT error compensation gives a glimpse to the potential of our method for rotational error compensation.
翻訳日:2021-04-11 11:34:57 公開日:2021-01-05
# 犬皮膚腫瘍におけるbi-およびmulti-Nucleated tumor cellのデータセット

Dataset on Bi- and Multi-Nucleated Tumor Cells in Canine Cutaneous Mast Cell Tumors ( http://arxiv.org/abs/2101.01445v1 )

ライセンス: Link先を確認
Christof A. Bertram, Taryn A. Donovan, Marco Tecilla, Florian Bartenschlager, Marco Fragoso, Frauke Wilm, Christian Marzahl, Katharina Breininger, Andreas Maier, Robert Klopfleisch, Marc Aubreville(参考訳) 2つの核(biucleated cell, BiNC)以上の核(multinucleated cells, MuNC)を持つ腫瘍細胞は、腫瘍発生、腫瘍進展、治療抵抗性を促進すると考えられている細胞遺伝物質の増加を示す。 犬皮膚マスト細胞腫瘍 (ccMCT) では、二核化と多核化は、予後不良と相関する細胞学的および組織学的グレーディングスキームで用いられるパラメータである。 本研究では, BiNCの19,983点, MuNCの1,416点, ccMCTの32個の組織学的全スライド画像を用いた最初のオープンソースデータセットを構築した。 ラベルは病理学者とアルゴリズム支援ラベリングアプローチによって作成され、各候補の専門家によるレビューが行われた。 最先端のディープラーニングベースのモデルでは、BNCは0.675ドル、MNCは0.623ドル、全スライド画像は11点である。 これらの画像から抽出した関心領域(2.37 mm^2$)では,BiNCは0.270~0.526, MuNCは0.3160.622, MNCは0.667, MuNCは0.685であった。 このオープンデータセットは、このタスクの自動画像解析の開発を容易にし、組織学的腫瘍予後のこの側面の標準化を促進するのに役立つ。

Tumor cells with two nuclei (binucleated cells, BiNC) or more nuclei (multinucleated cells, MuNC) indicate an increased amount of cellular genetic material which is thought to facilitate oncogenesis, tumor progression and treatment resistance. In canine cutaneous mast cell tumors (ccMCT), binucleation and multinucleation are parameters used in cytologic and histologic grading schemes (respectively) which correlate with poor patient outcome. For this study, we created the first open source data-set with 19,983 annotations of BiNC and 1,416 annotations of MuNC in 32 histological whole slide images of ccMCT. Labels were created by a pathologist and an algorithmic-aided labeling approach with expert review of each generated candidate. A state-of-the-art deep learning-based model yielded an $F_1$ score of 0.675 for BiNC and 0.623 for MuNC on 11 test whole slide images. In regions of interest ($2.37 mm^2$) extracted from these test images, 6 pathologists had an object detection performance between 0.270 - 0.526 for BiNC and 0.316 - 0.622 for MuNC, while our model archived an $F_1$ score of 0.667 for BiNC and 0.685 for MuNC. This open dataset can facilitate development of automated image analysis for this task and may thereby help to promote standardization of this facet of histologic tumor prognostication.
翻訳日:2021-04-11 11:34:40 公開日:2021-01-05
# 深度誘導スキップ接続による新しいビュー合成

Novel View Synthesis via Depth-guided Skip Connections ( http://arxiv.org/abs/2101.01619v1 )

ライセンス: Link先を確認
Yuxin Hou, Arno Solin, Juho Kannala(参考訳) 一つのソースイメージを与えられたシーンの新たなビューを合成するための原則的アプローチを提案する。 従来の新しいビュー合成法は、画像ベースのレンダリング方法(例)に分けられる。 フロー予測)またはピクセル生成方法。 フロー予測により、ターゲットビューはピクセルを直接再利用できるが、容易に歪んだ結果をもたらすことができる。 直接回帰するピクセルは構造的に一貫した結果をもたらすが、一般的には低レベルの詳細が欠如している。 本稿では,エンコーダデコーダアーキテクチャを用いて,対象視の画素を回帰する。 詳細を維持するために、デコーダのアライメントされた特徴写像とスキップ接続を結合し、ターゲットビューの予測深度マップによってアライメントを導出する。 実験結果から,本手法は歪みに悩まされず,アライメントされたスキップ接続でテクスチャの詳細を保存できることがわかった。

We introduce a principled approach for synthesizing new views of a scene given a single source image. Previous methods for novel view synthesis can be divided into image-based rendering methods (e.g. flow prediction) or pixel generation methods. Flow predictions enable the target view to re-use pixels directly, but can easily lead to distorted results. Directly regressing pixels can produce structurally consistent results but generally suffer from the lack of low-level details. In this paper, we utilize an encoder-decoder architecture to regress pixels of a target view. In order to maintain details, we couple the decoder aligned feature maps with skip connections, where the alignment is guided by predicted depth map of the target view. Our experimental results show that our method does not suffer from distortions and successfully preserves texture details with aligned skip connections.
翻訳日:2021-04-11 11:34:14 公開日:2021-01-05
# 空間的注意が反復的6次元物体ポーズ推定を改善する

Spatial Attention Improves Iterative 6D Object Pose Estimation ( http://arxiv.org/abs/2101.01659v1 )

ライセンス: Link先を確認
Stefan Stevsic, Otmar Hilliges(参考訳) RGB画像からオブジェクトの6Dポーズを推定するタスクは、初期ポーズ推定ステップと、オブジェクトとその観察を正しく登録する精細化手順の2つの主要なステップに分割することができる。 本稿では,RGB画像からの6次元ポーズ推定補正手法を提案する。 最終的な推定値の精度を高めるためには、観測とレンダリングモデルを調整する必要がある。 我々の主な洞察は、最初のポーズ推定の後、アライメント中の推定精度を向上させるために、物体の異なる空間的特徴に注意を払うことが重要であることである。 さらに、画像に隠されたオブジェクトの部分は、アライメントプロセス中に、より少ない重量で与えられるべきである。 ほとんどの最先端の洗練されたアプローチは、このきめ細かい推論を許さず、問題の構造を完全に活用できない。 対照的に、ポーズリファインメント中の空間的詳細情報を特定し、活用する空間的注意機構を中心に構築された新しいニューラルネットワークアーキテクチャを提案する。 実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。 我々は6次元ポーズ推定のための標準ベンチマークデータセット(LineMODとOcclusion LineMOD)の実験を行い、従来の最先端手法よりも優れていた。

The task of estimating the 6D pose of an object from RGB images can be broken down into two main steps: an initial pose estimation step, followed by a refinement procedure to correctly register the object and its observation. In this paper, we propose a new method for 6D pose estimation refinement from RGB images. To achieve high accuracy of the final estimate, the observation and a rendered model need to be aligned. Our main insight is that after the initial pose estimate, it is important to pay attention to distinct spatial features of the object in order to improve the estimation accuracy during alignment. Furthermore, parts of the object that are occluded in the image should be given less weight during the alignment process. Most state-of-the-art refinement approaches do not allow for this fine-grained reasoning and can not fully leverage the structure of the problem. In contrast, we propose a novel neural network architecture built around a spatial attention mechanism that identifies and leverages information about spatial details during pose refinement. We experimentally show that this approach learns to attend to salient spatial features and learns to ignore occluded parts of the object, leading to better pose estimation across datasets. We conduct experiments on standard benchmark datasets for 6D pose estimation (LineMOD and Occlusion LineMOD) and outperform previous state-of-the-art methods.
翻訳日:2021-04-11 11:33:59 公開日:2021-01-05
# 高速ビデオセマンティックセグメンテーションのための局所記憶注意

Local Memory Attention for Fast Video Semantic Segmentation ( http://arxiv.org/abs/2101.01715v1 )

ライセンス: Link先を確認
Matthieu Paul, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) 本稿では,既存の単一フレームセマンティクスセグメンテーションモデルをビデオセマンティクスセグメンテーションパイプラインに変換するニューラルネットワークモジュールを提案する。 以前の作業とは対照的に、事実上任意の単一フレームアーキテクチャに統合可能なシンプルで一般的なモジュールを目指しています。 我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。 メモリに格納された情報は、アテンション機構を介してアクセスされる。 これにより、前のフレームから時間的な外観の手がかりが提供され、第2の注意ベースのモジュールを通して現在のフレームの符号化で融合される。 セグメンテーションデコーダは融合表現を処理し、最終的なセグメンテーションを予測する。 ERFNetとPSPNetの2つの一般的なセマンティックセグメンテーションネットワークに統合する。 都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。

We propose a novel neural network module that transforms an existing single-frame semantic segmentation model into a video semantic segmentation pipeline. In contrast to prior works, we strive towards a simple and general module that can be integrated into virtually any single-frame architecture. Our approach aggregates a rich representation of the semantic information in past frames into a memory module. Information stored in the memory is then accessed through an attention mechanism. This provides temporal appearance cues from prior frames, which are then fused with an encoding of the current frame through a second attention-based module. The segmentation decoder processes the fused representation to predict the final semantic segmentation. We integrate our approach into two popular semantic segmentation networks: ERFNet and PSPNet. We observe an improvement in segmentation performance on Cityscapes by 1.7% and 2.1% in mIoU respectively, while increasing inference time of ERFNet by only 1.5ms.
翻訳日:2021-04-11 11:32:58 公開日:2021-01-05
# Trear: Transformer-based RGB-D Egocentric Action Recognition

Trear: Transformer-based RGB-D Egocentric Action Recognition ( http://arxiv.org/abs/2101.03904v1 )

ライセンス: Link先を確認
Xiangyu Li and Yonghong Hou and Pichao Wang and Zhimin Gao and Mingliang Xu and Wanqing Li(参考訳) 本稿では,RGB-D \textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition frameworkであるTrearを提案する。 フレーム間アテンションエンコーダと相互アテンショナルフュージョンブロックの2つのモジュールで構成されている。 光フローやリカレントユニットの代わりに、異なるモードからのデータの時間構造をモデル化するための自己注意機構を採用する。 入力フレームはランダムにトリミングされ、データ冗長性の影響を軽減する。 各モードの特徴は、提案した融合ブロックを介して相互作用し、単純だが効果的な融合操作により結合されたRGB-D表現を生成する。 THU-READとFPHAという2つの大きなエゴセントリックなRGB-Dデータセットと、WCVSという小さなデータセットに関する実証実験により、提案手法は最先端の結果よりも大きなマージンで優れていることが示された。

In this paper, we propose a \textbf{Tr}ansformer-based RGB-D \textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition framework, called Trear. It consists of two modules, inter-frame attention encoder and mutual-attentional fusion block. Instead of using optical flow or recurrent units, we adopt self-attention mechanism to model the temporal structure of the data from different modalities. Input frames are cropped randomly to mitigate the effect of the data redundancy. Features from each modality are interacted through the proposed fusion block and combined through a simple yet effective fusion operation to produce a joint RGB-D representation. Empirical experiments on two large egocentric RGB-D datasets, THU-READ and FPHA, and one small dataset, WCVS, have shown that the proposed method outperforms the state-of-the-art results by a large margin.
翻訳日:2021-04-11 11:32:42 公開日:2021-01-05
# 階層型時系列のトレーニング可能な再構成法

A Trainable Reconciliation Method for Hierarchical Time-Series ( http://arxiv.org/abs/2101.01329v1 )

ライセンス: Link先を確認
Davide Burba, Trista Chen(参考訳) 多くのアプリケーションでは、異なる階層レベルで複数の時系列の予測を生成する必要がある。 明らかな例として、需要予測が店、市、国レベルで必要となるサプライチェーンが挙げられる。 独立した予測は通常、階層的な制約のために適切に加算されないため、和解のステップが必要である。 本稿では,エンコーダ-デコーダニューラルネットワークに基づく汎用的,柔軟な,実装が容易な和解戦略を提案する。 実世界の4つのデータセット上で本手法をテストすることにより,和解設定における既存手法の性能を継続的に到達または超えることを示す。

In numerous applications, it is required to produce forecasts for multiple time-series at different hierarchy levels. An obvious example is given by the supply chain in which demand forecasting may be needed at a store, city, or country level. The independent forecasts typically do not add up properly because of the hierarchical constraints, so a reconciliation step is needed. In this paper, we propose a new general, flexible, and easy-to-implement reconciliation strategy based on an encoder-decoder neural network. By testing our method on four real-world datasets, we show that it can consistently reach or surpass the performance of existing methods in the reconciliation setting.
翻訳日:2021-04-11 11:32:26 公開日:2021-01-05
# DBMSクエリオプティマイザの強化に関する調査研究:心拍数推定,コストモデル,計画列挙

A Survey on Advancing the DBMS Query Optimizer: Cardinality Estimation, Cost Model, and Plan Enumeration ( http://arxiv.org/abs/2101.01507v1 )

ライセンス: Link先を確認
Hai Lan, Zhifeng Bao, Yuwei Peng(参考訳) クエリオプティマイザはデータベースシステムの中心にあります。 本稿では, ほぼすべてのデータベースシステムにおいて, コストベースオプティマイザが採用されている。 コストベースのオプティマイザは、(サブ)プランを見つけるためにプラン列挙アルゴリズムを導入し、そのプランのコストを取得するためにコストモデルを使用し、最小コストでプランを選択する。 コストモデルでは、演算子によるタプルの数である濃度が重要な役割を果たす。 基数推定の不正確さ、コストモデルにおける誤差、および巨大な計画空間のため、最適化器は複雑なクエリに対する最適な実行計画を見出すことができない。 本稿では,まず,上記の制限の背景にある原因について深く研究する。 次に,コストベースのオプティマイザ,濃度推定,コストモデル,計画列挙における3つの重要なコンポーネントの品質向上手法について検討する。 また、上記各側面の今後の方向性についての洞察も提供します。

Query optimizer is at the heart of the database systems. Cost-based optimizer studied in this paper is adopted in almost all current database systems. A cost-based optimizer introduces a plan enumeration algorithm to find a (sub)plan, and then uses a cost model to obtain the cost of that plan, and selects the plan with the lowest cost. In the cost model, cardinality, the number of tuples through an operator, plays a crucial role. Due to the inaccuracy in cardinality estimation, errors in cost model, and the huge plan space, the optimizer cannot find the optimal execution plan for a complex query in a reasonable time. In this paper, we first deeply study the causes behind the limitations above. Next, we review the techniques used to improve the quality of the three key components in the cost-based optimizer, cardinality estimation, cost model, and plan enumeration. We also provide our insights on the future directions for each of the above aspects.
翻訳日:2021-04-11 11:31:59 公開日:2021-01-05
# 反復的信念変化に対応する動的選好論理:表現結果と特徴付け

Dynamic Preference Logic meets Iterated Belief Change: Representation Results and Postulates Characterization ( http://arxiv.org/abs/2101.01676v1 )

ライセンス: Link先を確認
Marlo Souza, \'Alvaro Moreira, Renata Vieira(参考訳) agmの信条改正は信条変更操作の研究における主要なパラダイムの1つである。 近年,信念と情報変化の論理が文献で提案され,豊かで表現力豊かなセマンティック・フレームワークにおける信念変化操作の符号化に利用されている。 セガーバーグの研究により、AGMのような操作と動的ドキサスティック論理のエンコーディングの関連性は以前にも研究されてきたが、DEL(Dynamic Epistemic Logics)の領域に関するほとんどの研究は、我々の知る限り、これらの論理を信念変化演算子の数学的性質を研究するためのツールとして利用しようとはしなかった。 本研究では,delファミリーの論理である動的選好論理を,反復的信念変化の有名な仮定に注目して,動的信念変化演算子の特性について研究する。

AGM's belief revision is one of the main paradigms in the study of belief change operations. Recently, several logics for belief and information change have been proposed in the literature and used to encode belief change operations in rich and expressive semantic frameworks. While the connections of AGM-like operations and their encoding in dynamic doxastic logics have been studied before by the work of Segerberg, most works on the area of Dynamic Epistemic Logics (DEL) have not, to our knowledge, attempted to use those logics as tools to investigate mathematical properties of belief change operators. This work investigates how Dynamic Preference Logic, a logic in the DEL family, can be used to study properties of dynamic belief change operators, focusing on well-known postulates of iterated belief change.
翻訳日:2021-04-11 11:31:42 公開日:2021-01-05
# 深層学習に基づく呼吸音分析モデル学習のための呼吸音ラベル作成ソフトウェアの開発

Development of a Respiratory Sound Labeling Software for Training a Deep Learning-Based Respiratory Sound Analysis Model ( http://arxiv.org/abs/2101.01352v1 )

ライセンス: Link先を確認
Fu-Shun Hsu, Chao-Jung Huang, Chen-Yi Kuo, Shang-Ran Huang, Yuan-Ren Cheng, Jia-Horng Wang, Yi-Lin Wu, Tzu-Ling Tzeng, Feipei Lai(参考訳) 呼吸のオースカルトレーションは、医療従事者が奇抜な肺音が聞こえた時に呼吸異常を検出するのに役立つ。 ディープラーニングに基づく最先端の人工知能技術は、呼吸音の自動分析の開発において大きな可能性を秘めている。 深層学習に基づくモデルのトレーニングには、正常な呼吸音と冒険的な音の正確なラベルが必要となる。 本稿では, 吸気, 吸気, 緊急呼吸音をより正確に, 迅速に識別し, ラベル付けするための呼吸音ラベルソフトウェアの開発を実証する。 我々のラベルソフトウェアはMATLAB Audio Labelerと商用オーディオエディタRX7の6つの機能を統合している。 2019年10月現在, 呼吸肺音の15秒間のオーディオファイル9,765件, 吸入ラベル34,095件, 吸入ラベル18,349件, 連続無呼吸音13,883件, 不連続無呼吸音15,606件を収録している。 これらのラベルに基づいてトレーニングされた畳み込みリカレントニューラルネットワークは、吸入イベント検出のF1スコア86.0%、CAS検出の51.6%、DAS検出の71.4%で良好な性能を示した。 その結果,提案する呼吸音ラベリングソフトウェアはラベルを事前に定義し,ワンクリックラベリングを行うことが容易であり,全体として正確なラベリングのプロセスが容易であることがわかった。 このソフトウェアは、大量のラベル付き音響データを必要とするディープラーニングベースのモデルの開発を支援する。

Respiratory auscultation can help healthcare professionals detect abnormal respiratory conditions if adventitious lung sounds are heard. The state-of-the-art artificial intelligence technologies based on deep learning show great potential in the development of automated respiratory sound analysis. To train a deep learning-based model, a huge number of accurate labels of normal breath sounds and adventitious sounds are needed. In this paper, we demonstrate the work of developing a respiratory sound labeling software to help annotators identify and label the inhalation, exhalation, and adventitious respiratory sound more accurately and quickly. Our labeling software integrates six features from MATLAB Audio Labeler, and one commercial audio editor, RX7. As of October, 2019, we have labeled 9,765 15-second-long audio files of breathing lung sounds, and accrued 34,095 inhalation labels,18,349 exhalation labels, 13,883 continuous adventitious sounds (CASs) labels and 15,606 discontinuous adventitious sounds (DASs) labels, which are significantly larger than previously published studies. The trained convolutional recurrent neural networks based on these labels showed good performance with F1-scores of 86.0% on inhalation event detection, 51.6% on CASs event detection and 71.4% on DASs event detection. In conclusion, our results show that our proposed respiratory sound labeling software could easily pre-define a label, perform one-click labeling, and overall facilitate the process of accurately labeling. This software helps develop deep learning-based models that require a huge amount of labeled acoustic data.
翻訳日:2021-04-11 11:31:11 公開日:2021-01-05
# CLOI: 産業施設の幾何学的デジタル双対生成のための自動ベンチマークフレームワーク

CLOI: An Automated Benchmark Framework For Generating Geometric Digital Twins Of Industrial Facilities ( http://arxiv.org/abs/2101.01355v1 )

ライセンス: Link先を確認
Eva Agapaki and Ioannis Brilakis(参考訳) 本稿では,既存の産業施設の最も重要な形状の個々のラベル付きポイントクラスタを,汎用的な点レベルフォーマットで最小限の手作業で正確に生成する,CLOIという新しいフレームワークを考案し,実装し,ベンチマークする。 CLOIはディープラーニングと幾何学的手法を組み合わせて、ポイントをクラスと個々のインスタンスに分割する。 現在の商用ソフトウェアにおけるポイントクラウドデータからの幾何学的デジタルツイン生成は、面倒で手作業のプロセスである。 CLOIフレームワークを用いた実験により, 工業施設の複雑・不完全点雲を確実に分断でき, 82%の分画精度が得られることがわかった。 現在の実施状況と比較すると,提案手法は平均30%の時間節約を実現することができる。 CLOIは、工場の最も重要なオブジェクトに対して幾何学的デジタルツインニングを達成した最初のフレームワークである。 これは、構築された環境のセマンティックに富んだデジタル双生児の生成に関するさらなる研究の基礎を提供する。

This paper devises, implements and benchmarks a novel framework, named CLOI, that can accurately generate individual labelled point clusters of the most important shapes of existing industrial facilities with minimal manual effort in a generic point-level format. CLOI employs a combination of deep learning and geometric methods to segment the points into classes and individual instances. The current geometric digital twin generation from point cloud data in commercial software is a tedious, manual process. Experiments with our CLOI framework reveal that the method can reliably segment complex and incomplete point clouds of industrial facilities, yielding 82% class segmentation accuracy. Compared to the current state-of-practice, the proposed framework can realize estimated time-savings of 30% on average. CLOI is the first framework of its kind to have achieved geometric digital twinning for the most important objects of industrial factories. It provides the foundation for further research on the generation of semantically enriched digital twins of the built environment.
翻訳日:2021-04-11 11:30:40 公開日:2021-01-05
# 画像テキストマッチングのための類似性推論とフィルタリング

Similarity Reasoning and Filtration for Image-Text Matching ( http://arxiv.org/abs/2101.01368v1 )

ライセンス: Link先を確認
Haiwen Diao, Ying Zhang, Lin Ma, Huchuan Lu(参考訳) 画像テキストマッチングは視覚と言語をブリッジする上で重要な役割を担い、画像と文のグローバルなアライメント、あるいは領域と単語間の局所的なアライメントを活用することで大きな進歩を遂げた。 しかし、より正確なマッチングスコアを推測するためにこれらのアライメントを最大限に活用する方法はまだ未検討である。 本稿では,画像テキストマッチングのための新しい類似グラフ推論と注意フィルタリング(sgraf)ネットワークを提案する。 具体的には、ベクトルに基づく類似性表現をまず学習し、より包括的に局所的および大域的アライメントを特徴付け、次に1つのグラフ畳み込みニューラルネットワークに依存する類似性グラフ推論(sgr)モジュールを導入し、局所的および大域的アライメントの両方との関係認識類似性を推定する。 similarity Attention Filtration (SAF)モジュールはさらに、重要なアライメントと代表アライメントを選択的に参加させ、非意味なアライメントの干渉を脇に配置することで、これらのアライメントを効果的に統合するために開発されている。 Flickr30K と MSCOCO のデータセット上での最先端性能と,SGR および SAF モジュールの定性的実験と解析による良好な解釈性を示す。

Image-text matching plays a critical role in bridging the vision and language, and great progress has been made by exploiting the global alignment between image and sentence, or local alignments between regions and words. However, how to make the most of these alignments to infer more accurate matching scores is still underexplored. In this paper, we propose a novel Similarity Graph Reasoning and Attention Filtration (SGRAF) network for image-text matching. Specifically, the vector-based similarity representations are firstly learned to characterize the local and global alignments in a more comprehensive manner, and then the Similarity Graph Reasoning (SGR) module relying on one graph convolutional neural network is introduced to infer relation-aware similarities with both the local and global alignments. The Similarity Attention Filtration (SAF) module is further developed to integrate these alignments effectively by selectively attending on the significant and representative alignments and meanwhile casting aside the interferences of non-meaningful alignments. We demonstrate the superiority of the proposed method with achieving state-of-the-art performances on the Flickr30K and MSCOCO datasets, and the good interpretability of SGR and SAF modules with extensive qualitative experiments and analyses.
翻訳日:2021-04-11 11:30:23 公開日:2021-01-05
# 3次元CNNアーキテクチャにおける自動ハードマイニングによる脳腫瘍分離と生存予測

Brain Tumor Segmentation and Survival Prediction using Automatic Hard mining in 3D CNN Architecture ( http://arxiv.org/abs/2101.01546v1 )

ライセンス: Link先を確認
Vikas Kumar Anand, Sanjeev Grampurohit, Pranav Aurangabadkar, Avinash Kori, Mahendra Khened, Raghavendra S Bhat, Ganapathy Krishnamurthi(参考訳) 我々は3次元完全畳み込みニューラルネットワーク(CNN)を用いて、マルチモーダル磁気共鳴画像(MRI)からグリオーマとその構成成分を抽出する。 このアーキテクチャは、重みと残留接続の数を減らすために密結合パターンを使用し、brats 2018データセットでトレーニングした重みで初期化される。 シース類似度係数(DSC)の閾値を高めて、エポックの増加に伴ってハードケースを選択することにより、セグメンテーションタスクの難しいケースの訓練を行う。 BraTS2020の検証データ(n = 125)では,腫瘍コア,全腫瘍,活性腫瘍サイス0.744,0.876,0.714を達成した。 テストデータセットでは,腫瘍コアと活性腫瘍のDSCを約7%増加させた。 DSCでは,BraTS 2020テストデータのネットワーク性能は0.775,0.815,0.85で,腫瘍,腫瘍コア,腫瘍全体を増強する。 生成したセグメンテーションマスクを用いて得られたレジオミクス特徴から従来の機械学習を用いて被験者の全体的な生存率を決定する。 検証およびテストデータセットの精度は0.448および0.452である。

We utilize 3-D fully convolutional neural networks (CNN) to segment gliomas and its constituents from multimodal Magnetic Resonance Images (MRI). The architecture uses dense connectivity patterns to reduce the number of weights and residual connections and is initialized with weights obtained from training this model with BraTS 2018 dataset. Hard mining is done during training to train for the difficult cases of segmentation tasks by increasing the dice similarity coefficient (DSC) threshold to choose the hard cases as epoch increases. On the BraTS2020 validation data (n = 125), this architecture achieved a tumor core, whole tumor, and active tumor dice of 0.744, 0.876, 0.714,respectively. On the test dataset, we get an increment in DSC of tumor core and active tumor by approximately 7%. In terms of DSC, our network performances on the BraTS 2020 test data are 0.775, 0.815, and 0.85 for enhancing tumor, tumor core, and whole tumor, respectively. Overall survival of a subject is determined using conventional machine learning from rediomics features obtained using a generated segmentation mask. Our approach has achieved 0.448 and 0.452 as the accuracy on the validation and test dataset.
翻訳日:2021-04-11 11:29:30 公開日:2021-01-05
# 単一準備型教師なし量子機械学習:概念と応用

Single-preparation unsupervised quantum machine learning: concepts and applications ( http://arxiv.org/abs/2101.01442v1 )

ライセンス: Link先を確認
Yannick Deville, Alain Deville(参考訳) 機械学習」という言葉は特に、マッピングを導出するアルゴリズムを指す。 intput/output変換は、考慮された変換に関する情報を提供する数値データを使用する。 これらの変換は、分類/クラスタリング、回帰、システム識別、システム反転、入力信号の復元/分離など、多くの問題に現れる。 ここでは、これらすべての問題、古典的および量子的フレームワーク間の関係をまず分析する。 次に、量子データおよび/または量子処理手段を含む最も困難なバージョン、すなわち教師なしバージョンに焦点を当てます。 盲目 学習 さらに,sipqip(single-prepa ration quantum information processing)の一般概念を提案する。 結果として得られたメソッドは各状態の単一のインスタンスのみを必要とするが、通常のメソッドは各固定状態のコピーを非常に正確に生成する必要がある。 我々は,SIPQIPの概念を,システム同定(盲点量子プロセストモグラフィ,盲点ハミルトンパラメータ推定,BHPE,盲点量子チャネル同定・推定,盲点位相推定),システム反転と状態推定(盲点量子ソース分離,BQSS,盲点量子チャネル等化,盲点量子チャネル等化),分類など,様々なタスクに適用する。 また, 数値実験により, 標準多重準備法よりも精度の高い推定が可能となった。 bqssとbqsrは量子レジスタに格納されている状態を変化させる非理想性を補うために使用される量子ゲートの設計を可能にし、より一般的な自己適応型量子ゲートの概念への道を開く(論文のより長いバージョンの抽象版を参照)。

The term "machine learning" especially refers to algorithms that derive mappings, i.e. intput/output transforms, by using numerical data that provide information about considered transforms. These transforms appear in many problems, related to classification/clust ering, regression, system identification, system inversion and input signal restoration/separati on. We here first analyze the connections between all these problems, in the classical and quantum frameworks. We then focus on their most challenging versions, involving quantum data and/or quantum processing means, and unsupervised, i.e. blind, learning. Moreover, we propose the quite general concept of SIngle-Preparation Quantum Information Processing (SIPQIP). The resulting methods only require a single instance of each state, whereas usual methods have to very accurately create many copies of each fixed state. We apply our SIPQIP concept to various tasks, related to system identification (blind quantum process tomography or BQPT, blind Hamiltonian parameter estimation or BHPE, blind quantum channel identification/estim ation, blind phase estimation), system inversion and state estimation (blind quantum source separation or BQSS, blind quantum entangled state restoration or BQSR, blind quantum channel equalization) and classification. Numerical tests show that our framework moreover yields much more accurate estimation than the standard multiple-preparation approach. Our methods are especially useful in a quantum computer, that we propose to more briefly call a "quamputer": BQPT and BHPE simplify the characterization of the gates of quamputers; BQSS and BQSR allow one to design quantum gates that may be used to compensate for the non-idealities that alter states stored in quantum registers, and they open the way to the much more general concept of self-adaptive quantum gates (see longer version of abstract in paper).
翻訳日:2021-04-11 11:29:09 公開日:2021-01-05
# エネルギー時系列に対するデータ駆動コピーペーストインプテーション

Data-Driven Copy-Paste Imputation for Energy Time Series ( http://arxiv.org/abs/2101.01423v1 )

ライセンス: Link先を確認
Moritz Weber, Marian Turowski, H\"useyin K. \c{C}akmak, Ralf Mikut, Uwe K\"uhnapfel, Veit Hagenmeyer(参考訳) スマートグリッドへの世界的移行の基盤は、スマートメーターである。 スマートメータは通常、グリッドシミュレーション、障害検出、負荷予測、負荷分析、負荷管理など、さまざまなアプリケーションで不可欠なエネルギー時系列を収集して提供します。 残念ながら、これらの時系列はデータを使用する前に処理しなければならない値の欠如によって特徴づけられることが多い。 時系列における欠落値を扱う一般的なアプローチはインプテーションである。 しかし、既存の計算法はパワータイムシリーズ用に設計されており、ギャップの総エネルギーを考慮していないため、エネルギータイムシリーズを計算する際にはジャンプや一定シフトが発生する。 本稿では,これらの問題を克服するために,エネルギ時系列に対する新しいCPI法を提案する。 CPI法は、同様の特性を持つデータブロックをコピーし、各ギャップの総エネルギーを保持しながら時系列のギャップに貼り付ける。 提案手法は,人工的に挿入された6つの欠落値の共有を1~30%含む実世界のデータセットで評価する。 比較のために選択された3つのベンチマークインプテーションメソッドをはるかに上回っている。 比較の結果,cpi法ではマッチングパターンを用い,各ギャップの総エネルギーを適度な実行時間のみに保ちながら保存できることがわかった。

A cornerstone of the worldwide transition to smart grids are smart meters. Smart meters typically collect and provide energy time series that are vital for various applications, such as grid simulations, fault-detection, load forecasting, load analysis, and load management. Unfortunately, these time series are often characterized by missing values that must be handled before the data can be used. A common approach to handle missing values in time series is imputation. However, existing imputation methods are designed for power time series and do not take into account the total energy of gaps, resulting in jumps or constant shifts when imputing energy time series. In order to overcome these issues, the present paper introduces the new Copy-Paste Imputation (CPI) method for energy time series. The CPI method copies data blocks with similar properties and pastes them into gaps of the time series while preserving the total energy of each gap. The new method is evaluated on a real-world dataset that contains six shares of artificially inserted missing values between 1 and 30%. It outperforms by far the three benchmark imputation methods selected for comparison. The comparison furthermore shows that the CPI method uses matching patterns and preserves the total energy of each gap while requiring only a moderate run-time.
翻訳日:2021-04-11 11:27:21 公開日:2021-01-05
# ExploitDBポストからの抽出要約によるインフォームティブCVE記述の生成

Generating Informative CVE Description From ExploitDB Posts by Extractive Summarization ( http://arxiv.org/abs/2101.01431v1 )

ライセンス: Link先を確認
Jiamou Sun, Zhenchang Xing, Hao Guo, Deheng Ye, Xiaohong Li, Xiwei Xu, Liming Zhu(参考訳) ExploitDBは、公式CVEデータベースに多数の脆弱性を貢献する重要な公開Webサイトの1つである。 これらの脆弱性の60\%以上がセキュリティ上のリスクが高い。 残念なことに、73%以上のエクスプロイトが対応するCVEよりも公に早く現れており、約40%のエクスプロイトはCVEを持っていない。 ExploitDBポストのCVEの文書化を支援するために,提案するオープンインフォメーション手法は,動詞とノイズの多いExpploitDBポストから,9つの重要な脆弱性側面(脆弱性タイプ,ベンダー,アタッカータイプ,根本原因,攻撃ベクトルおよび影響)を抽出するものである。 ExploitDBポストから抽出されたアスペクトは、提案されたCVE記述テンプレートに従ってCVE記述に構成される。 手動ラベル付き13,017文の評価と抽出された3,456文の統計的サンプリングを行い,その抽出精度を確認した。 27,230の参照CVE記述と比較する。 構成したcve記述はテキスト要約法を評価するための最長の共通部分列ベースメトリクスであるhigh rough-l (0.38) を達成する。

ExploitDB is one of the important public websites, which contributes a large number of vulnerabilities to official CVE database. Over 60\% of these vulnerabilities have high- or critical-security risks. Unfortunately, over 73\% of exploits appear publicly earlier than the corresponding CVEs, and about 40\% of exploits do not even have CVEs. To assist in documenting CVEs for the ExploitDB posts, we propose an open information method to extract 9 key vulnerability aspects (vulnerable product/version/comp onent, vulnerability type, vendor, attacker type, root cause, attack vector and impact) from the verbose and noisy ExploitDB posts. The extracted aspects from an ExploitDB post are then composed into a CVE description according to the suggested CVE description templates, which is must-provided information for requesting new CVEs. Through the evaluation on 13,017 manually labeled sentences and the statistically sampling of 3,456 extracted aspects, we confirm the high accuracy of our extraction method. Compared with 27,230 reference CVE descriptions. Our composed CVE descriptions achieve high ROUGH-L (0.38), a longest common subsequence based metric for evaluating text summarization methods.
翻訳日:2021-04-11 11:27:01 公開日:2021-01-05
# 都市大気汚染シミュレーションの低次モデルに対する逆学習LSTM

Adversarially trained LSTMs on reduced order models of urban air pollution simulations ( http://arxiv.org/abs/2101.01568v1 )

ライセンス: Link先を確認
C\'esar Quilodr\'an-Casas, Rossella Arcucci, Christopher Pain, Yike Guo(参考訳) 本稿では,深層学習を用いた大気汚染予測の数値流体力学シミュレーションの改善手法を提案する。 本手法は,主成分分析 (PCA) と敵対的学習を統合し,元のモデル解から得られた縮小順序モデルの予測能力を向上させる手法である。 PCAを介してリダクションオーダーモデル(ROM)が得られると、Long Short-Term Memory Network(LSTM)がROM上で逆向きにトレーニングされて予測を行う。 訓練されたLSTMは、古典的な方法で訓練されたLSTMよりも優れている。 研究エリアはロンドンにあり、交通渋滞のジャンクションを再現する速度と集中トレーサが含まれている。 この逆向きに訓練されたLSTMベースのアプローチは、大気汚染トレーサのより高速な予測を生成するためにROM上で使用される。

This paper presents an approach to improve computational fluid dynamics simulations forecasts of air pollution using deep learning. Our method, which integrates Principal Components Analysis (PCA) and adversarial training, is a way to improve the forecast skill of reduced order models obtained from the original model solution. Once the reduced-order model (ROM) is obtained via PCA, a Long Short-Term Memory network (LSTM) is adversarially trained on the ROM to make forecasts. Once trained, the adversarially trained LSTM outperforms a LSTM trained in a classical way. The study area is in London, including velocities and a concentration tracer that replicates a busy traffic junction. This adversarially trained LSTM-based approach is used on the ROM in order to produce faster forecasts of the air pollution tracer.
翻訳日:2021-04-11 11:26:34 公開日:2021-01-05
# RGBD屋内ロボットナビゲーションのための強化学習のためのA*カリキュラムアプローチ

An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor Robot Navigation ( http://arxiv.org/abs/2101.01774v1 )

ライセンス: Link先を確認
Kaushik Balakrishnan, Punarjay Chakravarty, Shubham Shrivastava(参考訳) 多様な環境をナビゲートするためのロボットの訓練は、マッピングやローカライゼーションといった複数の異なる知覚タスクの合流と、最適な経路計画と制御を伴う、難しい問題である。 エージェントはDeep Reinforcement Learning(DRL)を使用して、カメライメージから直接エンドツーエンドで制御出力に回帰する。 これはデータ非効率で、GPUでトレーニングするのに数日かかります。 本稿では,ニューラルネットワークの認識と制御の訓練を分離し,カリキュラムアプローチを用いて経路の複雑さを徐々に増大させることにより,この問題を克服しようとする。 具体的には、事前訓練された双子の変分オートエンコーダ(VAE)を用いて環境からのRGBD(RGB & depth)センシングを遅延埋め込みに圧縮し、DRLベースの制御ポリシーをトレーニングする。 A*は、従来のパスプランナをポリシーのガイドとして使用し、トレーニングが進むにつれて、A*経路に沿って開始位置と目標位置の距離が漸増する。 本研究では,提案手法の有効性を,居住環境におけるpointnavタスクの訓練時間の短縮と性能向上の両面から実証する。 直感に基づくDRLナビゲーションポリシーのトレーニングを改善するこの戦略は、工場フロアのコボットやラストマイル配送ロボットといった産業に特に関心を持つロボットの展開を加速させるものと期待されている。

Training robots to navigate diverse environments is a challenging problem as it involves the confluence of several different perception tasks such as mapping and localization, followed by optimal path-planning and control. Recently released photo-realistic simulators such as Habitat allow for the training of networks that output control actions directly from perception: agents use Deep Reinforcement Learning (DRL) to regress directly from the camera image to a control output in an end-to-end fashion. This is data-inefficient and can take several days to train on a GPU. Our paper tries to overcome this problem by separating the training of the perception and control neural nets and increasing the path complexity gradually using a curriculum approach. Specifically, a pre-trained twin Variational AutoEncoder (VAE) is used to compress RGBD (RGB & depth) sensing from an environment into a latent embedding, which is then used to train a DRL-based control policy. A*, a traditional path-planner is used as a guide for the policy and the distance between start and target locations is incrementally increased along the A* route, as training progresses. We demonstrate the efficacy of the proposed approach, both in terms of increased performance and decreased training times for the PointNav task in the Habitat simulation environment. This strategy of improving the training of direct-perception based DRL navigation policies is expected to hasten the deployment of robots of particular interest to industry such as co-bots on the factory floor and last-mile delivery robots.
翻訳日:2021-04-11 11:26:21 公開日:2021-01-05
# 動的凸集合を用いた合成予測市場の設計と解析

Design and Analysis of a Synthetic Prediction Market using Dynamic Convex Sets ( http://arxiv.org/abs/2101.01787v1 )

ライセンス: Link先を確認
Nishanth Nakshatri and Arjun Menon and C. Lee Giles and Sarah Rajtmajer and Christopher Griffin(参考訳) 本稿では,特徴空間で定義される凸半代数集合のsgmoid変換を用いてエージェント購入論理を定義する合成予測市場を提案する。 資産価格は対数採点市場規則によって決定される。 資産価格の時間変化は、時間変動エージェント購入ルールにつながる半代数集合の構造に影響する。 基礎となる幾何学的前提の下では、結果として生じる合成予測市場は、入力データの集合上で定義された二項関数を任意に近似することができる。 また、市場収束のための十分な条件を提供し、特定のインスタンスにおいて、市場が資産スポット価格のリミットサイクルを示すことができることを示す。 市場が所定のデータセットの分布をモデル化できるようにエージェントパラメータを訓練するための進化的アルゴリズムを提供し、2つのオープンソースデータセットを用いて市場近似を示す。 結果は標準的な機械学習手法と比較される。

We present a synthetic prediction market whose agent purchase logic is defined using a sigmoid transformation of a convex semi-algebraic set defined in feature space. Asset prices are determined by a logarithmic scoring market rule. Time varying asset prices affect the structure of the semi-algebraic sets leading to time-varying agent purchase rules. We show that under certain assumptions on the underlying geometry, the resulting synthetic prediction market can be used to arbitrarily closely approximate a binary function defined on a set of input data. We also provide sufficient conditions for market convergence and show that under certain instances markets can exhibit limit cycles in asset spot price. We provide an evolutionary algorithm for training agent parameters to allow a market to model the distribution of a given data set and illustrate the market approximation using two open source data sets. Results are compared to standard machine learning methods.
翻訳日:2021-04-11 11:25:54 公開日:2021-01-05
# 深部強化学習と展開:レンズアレイを用いたミリ波マルチユーザMIMOのビーム選択とプリコーディング

Joint Deep Reinforcement Learning and Unfolding: Beam Selection and Precoding for mmWave Multiuser MIMO with Lens Arrays ( http://arxiv.org/abs/2101.01336v1 )

ライセンス: Link先を確認
Qiyu Hu, Yanzhen Liu, Yunlong Cai, Guanding Yu, and Zhi Ding(参考訳) ミリ波マルチユーザマルチ入力多重出力 (mu-mimo) システムと離散型レンズアレイ (dla) は、その単純なハードウェア実装と優れた性能により大きな注目を集めている。 本研究では,DLAを用いたミリ波MU-MIMOシステムにおけるビーム選択とディジタルプリコーディング行列の結合設計について検討し,送信電力制約と選択行列構造の制約を最大化する。 離散変数と結合制約を持つ非凸問題の研究は解決が困難であり,それに取り組むために結合ニューラルネットワーク(NN)設計の効率的な枠組みを提案する。 具体的には,深部強化学習(DRL)に基づくNNと,ビーム選択とディジタルプリコーディング行列の最適化に使用される深部展開NNから構成される。 DRLに基づくNNでは、ビーム選択問題をマルコフ決定プロセスとして定式化し、その問題を解決するために二重深度Q-ネットワークアルゴリズムを開発した。 基地局は、国家、行動、報酬機能を慎重に設計するエージェントであると考えられている。 ディジタルプリコーディングマトリクスの設計について,反復重み付き最小平均二乗誤差アルゴリズムによるディープアンフォールディングnnを開発し,このアルゴリズムを学習可能なパラメータを導入した階層構造に展開する。 シミュレーションの結果、nnは、複雑さと強固なロバスト性によって、既存の反復アルゴリズムを著しく上回っていることが証明された。

The millimeter wave (mmWave) multiuser multiple-input multiple-output (MU-MIMO) systems with discrete lens arrays (DLA) have received great attention due to their simple hardware implementation and excellent performance. In this work, we investigate the joint design of beam selection and digital precoding matrices for mmWave MU-MIMO systems with DLA to maximize the sum-rate subject to the transmit power constraint and the constraints of the selection matrix structure. The investigated non-convex problem with discrete variables and coupled constraints is challenging to solve and an efficient framework of joint neural network (NN) design is proposed to tackle it. Specifically, the proposed framework consists of a deep reinforcement learning (DRL)-based NN and a deep-unfolding NN, which are employed to optimize the beam selection and digital precoding matrices, respectively. As for the DRL-based NN, we formulate the beam selection problem as a Markov decision process and a double deep Q-network algorithm is developed to solve it. The base station is considered to be an agent, where the state, action, and reward function are carefully designed. Regarding the design of the digital precoding matrix, we develop an iterative weighted minimum mean-square error algorithm induced deep-unfolding NN, which unfolds this algorithm into a layerwise structure with introduced trainable parameters. Simulation results verify that this jointly trained NN remarkably outperforms the existing iterative algorithms with reduced complexity and stronger robustness.
翻訳日:2021-04-11 11:25:41 公開日:2021-01-05
# Het-node2vec:不均一多グラフ埋め込みのための2次ランダムウォークサンプリング

Het-node2vec: second order random walk sampling for heterogeneous multigraphs embedding ( http://arxiv.org/abs/2101.01425v1 )

ライセンス: Link先を確認
Giorgio Valentini and Elena Casiraghi and Luca Cappelletti and Vida Ravanmehr and Tommaso Fontana and Justin Reese and Peter Robinson(参考訳) 本稿では,ノード近傍サンプリング法を異種マルチグラフに拡張するアルゴリズム(Het-node2vec)を提案する。 複数種類のノードとエッジによって特徴づけられるネットワーク。 その結果得られたランダムウォークサンプルは、グラフの構造的特徴と異なる種類のノードとエッジのセマンティクスの両方をキャプチャする。 提案するアルゴリズムは、特定のノードやエッジタイプに注目して、調査中の予測問題に関心のある未表示のノード/エッジタイプに対する正確な表現を可能にする。 これらの豊かでよく焦点を絞った表現は、異種グラフの教師なしおよび教師なしの学習を促進することができる。

We introduce a set of algorithms (Het-node2vec) that extend the original node2vec node-neighborhood sampling method to heterogeneous multigraphs, i.e. networks characterized by multiple types of nodes and edges. The resulting random walk samples capture both the structural characteristics of the graph and the semantics of the different types of nodes and edges. The proposed algorithms can focus their attention on specific node or edge types, allowing accurate representations also for underrepresented types of nodes/edges that are of interest for the prediction problem under investigation. These rich and well-focused representations can boost unsupervised and supervised learning on heterogeneous graphs.
翻訳日:2021-04-11 11:25:15 公開日:2021-01-05
# オンライン多価学習:手段、モーメント、予測間隔

Online Multivalid Learning: Means, Moments, and Prediction Intervals ( http://arxiv.org/abs/2101.01739v1 )

ライセンス: Link先を確認
Varun Gupta, Christopher Jung, Georgy Noarov, Mallesh M. Pai, Aaron Roth(参考訳) 本稿では,様々な意味で"多値"である文脈予測を,オンラインで選択した例$(x,y)$ に対して,汎用的かつ効率的な手法を提案する。 これは、結果の見積もりが、例の列で平均されるように、ラベルの様々な統計値$y$を正確に予測するだけでなく、任意のグループ$\mathcal{G}$の相互交差する集合に属する任意の$G$に対して$x \in G$を条件に予測することを意味する。 このフレームワークのインスタンスは3つあります。 1つは平均予測であり、Hebert-Johnsonらによる多重校正の概念を満たすオンラインアルゴリズムに対応する。 2つ目は、Jungらによる平均条件モーメント多重校正の概念を満たすオンラインアルゴリズムに対応する分散と高次モーメント予測である。 最後に,予測区間の多値性という新たな概念を定義し,それを満たす予測区間を求めるアルゴリズムを提案する。 我々のアルゴリズムは、逆選択された例を扱うため、任意の点予測手法の残差の統計を等しく予測することができ、オンラインの逆数設定であっても、ブラックボックスアルゴリズムの予測の不確かさを定量化する非常に一般的な手法が生まれる。 予測間隔のインスタンス化を行う場合、これは共形予測と同じような問題を解決するが、逆境環境では、多値性保証は単純な限界カバレッジ保証よりも強い。

We present a general, efficient technique for providing contextual predictions that are "multivalid" in various senses, against an online sequence of adversarially chosen examples $(x,y)$. This means that the resulting estimates correctly predict various statistics of the labels $y$ not just marginally -- as averaged over the sequence of examples -- but also conditionally on $x \in G$ for any $G$ belonging to an arbitrary intersecting collection of groups $\mathcal{G}$. We provide three instantiations of this framework. The first is mean prediction, which corresponds to an online algorithm satisfying the notion of multicalibration from Hebert-Johnson et al. The second is variance and higher moment prediction, which corresponds to an online algorithm satisfying the notion of mean-conditioned moment multicalibration from Jung et al. Finally, we define a new notion of prediction interval multivalidity, and give an algorithm for finding prediction intervals which satisfy it. Because our algorithms handle adversarially chosen examples, they can equally well be used to predict statistics of the residuals of arbitrary point prediction methods, giving rise to very general techniques for quantifying the uncertainty of predictions of black box algorithms, even in an online adversarial setting. When instantiated for prediction intervals, this solves a similar problem as conformal prediction, but in an adversarial environment and with multivalidity guarantees stronger than simple marginal coverage guarantees.
翻訳日:2021-04-11 11:25:04 公開日:2021-01-05
# マルチエージェント通信のためのニューロシンボリックトランスフォーマー

Neurosymbolic Transformers for Multi-Agent Communication ( http://arxiv.org/abs/2101.03238v1 )

ライセンス: Link先を確認
Jeevana Priya Inala, Yichen Yang, James Paulos, Yewen Pu, Osbert Bastani, Vijay Kumar, Martin Rinard, Armando Solar-Lezama(参考訳) コミュニケーションの量を最小限に抑えつつ,協調型マルチエージェント計画問題を解くためのコミュニケーション構造を推定する問題について検討する。 通信の量を通信グラフの最大度として定量化する。 コミュニケーションの最小化は、決定空間と目的の両方の組合せの性質のため困難であり、例えば、勾配勾配を用いたニューラルネットワークのトレーニングでは、この問題は解決できない。 本稿では,通信グラフ生成に使用するプログラム的通信ポリシーと,行動選択に使用されるトランスフォーマティブ・ポリシー・ネットワークを組み合わせた制御ポリシーを合成する新しいアルゴリズムを提案する。 提案手法は,まずトランスフォーマーポリシーを学習し,暗黙的に「ソフト」な通信グラフを生成し,その後,このグラフを「硬化」してニューロシンボリックトランスフォーマーを形成するプログラム的通信ポリシーを合成する。 実験では, ほぼ最適性能を維持しながら, 低次通信グラフを生成するポリシーをいかに合成できるかを示す。

We study the problem of inferring communication structures that can solve cooperative multi-agent planning problems while minimizing the amount of communication. We quantify the amount of communication as the maximum degree of the communication graph; this metric captures settings where agents have limited bandwidth. Minimizing communication is challenging due to the combinatorial nature of both the decision space and the objective; for instance, we cannot solve this problem by training neural networks using gradient descent. We propose a novel algorithm that synthesizes a control policy that combines a programmatic communication policy used to generate the communication graph with a transformer policy network used to choose actions. Our algorithm first trains the transformer policy, which implicitly generates a "soft" communication graph; then, it synthesizes a programmatic communication policy that "hardens" this graph, forming a neurosymbolic transformer. Our experiments demonstrate how our approach can synthesize policies that generate low-degree communication graphs while maintaining near-optimal performance.
翻訳日:2021-04-11 11:24:32 公開日:2021-01-05
# OFDMを用いた無線画像伝送のためのディープジョイントソースチャネル符号化

Deep Joint Source Channel Coding for WirelessImage Transmission with OFDM ( http://arxiv.org/abs/2101.03909v1 )

ライセンス: Link先を確認
Mingyu Yang, Chenghong Bian, and Hun-Seok Kim(参考訳) 非線形信号クリップによるマルチパスフェーディングチャネル上での無線画像伝送のためのディープラーニングベースジョイントソースチャネル符号化(JSCC)方式を提案する。 提案するエンコーダとデコーダは畳み込みニューラルネットワーク(cnn)を使用し、ソースイメージを複素値ベースバンドサンプルに直接マッピングし、直交周波数分割多重(ofdm)伝送を行う。 提案したモデル駆動機械学習アプローチは、マルチパスフェーディングチャネルに対処するためにOFDMデータパスを統合しながら、ソースとチャネルを分離する必要がない。 エンドツーエンドのJSCC通信システムは、トレーニング可能なCNN層と、マルチパスチャネルモデルとOFDM信号処理ブロックを表す非トレーニング可能な異なるレイヤを組み合わせる。 機械学習フレームワークにofdmベースバンド処理ブロックを組み込むことで、ドメインエキスパートの知識を注入することで、非構造化cnnと比較して全体的なパフォーマンスが大幅に向上することを示す。 提案手法は,BPGやLDPCなど,最先端のソースとチャネルをOFDMで符号化する従来の方式よりも優れている。 また,ofdmの非線形信号クリッピングに対して,訓練中のモデルパラメータに適合しない各種チャネル条件に対して頑健であることが示されている。

We present a deep learning based joint source channel coding (JSCC) scheme for wireless image transmission over multipath fading channels with non-linear signal clipping. The proposed encoder and decoder use convolutional neural networks (CNN) and directly map the source images to complex-valued baseband samples for orthogonal frequency division multiplexing (OFDM) transmission. The proposed model-driven machine learning approach eliminates the need for separate source and channel coding while integrating an OFDM datapath to cope with multipath fading channels. The end-to-end JSCC communication system combines trainable CNN layers with non-trainable but differentiable layers representing the multipath channel model and OFDM signal processing blocks. Our results show that injecting domain expert knowledge by incorporating OFDM baseband processing blocks into the machine learning framework significantly enhances the overall performance compared to an unstructured CNN. Our method outperforms conventional schemes that employ state-of-the-art but separate source and channel coding such as BPG and LDPC with OFDM. Moreover, our method is shown to be robust against non-linear signal clipping in OFDM for various channel conditions that do not match the model parameter used during the training.
翻訳日:2021-04-11 11:24:16 公開日:2021-01-05